Em que o Escriba é executado
O Escriba é uma camada de integração em torno de excelentes projetos de código aberto. A transparência total importa mais do que parecer engenhoso, então aqui está exatamente o que roda nos bastidores, o que cada peça faz e quando — se é que alguma vez — o Escriba acessa a rede.
Os motores
Seção intitulada “Os motores”| O que faz | Projeto | Licença |
|---|---|---|
| Conversão central de documentos → Markdown | Microsoft MarkItDown | MIT |
| Framework web / API | FastAPI · Uvicorn | MIT / BSD |
| Análise de PDF, seleção de páginas e redação verdadeira | PyMuPDF | AGPL-3.0 / comercial |
| Extração avançada de layout de PDF (opcional) | OpenDataLoader PDF | código aberto |
| OCR para imagens e PDFs digitalizados | Tesseract + OCRmyPDF | Apache-2.0 / MPL-2.0 |
| Transcrição de áudio e vídeo | faster-whisper (OpenAI Whisper) | MIT |
| Texto → áudio (vozes locais) | Piper | MIT |
| Páginas web e transcrições do YouTube | yt-dlp | Unlicense |
| Detecção de PII (o motor de anonimização) | OpenAI Privacy Filter | Apache-2.0 |
| Regras regex seguras definidas pelo usuário | google-re2 | BSD-3 |
| Contagem de tokens | tiktoken | MIT |
| Fragmentação para RAG | semchunk | MIT |
| Exportação para 10 formatos | Pandoc | GPL-2.0+ |
| Preços ao vivo por modelo | OpenRouter (API pública) | — |
| Limitação de taxa | Redis embutido | — |
| Sanitização do HTML de pré-visualização (no seu navegador) | DOMPurify | Apache-2.0 / MPL-2.0 |
Licença — o Escriba é MIT
Seção intitulada “Licença — o Escriba é MIT”O próprio código-fonte do Escriba é publicado sob a Licença MIT, uma das licenças mais permissivas que existem. Em termos simples:
O que você pode fazer
- Usá-lo para qualquer coisa, inclusive uso comercial.
- Modificar o código-fonte e adaptá-lo às suas necessidades.
- Distribuí-lo e redistribuir suas versões modificadas.
- Usá-lo de forma privada e sublicenciá-lo dentro do seu próprio produto.
O que você tem que fazer
- Manter o aviso de copyright e o texto da licença originais nas cópias do código-fonte.
O que não está coberto
- É fornecido “como está”, sem garantia — o autor não se responsabiliza por como é usado.
Modelos de transcrição (Whisper)
Seção intitulada “Modelos de transcrição (Whisper)”A transcrição usa o faster-whisper, um runtime otimizado para o Whisper da OpenAI.
Você escolhe o tamanho do modelo com WHISPER_MODEL — tiny, base (padrão), small,
medium ou large-v3. Modelos maiores são mais precisos, porém mais pesados e mais lentos na CPU;
veja Requisitos do sistema para saber o que cada um precisa.
Sobre o motor de anonimização
Seção intitulada “Sobre o motor de anonimização”O motor de PII é construído sobre o OpenAI Privacy Filter (OPF, Apache-2.0), um modelo NER que detecta nomes, organizações, localizações e mais. O Escriba o envolve com leitura de campos de faturas com reconhecimento de layout, detectores validados (Luhn de cartão de crédito, IBAN mod-97) e suas próprias regras rodando no motor RE2 da Google (tempo linear, à prova de ReDoS).
Quando o Escriba se comunica com a internet?
Seção intitulada “Quando o Escriba se comunica com a internet?”Por design, a conversão, o OCR, a transcrição e a anonimização rodam todos localmente no seu servidor. Os arquivos enviados são apagados logo após a conversão e nada é armazenado. As únicas vezes em que o Escriba faz uma requisição de saída são estas — todas iniciadas pelo usuário ou opcionais:
- Você converte uma URL ou um link do YouTube. O Escriba busca essa página/transcrição (via yt-dlp). Obviamente.
- Você habilita um provedor de IA. Só então o texto vai para o provedor que você escolheu (OpenAI, Gemini ou OpenRouter). O padrão é Sem IA, e nada é enviado.
- Preços de modelos ao vivo. O painel de LLM busca a lista de preços/contexto do OpenRouter — um catálogo público sem nenhum dado de documento na requisição. É armazenado em cache, e o recurso simplesmente não mostra nada se estiver offline.
- Download de modelos na primeira execução. Os modelos Whisper e NER são baixados uma vez (ou pré-incorporados na imagem) e depois rodam totalmente offline.
Essa é a lista completa. Seus próprios documentos nunca saem da sua máquina, a menos que você direcione explicitamente o Escriba a um provedor de IA externo.