Em que o Escriba é executado

O Escriba é uma camada de integração em torno de excelentes projetos de código aberto. A transparência total importa mais do que parecer engenhoso, então aqui está exatamente o que roda nos bastidores, o que cada peça faz e quando — se é que alguma vez — o Escriba acessa a rede.

Os motores

O que faz	Projeto	Licença
Conversão central de documentos → Markdown	Microsoft MarkItDown	MIT
Framework web / API	FastAPI · Uvicorn	MIT / BSD
Análise de PDF, seleção de páginas e redação verdadeira	PyMuPDF	AGPL-3.0 / comercial
Extração avançada de layout de PDF (opcional)	OpenDataLoader PDF	código aberto
OCR para imagens e PDFs digitalizados	Tesseract + OCRmyPDF	Apache-2.0 / MPL-2.0
Transcrição de áudio e vídeo	faster-whisper (OpenAI Whisper)	MIT
Texto → áudio (vozes locais)	Piper	MIT
Páginas web e transcrições do YouTube	yt-dlp	Unlicense
Detecção de PII (o motor de anonimização)	OpenAI Privacy Filter	Apache-2.0
Regras regex seguras definidas pelo usuário	google-re2	BSD-3
Contagem de tokens	tiktoken	MIT
Fragmentação para RAG	semchunk	MIT
Exportação para 10 formatos	Pandoc	GPL-2.0+
Preços ao vivo por modelo	OpenRouter (API pública)	—
Limitação de taxa	Redis embutido	—
Sanitização do HTML de pré-visualização (no seu navegador)	DOMPurify	Apache-2.0 / MPL-2.0

Licença — o Escriba é MIT

O próprio código-fonte do Escriba é publicado sob a Licença MIT, uma das licenças mais permissivas que existem. Em termos simples:

O que você pode fazer

Usá-lo para qualquer coisa, inclusive uso comercial.
Modificar o código-fonte e adaptá-lo às suas necessidades.
Distribuí-lo e redistribuir suas versões modificadas.
Usá-lo de forma privada e sublicenciá-lo dentro do seu próprio produto.

O que você tem que fazer

Manter o aviso de copyright e o texto da licença originais nas cópias do código-fonte.

O que não está coberto

É fornecido “como está”, sem garantia — o autor não se responsabiliza por como é usado.

Modelos de transcrição (Whisper)

A transcrição usa o faster-whisper, um runtime otimizado para o Whisper da OpenAI. Você escolhe o tamanho do modelo com WHISPER_MODEL — tiny, base (padrão), small, medium ou large-v3. Modelos maiores são mais precisos, porém mais pesados e mais lentos na CPU; veja Requisitos do sistema para saber o que cada um precisa.

Sobre o motor de anonimização

O motor de PII é construído sobre o OpenAI Privacy Filter (OPF, Apache-2.0), um modelo NER que detecta nomes, organizações, localizações e mais. O Escriba o envolve com leitura de campos de faturas com reconhecimento de layout, detectores validados (Luhn de cartão de crédito, IBAN mod-97) e suas próprias regras rodando no motor RE2 da Google (tempo linear, à prova de ReDoS).

Quando o Escriba se comunica com a internet?

Por design, a conversão, o OCR, a transcrição e a anonimização rodam todos localmente no seu servidor. Os arquivos enviados são apagados logo após a conversão e nada é armazenado. As únicas vezes em que o Escriba faz uma requisição de saída são estas — todas iniciadas pelo usuário ou opcionais:

Você converte uma URL ou um link do YouTube. O Escriba busca essa página/transcrição (via yt-dlp). Obviamente.
Você habilita um provedor de IA. Só então o texto vai para o provedor que você escolheu (OpenAI, Gemini ou OpenRouter). O padrão é Sem IA, e nada é enviado.
Preços de modelos ao vivo. O painel de LLM busca a lista de preços/contexto do OpenRouter — um catálogo público sem nenhum dado de documento na requisição. É armazenado em cache, e o recurso simplesmente não mostra nada se estiver offline.
Download de modelos na primeira execução. Os modelos Whisper e NER são baixados uma vez (ou pré-incorporados na imagem) e depois rodam totalmente offline.

Essa é a lista completa. Seus próprios documentos nunca saem da sua máquina, a menos que você direcione explicitamente o Escriba a um provedor de IA externo.