O que é o Escriba?

O Escriba é o tradutor universal para o idioma da IA. Ele pega qualquer documento — um PDF, um arquivo do Word, uma planilha, uma imagem, uma gravação de áudio, uma página web, um link do YouTube — e o transforma em Markdown limpo e anonimizado, o formato que os grandes modelos de linguagem leem melhor.

Ele resolve, em uma única ferramenta auto-hospedável, as três dores de cabeça de alimentar documentos a uma LLM:

Entrada ruidosa e gulosa por tokens → Markdown limpo e estruturado.
Vazamento de dados sensíveis → anonimização de PII embutida, com pseudonimização reversível.
“Vai caber? Quanto vai custar?” → um painel local de preparo para LLM que conta tokens, estima o custo com preços ao vivo, verifica o ajuste à janela de contexto e fragmenta para RAG.

Ele roda localmente, em 7 idiomas, e é construído sobre o Microsoft MarkItDown.

Para quem é

Qualquer pessoa que cola documentos no ChatGPT, Claude ou Gemini e quer o texto limpo — e as partes privadas removidas — antes que ele saia das suas mãos.
Equipes e instituições que não podem enviar arquivos confidenciais a uma nuvem de terceiros e precisam de um conversor que rode no próprio servidor.
Desenvolvedores que querem uma API REST, acesso baseado em papéis e uma única imagem Docker sem peças móveis.

O que o torna diferente

O controle permanece na camada humana. O Escriba não envia seus documentos a lugar nenhum. Ele roda na sua máquina, apaga os arquivos logo após a conversão e deixa você decidir o que chega a um modelo.
A anonimização é reversível. Pseudonimize → envie à LLM → re-hidrate a resposta localmente. O mapa de restauração nunca sai do seu navegador.
Nenhuma IA é necessária. As partes inteligentes — contagem de tokens, OCR, anonimização, estimativas de custo — todas rodam localmente. A IA é estritamente opcional.

Próximos passos

Início rápido — coloque-o para rodar com um comando.
Convertendo documentos — o fluxo de trabalho do dia a dia.
Anonimização para LLMs — o mecanismo de privacidade em detalhe.