O que é o Escriba?
O Escriba é o tradutor universal para o idioma da IA. Ele pega qualquer documento — um PDF, um arquivo do Word, uma planilha, uma imagem, uma gravação de áudio, uma página web, um link do YouTube — e o transforma em Markdown limpo e anonimizado, o formato que os grandes modelos de linguagem leem melhor.
Ele resolve, em uma única ferramenta auto-hospedável, as três dores de cabeça de alimentar documentos a uma LLM:
- Entrada ruidosa e gulosa por tokens → Markdown limpo e estruturado.
- Vazamento de dados sensíveis → anonimização de PII embutida, com pseudonimização reversível.
- “Vai caber? Quanto vai custar?” → um painel local de preparo para LLM que conta tokens, estima o custo com preços ao vivo, verifica o ajuste à janela de contexto e fragmenta para RAG.
Ele roda localmente, em 7 idiomas, e é construído sobre o Microsoft MarkItDown.
Para quem é
Seção intitulada “Para quem é”- Qualquer pessoa que cola documentos no ChatGPT, Claude ou Gemini e quer o texto limpo — e as partes privadas removidas — antes que ele saia das suas mãos.
- Equipes e instituições que não podem enviar arquivos confidenciais a uma nuvem de terceiros e precisam de um conversor que rode no próprio servidor.
- Desenvolvedores que querem uma API REST, acesso baseado em papéis e uma única imagem Docker sem peças móveis.
O que o torna diferente
Seção intitulada “O que o torna diferente”- O controle permanece na camada humana. O Escriba não envia seus documentos a lugar nenhum. Ele roda na sua máquina, apaga os arquivos logo após a conversão e deixa você decidir o que chega a um modelo.
- A anonimização é reversível. Pseudonimize → envie à LLM → re-hidrate a resposta localmente. O mapa de restauração nunca sai do seu navegador.
- Nenhuma IA é necessária. As partes inteligentes — contagem de tokens, OCR, anonimização, estimativas de custo — todas rodam localmente. A IA é estritamente opcional.
Próximos passos
Seção intitulada “Próximos passos”- Início rápido — coloque-o para rodar com um comando.
- Convertendo documentos — o fluxo de trabalho do dia a dia.
- Anonimização para LLMs — o mecanismo de privacidade em detalhe.