Pular para o conteúdo

O que é o Escriba?

O Escriba é o tradutor universal para o idioma da IA. Ele pega qualquer documento — um PDF, um arquivo do Word, uma planilha, uma imagem, uma gravação de áudio, uma página web, um link do YouTube — e o transforma em Markdown limpo e anonimizado, o formato que os grandes modelos de linguagem leem melhor.

Ele resolve, em uma única ferramenta auto-hospedável, as três dores de cabeça de alimentar documentos a uma LLM:

  • Entrada ruidosa e gulosa por tokens → Markdown limpo e estruturado.
  • Vazamento de dados sensíveis → anonimização de PII embutida, com pseudonimização reversível.
  • “Vai caber? Quanto vai custar?” → um painel local de preparo para LLM que conta tokens, estima o custo com preços ao vivo, verifica o ajuste à janela de contexto e fragmenta para RAG.

Ele roda localmente, em 7 idiomas, e é construído sobre o Microsoft MarkItDown.

  • Qualquer pessoa que cola documentos no ChatGPT, Claude ou Gemini e quer o texto limpo — e as partes privadas removidas — antes que ele saia das suas mãos.
  • Equipes e instituições que não podem enviar arquivos confidenciais a uma nuvem de terceiros e precisam de um conversor que rode no próprio servidor.
  • Desenvolvedores que querem uma API REST, acesso baseado em papéis e uma única imagem Docker sem peças móveis.
  • O controle permanece na camada humana. O Escriba não envia seus documentos a lugar nenhum. Ele roda na sua máquina, apaga os arquivos logo após a conversão e deixa você decidir o que chega a um modelo.
  • A anonimização é reversível. Pseudonimize → envie à LLM → re-hidrate a resposta localmente. O mapa de restauração nunca sai do seu navegador.
  • Nenhuma IA é necessária. As partes inteligentes — contagem de tokens, OCR, anonimização, estimativas de custo — todas rodam localmente. A IA é estritamente opcional.