Pular para o conteúdo

Convertendo documentos

O Escriba converte quase tudo em Markdown. A detecção é automática — você raramente precisa dizer que tipo de arquivo soltou.

  • Documentos — PDF, Word, Excel, PowerPoint, HTML, CSV, EPUB, ZIP e mais.
  • Imagens — OCR automático (Tesseract); descrição opcional por IA.
  • Áudio e vídeo — transcrição local e offline com o Whisper (mp3, wav, mp4, mov, mkv…).
  • URLs e YouTube — converta uma página web ou obtenha a transcrição de um vídeo do YouTube.

O texto dentro das imagens é reconhecido automaticamente. PDFs escaneados e rotacionados são detectados, passam por OCR e são endireitados automaticamente em tempo real. Se um PDF parece escaneado e o seu nível de acesso permite OCR, o Escriba o aplica sem você pedir.

Você também pode forçar o OCR nas opções avançadas — útil para PDFs com acentos quebrados (por exemplo, exportados do LaTeX). Forçar o OCR usa o idioma do documento que você escolher, então defina-o para obter os melhores resultados.

Para PDFs longos, converta apenas as páginas de que você precisa. Ao lado de cada PDF na fila há um seletor de páginas que mostra a quantidade de páginas do documento e permite escolher:

  • O documento inteiro (padrão).
  • Um intervalo — por exemplo, páginas 5 a 67.
  • Páginas ou intervalos individuais — por exemplo, 1, 6, 9, ou uma combinação como 1, 2, 5-67.

Não há sintaxe a memorizar: o seletor foi feito para isso. A seleção é feita por arquivo, então diferentes PDFs no mesmo lote podem usar páginas diferentes.

Abra o painel avançado para ajustar uma conversão:

  • Idioma do documento — melhora a transcrição de áudio e o OCR forçado.
  • Forçar OCR — para PDFs escaneados ou acentos quebrados.
  • Extração avançada de PDF — um motor opcional OpenDataLoader para layouts complexos: melhor ordem de leitura e hierarquia de títulos, com recuo automático para o extrator padrão. Mais lento, mas mais nítido em documentos difíceis.
  • Anonimização — remova ou substitua dados pessoais; veja Anonimização.
  • Provedor de IA — opcional. O padrão é Sem IA (apenas texto / OCR local).

O resultado não é somente leitura. Clique em Editar para abri-lo em um editor Markdown em tela cheia com pré-visualização ao vivo, ajeite-o — descarte conteúdo padrão, corrija um título, elimine ruído — e Salve. Suas edições se tornam o resultado: tudo a jusante (exportação, áudio, copiar e baixar) usa o texto limpo. Nada é enviado a lugar nenhum; tudo fica no seu navegador até você agir.

Adicione vários arquivos de uma vez (o seu nível de acesso define quantos). Converta todos eles e depois baixe tudo como um .zip. Os arquivos enviados são apagados logo após a conversão — nada é armazenado.