Pular para o conteúdo

Requisitos do sistema

Vamos ser honestos desde já, para que você nunca faça o deploy do Escriba e sinta que ele “não funciona” por causa do seu hardware. O aplicativo base é leve e roda em uma VPS modesta. As partes pesadas — anonimização de PII corporativa e transcrição de áudio com modelos grandes — são opcionais e só pedem mais recursos quando você realmente as ativa.

A conversão de documentos (PDF, Word, Excel, imagens, OCR para digitalizações normais) é rápida e econômica. O Escriba cria um worker por núcleo de CPU, e cada worker usa ~250 MB de RAM, então ele se adapta a qualquer host que você lhe der.

MínimoRecomendado
CPU1 vCPU2 vCPU
RAM2 GB4 GB
Disco~5 GB (a imagem tem ~3 GB)~6 GB em SSD
Bom paraUso pessoal, documentos levesUma equipe pequena, OCR fluido

Anonimização de PII corporativa — um módulo opcional

Seção intitulada “Anonimização de PII corporativa — um módulo opcional”

A anonimização do Escriba não roda dentro do aplicativo principal. Ela vive em um serviço separado, exclusivamente interno — o Anonimal — que você monta apenas se precisar dele. Isso é um recurso, não um compromisso: o mecanismo de privacidade fica isolado, nunca precisa ser exposto, e o seu conversor leve continua leve quando você não precisa dele.

Ele foi feito para segurança séria, de nível institucional — o tipo de cenário em que documentos confidenciais simplesmente não podem sair da sua infraestrutura. Como ele carrega um modelo NER completo, é mais pesado:

Com anonimização (Escriba + Anonimal)
CPU2 vCPU mín · 4 vCPU recomendado
RAM6 GB mín · 8 GB recomendado (o modelo mantém ~3 GB residentes)
Disco~12 GB (a imagem do Anonimal tem ~7 GB além da do Escriba)
Bom paraEmpresas, órgãos públicos, qualquer um que não possa usar uma nuvem de terceiros

Áudio, vídeo e OCR pesado — limitados pela CPU

Seção intitulada “Áudio, vídeo e OCR pesado — limitados pela CPU”

A transcrição (Whisper) e o OCR rodam na CPU na imagem incluída — não há requisito de GPU, mas modelos Whisper maiores são mais lentos e mais famintos. Escolha o modelo que se encaixa no seu hardware com WHISPER_MODEL:

Modelo WhisperRAM extra (aprox.)Notas
tiny / base (padrão)~1 GBRápido; bom para fala clara em hardware modesto
small~2 GBUm bom equilíbrio entre precisão e velocidade
medium~5 GBVisivelmente mais lento na CPU
large-v3~10 GBO mais preciso; precisa de um servidor forte, lento na CPU

Apenas converter documentos

1 vCPU · 2 GB de RAM · ~5 GB de disco. Uma VPS barata é mais que suficiente. Nenhum serviço de anonimização necessário.

Adicionar privacidade de PII corporativa

2–4 vCPU · 6–8 GB de RAM · ~12 GB de disco. Monte o módulo Anonimal para tarjamento de nível institucional.

Transcrição pesada

4+ vCPU · 8–16 GB de RAM. Para modelos Whisper grandes e muito áudio/vídeo.