Anonimização para LLMs

O Escriba pode remover ou substituir dados pessoais antes que o texto chegue a uma LLM — e devolvê-los depois. O pesado modelo NER roda em um serviço separado e exclusivamente interno (Anonimal, que incorpora o OpenAI Privacy Filter), habilitado ao apontar ANONIMAL_URL para ele.

Detecção em camadas

Alta cobertura por design — vários detectores se empilham uns sobre os outros:

Modelo NER — nomes, organizações, localizações, datas.
Campos de fatura sensíveis ao layout — lê rótulo → valor pelas coordenadas do PDF (nome da empresa, CPF/CNPJ, endereço…), mascarando documentos estruturados campo a campo.
20 detectores ativáveis, por usuário — universais (e-mail, URL, IP, MAC, cartão de crédito validado por Luhn, IBAN mod-97), regionais (por exemplo, o CUIT/CUIL/CBU/DNI/endereços argentinos) e agressivos (números longos, sequências de nomes).
Traga suas próprias regras — envie um JSON com seus próprios padrões/rótulos/lista de exceções. Suas regex rodam no RE2 (tempo linear → à prova de ReDoS), com análise estrita de JSON e limites rígidos.
Propagação de entidades — qualquer coisa detectada uma vez é mascarada em todas as ocorrências.

Cinco modos de saída

Modo	Saída	Uso
Tipado	`<PRIVATE_PERSON>`, `<ACCOUNT_NUMBER>`…	manter a categoria visível
Anônimo	`<<ANOM_DATA>>`	achatar tudo
Pseudonimizar	`«PERSONA_1»` + um mapa token→original	o gateway para a LLM — anonimize → envie → re-hidrate localmente
Máscara parcial	`••••-3456`, `j•••@domain.com`	manter uma pista útil — irreversível
Hash estável	`«PERSONA_7590fc»`	mesmo dado → mesmo pseudônimo entre documentos — irreversível

Duas intensidades (Equilibrada / Estrita), todas configuráveis por navegador. O mapa de restauração e suas regras personalizadas nunca saem da sua máquina.

O padrão de gateway para LLM

O modo pseudonimizar é a peça central:

Converta com Pseudonimizar — os nomes viram «PERSONA_1», os documentos viram «ID_2», etc.
Envie o texto seguro a qualquer LLM. O modelo nunca vê os dados reais.
Cole a resposta em Re-hidratar — o Escriba restaura os valores reais, inteiramente no seu navegador, usando um mapa que nunca tocou o servidor.

Tarjamento visual

Para PDFs e imagens digitalizadas, o cartão de resultado oferece um download de “PDF tarjado”: cada entidade detectada é tarjada na página usando tarjamento verdadeiro — o apply_redactions remove o texto subjacente e os pixels da imagem embaixo de cada caixa, de modo que o dado deixa de existir no arquivo de saída. Os metadados do PDF também são apagados (DocInfo + XMP), de modo que um arquivo tarjado não pode vazar o nome ou o documento via Propriedades ou exiftool. Documentos digitalizados passam por OCR primeiro. A mesma pilha de detecção, zero RAM extra.