Anonimização para LLMs
O Escriba pode remover ou substituir dados pessoais antes que o texto chegue a uma LLM — e
devolvê-los depois. O pesado modelo NER roda em um serviço separado e exclusivamente interno
(Anonimal, que incorpora o OpenAI Privacy Filter),
habilitado ao apontar ANONIMAL_URL para ele.
Detecção em camadas
Seção intitulada “Detecção em camadas”Alta cobertura por design — vários detectores se empilham uns sobre os outros:
- Modelo NER — nomes, organizações, localizações, datas.
- Campos de fatura sensíveis ao layout — lê rótulo → valor pelas coordenadas do PDF (nome da empresa, CPF/CNPJ, endereço…), mascarando documentos estruturados campo a campo.
- 20 detectores ativáveis, por usuário — universais (e-mail, URL, IP, MAC, cartão de crédito validado por Luhn, IBAN mod-97), regionais (por exemplo, o CUIT/CUIL/CBU/DNI/endereços argentinos) e agressivos (números longos, sequências de nomes).
- Traga suas próprias regras — envie um JSON com seus próprios padrões/rótulos/lista de exceções. Suas regex rodam no RE2 (tempo linear → à prova de ReDoS), com análise estrita de JSON e limites rígidos.
- Propagação de entidades — qualquer coisa detectada uma vez é mascarada em todas as ocorrências.
Cinco modos de saída
Seção intitulada “Cinco modos de saída”| Modo | Saída | Uso |
|---|---|---|
| Tipado | <PRIVATE_PERSON>, <ACCOUNT_NUMBER>… | manter a categoria visível |
| Anônimo | <<ANOM_DATA>> | achatar tudo |
| Pseudonimizar | «PERSONA_1» + um mapa token→original | o gateway para a LLM — anonimize → envie → re-hidrate localmente |
| Máscara parcial | ••••-3456, j•••@domain.com | manter uma pista útil — irreversível |
| Hash estável | «PERSONA_7590fc» | mesmo dado → mesmo pseudônimo entre documentos — irreversível |
Duas intensidades (Equilibrada / Estrita), todas configuráveis por navegador. O mapa de restauração e suas regras personalizadas nunca saem da sua máquina.
O padrão de gateway para LLM
Seção intitulada “O padrão de gateway para LLM”O modo pseudonimizar é a peça central:
- Converta com Pseudonimizar — os nomes viram
«PERSONA_1», os documentos viram«ID_2», etc. - Envie o texto seguro a qualquer LLM. O modelo nunca vê os dados reais.
- Cole a resposta em Re-hidratar — o Escriba restaura os valores reais, inteiramente no seu navegador, usando um mapa que nunca tocou o servidor.
Tarjamento visual
Seção intitulada “Tarjamento visual”Para PDFs e imagens digitalizadas, o cartão de resultado oferece um download de “PDF tarjado”:
cada entidade detectada é tarjada na página usando tarjamento verdadeiro —
o apply_redactions remove o texto subjacente e os pixels da imagem embaixo de cada
caixa, de modo que o dado deixa de existir no arquivo de saída. Os metadados do PDF também são apagados
(DocInfo + XMP), de modo que um arquivo tarjado não pode vazar o nome ou o documento via Propriedades ou
exiftool. Documentos digitalizados passam por OCR primeiro. A mesma pilha de detecção, zero RAM extra.