Pular para o conteúdo

Anonimização para LLMs

O Escriba pode remover ou substituir dados pessoais antes que o texto chegue a uma LLM — e devolvê-los depois. O pesado modelo NER roda em um serviço separado e exclusivamente interno (Anonimal, que incorpora o OpenAI Privacy Filter), habilitado ao apontar ANONIMAL_URL para ele.

Alta cobertura por design — vários detectores se empilham uns sobre os outros:

  • Modelo NER — nomes, organizações, localizações, datas.
  • Campos de fatura sensíveis ao layout — lê rótulo → valor pelas coordenadas do PDF (nome da empresa, CPF/CNPJ, endereço…), mascarando documentos estruturados campo a campo.
  • 20 detectores ativáveis, por usuário — universais (e-mail, URL, IP, MAC, cartão de crédito validado por Luhn, IBAN mod-97), regionais (por exemplo, o CUIT/CUIL/CBU/DNI/endereços argentinos) e agressivos (números longos, sequências de nomes).
  • Traga suas próprias regras — envie um JSON com seus próprios padrões/rótulos/lista de exceções. Suas regex rodam no RE2 (tempo linear → à prova de ReDoS), com análise estrita de JSON e limites rígidos.
  • Propagação de entidades — qualquer coisa detectada uma vez é mascarada em todas as ocorrências.
ModoSaídaUso
Tipado<PRIVATE_PERSON>, <ACCOUNT_NUMBER>manter a categoria visível
Anônimo<<ANOM_DATA>>achatar tudo
Pseudonimizar«PERSONA_1» + um mapa token→originalo gateway para a LLM — anonimize → envie → re-hidrate localmente
Máscara parcial••••-3456, j•••@domain.commanter uma pista útil — irreversível
Hash estável«PERSONA_7590fc»mesmo dado → mesmo pseudônimo entre documentos — irreversível

Duas intensidades (Equilibrada / Estrita), todas configuráveis por navegador. O mapa de restauração e suas regras personalizadas nunca saem da sua máquina.

O modo pseudonimizar é a peça central:

  1. Converta com Pseudonimizar — os nomes viram «PERSONA_1», os documentos viram «ID_2», etc.
  2. Envie o texto seguro a qualquer LLM. O modelo nunca vê os dados reais.
  3. Cole a resposta em Re-hidratar — o Escriba restaura os valores reais, inteiramente no seu navegador, usando um mapa que nunca tocou o servidor.

Para PDFs e imagens digitalizadas, o cartão de resultado oferece um download de “PDF tarjado”: cada entidade detectada é tarjada na página usando tarjamento verdadeiro — o apply_redactions remove o texto subjacente e os pixels da imagem embaixo de cada caixa, de modo que o dado deixa de existir no arquivo de saída. Os metadados do PDF também são apagados (DocInfo + XMP), de modo que um arquivo tarjado não pode vazar o nome ou o documento via Propriedades ou exiftool. Documentos digitalizados passam por OCR primeiro. A mesma pilha de detecção, zero RAM extra.