Aller au contenu

Anonymisation pour les LLM

Escriba peut retirer ou remplacer les données personnelles avant que le texte n’atteigne un LLM — puis les remettre ensuite. Le lourd modèle de NER tourne dans un service séparé, à usage interne uniquement (Anonimal, qui embarque le filtre de confidentialité d’OpenAI), activé en pointant ANONIMAL_URL vers lui.

Conçue pour un rappel élevé — plusieurs détecteurs se superposent les uns aux autres :

  • Modèle de NER — noms, organisations, lieux, dates.
  • Champs de facture sensibles à la mise en page — lit libellé → valeur à partir des coordonnées du PDF (nom de société, numéro fiscal, adresse…), en masquant les documents structurés champ par champ.
  • 20 détecteurs activables, par utilisateur — universels (e-mail, URL, IP, MAC, carte de crédit validée par Luhn, IBAN mod-97), régionaux (par ex. CUIT/CUIL/CBU/DNI/adresses argentins) et agressifs (longs nombres, suites de noms).
  • Vos propres règles — téléversez un JSON de vos propres motifs/libellés/liste à conserver. Vos regex s’exécutent sur RE2 (temps linéaire → immunisé contre les ReDoS), avec un parsing JSON strict et des limites strictes.
  • Propagation d’entités — tout ce qui est détecté une fois est masqué à chaque occurrence.
ModeSortieUsage
Typé<PRIVATE_PERSON>, <ACCOUNT_NUMBER>garder la catégorie visible
Anonyme<<ANOM_DATA>>tout aplatir
Pseudonymiser«PERSONA_1» + une table token→originalla passerelle LLM — anonymiser → envoyer → réinjecter en local
Masque partiel••••-3456, j•••@domain.comgarder un indice exploitable — irréversible
Hachage stable«PERSONA_7590fc»mêmes données → même pseudonyme d’un document à l’autre — irréversible

Deux intensités (Équilibré / Strict), toutes configurables par navigateur. La table de restauration et vos règles personnalisées ne quittent jamais votre machine.

Le mode pseudonymiser est la pièce maîtresse :

  1. Convertissez avec Pseudonymiser — les noms deviennent «PERSONA_1», les identifiants deviennent «ID_2», etc.
  2. Envoyez le texte sécurisé à n’importe quel LLM. Le modèle ne voit jamais les vraies données.
  3. Collez la réponse dans Réinjecter — Escriba restaure les vraies valeurs, entièrement dans votre navigateur, à l’aide d’une table qui n’a jamais touché le serveur.

Pour les PDF et les images scannées, la carte de résultat propose un téléchargement de « PDF caviardé » : chaque entité détectée est noircie sur la page par un véritable caviardage — apply_redactions supprime le texte sous-jacent et les pixels de l’image sous chaque case, de sorte que la donnée n’existe plus dans le fichier de sortie. Les métadonnées du PDF sont effacées elles aussi (DocInfo + XMP), si bien qu’un fichier caviardé ne peut pas laisser fuiter le nom ou l’identifiant via les Propriétés ou exiftool. Les documents scannés sont d’abord océrisés. Même pile de détection, zéro RAM en plus.