Anonymisation pour les LLM
Escriba peut retirer ou remplacer les données personnelles avant que le texte n’atteigne un LLM — puis
les remettre ensuite. Le lourd modèle de NER tourne dans un service séparé, à usage interne uniquement
(Anonimal, qui embarque le filtre de confidentialité d’OpenAI),
activé en pointant ANONIMAL_URL vers lui.
Détection en couches
Section intitulée « Détection en couches »Conçue pour un rappel élevé — plusieurs détecteurs se superposent les uns aux autres :
- Modèle de NER — noms, organisations, lieux, dates.
- Champs de facture sensibles à la mise en page — lit libellé → valeur à partir des coordonnées du PDF (nom de société, numéro fiscal, adresse…), en masquant les documents structurés champ par champ.
- 20 détecteurs activables, par utilisateur — universels (e-mail, URL, IP, MAC, carte de crédit validée par Luhn, IBAN mod-97), régionaux (par ex. CUIT/CUIL/CBU/DNI/adresses argentins) et agressifs (longs nombres, suites de noms).
- Vos propres règles — téléversez un JSON de vos propres motifs/libellés/liste à conserver. Vos regex s’exécutent sur RE2 (temps linéaire → immunisé contre les ReDoS), avec un parsing JSON strict et des limites strictes.
- Propagation d’entités — tout ce qui est détecté une fois est masqué à chaque occurrence.
Cinq modes de sortie
Section intitulée « Cinq modes de sortie »| Mode | Sortie | Usage |
|---|---|---|
| Typé | <PRIVATE_PERSON>, <ACCOUNT_NUMBER>… | garder la catégorie visible |
| Anonyme | <<ANOM_DATA>> | tout aplatir |
| Pseudonymiser | «PERSONA_1» + une table token→original | la passerelle LLM — anonymiser → envoyer → réinjecter en local |
| Masque partiel | ••••-3456, j•••@domain.com | garder un indice exploitable — irréversible |
| Hachage stable | «PERSONA_7590fc» | mêmes données → même pseudonyme d’un document à l’autre — irréversible |
Deux intensités (Équilibré / Strict), toutes configurables par navigateur. La table de restauration et vos règles personnalisées ne quittent jamais votre machine.
Le schéma de la passerelle LLM
Section intitulée « Le schéma de la passerelle LLM »Le mode pseudonymiser est la pièce maîtresse :
- Convertissez avec Pseudonymiser — les noms deviennent
«PERSONA_1», les identifiants deviennent«ID_2», etc. - Envoyez le texte sécurisé à n’importe quel LLM. Le modèle ne voit jamais les vraies données.
- Collez la réponse dans Réinjecter — Escriba restaure les vraies valeurs, entièrement dans votre navigateur, à l’aide d’une table qui n’a jamais touché le serveur.
Caviardage visuel
Section intitulée « Caviardage visuel »Pour les PDF et les images scannées, la carte de résultat propose un téléchargement de « PDF caviardé » :
chaque entité détectée est noircie sur la page par un véritable caviardage —
apply_redactions supprime le texte sous-jacent et les pixels de l’image sous chaque
case, de sorte que la donnée n’existe plus dans le fichier de sortie. Les métadonnées du PDF sont effacées
elles aussi (DocInfo + XMP), si bien qu’un fichier caviardé ne peut pas laisser fuiter le nom ou l’identifiant via les Propriétés ou
exiftool. Les documents scannés sont d’abord océrisés. Même pile de détection, zéro RAM en plus.