Aller au contenu

Installer Anonimal

Anonimal s’exécute en local / auto-hébergé : les données ne quittent jamais votre infrastructure. L’image est publiée sur GitHub Container Registry et expose le port 8000 à l’intérieur du conteneur.

Il existe deux images. Choisissez selon la couverture par rapport au poids.

ImageTagTailleDétecteQuand
full (ML):latest, :<ver>image ~6-7 Go + ~3 Go de RAMstructuré + noms / adresses (OPF)couverture maximale ; remplacement de l’Anonimal de l’écosystème
lite (regex):lite, :<ver>-litedizaines de Mostructuré uniquement (e-mail, téléphone, carte, DNI, CUIT, CBU, secrets)léger, sans ML ; ne voit pas les noms en texte libre
  • Docker (le seul prérequis impératif).
  • lite : quelques dizaines de Mo de disque et une RAM minimale. Démarre instantanément.
  • full : ~6-7 Go de disque et ~3 Go de RAM pour le modèle résident ; il est lié au CPU. Allouez au conteneur environ 6 Go de RAM.
Fenêtre de terminal
# Démarre instantanément, sans modèle
docker run -d --name anonimal -p 8920:8000 \
ghcr.io/diegoparras/anonimal-svc:lite

Vérifiez l’état de santé, puis anonymisez un échantillon. L’interface web est servie à la même adresse.

Fenêtre de terminal
curl -s localhost:8920/health
curl -s localhost:8920/anonymize -H "Content-Type: application/json" \
-d '{"text":"email juan@acme.com, CUIT 20-12345678-6","mode":"pseudo"}'

Sur l’image full, /health répond immédiatement pendant que le modèle se charge en arrière-plan ; ml.ready passe à true une fois le checkpoint chaud. L’interface se trouve à http://localhost:8920.

La variable ANONIMAL_ENGINE sélectionne le moteur de détection :

  • auto (par défaut) — utilise le ML s’il est prêt, sinon se rabat sur lite.
  • lite — regex uniquement (structuré + identifiants LATAM). Toujours disponible.
  • ml — force le moteur OpenAI Privacy Filter (renvoie 503 s’il n’est pas disponible, par ex. sur l’image lite).

OPF_DEVICE (image full uniquement) bascule le moteur ML entre cpu et cuda.

VariablePar défautObjet
ANONIMAL_ENGINEautoSélection du moteur : auto · lite · ml.
ANONIMAL_MODEpseudoMode de remplacement par défaut pour l’API / l’interface.
ANONIMAL_TOKEN(vide)Jeton de service. S’il est défini, chaque requête doit le porter (Authorization: Bearer ou X-Anonimal-Token).
ANON_HASH_KEY(aléatoire par processus)Clé pour le mode hash ; définissez-la pour des pseudonymes stables entre les redémarrages.
ANONIMAL_MAX_CHARS500000Longueur d’entrée maximale (au-delà, renvoie 413).
ANONIMAL_MAX_PDF_BYTES26214400 (25 Mo)Taille maximale de PDF pour la rédaction.
OPF_DEVICEcpucpu ou cuda (image full uniquement).
OPF_CHECKPOINT(par défaut)Chemin vers un checkpoint OPF personnalisé (image full uniquement).

Conçu pour s’exécuter en local. Si vous l’exposez sur un réseau : définissez ANONIMAL_TOKEN (requis sur chaque requête) et placez un reverse proxy TLS devant. L’image s’exécute sous un utilisateur non-root et applique des plafonds de taille (ANONIMAL_MAX_CHARS). Au sein de l’écosystème, gardez Anonimal sur le réseau interne sans domaine public et laissez Escriba l’atteindre par nom d’hôte interne.

Lire la documentation complète