Qu’est-ce qu’Escriba ?

Escriba est le traducteur universel vers le langage de l’IA. Il prend n’importe quel document — un PDF, un fichier Word, un tableur, une image, un enregistrement audio, une page web, un lien YouTube — et le transforme en Markdown propre et anonymisé, le format que les grands modèles de langage lisent le mieux.

Il résout, dans un seul outil auto-hébergeable, les trois casse-têtes de l’alimentation d’un LLM en documents :

Entrée bruyante et gourmande en tokens → Markdown propre et structuré.
Fuite de données sensibles → anonymisation intégrée des données personnelles, avec pseudonymisation réversible.
« Est-ce que ça va rentrer ? combien ça va coûter ? » → un panneau local de préparation LLM qui compte les tokens, estime le coût avec une tarification en temps réel, vérifie l’adéquation à la fenêtre de contexte et découpe pour le RAG.

Il tourne en local, en 7 langues, et repose sur Microsoft MarkItDown.

À qui il s’adresse

À toute personne qui colle des documents dans ChatGPT, Claude ou Gemini et veut que le texte soit propre — et que les parties privées soient retirées — avant qu’il ne quitte ses mains.
Aux équipes et aux institutions qui ne peuvent pas envoyer de fichiers confidentiels vers un cloud tiers, et qui ont besoin d’un convertisseur tournant sur leur propre serveur.
Aux développeurs qui veulent une API REST, un accès par rôles et une seule image Docker sans pièces mobiles.

Ce qui le distingue

Le contrôle reste sur la couche humaine. Escriba n’envoie vos documents nulle part. Il tourne sur votre machine, supprime les fichiers juste après la conversion, et vous laisse décider, vous, de ce qui parvient à un modèle.
L’anonymisation est réversible. Pseudonymiser → envoyer au LLM → réinjecter la réponse en local. La table de restauration ne quitte jamais votre navigateur.
Aucune IA requise. Les parties intelligentes — comptage de tokens, OCR, anonymisation, estimations de coût — tournent toutes en local. L’IA est strictement optionnelle.

Étapes suivantes

Démarrage rapide — le mettre en route en une seule commande.
Convertir des documents — le flux de travail au quotidien.
Anonymisation pour les LLM — le moteur de confidentialité en détail.