Aller au contenu

Qu’est-ce qu’Escriba ?

Escriba est le traducteur universel vers le langage de l’IA. Il prend n’importe quel document — un PDF, un fichier Word, un tableur, une image, un enregistrement audio, une page web, un lien YouTube — et le transforme en Markdown propre et anonymisé, le format que les grands modèles de langage lisent le mieux.

Il résout, dans un seul outil auto-hébergeable, les trois casse-têtes de l’alimentation d’un LLM en documents :

  • Entrée bruyante et gourmande en tokens → Markdown propre et structuré.
  • Fuite de données sensibles → anonymisation intégrée des données personnelles, avec pseudonymisation réversible.
  • « Est-ce que ça va rentrer ? combien ça va coûter ? » → un panneau local de préparation LLM qui compte les tokens, estime le coût avec une tarification en temps réel, vérifie l’adéquation à la fenêtre de contexte et découpe pour le RAG.

Il tourne en local, en 7 langues, et repose sur Microsoft MarkItDown.

  • À toute personne qui colle des documents dans ChatGPT, Claude ou Gemini et veut que le texte soit propre — et que les parties privées soient retirées — avant qu’il ne quitte ses mains.
  • Aux équipes et aux institutions qui ne peuvent pas envoyer de fichiers confidentiels vers un cloud tiers, et qui ont besoin d’un convertisseur tournant sur leur propre serveur.
  • Aux développeurs qui veulent une API REST, un accès par rôles et une seule image Docker sans pièces mobiles.
  • Le contrôle reste sur la couche humaine. Escriba n’envoie vos documents nulle part. Il tourne sur votre machine, supprime les fichiers juste après la conversion, et vous laisse décider, vous, de ce qui parvient à un modèle.
  • L’anonymisation est réversible. Pseudonymiser → envoyer au LLM → réinjecter la réponse en local. La table de restauration ne quitte jamais votre navigateur.
  • Aucune IA requise. Les parties intelligentes — comptage de tokens, OCR, anonymisation, estimations de coût — tournent toutes en local. L’IA est strictement optionnelle.