Sur quoi repose Escriba
Escriba n’est qu’une couche de liaison autour d’excellents projets open source. La transparence totale compte plus que de paraître ingénieux ; voici donc exactement ce qui tourne sous le capot, ce que fait chaque composant, et quand — si tant est que cela arrive — Escriba accède au réseau.
Les moteurs
Section intitulée « Les moteurs »| Ce que cela fait | Projet | Licence |
|---|---|---|
| Conversion principale document → Markdown | Microsoft MarkItDown | MIT |
| Framework web / API | FastAPI · Uvicorn | MIT / BSD |
| Analyse des PDF, sélection de pages et vraie expurgation | PyMuPDF | AGPL-3.0 / commercial |
| Extraction avancée de la mise en page des PDF (en option) | OpenDataLoader PDF | open source |
| OCR pour les images et les PDF numérisés | Tesseract + OCRmyPDF | Apache-2.0 / MPL-2.0 |
| Transcription audio et vidéo | faster-whisper (OpenAI Whisper) | MIT |
| Texte → audio (voix locales) | Piper | MIT |
| Pages web et transcriptions YouTube | yt-dlp | Unlicense |
| Détection de PII (le moteur d’anonymisation) | OpenAI Privacy Filter | Apache-2.0 |
| Règles regex sûres définies par l’utilisateur | google-re2 | BSD-3 |
| Comptage de tokens | tiktoken | MIT |
| Découpage pour RAG | semchunk | MIT |
| Export vers 10 formats | Pandoc | GPL-2.0+ |
| Tarification en direct par modèle | OpenRouter (API publique) | — |
| Limitation de débit | Redis embarqué | — |
| Assainissement du HTML d’aperçu (dans votre navigateur) | DOMPurify | Apache-2.0 / MPL-2.0 |
Licence — Escriba est sous MIT
Section intitulée « Licence — Escriba est sous MIT »Le code source d’Escriba est publié sous la licence MIT, l’une des licences les plus permissives qui existent. En termes simples :
Ce que vous pouvez faire
- L’utiliser pour n’importe quel usage, y compris un usage commercial.
- Modifier le code source et l’adapter à vos besoins.
- Le distribuer, et redistribuer vos versions modifiées.
- L’utiliser en privé et le sous-licencier au sein de votre propre produit.
Ce que vous devez faire
- Conserver l’avis de droit d’auteur et le texte de licence d’origine dans les copies du code source.
Ce qui n’est pas couvert
- Il est fourni « en l’état », sans aucune garantie — l’auteur n’est pas responsable de l’usage qui en est fait.
Modèles de transcription (Whisper)
Section intitulée « Modèles de transcription (Whisper) »La transcription utilise faster-whisper, un environnement d’exécution optimisé pour le Whisper
d’OpenAI. Vous choisissez la taille du modèle avec WHISPER_MODEL — tiny, base (par défaut), small,
medium ou large-v3. Les modèles plus volumineux sont plus précis mais plus lourds et plus lents sur CPU ;
consultez Configuration requise pour savoir ce dont chacun a besoin.
À propos du moteur d’anonymisation
Section intitulée « À propos du moteur d’anonymisation »Le moteur de PII est construit sur le OpenAI Privacy Filter (OPF, Apache-2.0), un modèle NER qui détecte les noms, organisations, lieux et bien plus encore. Escriba l’enveloppe d’une lecture des champs de facture tenant compte de la mise en page, de détecteurs validés (Luhn pour les cartes de crédit, IBAN mod-97) et de vos propres règles s’exécutant sur le moteur RE2 de Google (temps linéaire, à l’épreuve des ReDoS).
Quand Escriba communique-t-il avec Internet ?
Section intitulée « Quand Escriba communique-t-il avec Internet ? »Par conception, la conversion, l’OCR, la transcription et l’anonymisation s’exécutent toutes localement sur votre serveur. Les fichiers téléversés sont supprimés juste après la conversion et rien n’est stocké. Les seuls moments où Escriba effectue une requête sortante sont les suivants — tous étant soit initiés par l’utilisateur, soit facultatifs :
- Vous convertissez une URL ou un lien YouTube. Escriba récupère cette page/transcription (via yt-dlp). Évidemment.
- Vous activez un fournisseur d’IA. Ce n’est qu’alors que le texte est envoyé au fournisseur que vous avez choisi (OpenAI, Gemini ou OpenRouter). Le réglage par défaut est Aucune IA, et rien n’est envoyé.
- Tarification des modèles en direct. Le panneau LLM récupère la liste des prix/contextes depuis OpenRouter — un catalogue public sans aucune donnée de document dans la requête. C’est mis en cache, et la fonctionnalité n’affiche simplement rien si vous êtes hors ligne.
- Téléchargement du modèle au premier lancement. Les modèles Whisper et NER sont téléchargés une seule fois (ou pré-intégrés à l’image), puis s’exécutent entièrement hors ligne.
Voilà la liste complète. Vos documents eux-mêmes ne quittent jamais votre machine, sauf si vous pointez explicitement Escriba vers un fournisseur d’IA externe.