Sur quoi repose Escriba

Escriba n’est qu’une couche de liaison autour d’excellents projets open source. La transparence totale compte plus que de paraître ingénieux ; voici donc exactement ce qui tourne sous le capot, ce que fait chaque composant, et quand — si tant est que cela arrive — Escriba accède au réseau.

Les moteurs

Ce que cela fait	Projet	Licence
Conversion principale document → Markdown	Microsoft MarkItDown	MIT
Framework web / API	FastAPI · Uvicorn	MIT / BSD
Analyse des PDF, sélection de pages et vraie expurgation	PyMuPDF	AGPL-3.0 / commercial
Extraction avancée de la mise en page des PDF (en option)	OpenDataLoader PDF	open source
OCR pour les images et les PDF numérisés	Tesseract + OCRmyPDF	Apache-2.0 / MPL-2.0
Transcription audio et vidéo	faster-whisper (OpenAI Whisper)	MIT
Texte → audio (voix locales)	Piper	MIT
Pages web et transcriptions YouTube	yt-dlp	Unlicense
Détection de PII (le moteur d’anonymisation)	OpenAI Privacy Filter	Apache-2.0
Règles regex sûres définies par l’utilisateur	google-re2	BSD-3
Comptage de tokens	tiktoken	MIT
Découpage pour RAG	semchunk	MIT
Export vers 10 formats	Pandoc	GPL-2.0+
Tarification en direct par modèle	OpenRouter (API publique)	—
Limitation de débit	Redis embarqué	—
Assainissement du HTML d’aperçu (dans votre navigateur)	DOMPurify	Apache-2.0 / MPL-2.0

Licence — Escriba est sous MIT

Le code source d’Escriba est publié sous la licence MIT, l’une des licences les plus permissives qui existent. En termes simples :

Ce que vous pouvez faire

L’utiliser pour n’importe quel usage, y compris un usage commercial.
Modifier le code source et l’adapter à vos besoins.
Le distribuer, et redistribuer vos versions modifiées.
L’utiliser en privé et le sous-licencier au sein de votre propre produit.

Ce que vous devez faire

Conserver l’avis de droit d’auteur et le texte de licence d’origine dans les copies du code source.

Ce qui n’est pas couvert

Il est fourni « en l’état », sans aucune garantie — l’auteur n’est pas responsable de l’usage qui en est fait.

Modèles de transcription (Whisper)

La transcription utilise faster-whisper, un environnement d’exécution optimisé pour le Whisper d’OpenAI. Vous choisissez la taille du modèle avec WHISPER_MODEL — tiny, base (par défaut), small, medium ou large-v3. Les modèles plus volumineux sont plus précis mais plus lourds et plus lents sur CPU ; consultez Configuration requise pour savoir ce dont chacun a besoin.

À propos du moteur d’anonymisation

Le moteur de PII est construit sur le OpenAI Privacy Filter (OPF, Apache-2.0), un modèle NER qui détecte les noms, organisations, lieux et bien plus encore. Escriba l’enveloppe d’une lecture des champs de facture tenant compte de la mise en page, de détecteurs validés (Luhn pour les cartes de crédit, IBAN mod-97) et de vos propres règles s’exécutant sur le moteur RE2 de Google (temps linéaire, à l’épreuve des ReDoS).

Quand Escriba communique-t-il avec Internet ?

Par conception, la conversion, l’OCR, la transcription et l’anonymisation s’exécutent toutes localement sur votre serveur. Les fichiers téléversés sont supprimés juste après la conversion et rien n’est stocké. Les seuls moments où Escriba effectue une requête sortante sont les suivants — tous étant soit initiés par l’utilisateur, soit facultatifs :

Vous convertissez une URL ou un lien YouTube. Escriba récupère cette page/transcription (via yt-dlp). Évidemment.
Vous activez un fournisseur d’IA. Ce n’est qu’alors que le texte est envoyé au fournisseur que vous avez choisi (OpenAI, Gemini ou OpenRouter). Le réglage par défaut est Aucune IA, et rien n’est envoyé.
Tarification des modèles en direct. Le panneau LLM récupère la liste des prix/contextes depuis OpenRouter — un catalogue public sans aucune donnée de document dans la requête. C’est mis en cache, et la fonctionnalité n’affiche simplement rien si vous êtes hors ligne.
Téléchargement du modèle au premier lancement. Les modèles Whisper et NER sont téléchargés une seule fois (ou pré-intégrés à l’image), puis s’exécutent entièrement hors ligne.

Voilà la liste complète. Vos documents eux-mêmes ne quittent jamais votre machine, sauf si vous pointez explicitement Escriba vers un fournisseur d’IA externe.