Aller au contenu

Sur quoi repose Escriba

Escriba n’est qu’une couche de liaison autour d’excellents projets open source. La transparence totale compte plus que de paraître ingénieux ; voici donc exactement ce qui tourne sous le capot, ce que fait chaque composant, et quand — si tant est que cela arrive — Escriba accède au réseau.

Ce que cela faitProjetLicence
Conversion principale document → MarkdownMicrosoft MarkItDownMIT
Framework web / APIFastAPI · UvicornMIT / BSD
Analyse des PDF, sélection de pages et vraie expurgationPyMuPDFAGPL-3.0 / commercial
Extraction avancée de la mise en page des PDF (en option)OpenDataLoader PDFopen source
OCR pour les images et les PDF numérisésTesseract + OCRmyPDFApache-2.0 / MPL-2.0
Transcription audio et vidéofaster-whisper (OpenAI Whisper)MIT
Texte → audio (voix locales)PiperMIT
Pages web et transcriptions YouTubeyt-dlpUnlicense
Détection de PII (le moteur d’anonymisation)OpenAI Privacy FilterApache-2.0
Règles regex sûres définies par l’utilisateurgoogle-re2BSD-3
Comptage de tokenstiktokenMIT
Découpage pour RAGsemchunkMIT
Export vers 10 formatsPandocGPL-2.0+
Tarification en direct par modèleOpenRouter (API publique)
Limitation de débitRedis embarqué
Assainissement du HTML d’aperçu (dans votre navigateur)DOMPurifyApache-2.0 / MPL-2.0

Le code source d’Escriba est publié sous la licence MIT, l’une des licences les plus permissives qui existent. En termes simples :

Ce que vous pouvez faire

  • L’utiliser pour n’importe quel usage, y compris un usage commercial.
  • Modifier le code source et l’adapter à vos besoins.
  • Le distribuer, et redistribuer vos versions modifiées.
  • L’utiliser en privé et le sous-licencier au sein de votre propre produit.

Ce que vous devez faire

  • Conserver l’avis de droit d’auteur et le texte de licence d’origine dans les copies du code source.

Ce qui n’est pas couvert

  • Il est fourni « en l’état », sans aucune garantie — l’auteur n’est pas responsable de l’usage qui en est fait.

La transcription utilise faster-whisper, un environnement d’exécution optimisé pour le Whisper d’OpenAI. Vous choisissez la taille du modèle avec WHISPER_MODELtiny, base (par défaut), small, medium ou large-v3. Les modèles plus volumineux sont plus précis mais plus lourds et plus lents sur CPU ; consultez Configuration requise pour savoir ce dont chacun a besoin.

Le moteur de PII est construit sur le OpenAI Privacy Filter (OPF, Apache-2.0), un modèle NER qui détecte les noms, organisations, lieux et bien plus encore. Escriba l’enveloppe d’une lecture des champs de facture tenant compte de la mise en page, de détecteurs validés (Luhn pour les cartes de crédit, IBAN mod-97) et de vos propres règles s’exécutant sur le moteur RE2 de Google (temps linéaire, à l’épreuve des ReDoS).

Par conception, la conversion, l’OCR, la transcription et l’anonymisation s’exécutent toutes localement sur votre serveur. Les fichiers téléversés sont supprimés juste après la conversion et rien n’est stocké. Les seuls moments où Escriba effectue une requête sortante sont les suivants — tous étant soit initiés par l’utilisateur, soit facultatifs :

  • Vous convertissez une URL ou un lien YouTube. Escriba récupère cette page/transcription (via yt-dlp). Évidemment.
  • Vous activez un fournisseur d’IA. Ce n’est qu’alors que le texte est envoyé au fournisseur que vous avez choisi (OpenAI, Gemini ou OpenRouter). Le réglage par défaut est Aucune IA, et rien n’est envoyé.
  • Tarification des modèles en direct. Le panneau LLM récupère la liste des prix/contextes depuis OpenRouter — un catalogue public sans aucune donnée de document dans la requête. C’est mis en cache, et la fonctionnalité n’affiche simplement rien si vous êtes hors ligne.
  • Téléchargement du modèle au premier lancement. Les modèles Whisper et NER sont téléchargés une seule fois (ou pré-intégrés à l’image), puis s’exécutent entièrement hors ligne.

Voilà la liste complète. Vos documents eux-mêmes ne quittent jamais votre machine, sauf si vous pointez explicitement Escriba vers un fournisseur d’IA externe.