Aller au contenu

La Suite Escriba

La Suite Escriba est une famille d’outils open-source auto-hébergés dédiés à une seule tâche : transformer n’importe quelle source en données propres, privées et prêtes pour les modèles. Chaque outil excelle à lui seul — mais ils ont été conçus comme un seul instrument.

Escriba est le hub : le traducteur universel qui prend un document et produit du Markdown propre et anonymisé, prêt pour n’importe quel LLM. Autour de lui gravitent quatre spécialistes, chacun le meilleur pour capturer un type de source et le restituer au hub.

Escriba — le hub

Documents, audio, vidéo et pages → Markdown propre, avec expurgation des données personnelles, OCR, transcription, export vers plus de 10 formats et un mode podcast.

Fisherboy — capture web

N’importe quelle URL → Markdown ou données structurées, avec anti-blocage à plusieurs niveaux, téléchargements de fichiers/vidéos/galeries et un robot d’indexation de sections.

Anonimal — moteur de confidentialité

La couche d’anonymisation sérieuse : ML/NER local complété par des expressions régulières, opaque ou réversible. Les satellites s’y connectent.

Fulgoria — données documentaires

Relevés bancaires, PDF et images → lignes CSV plus un modèle réutilisable, le tout dans le navigateur.

Selega — contrôle financier

États financiers validés par 14 recoupements numériques en direct, qui proposent le verdict de légalisation.

  • Auto-hébergé. Une seule image Docker (ou un petit fichier compose) que vous exécutez sur votre propre matériel. Vos fichiers ne touchent jamais un cloud tiers.
  • Open source. MIT ou Apache-2.0. À vous de le lire, de le forker et de le déployer.
  • Privé par conception. Rien n’est conservé une fois la tâche terminée ; le travail sensible se déroule localement.
  • Une seule apparence, sept langues. La même interface — English, Español, Français, Português, Italiano, 中文, 日本語 — détectée automatiquement et changeable.

La suite donne l’impression d’un seul produit parce que chaque application respecte deux contrats simples.

Chaque application utilise le même langage de design : thème clair par défaut avec un mode sombre, la même typographie (Inter Variable + JetBrains Mono), des icônes linéaires plutôt que des emojis, et les mêmes composants — chaque application arborant sa propre couleur d’accent pour que vous sachiez toujours où vous êtes.

OutilAccentRôle
EscribaCorail #e06a3aLe hub
FisherboySarcelle océan #0f8f6aCapture web
AnonimalIndigo masque #4a4e7cMoteur de confidentialité
FulgoriaViolet #6c5cf0Données documentaires
SelegaBordeaux #a8324aContrôle financier

N’importe quel satellite peut transmettre son résultat au hub sans aller-retour vers un serveur. Il écrit le contenu capturé dans le sessionStorage du navigateur sous escriba.handoff à l’aide d’un petit contrat JSON, puis ouvre Escriba — qui le lit et crée un élément prêt à l’emploi.

{
"from": "fisherboy",
"version": 1,
"title": "Captured page",
"source": "https://example.com/article",
"mime": "text/markdown",
"content": "# Clean markdown…",
"alt": { "csv": "…optional…" },
"ts": 1719000000000
}

Anonimal est le détenteur de l’anonymisation sérieuse dans la suite — le moteur complet ML/NER + Privacy-Filter. Pour rester utilisables seuls, les satellites embarquent aussi un minimum d’expressions régulières intégrées afin de ne jamais dépendre de quoi que ce soit pour fonctionner en autonomie.

Lorsque vous pointez un satellite vers Anonimal (via une variable d’environnement ANONIMAL_URL), il déverrouille toute la puissance — les noms inclus — et échoue en mode fermé si Anonimal est indisponible, plutôt que de rétrograder silencieusement vers les expressions régulières. La confidentialité ne se dégrade jamais par accident.

Chaque outil s’exécute indépendamment, mais la topologie prévue pour l’expérience complète est un seul domaine derrière un reverse proxy, afin que chaque application soit de même origine. Cela rend le design fluide et permet au relais sessionStorage de fonctionner à travers toute la suite.