Escriba — le hub
Documents, audio, vidéo et pages → Markdown propre, avec expurgation des données personnelles, OCR, transcription, export vers plus de 10 formats et un mode podcast.
La Suite Escriba est une famille d’outils open-source auto-hébergés dédiés à une seule tâche : transformer n’importe quelle source en données propres, privées et prêtes pour les modèles. Chaque outil excelle à lui seul — mais ils ont été conçus comme un seul instrument.
Escriba est le hub : le traducteur universel qui prend un document et produit du Markdown propre et anonymisé, prêt pour n’importe quel LLM. Autour de lui gravitent quatre spécialistes, chacun le meilleur pour capturer un type de source et le restituer au hub.
Escriba — le hub
Documents, audio, vidéo et pages → Markdown propre, avec expurgation des données personnelles, OCR, transcription, export vers plus de 10 formats et un mode podcast.
Fisherboy — capture web
N’importe quelle URL → Markdown ou données structurées, avec anti-blocage à plusieurs niveaux, téléchargements de fichiers/vidéos/galeries et un robot d’indexation de sections.
Anonimal — moteur de confidentialité
La couche d’anonymisation sérieuse : ML/NER local complété par des expressions régulières, opaque ou réversible. Les satellites s’y connectent.
Fulgoria — données documentaires
Relevés bancaires, PDF et images → lignes CSV plus un modèle réutilisable, le tout dans le navigateur.
Selega — contrôle financier
États financiers validés par 14 recoupements numériques en direct, qui proposent le verdict de légalisation.
La suite donne l’impression d’un seul produit parce que chaque application respecte deux contrats simples.
Chaque application utilise le même langage de design : thème clair par défaut avec un mode sombre, la même typographie (Inter Variable + JetBrains Mono), des icônes linéaires plutôt que des emojis, et les mêmes composants — chaque application arborant sa propre couleur d’accent pour que vous sachiez toujours où vous êtes.
| Outil | Accent | Rôle |
|---|---|---|
| Escriba | Corail #e06a3a | Le hub |
| Fisherboy | Sarcelle océan #0f8f6a | Capture web |
| Anonimal | Indigo masque #4a4e7c | Moteur de confidentialité |
| Fulgoria | Violet #6c5cf0 | Données documentaires |
| Selega | Bordeaux #a8324a | Contrôle financier |
N’importe quel satellite peut transmettre son résultat au hub sans aller-retour vers un serveur. Il écrit le contenu capturé dans le sessionStorage du navigateur sous escriba.handoff à l’aide d’un petit contrat JSON, puis ouvre Escriba — qui le lit et crée un élément prêt à l’emploi.
{ "from": "fisherboy", "version": 1, "title": "Captured page", "source": "https://example.com/article", "mime": "text/markdown", "content": "# Clean markdown…", "alt": { "csv": "…optional…" }, "ts": 1719000000000}Anonimal est le détenteur de l’anonymisation sérieuse dans la suite — le moteur complet ML/NER + Privacy-Filter. Pour rester utilisables seuls, les satellites embarquent aussi un minimum d’expressions régulières intégrées afin de ne jamais dépendre de quoi que ce soit pour fonctionner en autonomie.
Lorsque vous pointez un satellite vers Anonimal (via une variable d’environnement ANONIMAL_URL), il déverrouille toute la puissance — les noms inclus — et échoue en mode fermé si Anonimal est indisponible, plutôt que de rétrograder silencieusement vers les expressions régulières. La confidentialité ne se dégrade jamais par accident.
Chaque outil s’exécute indépendamment, mais la topologie prévue pour l’expérience complète est un seul domaine derrière un reverse proxy, afin que chaque application soit de même origine. Cela rend le design fluide et permet au relais sessionStorage de fonctionner à travers toute la suite.