Salta ai contenuti

La Suite Escriba

La Suite Escriba è una famiglia di strumenti self-hosted e open source con un solo compito: trasformare qualsiasi fonte in dati puliti, privati e pronti per i modelli. Ogni strumento è eccellente da solo — ma sono stati progettati come un unico strumento.

Escriba è l’hub: il traduttore universale che prende un documento e produce Markdown pulito e anonimizzato, pronto per qualsiasi LLM. Attorno a esso orbitano quattro specialisti, ciascuno il migliore nel catturare un tipo di fonte e nel restituirlo all’hub.

Escriba — l'hub

Documenti, audio, video e pagine → Markdown pulito, con oscuramento dei dati personali (PII), OCR, trascrizione, esportazione in oltre 10 formati e una modalità podcast.

Fisherboy — cattura web

Qualsiasi URL → Markdown o dati strutturati, con anti-blocco a livelli, download di file/video/gallerie e uno spider per le sezioni.

Anonimal — motore di privacy

Il livello di anonimizzazione seria: ML/NER locale più espressioni regolari, opaco o reversibile. I satelliti vi si collegano.

Fulgoria — dati dei documenti

Estratti conto bancari, PDF e immagini → righe CSV insieme a un modello riutilizzabile, tutto nel browser.

Selega — controllo finanziario

Bilanci validati da 14 controlli incrociati numerici in tempo reale, che propongono l’esito della legalizzazione.

  • Self-hosted. Una singola immagine Docker (o un piccolo file compose) che esegui sul tuo hardware. I tuoi file non toccano mai un cloud di terze parti.
  • Open source. MIT o Apache-2.0. Tuoi da leggere, forkare e distribuire.
  • Privato per progettazione. Nulla viene conservato dopo il completamento del lavoro; l’elaborazione sensibile avviene in locale.
  • Un unico aspetto, sette lingue. La stessa interfaccia — English, Español, Français, Português, Italiano, 中文, 日本語 — rilevata automaticamente e commutabile.

La suite sembra un unico prodotto perché ogni app rispetta due semplici contratti.

Ogni app usa lo stesso linguaggio di design: tema chiaro come impostazione predefinita con una modalità scura, la stessa tipografia (Inter Variable + JetBrains Mono), icone a linea anziché emoji, e gli stessi componenti — ciascuna app con il proprio colore d’accento così sai sempre dove ti trovi.

StrumentoAccentoRuolo
EscribaCorallo #e06a3aL’hub
FisherboyVerde acqua oceanico #0f8f6aCattura web
AnonimalIndaco maschera #4a4e7cMotore di privacy
FulgoriaViola #6c5cf0Dati dei documenti
SelegaBordeaux #a8324aControllo finanziario

Qualsiasi satellite può passare il proprio risultato all’hub senza un viaggio di andata e ritorno verso un server. Scrive il contenuto catturato nel sessionStorage del browser sotto escriba.handoff usando un piccolo contratto JSON, poi apre Escriba — che lo legge e crea un elemento pronto all’uso.

{
"from": "fisherboy",
"version": 1,
"title": "Captured page",
"source": "https://example.com/article",
"mime": "text/markdown",
"content": "# Clean markdown…",
"alt": { "csv": "…optional…" },
"ts": 1719000000000
}

Anonimal è il titolare dell’anonimizzazione seria nella suite — il motore completo ML/NER + Privacy-Filter. Per restare utilizzabili da soli, i satelliti includono anche un minimo set di espressioni regolari integrato così da non dipendere mai da nulla per funzionare in modalità autonoma.

Quando colleghi un satellite ad Anonimal (tramite una variabile d’ambiente ANONIMAL_URL), sblocchi tutta la potenza — nomi inclusi — e fallisce in modo sicuro se Anonimal non è disponibile, anziché ripiegare silenziosamente sulle espressioni regolari. La privacy non si degrada mai per caso.

Ogni strumento gira in modo indipendente, ma la topologia prevista per l’esperienza completa è un unico dominio dietro un reverse proxy, così ogni app è same-origin. Questo rende il design impeccabile e permette al passaggio di consegne via sessionStorage di funzionare in tutta la suite.