Su cosa gira Escriba

Escriba è uno strato di collante attorno a eccellenti progetti open-source. La trasparenza totale conta più che sembrare furbi, quindi ecco esattamente cosa gira sotto il cofano, cosa fa ogni componente e quando — se mai accade — Escriba raggiunge la rete.

I motori

Cosa fa	Progetto	Licenza
Conversione principale documento → Markdown	Microsoft MarkItDown	MIT
Framework web / API	FastAPI · Uvicorn	MIT / BSD
Parsing PDF, selezione delle pagine e oscuramento reale	PyMuPDF	AGPL-3.0 / commerciale
Estrazione avanzata del layout PDF (opzionale)	OpenDataLoader PDF	open-source
OCR per immagini e PDF scansionati	Tesseract + OCRmyPDF	Apache-2.0 / MPL-2.0
Trascrizione audio e video	faster-whisper (OpenAI Whisper)	MIT
Testo → audio (voci locali)	Piper	MIT
Pagine web e trascrizioni di YouTube	yt-dlp	Unlicense
Rilevamento PII (il motore di anonimizzazione)	OpenAI Privacy Filter	Apache-2.0
Regole regex sicure definite dall’utente	google-re2	BSD-3
Conteggio dei token	tiktoken	MIT
Suddivisione in chunk per RAG	semchunk	MIT
Esportazione in 10 formati	Pandoc	GPL-2.0+
Prezzi live per modello	OpenRouter (API pubblica)	—
Limitazione della frequenza	Redis integrato	—
Sanificazione dell’HTML di anteprima (nel tuo browser)	DOMPurify	Apache-2.0 / MPL-2.0

Licenza — Escriba è MIT

Il codice sorgente di Escriba è rilasciato sotto la Licenza MIT, una delle licenze più permissive che esistano. In parole semplici:

Cosa puoi fare

Usarlo per qualsiasi cosa, incluso l’uso commerciale.
Modificare il sorgente e adattarlo alle tue esigenze.
Distribuirlo e ridistribuire le tue versioni modificate.
Usarlo privatamente e sublicenziarlo all’interno del tuo prodotto.

Cosa devi fare

Mantenere nelle copie del sorgente l’avviso di copyright e il testo della licenza originali.

Cosa non è coperto

È fornito “così com’è”, senza alcuna garanzia — l’autore non è responsabile di come viene usato.

Modelli di trascrizione (Whisper)

La trascrizione usa faster-whisper, un runtime ottimizzato per Whisper di OpenAI. Scegli la dimensione del modello con WHISPER_MODEL — tiny, base (predefinito), small, medium o large-v3. I modelli più grandi sono più accurati ma più pesanti e più lenti su CPU; consulta i Requisiti di sistema per sapere cosa richiede ciascuno.

Sul motore di anonimizzazione

Il motore PII è costruito su OpenAI Privacy Filter (OPF, Apache-2.0), un modello NER che rileva nomi, organizzazioni, luoghi e altro ancora. Escriba lo avvolge con la lettura dei campi delle fatture consapevole del layout, rilevatori validati (Luhn per le carte di credito, IBAN mod-97) e le tue regole eseguite sul motore RE2 di Google (a tempo lineare, a prova di ReDoS).

Quando Escriba comunica con internet?

Per progettazione, conversione, OCR, trascrizione e anonimizzazione girano tutti localmente sul tuo server. I file caricati vengono eliminati subito dopo la conversione e nulla viene memorizzato. Le uniche volte in cui Escriba effettua una richiesta in uscita sono queste — tutte avviate dall’utente oppure opzionali:

Converti un URL o un link di YouTube. Escriba recupera quella pagina/trascrizione (tramite yt-dlp). Ovviamente.
Abiliti un provider di AI. Solo allora il testo va al provider che hai scelto tu (OpenAI, Gemini o OpenRouter). L’impostazione predefinita è Nessuna AI, e non viene inviato nulla.
Prezzi live dei modelli. Il pannello LLM recupera l’elenco di prezzi/contesto da OpenRouter — un catalogo pubblico senza alcun dato dei documenti nella richiesta. È memorizzato in cache, e la funzione semplicemente non mostra nulla se sei offline.
Download del modello al primo avvio. I modelli Whisper e NER vengono scaricati una volta (oppure pre-integrati nell’immagine), poi girano completamente offline.

Questo è l’elenco completo. I tuoi documenti stessi non lasciano mai la tua macchina, a meno che tu non indirizzi esplicitamente Escriba verso un provider di AI esterno.