Su cosa gira Escriba
Escriba è uno strato di collante attorno a eccellenti progetti open-source. La trasparenza totale conta più che sembrare furbi, quindi ecco esattamente cosa gira sotto il cofano, cosa fa ogni componente e quando — se mai accade — Escriba raggiunge la rete.
I motori
Sezione intitolata “I motori”| Cosa fa | Progetto | Licenza |
|---|---|---|
| Conversione principale documento → Markdown | Microsoft MarkItDown | MIT |
| Framework web / API | FastAPI · Uvicorn | MIT / BSD |
| Parsing PDF, selezione delle pagine e oscuramento reale | PyMuPDF | AGPL-3.0 / commerciale |
| Estrazione avanzata del layout PDF (opzionale) | OpenDataLoader PDF | open-source |
| OCR per immagini e PDF scansionati | Tesseract + OCRmyPDF | Apache-2.0 / MPL-2.0 |
| Trascrizione audio e video | faster-whisper (OpenAI Whisper) | MIT |
| Testo → audio (voci locali) | Piper | MIT |
| Pagine web e trascrizioni di YouTube | yt-dlp | Unlicense |
| Rilevamento PII (il motore di anonimizzazione) | OpenAI Privacy Filter | Apache-2.0 |
| Regole regex sicure definite dall’utente | google-re2 | BSD-3 |
| Conteggio dei token | tiktoken | MIT |
| Suddivisione in chunk per RAG | semchunk | MIT |
| Esportazione in 10 formati | Pandoc | GPL-2.0+ |
| Prezzi live per modello | OpenRouter (API pubblica) | — |
| Limitazione della frequenza | Redis integrato | — |
| Sanificazione dell’HTML di anteprima (nel tuo browser) | DOMPurify | Apache-2.0 / MPL-2.0 |
Licenza — Escriba è MIT
Sezione intitolata “Licenza — Escriba è MIT”Il codice sorgente di Escriba è rilasciato sotto la Licenza MIT, una delle licenze più permissive che esistano. In parole semplici:
Cosa puoi fare
- Usarlo per qualsiasi cosa, incluso l’uso commerciale.
- Modificare il sorgente e adattarlo alle tue esigenze.
- Distribuirlo e ridistribuire le tue versioni modificate.
- Usarlo privatamente e sublicenziarlo all’interno del tuo prodotto.
Cosa devi fare
- Mantenere nelle copie del sorgente l’avviso di copyright e il testo della licenza originali.
Cosa non è coperto
- È fornito “così com’è”, senza alcuna garanzia — l’autore non è responsabile di come viene usato.
Modelli di trascrizione (Whisper)
Sezione intitolata “Modelli di trascrizione (Whisper)”La trascrizione usa faster-whisper, un runtime ottimizzato per Whisper di OpenAI.
Scegli la dimensione del modello con WHISPER_MODEL — tiny, base (predefinito), small,
medium o large-v3. I modelli più grandi sono più accurati ma più pesanti e più lenti su CPU;
consulta i Requisiti di sistema per sapere cosa richiede ciascuno.
Sul motore di anonimizzazione
Sezione intitolata “Sul motore di anonimizzazione”Il motore PII è costruito su OpenAI Privacy Filter (OPF, Apache-2.0), un modello NER che rileva nomi, organizzazioni, luoghi e altro ancora. Escriba lo avvolge con la lettura dei campi delle fatture consapevole del layout, rilevatori validati (Luhn per le carte di credito, IBAN mod-97) e le tue regole eseguite sul motore RE2 di Google (a tempo lineare, a prova di ReDoS).
Quando Escriba comunica con internet?
Sezione intitolata “Quando Escriba comunica con internet?”Per progettazione, conversione, OCR, trascrizione e anonimizzazione girano tutti localmente sul tuo server. I file caricati vengono eliminati subito dopo la conversione e nulla viene memorizzato. Le uniche volte in cui Escriba effettua una richiesta in uscita sono queste — tutte avviate dall’utente oppure opzionali:
- Converti un URL o un link di YouTube. Escriba recupera quella pagina/trascrizione (tramite yt-dlp). Ovviamente.
- Abiliti un provider di AI. Solo allora il testo va al provider che hai scelto tu (OpenAI, Gemini o OpenRouter). L’impostazione predefinita è Nessuna AI, e non viene inviato nulla.
- Prezzi live dei modelli. Il pannello LLM recupera l’elenco di prezzi/contesto da OpenRouter — un catalogo pubblico senza alcun dato dei documenti nella richiesta. È memorizzato in cache, e la funzione semplicemente non mostra nulla se sei offline.
- Download del modello al primo avvio. I modelli Whisper e NER vengono scaricati una volta (oppure pre-integrati nell’immagine), poi girano completamente offline.
Questo è l’elenco completo. I tuoi documenti stessi non lasciano mai la tua macchina, a meno che tu non indirizzi esplicitamente Escriba verso un provider di AI esterno.