Sicurezza

Escriba è costruito per girare con documenti riservati. Il principio guida: il controllo resta sul livello umano — i tuoi file vengono elaborati sul tuo server e sei tu a decidere cosa arriva mai a un LLM.

Privato per progettazione

Nulla viene conservato. I file caricati vengono eliminati subito dopo la conversione.
Nessun cloud di terze parti. Conversione, OCR, trascrizione e anonimizzazione girano in locale sul tuo host.
La mappa di ripristino resta locale. La mappa token→originale della pseudonimizzazione non lascia mai il tuo browser.

Irrobustito per impostazione predefinita

Anonimizzazione fail-closed — se viene richiesta l’anonimizzazione e il servizio Anonimal non è raggiungibile, la richiesta dà errore; il testo grezzo non viene mai emesso come fallback.
Anti-SSRF — il recupero degli URL blocca gli IP interni e i redirect; l’accesso ai file locali e a file:// è limitato al solo DIOS.
Sanificazione XSS — l’anteprima viene sanificata con DOMPurify; sono impostati una rigida Content-Security-Policy e gli header di sicurezza.
Rate limiting e blocco — limiti di richieste per ruolo, condivisi tra i worker tramite il Redis integrato, più il blocco del login in caso di fallimenti ripetuti.
Container non-root — gira come utente senza privilegi con no-new-privileges.
Regex sicure — le regole di anonimizzazione fornite dall’utente girano su RE2 (tempo lineare), immune al ReDoS.
Protezioni contro il DoS — i caricamenti hanno un tetto di dimensione tramite streaming; il selettore di pagine ha un tetto per prevenire l’espansione a bomba degli intervalli.

Sottoposto ad audit

Il codice è passato attraverso un rigoroso audit multi-prospettiva e un pen-test in red-team, con ogni rilievo corretto e verificato. Tra i punti salienti dell’irrobustimento ci sono una chiave di hashing casuale per ogni installazione, una gestione sanificata di X-Forwarded-For (solo proxy fidati), la revoca delle sessioni, i metadati del PDF ripuliti in fase di redazione e header no-cache sugli asset statici.