Dal testo all'audio (podcast)

Escriba non si limita a trasformare i documenti in testo per un LLM: può anche riconvertire il risultato in suono. Da qualsiasi conversione, apri l’opzione Audio / Podcast per generare un MP3 e ascoltare il tuo documento.

Due modalità

Narrazione — una voce singola legge il documento dall’inizio alla fine.
Podcast — un’IA scrive un breve dialogo tra due conduttori sul documento (conduttore + esperto) ed Escriba lo dà voce con due voci alternate, montandolo in un unico audio. La modalità podcast richiede un provider IA configurato (è lui a scrivere il copione); la narrazione no.

Due motori

Locale (Piper) — l’opzione predefinita. Le voci girano sul tuo server, completamente offline: il testo non lascia mai la tua macchina. Escriba include 14 voci tra spagnolo, inglese, portoghese, francese, italiano, tedesco e cinese.
Cloud (OpenAI) — opzionale, di qualità superiore. Usa la tua chiave API di OpenAI; il testo viene inviato a OpenAI solo quando scegli una voce cloud. Ideale per le lingue prive di una voce locale (ad esempio il giapponese).

Controlli

Come in un pannello di regia, puoi scegliere:

Voce — lingua + speaker (locale o cloud).
Tono — basso / medio / alto.
Velocità — lenta / normale / veloce.
Volume — basso / medio / alto.

Un player integrato ti permette di ascoltare un’anteprima dell’audio prima di scaricare l’MP3.

Chi può usarlo e quali limiti

La generazione audio è disponibile per i livelli ANGEL e DIOS (come audio/video e OCR). Poiché Piper sintetizza sulla CPU, esiste un limite di caratteri per richiesta per proteggere il server, configurabile per ruolo:

Impostazione	Predefinito	Significato
`GOD_TTS_CHARS`	`0`	DIOS: nessun limite
`ANGEL_TTS_CHARS`	`100000`	ANGEL: caratteri massimi per MP3
`HUMAN_TTS_CHARS`	`20000`	HUMANO (solo se `HUMAN_TTS=true`)
`TTS_TIMEOUT`	`600`	Secondi massimi per sintesi
`TTS_OPENAI_MODEL`	`tts-1`	Modello cloud (`tts-1` o `tts-1-hd`)

Consulta Configurazione per l’elenco completo. Un documento molto lungo con una voce locale può richiedere un po’ di tempo per la sintesi: è la CPU, non un bug.