Dal testo all'audio (podcast)
Escriba non si limita a trasformare i documenti in testo per un LLM: può anche riconvertire il risultato in suono. Da qualsiasi conversione, apri l’opzione Audio / Podcast per generare un MP3 e ascoltare il tuo documento.
Due modalità
Sezione intitolata “Due modalità”- Narrazione — una voce singola legge il documento dall’inizio alla fine.
- Podcast — un’IA scrive un breve dialogo tra due conduttori sul documento (conduttore + esperto) ed Escriba lo dà voce con due voci alternate, montandolo in un unico audio. La modalità podcast richiede un provider IA configurato (è lui a scrivere il copione); la narrazione no.
Due motori
Sezione intitolata “Due motori”- Locale (Piper) — l’opzione predefinita. Le voci girano sul tuo server, completamente offline: il testo non lascia mai la tua macchina. Escriba include 14 voci tra spagnolo, inglese, portoghese, francese, italiano, tedesco e cinese.
- Cloud (OpenAI) — opzionale, di qualità superiore. Usa la tua chiave API di OpenAI; il testo viene inviato a OpenAI solo quando scegli una voce cloud. Ideale per le lingue prive di una voce locale (ad esempio il giapponese).
Controlli
Sezione intitolata “Controlli”Come in un pannello di regia, puoi scegliere:
- Voce — lingua + speaker (locale o cloud).
- Tono — basso / medio / alto.
- Velocità — lenta / normale / veloce.
- Volume — basso / medio / alto.
Un player integrato ti permette di ascoltare un’anteprima dell’audio prima di scaricare l’MP3.
Chi può usarlo e quali limiti
Sezione intitolata “Chi può usarlo e quali limiti”La generazione audio è disponibile per i livelli ANGEL e DIOS (come audio/video e OCR). Poiché Piper sintetizza sulla CPU, esiste un limite di caratteri per richiesta per proteggere il server, configurabile per ruolo:
| Impostazione | Predefinito | Significato |
|---|---|---|
GOD_TTS_CHARS | 0 | DIOS: nessun limite |
ANGEL_TTS_CHARS | 100000 | ANGEL: caratteri massimi per MP3 |
HUMAN_TTS_CHARS | 20000 | HUMANO (solo se HUMAN_TTS=true) |
TTS_TIMEOUT | 600 | Secondi massimi per sintesi |
TTS_OPENAI_MODEL | tts-1 | Modello cloud (tts-1 o tts-1-hd) |
Consulta Configurazione per l’elenco completo. Un documento molto lungo con una voce locale può richiedere un po’ di tempo per la sintesi: è la CPU, non un bug.