Texto para áudio (podcast)

O Escriba não apenas transforma documentos em texto para um LLM — ele também pode transformar o resultado de volta em som. A partir de qualquer conversão, abra a opção Áudio / Podcast para gerar um MP3 e ouvir o seu documento.

Dois modos

Narração — uma única voz lê o documento do início ao fim.
Podcast — uma IA escreve um curto diálogo entre dois apresentadores sobre o documento (apresentador + especialista), e o Escriba o narra com duas vozes alternadas e as costura. O modo podcast precisa de um provedor de IA configurado (ele escreve o roteiro); a narração não.

Dois motores

Local (Piper) — o padrão. As vozes rodam no seu servidor, totalmente offline — o texto nunca sai da sua máquina. O Escriba inclui 14 vozes em espanhol, inglês, português, francês, italiano, alemão e chinês.
Nuvem (OpenAI) — opcional, maior qualidade. Usa a sua chave de API da OpenAI; o texto é enviado à OpenAI somente quando você escolhe uma voz na nuvem. Ótimo para idiomas sem uma voz local (por exemplo, japonês).

Controles

Como um painel de estúdio, você escolhe:

Voz — idioma + locutor (local ou na nuvem).
Tom — grave / médio / agudo.
Velocidade — lenta / normal / rápida.
Volume — baixo / médio / alto.

Um player integrado permite que você pré-escute o áudio antes de baixar o MP3.

Quem pode usar e limites

A geração de áudio está disponível para os níveis ANGEL e DIOS (assim como áudio/vídeo e OCR). Como o Piper sintetiza na CPU, há um limite de caracteres por requisição para proteger o servidor — configurável por papel:

Configuração	Padrão	Significado
`GOD_TTS_CHARS`	`0`	DIOS: sem limite
`ANGEL_TTS_CHARS`	`100000`	ANGEL: máximo de caracteres por MP3
`HUMAN_TTS_CHARS`	`20000`	HUMANO (somente se `HUMAN_TTS=true`)
`TTS_TIMEOUT`	`600`	Máximo de segundos por síntese
`TTS_OPENAI_MODEL`	`tts-1`	Modelo na nuvem (`tts-1` ou `tts-1-hd`)

Veja Configuração para a lista completa. Um documento muito longo com uma voz local pode demorar um pouco para sintetizar — isso é a CPU, não um bug.