Texto para áudio (podcast)
O Escriba não apenas transforma documentos em texto para um LLM — ele também pode transformar o resultado de volta em som. A partir de qualquer conversão, abra a opção Áudio / Podcast para gerar um MP3 e ouvir o seu documento.
Dois modos
Seção intitulada “Dois modos”- Narração — uma única voz lê o documento do início ao fim.
- Podcast — uma IA escreve um curto diálogo entre dois apresentadores sobre o documento (apresentador + especialista), e o Escriba o narra com duas vozes alternadas e as costura. O modo podcast precisa de um provedor de IA configurado (ele escreve o roteiro); a narração não.
Dois motores
Seção intitulada “Dois motores”- Local (Piper) — o padrão. As vozes rodam no seu servidor, totalmente offline — o texto nunca sai da sua máquina. O Escriba inclui 14 vozes em espanhol, inglês, português, francês, italiano, alemão e chinês.
- Nuvem (OpenAI) — opcional, maior qualidade. Usa a sua chave de API da OpenAI; o texto é enviado à OpenAI somente quando você escolhe uma voz na nuvem. Ótimo para idiomas sem uma voz local (por exemplo, japonês).
Controles
Seção intitulada “Controles”Como um painel de estúdio, você escolhe:
- Voz — idioma + locutor (local ou na nuvem).
- Tom — grave / médio / agudo.
- Velocidade — lenta / normal / rápida.
- Volume — baixo / médio / alto.
Um player integrado permite que você pré-escute o áudio antes de baixar o MP3.
Quem pode usar e limites
Seção intitulada “Quem pode usar e limites”A geração de áudio está disponível para os níveis ANGEL e DIOS (assim como áudio/vídeo e OCR). Como o Piper sintetiza na CPU, há um limite de caracteres por requisição para proteger o servidor — configurável por papel:
| Configuração | Padrão | Significado |
|---|---|---|
GOD_TTS_CHARS | 0 | DIOS: sem limite |
ANGEL_TTS_CHARS | 100000 | ANGEL: máximo de caracteres por MP3 |
HUMAN_TTS_CHARS | 20000 | HUMANO (somente se HUMAN_TTS=true) |
TTS_TIMEOUT | 600 | Máximo de segundos por síntese |
TTS_OPENAI_MODEL | tts-1 | Modelo na nuvem (tts-1 ou tts-1-hd) |
Veja Configuração para a lista completa. Um documento muito longo com uma voz local pode demorar um pouco para sintetizar — isso é a CPU, não um bug.