Pular para o conteúdo

Texto para áudio (podcast)

O Escriba não apenas transforma documentos em texto para um LLM — ele também pode transformar o resultado de volta em som. A partir de qualquer conversão, abra a opção Áudio / Podcast para gerar um MP3 e ouvir o seu documento.

  • Narração — uma única voz lê o documento do início ao fim.
  • Podcast — uma IA escreve um curto diálogo entre dois apresentadores sobre o documento (apresentador + especialista), e o Escriba o narra com duas vozes alternadas e as costura. O modo podcast precisa de um provedor de IA configurado (ele escreve o roteiro); a narração não.
  • Local (Piper) — o padrão. As vozes rodam no seu servidor, totalmente offline — o texto nunca sai da sua máquina. O Escriba inclui 14 vozes em espanhol, inglês, português, francês, italiano, alemão e chinês.
  • Nuvem (OpenAI) — opcional, maior qualidade. Usa a sua chave de API da OpenAI; o texto é enviado à OpenAI somente quando você escolhe uma voz na nuvem. Ótimo para idiomas sem uma voz local (por exemplo, japonês).

Como um painel de estúdio, você escolhe:

  • Voz — idioma + locutor (local ou na nuvem).
  • Tom — grave / médio / agudo.
  • Velocidade — lenta / normal / rápida.
  • Volume — baixo / médio / alto.

Um player integrado permite que você pré-escute o áudio antes de baixar o MP3.

A geração de áudio está disponível para os níveis ANGEL e DIOS (assim como áudio/vídeo e OCR). Como o Piper sintetiza na CPU, há um limite de caracteres por requisição para proteger o servidor — configurável por papel:

ConfiguraçãoPadrãoSignificado
GOD_TTS_CHARS0DIOS: sem limite
ANGEL_TTS_CHARS100000ANGEL: máximo de caracteres por MP3
HUMAN_TTS_CHARS20000HUMANO (somente se HUMAN_TTS=true)
TTS_TIMEOUT600Máximo de segundos por síntese
TTS_OPENAI_MODELtts-1Modelo na nuvem (tts-1 ou tts-1-hd)

Veja Configuração para a lista completa. Um documento muito longo com uma voz local pode demorar um pouco para sintetizar — isso é a CPU, não um bug.