Ir al contenido

De texto a audio (podcast)

Escriba no solo convierte documentos en texto para un LLM: también puede convertir el resultado de nuevo en sonido. Desde cualquier conversión, abra la opción Audio / Podcast para generar un MP3 y escuchar su documento.

  • Narración — una sola voz lee el documento de principio a fin.
  • Podcast — una IA escribe un breve diálogo de dos presentadores sobre el documento (presentador + experto), y Escriba lo locuta con dos voces que se alternan y lo une todo. El modo podcast necesita un proveedor de IA configurado (es quien escribe el guion); la narración no.
  • Local (Piper) — la opción por defecto. Las voces se ejecutan en su servidor, totalmente sin conexión: el texto nunca sale de su máquina. Escriba incluye 14 voces en español, inglés, portugués, francés, italiano, alemán y chino.
  • Nube (OpenAI) — opcional, de mayor calidad. Usa su clave de API de OpenAI; el texto se envía a OpenAI únicamente cuando elige una voz en la nube. Ideal para idiomas sin una voz local (por ejemplo, japonés).

Como en una mesa de estudio, usted elige:

  • Voz — idioma + locutor (local o en la nube).
  • Tono — bajo / medio / alto.
  • Velocidad — lenta / normal / rápida.
  • Volumen — bajo / medio / alto.

Un reproductor integrado le permite escuchar una vista previa del audio antes de descargar el MP3.

La generación de audio está disponible para los niveles ANGEL y DIOS (igual que audio/vídeo y OCR). Como Piper sintetiza en la CPU, hay un límite de caracteres por solicitud para proteger el servidor — configurable por rol:

AjusteValor por defectoSignificado
GOD_TTS_CHARS0DIOS: sin límite
ANGEL_TTS_CHARS100000ANGEL: máximo de caracteres por MP3
HUMAN_TTS_CHARS20000HUMANO (solo si HUMAN_TTS=true)
TTS_TIMEOUT600Máximo de segundos por síntesis
TTS_OPENAI_MODELtts-1Modelo en la nube (tts-1 o tts-1-hd)

Consulte Configuración para ver la lista completa. Un documento muy largo con una voz local puede tardar un rato en sintetizarse: es la CPU, no un error.