コンテンツにスキップ

テキストから音声へ(ポッドキャスト)

Escribaは、ドキュメントをLLM向けのテキストに変換するだけではありません。その結果を 再び音声へと戻すこともできます。任意の変換結果から音声 / ポッドキャストの オプションを開けば、MP3を生成してドキュメントを聴くことができます。

  • ナレーション — 1つの音声がドキュメントを最初から最後まで読み上げます。
  • ポッドキャスト — AIがドキュメントについての短い2人ホストの対話(司会者+ 専門家)を書き起こし、Escribaが交互に2つの音声で読み上げて1つにつなぎ合わせます。 ポッドキャストモードには(台本を書くため)AIプロバイダーの設定が必要です。ナレーションには不要です。
  • ローカル(Piper) — デフォルトです。音声はあなたのサーバー上で完全にオフラインで 動作し、テキストがマシンの外に出ることはありません。Escribaにはスペイン語、英語、 ポルトガル語、フランス語、イタリア語、ドイツ語、中国語にわたる14の音声が同梱されています。
  • クラウド(OpenAI) — 任意で、より高品質です。あなた自身のOpenAI APIキーを使用します。 テキストがOpenAIに送信されるのは、クラウド音声を選んだときだけです。ローカル音声のない言語 (例:日本語)に最適です。

スタジオのパネルのように、次の項目を選べます。

  • 音声 — 言語+話者(ローカルまたはクラウド)。
  • ピッチ — 低 / 中 / 高。
  • 速度 — 遅い / 普通 / 速い。
  • 音量 — 低 / 中 / 高。

内蔵プレーヤーで、MP3をダウンロードする前に音声をプレビューできます。

音声生成はANGELおよびDIOSレベルで利用できます(音声・動画やOCRと同様)。Piperは CPUで合成を行うため、サーバーを保護する目的でリクエストごとの文字数制限があり、 ロールごとに設定できます。

設定デフォルト意味
GOD_TTS_CHARS0DIOS:制限なし
ANGEL_TTS_CHARS100000ANGEL:MP3あたりの最大文字数
HUMAN_TTS_CHARS20000HUMANO(HUMAN_TTS=trueの場合のみ)
TTS_TIMEOUT600合成1回あたりの最大秒数
TTS_OPENAI_MODELtts-1クラウドモデル(tts-1またはtts-1-hd

すべての一覧は設定をご覧ください。ローカル音声で非常に長い ドキュメントを扱うと、合成に時間がかかることがあります。これはCPUによるもので、不具合では ありません。