テキストから音声へ(ポッドキャスト)
Escribaは、ドキュメントをLLM向けのテキストに変換するだけではありません。その結果を 再び音声へと戻すこともできます。任意の変換結果から音声 / ポッドキャストの オプションを開けば、MP3を生成してドキュメントを聴くことができます。
2つのモード
Section titled “2つのモード”- ナレーション — 1つの音声がドキュメントを最初から最後まで読み上げます。
- ポッドキャスト — AIがドキュメントについての短い2人ホストの対話(司会者+ 専門家)を書き起こし、Escribaが交互に2つの音声で読み上げて1つにつなぎ合わせます。 ポッドキャストモードには(台本を書くため)AIプロバイダーの設定が必要です。ナレーションには不要です。
2つのエンジン
Section titled “2つのエンジン”- ローカル(Piper) — デフォルトです。音声はあなたのサーバー上で完全にオフラインで 動作し、テキストがマシンの外に出ることはありません。Escribaにはスペイン語、英語、 ポルトガル語、フランス語、イタリア語、ドイツ語、中国語にわたる14の音声が同梱されています。
- クラウド(OpenAI) — 任意で、より高品質です。あなた自身のOpenAI APIキーを使用します。 テキストがOpenAIに送信されるのは、クラウド音声を選んだときだけです。ローカル音声のない言語 (例:日本語)に最適です。
コントロール
Section titled “コントロール”スタジオのパネルのように、次の項目を選べます。
- 音声 — 言語+話者(ローカルまたはクラウド)。
- ピッチ — 低 / 中 / 高。
- 速度 — 遅い / 普通 / 速い。
- 音量 — 低 / 中 / 高。
内蔵プレーヤーで、MP3をダウンロードする前に音声をプレビューできます。
利用できる人と制限
Section titled “利用できる人と制限”音声生成はANGELおよびDIOSレベルで利用できます(音声・動画やOCRと同様)。Piperは CPUで合成を行うため、サーバーを保護する目的でリクエストごとの文字数制限があり、 ロールごとに設定できます。
| 設定 | デフォルト | 意味 |
|---|---|---|
GOD_TTS_CHARS | 0 | DIOS:制限なし |
ANGEL_TTS_CHARS | 100000 | ANGEL:MP3あたりの最大文字数 |
HUMAN_TTS_CHARS | 20000 | HUMANO(HUMAN_TTS=trueの場合のみ) |
TTS_TIMEOUT | 600 | 合成1回あたりの最大秒数 |
TTS_OPENAI_MODEL | tts-1 | クラウドモデル(tts-1またはtts-1-hd) |
すべての一覧は設定をご覧ください。ローカル音声で非常に長い ドキュメントを扱うと、合成に時間がかかることがあります。これはCPUによるもので、不具合では ありません。