ドキュメントの変換
EscribaはほとんどあらゆるものをMarkdownに変換します。検出は自動で行われ、ドロップした ファイルの種類をわざわざ指定する必要はほとんどありません。
変換できるもの
Section titled “変換できるもの”- ドキュメント — PDF、Word、Excel、PowerPoint、HTML、CSV、EPUB、ZIPなど。
- 画像 — 自動OCR(Tesseract)。任意でAIによる説明も可能です。
- 音声・動画 — Whisperによるローカル・オフラインの文字起こし(mp3、wav、mp4、mov、mkv…)。
- URLとYouTube — Webページを変換したり、YouTubeの文字起こしを取得したりできます。
スマートOCR
Section titled “スマートOCR”画像内のテキストは自動的に認識されます。スキャンされた回転しているPDFも検出され、 OCRが適用されてその場で自動的にまっすぐに補正されます。PDFがスキャンされたものに見え、 あなたのアクセスレベルでOCRが許可されていれば、Escribaは指示しなくても自動で適用します。
詳細オプションからOCRを強制することもできます。これは、アクセントが壊れたPDF (例:LaTeXからエクスポートしたもの)に役立ちます。強制OCRは選択したドキュメント言語を 使用するため、最良の結果を得るには言語を設定してください。
長いPDFでは、必要なページだけを変換できます。キューに入った各PDFの横にはページ選択 ツールがあり、ドキュメントのページ数を表示して次の選択ができます。
- ドキュメント全体(デフォルト)。
- 範囲 — 例:
5ページから67ページ。 - 個別のページや範囲 — 例:
1, 6, 9、または1, 2, 5-67のような組み合わせ。
覚えるべき構文はありません。選択ツールがそれを担ってくれます。選択はファイルごとに 行われるため、同じバッチ内の異なるPDFで別々のページを使うことができます。
詳細オプション
Section titled “詳細オプション”詳細パネルを開いて、変換を細かく調整できます。
- ドキュメント言語 — 音声の文字起こしと強制OCRの精度を高めます。
- OCRを強制 — スキャンされたPDFや、アクセントが壊れた場合に。
- 高度なPDF抽出 — 複雑なレイアウト向けのオプトイン式OpenDataLoader エンジン。読み取り順序と見出しの階層がより正確になり、問題があればデフォルトの抽出器に 自動的にフォールバックします。低速ですが、難しいドキュメントではより鮮明です。
- 匿名化 — 個人データを削除または置換します。匿名化をご覧ください。
- AIプロバイダー — 任意。デフォルトはAIなし(ローカルのテキスト / OCRのみ)です。
エクスポートや読み上げの前に編集する
Section titled “エクスポートや読み上げの前に編集する”結果は読み取り専用ではありません。編集を押すと、ライブプレビュー付きの全画面 Markdownエディタで開き、整えることができます。定型文を削除したり、見出しを直したり、 ノイズを削ったりして、保存します。あなたの編集が結果となり、その後のすべての処理 (エクスポート、音声、コピー、ダウンロード)は 整えられたテキストを使用します。何もどこにも送信されません。あなたが操作するまで、すべては ブラウザ内にとどまります。
複数のファイルを一度に追加できます(数はあなたのアクセスレベルで
決まります)。すべてを変換してから、まとめて.zipとしてダウンロードできます。アップロード
されたファイルは変換直後に削除され、何も保存されません。