Escriba とは?
Escriba は、AI の言語へのユニバーサル翻訳機です。 PDF、Word ファイル、スプレッドシート、画像、音声録音、Web ページ、YouTube リンクなど、あらゆるドキュメントを、大規模言語モデルが最も読み取りやすい形式である、クリーンで匿名化された Markdown に変換します。
ドキュメントを LLM に渡す際の 3 つの悩みを、ひとつのセルフホスト可能なツールで解決します。
- ノイズが多くトークンを浪費する入力 → クリーンで構造化された Markdown。
- 機密データの漏洩 → 組み込みの PII 匿名化と、可逆的な仮名化。
- 「収まるのか? いくらかかるのか?」 → トークン数を数え、リアルタイム価格でコストを見積もり、コンテキストウィンドウへの収まりを確認し、RAG 用にチャンク分割する、ローカルの LLM 準備パネル。
ローカルで動作し、7 言語に対応し、Microsoft MarkItDown を基盤としています。
- ChatGPT、Claude、Gemini にドキュメントを貼り付ける方 で、テキストをクリーンにし、機密部分を手元で取り除いてから送り出したい方。
- チームや組織 で、機密ファイルをサードパーティのクラウドに送れず、自社サーバー上で動くコンバーターが必要な方。
- 開発者 で、REST API、ロールベースのアクセス、そして可動部品のない単一の Docker イメージを求める方。
何が違うのか
Section titled “何が違うのか”- 制御は人間のレイヤーに留まります。 Escriba はあなたのドキュメントをどこにも送信しません。あなたのマシン上で動作し、変換後すぐにファイルを削除し、モデルに何を渡すかは あなた が決めます。
- 匿名化は可逆的です。 仮名化 → LLM に送信 → 返信をローカルで復元。復元マップがブラウザの外に出ることはありません。
- AI は不要です。 トークン計数、OCR、匿名化、コスト見積もりといった賢い処理はすべてローカルで動作します。AI はあくまで任意です。
次のステップ
Section titled “次のステップ”- クイックスタート — ワンコマンドで起動。
- ドキュメントの変換 — 日常的なワークフロー。
- LLM のための匿名化 — プライバシーエンジンを詳しく。