コンテンツにスキップ

Escriba とは?

Escriba は、AI の言語へのユニバーサル翻訳機です。 PDF、Word ファイル、スプレッドシート、画像、音声録音、Web ページ、YouTube リンクなど、あらゆるドキュメントを、大規模言語モデルが最も読み取りやすい形式である、クリーンで匿名化された Markdown に変換します。

ドキュメントを LLM に渡す際の 3 つの悩みを、ひとつのセルフホスト可能なツールで解決します。

  • ノイズが多くトークンを浪費する入力 → クリーンで構造化された Markdown。
  • 機密データの漏洩 → 組み込みの PII 匿名化と、可逆的な仮名化。
  • 「収まるのか? いくらかかるのか?」 → トークン数を数え、リアルタイム価格でコストを見積もり、コンテキストウィンドウへの収まりを確認し、RAG 用にチャンク分割する、ローカルの LLM 準備パネル。

ローカルで動作し、7 言語に対応し、Microsoft MarkItDown を基盤としています。

  • ChatGPT、Claude、Gemini にドキュメントを貼り付ける方 で、テキストをクリーンにし、機密部分を手元で取り除いてから送り出したい方。
  • チームや組織 で、機密ファイルをサードパーティのクラウドに送れず、自社サーバー上で動くコンバーターが必要な方。
  • 開発者 で、REST API、ロールベースのアクセス、そして可動部品のない単一の Docker イメージを求める方。
  • 制御は人間のレイヤーに留まります。 Escriba はあなたのドキュメントをどこにも送信しません。あなたのマシン上で動作し、変換後すぐにファイルを削除し、モデルに何を渡すかは あなた が決めます。
  • 匿名化は可逆的です。 仮名化 → LLM に送信 → 返信をローカルで復元。復元マップがブラウザの外に出ることはありません。
  • AI は不要です。 トークン計数、OCR、匿名化、コスト見積もりといった賢い処理はすべてローカルで動作します。AI はあくまで任意です。