コンテンツにスキップ

LLM のための匿名化

Escriba は、テキストが LLM に届く に個人データを削除または置換し、後で元に戻すことができます。重い NER モデルは、独立した内部専用のサービス(AnonimalOpenAI Privacy Filter を同梱)で動作し、ANONIMAL_URL をそこに向けることで有効になります。

設計上の高い再現率 — 複数の検出器が積み重なって働きます。

  • NER モデル — 氏名、組織、場所、日付。
  • レイアウト認識型の請求書フィールド — PDF の座標から ラベル → 値 を読み取り(会社名、納税者番号、住所…)、構造化文書をフィールド単位でマスクします。
  • 20 個の切り替え可能な検出器(ユーザーごと)— 汎用(メール、URL、IP、MAC、Luhn 検証付き クレジットカード、IBAN mod-97)、地域別(例:アルゼンチンの CUIT/CUIL/CBU/DNI/住所)、アグレッシブ(長い数字、氏名の連なり)。
  • 独自ルールの持ち込み(Bring Your Own Rules) — 独自のパターン/ラベル/保持リストを記述した JSON をアップロードできます。あなたの正規表現は RE2(線形時間 → ReDoS 耐性)上で実行され、厳格な JSON パースと厳しい上限が適用されます。
  • エンティティの伝播 — 一度検出されたものは、出現するすべての箇所でマスクされます。
モード出力用途
型付き<PRIVATE_PERSON><ACCOUNT_NUMBER>カテゴリを見えるまま残す
匿名<<ANOM_DATA>>すべてを一律に置換
仮名化«PERSONA_1» + トークン→原文のマップLLM ゲートウェイ — 匿名化 → 送信 → ローカルで復元
部分マスク••••-3456j•••@domain.com使える手がかりを残す — 不可逆
安定ハッシュ«PERSONA_7590fc»同じデータ → ドキュメントをまたいで同じ仮名 — 不可逆

2 つの強度(バランス / 厳格)があり、すべて ブラウザごと に設定可能です。復元マップとカスタムルールがあなたのマシンの外に出ることはありません。

仮名化モードが中心的な役割を果たします。

  1. 仮名化 で変換 — 氏名は «PERSONA_1» に、ID は «ID_2» などになります。
  2. 安全なテキストを任意の LLM に送信します。モデルが実データを見ることはありません。
  3. 返信を 復元 に貼り付けます。Escriba は、サーバーに一度も触れていないマップを使って、完全にブラウザ内で実際の値を復元します。

PDF とスキャン画像については、結果カードが 「墨消し PDF」 のダウンロードを提供します。検出されたすべてのエンティティが真の墨消しによって ページ上で黒塗り されます。apply_redactions が、各ボックスの下にある元のテキスト 画像ピクセルを削除するため、出力ファイル内にそのデータはもはや存在しません。PDF の メタデータも消去 され(DocInfo + XMP)、墨消しされたファイルが プロパティexiftool 経由で氏名や ID を漏らすことはありません。スキャン文書はまず OCR されます。同じ検出スタックで、追加の RAM はゼロです。