LLM のための匿名化
Escriba は、テキストが LLM に届く 前 に個人データを削除または置換し、後で元に戻すことができます。重い NER モデルは、独立した内部専用のサービス(Anonimal、OpenAI Privacy Filter を同梱)で動作し、ANONIMAL_URL をそこに向けることで有効になります。
多層的な検出
Section titled “多層的な検出”設計上の高い再現率 — 複数の検出器が積み重なって働きます。
- NER モデル — 氏名、組織、場所、日付。
- レイアウト認識型の請求書フィールド — PDF の座標から ラベル → 値 を読み取り(会社名、納税者番号、住所…)、構造化文書をフィールド単位でマスクします。
- 20 個の切り替え可能な検出器(ユーザーごと)— 汎用(メール、URL、IP、MAC、Luhn 検証付き クレジットカード、IBAN mod-97)、地域別(例:アルゼンチンの CUIT/CUIL/CBU/DNI/住所)、アグレッシブ(長い数字、氏名の連なり)。
- 独自ルールの持ち込み(Bring Your Own Rules) — 独自のパターン/ラベル/保持リストを記述した JSON をアップロードできます。あなたの正規表現は RE2(線形時間 → ReDoS 耐性)上で実行され、厳格な JSON パースと厳しい上限が適用されます。
- エンティティの伝播 — 一度検出されたものは、出現するすべての箇所でマスクされます。
5 つの出力モード
Section titled “5 つの出力モード”| モード | 出力 | 用途 |
|---|---|---|
| 型付き | <PRIVATE_PERSON>、<ACCOUNT_NUMBER>… | カテゴリを見えるまま残す |
| 匿名 | <<ANOM_DATA>> | すべてを一律に置換 |
| 仮名化 | «PERSONA_1» + トークン→原文のマップ | LLM ゲートウェイ — 匿名化 → 送信 → ローカルで復元 |
| 部分マスク | ••••-3456、j•••@domain.com | 使える手がかりを残す — 不可逆 |
| 安定ハッシュ | «PERSONA_7590fc» | 同じデータ → ドキュメントをまたいで同じ仮名 — 不可逆 |
2 つの強度(バランス / 厳格)があり、すべて ブラウザごと に設定可能です。復元マップとカスタムルールがあなたのマシンの外に出ることはありません。
LLM ゲートウェイのパターン
Section titled “LLM ゲートウェイのパターン”仮名化モードが中心的な役割を果たします。
- 仮名化 で変換 — 氏名は
«PERSONA_1»に、ID は«ID_2»などになります。 - 安全なテキストを任意の LLM に送信します。モデルが実データを見ることはありません。
- 返信を 復元 に貼り付けます。Escriba は、サーバーに一度も触れていないマップを使って、完全にブラウザ内で実際の値を復元します。
視覚的な墨消し
Section titled “視覚的な墨消し”PDF とスキャン画像については、結果カードが 「墨消し PDF」 のダウンロードを提供します。検出されたすべてのエンティティが真の墨消しによって ページ上で黒塗り されます。apply_redactions が、各ボックスの下にある元のテキスト と 画像ピクセルを削除するため、出力ファイル内にそのデータはもはや存在しません。PDF の メタデータも消去 され(DocInfo + XMP)、墨消しされたファイルが プロパティ や exiftool 経由で氏名や ID を漏らすことはありません。スキャン文書はまず OCR されます。同じ検出スタックで、追加の RAM はゼロです。