LLM のための匿名化

Escriba は、テキストが LLM に届く前に個人データを削除または置換し、後で元に戻すことができます。重い NER モデルは、独立した内部専用のサービス（Anonimal、OpenAI Privacy Filter を同梱）で動作し、ANONIMAL_URL をそこに向けることで有効になります。

多層的な検出

設計上の高い再現率 — 複数の検出器が積み重なって働きます。

NER モデル — 氏名、組織、場所、日付。
レイアウト認識型の請求書フィールド — PDF の座標から ラベル → 値 を読み取り（会社名、納税者番号、住所…）、構造化文書をフィールド単位でマスクします。
20 個の切り替え可能な検出器（ユーザーごと）— 汎用（メール、URL、IP、MAC、Luhn 検証付き クレジットカード、IBAN mod-97）、地域別（例：アルゼンチンの CUIT/CUIL/CBU/DNI/住所）、アグレッシブ（長い数字、氏名の連なり）。
独自ルールの持ち込み（Bring Your Own Rules） — 独自のパターン／ラベル／保持リストを記述した JSON をアップロードできます。あなたの正規表現は RE2（線形時間 → ReDoS 耐性）上で実行され、厳格な JSON パースと厳しい上限が適用されます。
エンティティの伝播 — 一度検出されたものは、出現するすべての箇所でマスクされます。

5 つの出力モード

モード	出力	用途
型付き	`<PRIVATE_PERSON>`、`<ACCOUNT_NUMBER>`…	カテゴリを見えるまま残す
匿名	`<<ANOM_DATA>>`	すべてを一律に置換
仮名化	`«PERSONA_1»` + トークン→原文のマップ	LLM ゲートウェイ — 匿名化 → 送信 → ローカルで復元
部分マスク	`••••-3456`、`j•••@domain.com`	使える手がかりを残す — 不可逆
安定ハッシュ	`«PERSONA_7590fc»`	同じデータ → ドキュメントをまたいで同じ仮名 — 不可逆

2 つの強度（バランス / 厳格）があり、すべて ブラウザごと に設定可能です。復元マップとカスタムルールがあなたのマシンの外に出ることはありません。

LLM ゲートウェイのパターン

仮名化モードが中心的な役割を果たします。

仮名化 で変換 — 氏名は «PERSONA_1» に、ID は «ID_2» などになります。
安全なテキストを任意の LLM に送信します。モデルが実データを見ることはありません。
返信を復元に貼り付けます。Escriba は、サーバーに一度も触れていないマップを使って、完全にブラウザ内で実際の値を復元します。

視覚的な墨消し

PDF とスキャン画像については、結果カードが 「墨消し PDF」 のダウンロードを提供します。検出されたすべてのエンティティが真の墨消しによって ページ上で黒塗り されます。apply_redactions が、各ボックスの下にある元のテキストと画像ピクセルを削除するため、出力ファイル内にそのデータはもはや存在しません。PDF の メタデータも消去 され（DocInfo + XMP）、墨消しされたファイルが プロパティ や exiftool 経由で氏名や ID を漏らすことはありません。スキャン文書はまず OCR されます。同じ検出スタックで、追加の RAM はゼロです。