面向 LLM 的脱敏

Escriba 可以在文本抵达 LLM 之前剥离或替换个人数据 —— 之后再把它放回去。重型的 NER 模型运行在一个独立的、仅供内部访问的服务（Anonimal，内置了 OpenAI Privacy Filter）中，通过将 ANONIMAL_URL 指向它来启用。

分层检测

天生为高召回率而设计 —— 多个检测器层层叠加：

NER 模型 —— 姓名、组织、地点、日期。
版式感知的发票字段 —— 按 PDF 坐标读取标签 → 值 （公司名称、税号、地址……），对结构化文档逐字段进行遮蔽。
20 个可开关的检测器，按用户配置 —— 通用类（邮箱、URL、IP、MAC、 经 Luhn 校验的信用卡、IBAN mod-97 校验）、地区类（例如阿根廷的 CUIT/CUIL/CBU/DNI/地址）以及激进类（长数字、姓名序列）。
自带规则（Bring Your Own Rules） —— 上传一个包含你自己的模式/标签/保留清单的 JSON。你的正则运行在 RE2 上（线性时间 → 免疫 ReDoS），并配有严格的 JSON 解析和硬性上限。
实体传播 —— 任何被检测到一次的内容，会在每一处出现时都被遮蔽。

五种输出模式

模式	输出	用途
类型化	`<PRIVATE_PERSON>`、`<ACCOUNT_NUMBER>`……	保留可见的类别
匿名化	`<<ANOM_DATA>>`	将一切夷平
假名化	`«PERSONA_1»` + 一张 token→原值的映射表	LLM 网关 —— 脱敏 → 发送 → 在本地还原
部分遮蔽	`••••-3456`、`j•••@domain.com`	保留可用的线索 —— 不可逆
稳定哈希	`«PERSONA_7590fc»`	相同数据 → 跨文档得到相同假名 —— 不可逆

两种强度（均衡 / 严格），全部可按浏览器配置。还原映射表和你的自定义规则永远不会离开你的机器。

LLM 网关模式

假名化模式是核心所在：

用假名化转换 —— 姓名变成 «PERSONA_1»，证件号变成 «ID_2»，等等。
把安全的文本发送给任何 LLM。模型永远看不到真实数据。
把回复粘贴进还原功能 —— Escriba 会完全在你的浏览器中、用一张从未触及服务器的映射表，恢复出真实的值。

可视化涂黑

对于 PDF 和扫描图片，结果卡片提供一个**“涂黑版 PDF”下载：每一个被检测到的实体都会在页面上被涂黑**，采用真正的涂黑技术 —— apply_redactions 会移除底层文本以及每个方框下方的图像像素，使这些数据在输出文件中不复存在。PDF 的元数据也会被清除 （DocInfo + XMP），因此涂黑后的文件不会通过属性或 exiftool 泄露姓名或证件号。扫描的文档会先经过 OCR。同一套检测栈，零额外内存。