面向 LLM 的脱敏
Escriba 可以在文本抵达 LLM 之前剥离或替换个人数据 ——
之后再把它放回去。重型的 NER 模型运行在一个独立的、仅供内部访问的服务
(Anonimal,内置了 OpenAI Privacy Filter)中,
通过将 ANONIMAL_URL 指向它来启用。
天生为高召回率而设计 —— 多个检测器层层叠加:
- NER 模型 —— 姓名、组织、地点、日期。
- 版式感知的发票字段 —— 按 PDF 坐标读取标签 → 值 (公司名称、税号、地址……),对结构化文档逐字段进行遮蔽。
- 20 个可开关的检测器,按用户配置 —— 通用类(邮箱、URL、IP、MAC、 经 Luhn 校验的信用卡、IBAN mod-97 校验)、地区类(例如阿根廷的 CUIT/CUIL/CBU/DNI/地址)以及激进类(长数字、姓名序列)。
- 自带规则(Bring Your Own Rules) —— 上传一个包含你自己的模式/标签/保留清单的 JSON。 你的正则运行在 RE2 上(线性时间 → 免疫 ReDoS),并配有严格的 JSON 解析 和硬性上限。
- 实体传播 —— 任何被检测到一次的内容,会在每一处出现时都被遮蔽。
五种输出模式
Section titled “五种输出模式”| 模式 | 输出 | 用途 |
|---|---|---|
| 类型化 | <PRIVATE_PERSON>、<ACCOUNT_NUMBER>…… | 保留可见的类别 |
| 匿名化 | <<ANOM_DATA>> | 将一切夷平 |
| 假名化 | «PERSONA_1» + 一张 token→原值 的映射表 | LLM 网关 —— 脱敏 → 发送 → 在本地还原 |
| 部分遮蔽 | ••••-3456、j•••@domain.com | 保留可用的线索 —— 不可逆 |
| 稳定哈希 | «PERSONA_7590fc» | 相同数据 → 跨文档得到相同假名 —— 不可逆 |
两种强度(均衡 / 严格),全部可按浏览器配置。 还原映射表和你的自定义规则永远不会离开你的机器。
LLM 网关模式
Section titled “LLM 网关模式”假名化模式是核心所在:
- 用假名化转换 —— 姓名变成
«PERSONA_1»,证件号变成«ID_2»,等等。 - 把安全的文本发送给任何 LLM。模型永远看不到真实数据。
- 把回复粘贴进还原功能 —— Escriba 会完全在你的浏览器中、 用一张从未触及服务器的映射表,恢复出真实的值。
对于 PDF 和扫描图片,结果卡片提供一个**“涂黑版 PDF”下载:
每一个被检测到的实体都会在页面上被涂黑**,采用真正的涂黑技术 ——
apply_redactions 会移除底层文本以及每个方框下方的图像像素,
使这些数据在输出文件中不复存在。PDF 的元数据也会被清除
(DocInfo + XMP),因此涂黑后的文件不会通过属性或
exiftool 泄露姓名或证件号。扫描的文档会先经过 OCR。同一套检测栈,零额外内存。