Escriba——中枢
文档、音频、视频和网页 → 干净的 Markdown,配备 PII 脱敏、OCR、转写、导出为 10 多种格式以及播客模式。
Escriba 套件是一套自托管的开源工具,只为一项工作而生:将任何来源转化为干净、私密、可直接供模型使用的数据。每个工具单独使用都很出色——但它们的设计初衷是成为同一件乐器。
Escriba 是中枢:通用翻译器,它接收一份文档,输出干净、已匿名化、可供任何 LLM 使用的 Markdown。围绕它运行的是四个专家工具,每一个都最擅长捕获一种来源,并将其交还给中枢。
Escriba——中枢
文档、音频、视频和网页 → 干净的 Markdown,配备 PII 脱敏、OCR、转写、导出为 10 多种格式以及播客模式。
Fisherboy——网页捕获
任意 URL → Markdown 或结构化数据,配备分级抗封锁、文件/视频/图库下载以及版块爬虫。
Anonimal——隐私引擎
严肃的匿名化层:本地 ML/NER 加正则表达式,可选不可逆或可逆。各卫星均可接入它。
Fulgoria——文档数据
银行对账单、PDF 和图像 → CSV 行加可复用模板,全部在浏览器中完成。
Selega——财务管控
通过 14 项实时数值交叉核对验证财务报表,并提出合法化处理结论。
套件之所以感觉像一个产品,是因为每个应用都遵守两份简单的契约。
每个应用都使用同一种设计语言:默认浅色主题并提供深色模式、相同的字体排印(Inter Variable + JetBrains Mono)、采用线性图标而非表情符号,以及相同的组件——每个应用都带有自己的强调色,让你始终知道自己身在何处。
| 工具 | 强调色 | 角色 |
|---|---|---|
| Escriba | 珊瑚色 #e06a3a | 中枢 |
| Fisherboy | 海洋青绿 #0f8f6a | 网页捕获 |
| Anonimal | 面具靛蓝 #4a4e7c | 隐私引擎 |
| Fulgoria | 紫罗兰 #6c5cf0 | 文档数据 |
| Selega | 勃艮第红 #a8324a | 财务管控 |
任何卫星都可以把它的结果交给中枢,而无需往返服务器。它将捕获的内容以一份小型 JSON 契约写入浏览器的 sessionStorage,键为 escriba.handoff,然后打开 Escriba——后者读取它并创建一个可直接使用的条目。
{ "from": "fisherboy", "version": 1, "title": "Captured page", "source": "https://example.com/article", "mime": "text/markdown", "content": "# Clean markdown…", "alt": { "csv": "…optional…" }, "ts": 1719000000000}Anonimal 是套件中严肃匿名化的所有者——完整的 ML/NER + Privacy-Filter 引擎。为了让各卫星在独立使用时仍可用,它们也内置了一个极简的正则表达式,因此它们独立运行时绝不依赖任何外部组件。
当你将某个卫星指向 Anonimal(通过 ANONIMAL_URL 环境变量)时,它会解锁完整能力——包括姓名识别——并在 Anonimal 不可用时故障即关闭(fail closed),而非悄悄降级为正则表达式。隐私绝不会因意外而退化。
每个工具都可独立运行,但完整体验的预期拓扑是单一域名置于反向代理之后,这样每个应用都属于同源。这让设计感觉浑然一体,并让 sessionStorage 交接机制能够在整个套件中生效。