跳转到内容

Escriba 套件

Escriba 套件是一套自托管的开源工具,只为一项工作而生:将任何来源转化为干净、私密、可直接供模型使用的数据。每个工具单独使用都很出色——但它们的设计初衷是成为同一件乐器。

Escriba 是中枢:通用翻译器,它接收一份文档,输出干净、已匿名化、可供任何 LLM 使用的 Markdown。围绕它运行的是四个专家工具,每一个都最擅长捕获一种来源,并将其交还给中枢。

Escriba——中枢

文档、音频、视频和网页 → 干净的 Markdown,配备 PII 脱敏、OCR、转写、导出为 10 多种格式以及播客模式。

Fisherboy——网页捕获

任意 URL → Markdown 或结构化数据,配备分级抗封锁、文件/视频/图库下载以及版块爬虫。

Anonimal——隐私引擎

严肃的匿名化层:本地 ML/NER 加正则表达式,可选不可逆或可逆。各卫星均可接入它。

Fulgoria——文档数据

银行对账单、PDF 和图像 → CSV 行加可复用模板,全部在浏览器中完成。

Selega——财务管控

通过 14 项实时数值交叉核对验证财务报表,并提出合法化处理结论。

  • 自托管。 一个 Docker 镜像(或一个小型 compose 文件),运行在你自己的硬件上。你的文件绝不接触任何第三方云。
  • 开源。 MIT 或 Apache-2.0。可任由你阅读、fork 和部署。
  • 私密源于设计。 任务完成后不留存任何内容;敏感工作都在本地进行。
  • 同一种外观,七种语言。 同一套界面——English、Español、Français、Português、Italiano、中文、日本語——自动识别,可随时切换。

套件之所以感觉像一个产品,是因为每个应用都遵守两份简单的契约。

每个应用都使用同一种设计语言:默认浅色主题并提供深色模式、相同的字体排印(Inter Variable + JetBrains Mono)、采用线性图标而非表情符号,以及相同的组件——每个应用都带有自己的强调色,让你始终知道自己身在何处。

工具强调色角色
Escriba珊瑚色 #e06a3a中枢
Fisherboy海洋青绿 #0f8f6a网页捕获
Anonimal面具靛蓝 #4a4e7c隐私引擎
Fulgoria紫罗兰 #6c5cf0文档数据
Selega勃艮第红 #a8324a财务管控

任何卫星都可以把它的结果交给中枢,而无需往返服务器。它将捕获的内容以一份小型 JSON 契约写入浏览器的 sessionStorage,键为 escriba.handoff,然后打开 Escriba——后者读取它并创建一个可直接使用的条目。

{
"from": "fisherboy",
"version": 1,
"title": "Captured page",
"source": "https://example.com/article",
"mime": "text/markdown",
"content": "# Clean markdown…",
"alt": { "csv": "…optional…" },
"ts": 1719000000000
}

Anonimal 是套件中严肃匿名化的所有者——完整的 ML/NER + Privacy-Filter 引擎。为了让各卫星在独立使用时仍可用,它们也内置了一个极简的正则表达式,因此它们独立运行时绝不依赖任何外部组件。

当你将某个卫星指向 Anonimal(通过 ANONIMAL_URL 环境变量)时,它会解锁完整能力——包括姓名识别——并在 Anonimal 不可用时故障即关闭(fail closed),而非悄悄降级为正则表达式。隐私绝不会因意外而退化。

每个工具都可独立运行,但完整体验的预期拓扑是单一域名置于反向代理之后,这样每个应用都属于同源。这让设计感觉浑然一体,并让 sessionStorage 交接机制能够在整个套件中生效。