什么是 Escriba?
Escriba 是通往 AI 语言的通用翻译器。 它接收任意 文档 —— 一个 PDF、一个 Word 文件、一份电子表格、一张图片、一段录音、一个网 页、一个 YouTube 链接 —— 并将其转换为干净、已脱敏的 Markdown,也就是 大语言模型读得最顺的格式。
它在一个可自托管的工具中,一举解决了给 LLM 投喂文档的三大痛点:
- 嘈杂、耗 token 的输入 → 干净、结构化的 Markdown。
- 敏感数据泄露 → 内置 PII 脱敏,并支持可逆的假名化。
- “塞得下吗?要花多少钱?” → 一个本地的 LLM 准备面板,它会统计 token、 用实时定价估算成本、检查上下文窗口适配情况,并为 RAG 分块。
它在本地运行,支持 7 种语言,基于 Microsoft MarkItDown 构建。
- 所有把文档粘贴进 ChatGPT、Claude 或 Gemini 的人,他们希望文本 干净 —— 并且在内容离开自己手中之前先剥离掉隐私部分。
- 无法将机密文件发送到第三方云的团队和机构,他们需要一个 能在自己服务器上运行的转换器。
- 构建者,他们想要一个 REST API、基于角色的访问控制,以及一个 没有多余组件的单一 Docker 镜像。
它的与众不同之处
Section titled “它的与众不同之处”- 掌控权始终留在人这一层。 Escriba 不会把你的文档发往 任何地方。它在你的机器上运行,转换后立即删除文件,并让 你来决定哪些内容能抵达模型。
- 脱敏是可逆的。 假名化 → 发送给 LLM → 在本地还原 回复。还原映射表永远不会离开你的浏览器。
- 无需 AI。 那些智能部分 —— token 计数、OCR、脱敏、成本 估算 —— 全部在本地运行。AI 严格来说是可选的。
- 快速上手 —— 用一条命令把它跑起来。
- 转换文档 —— 日常的工作流程。
- 面向 LLM 的脱敏 —— 深入了解隐私引擎。