跳转到内容

什么是 Escriba?

Escriba 是通往 AI 语言的通用翻译器。 它接收任意 文档 —— 一个 PDF、一个 Word 文件、一份电子表格、一张图片、一段录音、一个网 页、一个 YouTube 链接 —— 并将其转换为干净、已脱敏的 Markdown,也就是 大语言模型读得最顺的格式。

它在一个可自托管的工具中,一举解决了给 LLM 投喂文档的三大痛点:

  • 嘈杂、耗 token 的输入 → 干净、结构化的 Markdown。
  • 敏感数据泄露 → 内置 PII 脱敏,并支持可逆的假名化。
  • “塞得下吗?要花多少钱?” → 一个本地的 LLM 准备面板,它会统计 token、 用实时定价估算成本、检查上下文窗口适配情况,并为 RAG 分块。

它在本地运行,支持 7 种语言,基于 Microsoft MarkItDown 构建。

  • 所有把文档粘贴进 ChatGPT、Claude 或 Gemini 的人,他们希望文本 干净 —— 并且在内容离开自己手中之前先剥离掉隐私部分。
  • 无法将机密文件发送到第三方云的团队和机构,他们需要一个 能在自己服务器上运行的转换器。
  • 构建者,他们想要一个 REST API、基于角色的访问控制,以及一个 没有多余组件的单一 Docker 镜像。
  • 掌控权始终留在人这一层。 Escriba 不会把你的文档发往 任何地方。它在你的机器上运行,转换后立即删除文件,并让 来决定哪些内容能抵达模型。
  • 脱敏是可逆的。 假名化 → 发送给 LLM → 在本地还原 回复。还原映射表永远不会离开你的浏览器。
  • 无需 AI。 那些智能部分 —— token 计数、OCR、脱敏、成本 估算 —— 全部在本地运行。AI 严格来说是可选的。