跳转到内容

什么是 Escriba？

Escriba 是通往 AI 语言的通用翻译器。 它接收任意文档 —— 一个 PDF、一个 Word 文件、一份电子表格、一张图片、一段录音、一个网页、一个 YouTube 链接 —— 并将其转换为干净、已脱敏的 Markdown，也就是大语言模型读得最顺的格式。

它在一个可自托管的工具中，一举解决了给 LLM 投喂文档的三大痛点：

嘈杂、耗 token 的输入 → 干净、结构化的 Markdown。
敏感数据泄露 → 内置 PII 脱敏，并支持可逆的假名化。
“塞得下吗？要花多少钱？” → 一个本地的 LLM 准备面板，它会统计 token、用实时定价估算成本、检查上下文窗口适配情况，并为 RAG 分块。

它在本地运行，支持 7 种语言，基于 Microsoft MarkItDown 构建。

它适合谁

所有把文档粘贴进 ChatGPT、Claude 或 Gemini 的人，他们希望文本干净 —— 并且在内容离开自己手中之前先剥离掉隐私部分。
无法将机密文件发送到第三方云的团队和机构，他们需要一个能在自己服务器上运行的转换器。
构建者，他们想要一个 REST API、基于角色的访问控制，以及一个没有多余组件的单一 Docker 镜像。

它的与众不同之处

掌控权始终留在人这一层。 Escriba 不会把你的文档发往任何地方。它在你的机器上运行，转换后立即删除文件，并让你来决定哪些内容能抵达模型。
脱敏是可逆的。 假名化 → 发送给 LLM → 在本地还原回复。还原映射表永远不会离开你的浏览器。
无需 AI。 那些智能部分 —— token 计数、OCR、脱敏、成本估算 —— 全部在本地运行。AI 严格来说是可选的。

后续步骤

快速上手 —— 用一条命令把它跑起来。
转换文档 —— 日常的工作流程。
面向 LLM 的脱敏 —— 深入了解隐私引擎。