跳转到内容

系统要求

我们先把话说在前头,这样你就不会部署完 Escriba,却因为自己的硬件而感觉它 “跑不起来”。基础应用很轻量,在一台普通的 VPS 上就能运行。 那些较重的 部分 —— 企业级 PII 脱敏,以及大模型音频转写 —— 都是可选的,只有在你 真正开启它们时才会要求更多资源。

文档转换(PDF、Word、Excel、图片,以及对普通扫描件的 OCR)既快又省。Escriba 会为每个 CPU 核心启动一个 worker,每个 worker 占用约 250 MB 内存, 因此它能适配你给它的任何主机。

最低推荐
CPU1 vCPU2 vCPU
内存2 GB4 GB
磁盘~5 GB(镜像约 3 GB)SSD 上 ~6 GB
适合个人使用、轻量文档小团队、流畅的 OCR

企业级 PII 脱敏 —— 一个可选模块

Section titled “企业级 PII 脱敏 —— 一个可选模块”

Escriba 的脱敏功能并不在主应用内运行。它存在于一个独立的、仅供内部访问 的服务 —— Anonimal —— 中,你只在需要时才挂载它。这是一项特性,而非 一种妥协:隐私引擎被隔离开来,永远不必对外暴露,而当你不需要它时,你那个 轻量的转换器依然保持轻量。

它是为严肃的、机构级的安全而打造的 —— 在那样的场景里,机密文档根本就 不能离开你的基础设施。由于它会加载一个完整的 NER 模型,所以更重一些:

启用脱敏(Escriba + Anonimal)
CPU最低 2 vCPU · 推荐 4 vCPU
内存最低 6 GB · 推荐 8 GB(模型常驻约 3 GB)
磁盘~12 GB(Anonimal 的镜像在 Escriba 之上再加约 7 GB)
适合企业、公共机构,以及任何无法使用第三方云的人

音频、视频与繁重的 OCR —— 受限于 CPU

Section titled “音频、视频与繁重的 OCR —— 受限于 CPU”

转写(Whisper)和 OCR 在内置镜像中于 CPU 上运行 —— 没有 GPU 要求,但 更大的 Whisper 模型会更慢、更耗资源。用 WHISPER_MODEL 挑选适合你硬件的 模型:

Whisper 模型额外内存(约)备注
tiny / base (默认)~1 GB速度快;在普通硬件上处理清晰语音绰绰有余
small~2 GB准确度与速度的良好平衡
medium~5 GB在 CPU 上明显更慢
large-v3~10 GB最准确;需要一台强劲的服务器,在 CPU 上较慢

只转换文档

1 vCPU · 2 GB 内存 · ~5 GB 磁盘。一台廉价 VPS 就足够了。无需脱敏服务。

加上企业级 PII 隐私

2–4 vCPU · 6–8 GB 内存 · ~12 GB 磁盘。挂载 Anonimal 模块,获得机构级的涂黑能力。

繁重的转写

4+ vCPU · 8–16 GB 内存。适用于大型 Whisper 模型和大量音视频。