ドキュメントを変換するだけ
1 vCPU・2 GB RAM・約 5 GB ディスク。安価な VPS で十分。匿名化サービスは不要です。
最初に正直にお伝えします。だから、Escriba をデプロイしてからハードウェアのせいで「動かない」と感じることは決してありません。ベースのアプリは軽量で、控えめな VPS でも動きます。 重い部分 — エンタープライズ向け PII 匿名化と、大型モデルでの音声文字起こし — は 任意 であり、実際にオンにしたときだけ、より多くを求めます。
ドキュメント変換(PDF、Word、Excel、画像、通常のスキャンに対する OCR)は高速かつ省資源です。Escriba は CPU コアごとに 1 つのワーカー を起動し、各ワーカーが使う RAM は 約 250 MB なので、与えられたホストに合わせて適応します。
| 最小 | 推奨 | |
|---|---|---|
| CPU | 1 vCPU | 2 vCPU |
| RAM | 2 GB | 4 GB |
| ディスク | 約 5 GB(イメージは約 3 GB) | SSD 上に約 6 GB |
| 適した用途 | 個人利用、軽いドキュメント | 小さなチーム、スムーズな OCR |
Escriba の匿名化は、メインのアプリの中では動作しません。それは 内部専用の独立したサービス — Anonimal に存在し、必要なときだけ マウントします。これは妥協ではなく、ひとつの特長です。プライバシーエンジンが分離されているので、外部に公開する必要は決してなく、必要のないときには軽量なコンバーターが軽量なままでいられます。
これは、機密文書がそもそもインフラの外に出てはならないような場面 — つまり 本格的な、組織レベルのセキュリティ のために作られています。完全な NER モデルを読み込むため、より重くなります。
| 匿名化あり(Escriba + Anonimal) | |
|---|---|
| CPU | 最小 2 vCPU・推奨 4 vCPU |
| RAM | 最小 6 GB・推奨 8 GB(モデルが約 3 GB を常駐保持) |
| ディスク | 約 12 GB(Anonimal のイメージは Escriba に加えて約 7 GB) |
| 適した用途 | 企業、公的機関、サードパーティのクラウドを使えないあらゆる人 |
文字起こし(Whisper)と OCR は、同梱イメージの中で CPU 上で 動作します。GPU は不要ですが、大きな Whisper モデルほど遅く、より多くを消費します。WHISPER_MODEL で、ハードウェアに合うモデルを選んでください。
| Whisper モデル | 追加 RAM(概算) | 備考 |
|---|---|---|
tiny / base (デフォルト) | 約 1 GB | 高速。控えめなハードウェアでも、明瞭な音声なら十分 |
small | 約 2 GB | 精度と速度のよいバランス |
medium | 約 5 GB | CPU では明らかに遅くなる |
large-v3 | 約 10 GB | 最も高精度。強力なサーバーが必要で、CPU では遅い |
ドキュメントを変換するだけ
1 vCPU・2 GB RAM・約 5 GB ディスク。安価な VPS で十分。匿名化サービスは不要です。
エンタープライズ向け PII プライバシーを追加
2〜4 vCPU・6〜8 GB RAM・約 12 GB ディスク。組織レベルの墨消しのために Anonimal モジュールをマウントします。
重い文字起こし
4 以上の vCPU・8〜16 GB RAM。大きな Whisper モデルや大量の音声・動画向け。