Aller au contenu

Prérequis système

Soyons honnêtes d’emblée, pour que vous ne déployiez jamais Escriba en ayant l’impression que « ça ne marche pas » à cause de votre matériel. L’application de base est légère et tourne sur un VPS modeste. Les parties lourdes — l’anonymisation des PII de niveau entreprise et la transcription audio par grands modèles — sont optionnelles et n’exigent davantage que lorsque vous les activez réellement.

L’application de base — légère par conception

Section intitulée « L’application de base — légère par conception »

La conversion de documents (PDF, Word, Excel, images, OCR pour les scans normaux) est rapide et frugale. Escriba lance un worker par cœur CPU, et chaque worker utilise ~250 Mo de RAM, de sorte qu’il s’adapte à l’hôte que vous lui fournissez.

MinimumRecommandé
CPU1 vCPU2 vCPU
RAM2 Go4 Go
Disque~5 Go (l’image fait ~3 Go)~6 Go sur SSD
Idéal pourUsage personnel, documents légersUne petite équipe, un OCR fluide

Anonymisation des PII de niveau entreprise — un module optionnel

Section intitulée « Anonymisation des PII de niveau entreprise — un module optionnel »

L’anonymisation d’Escriba ne s’exécute pas à l’intérieur de l’application principale. Elle vit dans un service séparé, à usage interne uniquement — Anonimal — que vous montez seulement si vous en avez besoin. C’est une fonctionnalité, pas un compromis : le moteur de confidentialité est isolé, il n’a jamais besoin d’être exposé, et votre convertisseur léger reste léger lorsque vous n’en avez pas besoin.

Il est conçu pour une sécurité institutionnelle sérieuse — le type de contexte où des documents confidentiels ne peuvent tout simplement pas quitter votre infrastructure. Comme il charge un modèle NER complet, il est plus lourd :

Avec anonymisation (Escriba + Anonimal)
CPU2 vCPU min · 4 vCPU recommandés
RAM6 Go min · 8 Go recommandés (le modèle occupe ~3 Go en mémoire résidente)
Disque~12 Go (l’image d’Anonimal fait ~7 Go en plus de celle d’Escriba)
Idéal pourEntreprises, organismes publics, quiconque ne peut pas utiliser un cloud tiers

La transcription (Whisper) et l’OCR s’exécutent sur le CPU dans l’image fournie — aucun GPU n’est requis, mais les plus gros modèles Whisper sont plus lents et plus gourmands. Choisissez le modèle adapté à votre matériel avec WHISPER_MODEL :

Modèle WhisperRAM supplémentaire (approx.)Remarques
tiny / base (par défaut)~1 GoRapide ; convient à une parole claire sur du matériel modeste
small~2 GoUn bon compromis précision/vitesse
medium~5 GoNettement plus lent sur CPU
large-v3~10 GoLe plus précis ; nécessite un serveur puissant, lent sur CPU

Juste convertir des documents

1 vCPU · 2 Go de RAM · ~5 Go de disque. Un VPS bon marché suffit largement. Aucun service d’anonymisation requis.

Ajouter la confidentialité des PII de niveau entreprise

2–4 vCPU · 6–8 Go de RAM · ~12 Go de disque. Montez le module Anonimal pour un caviardage de qualité institutionnelle.

Transcription lourde

4+ vCPU · 8–16 Go de RAM. Pour les grands modèles Whisper et de gros volumes d’audio/vidéo.