Sobre qué corre Escriba

Escriba es la unión entre excelentes proyectos de código abierto. La transparencia total importa más que parecer ingenioso, así que aquí está exactamente lo que corre por dentro, qué hace cada pieza y cuándo —si es que alguna vez— Escriba accede a la red.

Los motores

Qué hace	Proyecto	Licencia
Conversión central de documentos → Markdown	Microsoft MarkItDown	MIT
Framework web / API	FastAPI · Uvicorn	MIT / BSD
Análisis de PDF, selección de páginas y censura real	PyMuPDF	AGPL-3.0 / comercial
Extracción avanzada de la estructura del PDF (opcional)	OpenDataLoader PDF	código abierto
OCR para imágenes y PDF escaneados	Tesseract + OCRmyPDF	Apache-2.0 / MPL-2.0
Transcripción de audio y video	faster-whisper (OpenAI Whisper)	MIT
Texto → audio (voces locales)	Piper	MIT
Páginas web y transcripciones de YouTube	yt-dlp	Unlicense
Detección de PII (el motor de anonimización)	OpenAI Privacy Filter	Apache-2.0
Reglas regex seguras definidas por el usuario	google-re2	BSD-3
Conteo de tokens	tiktoken	MIT
Fragmentación para RAG	semchunk	MIT
Exportación a 10 formatos	Pandoc	GPL-2.0+
Precios por modelo en tiempo real	OpenRouter (API pública)	—
Limitación de tasa	Redis embebido	—
Saneamiento del HTML de la vista previa (en su navegador)	DOMPurify	Apache-2.0 / MPL-2.0

Licencia — Escriba es MIT

El código fuente propio de Escriba se publica bajo la Licencia MIT, una de las licencias más permisivas que existen. En términos sencillos:

Lo que usted puede hacer

Usarlo para lo que quiera, incluido el uso comercial.
Modificar el código fuente y adaptarlo a sus necesidades.
Distribuirlo y redistribuir sus versiones modificadas.
Usarlo de forma privada y sublicenciarlo dentro de su propio producto.

Lo que usted tiene que hacer

Conservar el aviso de copyright y el texto de la licencia originales en las copias del código fuente.

Lo que no está cubierto

Se ofrece «tal cual», sin garantía — el autor no se hace responsable del uso que se le dé.

Modelos de transcripción (Whisper)

La transcripción usa faster-whisper, un entorno de ejecución optimizado para el Whisper de OpenAI. Usted elige el tamaño del modelo con WHISPER_MODEL — tiny, base (predeterminado), small, medium o large-v3. Los modelos más grandes son más precisos pero más pesados y lentos en CPU; consulte los Requisitos del sistema para saber qué necesita cada uno.

Sobre el motor de anonimización

El motor de PII está construido sobre el OpenAI Privacy Filter (OPF, Apache-2.0), un modelo de NER que detecta nombres, organizaciones, ubicaciones y más. Escriba lo envuelve con lectura de campos de facturas consciente de la estructura, detectores validados (Luhn para tarjetas de crédito, IBAN mod-97) y sus propias reglas corriendo sobre el motor RE2 de Google (tiempo lineal, a prueba de ReDoS).

¿Cuándo se comunica Escriba con internet?

Por diseño, la conversión, el OCR, la transcripción y la anonimización corren todos localmente en su servidor. Los archivos subidos se eliminan justo después de la conversión y no se almacena nada. Las únicas veces que Escriba hace una solicitud saliente son estas —todas iniciadas por el usuario u opcionales:

Usted convierte una URL o un enlace de YouTube. Escriba obtiene esa página/transcripción (vía yt-dlp). Obviamente.
Usted habilita un proveedor de IA. Solo entonces el texto va al proveedor que usted eligió (OpenAI, Gemini u OpenRouter). El valor predeterminado es Sin IA, y no se envía nada.
Precios de modelos en tiempo real. El panel de LLM obtiene la lista de precios/contexto desde OpenRouter — un catálogo público sin datos de documentos en la solicitud. Se almacena en caché, y la función simplemente no muestra nada si no hay conexión.
Descarga de modelos en la primera ejecución. Los modelos de Whisper y de NER se descargan una vez (o vienen pre-incorporados en la imagen) y luego corren completamente sin conexión.

Esa es la lista completa. Sus documentos en sí nunca salen de su máquina a menos que usted apunte explícitamente Escriba hacia un proveedor de IA externo.