Página a Markdown o JSON
fit_markdown limpio (Crawl4AI) con un fallback a Trafilatura, o extracción estructurada a un JSON Schema mediante un LLM.
Cualquier página web, lista para tu IA.
Fisherboy es el satélite de extracción web de la familia Escriba. Apúntalo a cualquier página y obtén Markdown limpio o JSON estructurado — depurado de navegación y relleno, anonimizado antes de salir y listo para alimentar a un LLM. Solo pelea más fuerte cuando un sitio se resiste, escalando desde una petición HTTP simple hasta un navegador real, y puede capturar el JSON/XHR oculto que las aplicaciones de una sola página ya cargan.
Fisherboy es self-hosteable como una única imagen de Docker. Funciona de forma autónoma con su propia interfaz web, o headless detrás de Escriba como un servicio REST + MCP.
curl, n8n, Claude Code o Escriba mediante REST o MCP.Página a Markdown o JSON
fit_markdown limpio (Crawl4AI) con un fallback a Trafilatura, o extracción estructurada a un JSON Schema mediante un LLM.
Fetch antibloqueo por niveles
Escala solo cuando se bloquea: nivel 0 HTTP estático, nivel 1 huella TLS, nivel 2 navegador stealth, nivel 3 navegador real. El nivel ganador se cachea por dominio.
Captura de API oculta
En lugar de pelear con el HTML renderizado, observa el JSON XHR/fetch que la página ya carga — la forma más confiable de hacer scraping de SPAs y grillas dinámicas.
Crawl araña y tarántula
Sigue enlaces internos hacia un árbol, barre la paginación y captura el contenido de cada nodo más su API en un árbol de datos.
Descarga todo
Archivos, video (yt-dlp), galerías (gallery-dl) y comentarios de plataformas — más allá del texto de la página.
Anonimización de PII
Tres modos de privacidad — opaco, reversible y directo — acotados por rol y fail-closed, con NER completo mediante Anonimal o un fallback de regex integrado.
Proxies y cookies
Pega un proxy en cualquier formato y prueba tu IP de salida; pega cookies o léelas desde tu navegador local para páginas detrás de un login.
Acceso basado en roles
Tres niveles — dios / angel / humano — cada uno con su propia contraseña y límites de capacidad, aplicados en REST y MCP.
REST + MCP
Manéjalo desde curl, n8n, Claude Code o Escriba. El mismo pipeline se expone como herramientas MCP.