Ir al contenido

Fisherboy

Cualquier página web, lista para tu IA.

Fisherboy es el satélite de extracción web de la familia Escriba. Apúntalo a cualquier página y obtén Markdown limpio o JSON estructurado — depurado de navegación y relleno, anonimizado antes de salir y listo para alimentar a un LLM. Solo pelea más fuerte cuando un sitio se resiste, escalando desde una petición HTTP simple hasta un navegador real, y puede capturar el JSON/XHR oculto que las aplicaciones de una sola página ya cargan.

Fisherboy es self-hosteable como una única imagen de Docker. Funciona de forma autónoma con su propia interfaz web, o headless detrás de Escriba como un servicio REST + MCP.

  • Cualquiera que recopile contenido web para un LLM — artículos, documentación, grillas de productos, resultados de búsqueda — que quiera Markdown limpio en lugar de HTML crudo.
  • Constructores y automatizadores que impulsan la extracción desde curl, n8n, Claude Code o Escriba mediante REST o MCP.
  • Usuarios preocupados por la privacidad que necesitan que se elimine o pseudonimice la PII antes de que cualquier dato llegue a un modelo o a un tercero.
  • Self-hosters que quieren que todo se ejecute en su propio hardware, con acceso basado en roles y una postura de seguridad auditada.

Página a Markdown o JSON

fit_markdown limpio (Crawl4AI) con un fallback a Trafilatura, o extracción estructurada a un JSON Schema mediante un LLM.

Fetch antibloqueo por niveles

Escala solo cuando se bloquea: nivel 0 HTTP estático, nivel 1 huella TLS, nivel 2 navegador stealth, nivel 3 navegador real. El nivel ganador se cachea por dominio.

Captura de API oculta

En lugar de pelear con el HTML renderizado, observa el JSON XHR/fetch que la página ya carga — la forma más confiable de hacer scraping de SPAs y grillas dinámicas.

Crawl araña y tarántula

Sigue enlaces internos hacia un árbol, barre la paginación y captura el contenido de cada nodo más su API en un árbol de datos.

Descarga todo

Archivos, video (yt-dlp), galerías (gallery-dl) y comentarios de plataformas — más allá del texto de la página.

Anonimización de PII

Tres modos de privacidad — opaco, reversible y directo — acotados por rol y fail-closed, con NER completo mediante Anonimal o un fallback de regex integrado.

Proxies y cookies

Pega un proxy en cualquier formato y prueba tu IP de salida; pega cookies o léelas desde tu navegador local para páginas detrás de un login.

Acceso basado en roles

Tres niveles — dios / angel / humano — cada uno con su propia contraseña y límites de capacidad, aplicados en REST y MCP.

REST + MCP

Manéjalo desde curl, n8n, Claude Code o Escriba. El mismo pipeline se expone como herramientas MCP.

Instalar Fisherboy Ver en GitHub