De la page au Markdown ou au JSON
fit_markdown propre (Crawl4AI) avec une solution de repli Trafilatura, ou extraction structurée vers un JSON Schema via un LLM.
N’importe quelle page web, prête pour votre IA.
Fisherboy est le satellite d’extraction web de la famille Escriba. Pointez-le vers n’importe quelle page et récupérez du Markdown propre ou du JSON structuré — débarrassé de la navigation et du contenu superflu, anonymisé avant qu’il ne sorte, et prêt à être transmis à un LLM. Il ne redouble d’efforts que lorsqu’un site se défend, en passant d’une simple requête HTTP jusqu’à un véritable navigateur, et il peut capturer le JSON/XHR caché que les applications monopages chargent déjà.
Fisherboy est auto-hébergeable sous la forme d’une unique image Docker. Il fonctionne de manière autonome avec sa propre interface web, ou sans interface derrière Escriba en tant que service REST + MCP.
curl, n8n, Claude Code ou Escriba via REST ou MCP.De la page au Markdown ou au JSON
fit_markdown propre (Crawl4AI) avec une solution de repli Trafilatura, ou extraction structurée vers un JSON Schema via un LLM.
Récupération anti-blocage à plusieurs niveaux
Ne monte en puissance que lorsqu’il est bloqué : niveau 0 HTTP statique, niveau 1 empreinte TLS, niveau 2 navigateur furtif, niveau 3 véritable navigateur. Le niveau gagnant est mis en cache par domaine.
Capture d'API cachée
Au lieu de lutter contre le HTML rendu, surveillez le JSON XHR/fetch que la page charge déjà — la manière la plus fiable de scraper les SPA et les grilles dynamiques.
Exploration spider & tarentule
Suivez les liens internes pour former un arbre, balayez la pagination, et capturez le contenu de chaque nœud ainsi que son API dans un arbre de données.
Tout télécharger
Fichiers, vidéos (yt-dlp), galeries (gallery-dl) et commentaires de plateformes — au-delà du simple texte de la page.
Anonymisation des données personnelles
Trois modes de confidentialité — opaque, réversible et direct — bornés par le rôle et fail-closed, avec une reconnaissance d’entités nommées complète via Anonimal ou une solution de repli regex intégrée.
Proxys & cookies
Collez un proxy dans n’importe quel format et testez votre IP de sortie ; collez des cookies ou lisez-les depuis votre navigateur local pour les pages derrière une authentification.
Contrôle d'accès par rôle
Trois niveaux — dios / angel / humano — chacun avec son propre mot de passe et ses limites de capacités, appliqués sur REST et MCP.
REST + MCP
Pilotez-le depuis curl, n8n, Claude Code ou Escriba. Le même pipeline est exposé en tant qu’outils MCP.