Aller au contenu

Fisherboy

N’importe quelle page web, prête pour votre IA.

Fisherboy est le satellite d’extraction web de la famille Escriba. Pointez-le vers n’importe quelle page et récupérez du Markdown propre ou du JSON structuré — débarrassé de la navigation et du contenu superflu, anonymisé avant qu’il ne sorte, et prêt à être transmis à un LLM. Il ne redouble d’efforts que lorsqu’un site se défend, en passant d’une simple requête HTTP jusqu’à un véritable navigateur, et il peut capturer le JSON/XHR caché que les applications monopages chargent déjà.

Fisherboy est auto-hébergeable sous la forme d’une unique image Docker. Il fonctionne de manière autonome avec sa propre interface web, ou sans interface derrière Escriba en tant que service REST + MCP.

  • Quiconque collecte du contenu web pour un LLM — articles, documentation, grilles de produits, résultats de recherche — et souhaite du Markdown propre plutôt que du HTML brut.
  • Développeurs et automaticiens qui pilotent l’extraction depuis curl, n8n, Claude Code ou Escriba via REST ou MCP.
  • Utilisateurs soucieux de leur vie privée qui doivent supprimer ou pseudonymiser les données personnelles avant que la moindre donnée n’atteigne un modèle ou un tiers.
  • Auto-hébergeurs qui veulent que tout s’exécute sur leur propre matériel, avec un contrôle d’accès par rôle et une posture de sécurité auditée.

De la page au Markdown ou au JSON

fit_markdown propre (Crawl4AI) avec une solution de repli Trafilatura, ou extraction structurée vers un JSON Schema via un LLM.

Récupération anti-blocage à plusieurs niveaux

Ne monte en puissance que lorsqu’il est bloqué : niveau 0 HTTP statique, niveau 1 empreinte TLS, niveau 2 navigateur furtif, niveau 3 véritable navigateur. Le niveau gagnant est mis en cache par domaine.

Capture d'API cachée

Au lieu de lutter contre le HTML rendu, surveillez le JSON XHR/fetch que la page charge déjà — la manière la plus fiable de scraper les SPA et les grilles dynamiques.

Exploration spider & tarentule

Suivez les liens internes pour former un arbre, balayez la pagination, et capturez le contenu de chaque nœud ainsi que son API dans un arbre de données.

Tout télécharger

Fichiers, vidéos (yt-dlp), galeries (gallery-dl) et commentaires de plateformes — au-delà du simple texte de la page.

Anonymisation des données personnelles

Trois modes de confidentialité — opaque, réversible et direct — bornés par le rôle et fail-closed, avec une reconnaissance d’entités nommées complète via Anonimal ou une solution de repli regex intégrée.

Proxys & cookies

Collez un proxy dans n’importe quel format et testez votre IP de sortie ; collez des cookies ou lisez-les depuis votre navigateur local pour les pages derrière une authentification.

Contrôle d'accès par rôle

Trois niveaux — dios / angel / humano — chacun avec son propre mot de passe et ses limites de capacités, appliqués sur REST et MCP.

REST + MCP

Pilotez-le depuis curl, n8n, Claude Code ou Escriba. Le même pipeline est exposé en tant qu’outils MCP.

Installer Fisherboy Voir sur GitHub