Salta ai contenuti

Fisherboy

Qualsiasi pagina web, pronta per la tua IA.

Fisherboy è il satellite di estrazione web della famiglia Escriba. Puntalo verso qualsiasi pagina e ottieni Markdown pulito o JSON strutturato — depurato dalla navigazione e dal boilerplate, anonimizzato prima di uscire e pronto per essere passato a un LLM. Si impegna di più solo quando un sito oppone resistenza, scalando da una semplice richiesta HTTP fino a un browser reale, e può catturare il JSON/XHR nascosto che le single-page app caricano già.

Fisherboy è self-hostable come singola immagine Docker. Funziona in modalità standalone con la propria interfaccia web, oppure headless dietro Escriba come servizio REST + MCP.

  • Chiunque raccolga contenuti web per un LLM — articoli, documentazione, griglie di prodotti, risultati di ricerca — e voglia Markdown pulito invece di HTML grezzo.
  • Sviluppatori e automatori che pilotano l’estrazione da curl, n8n, Claude Code o Escriba tramite REST o MCP.
  • Utenti attenti alla privacy che hanno bisogno di eliminare o pseudonimizzare le PII prima che qualsiasi dato raggiunga un modello o una terza parte.
  • Self-hoster che vogliono far girare tutto sul proprio hardware, con accesso basato sui ruoli e una postura di sicurezza verificata.

Da pagina a Markdown o JSON

fit_markdown pulito (Crawl4AI) con fallback Trafilatura, oppure estrazione strutturata verso un JSON Schema tramite un LLM.

Fetch a livelli anti-blocco

Scala solo quando viene bloccato: livello 0 HTTP statico, livello 1 impronta TLS, livello 2 browser stealth, livello 3 browser reale. Il livello vincente viene messo in cache per dominio.

Cattura delle API nascoste

Invece di combattere contro l’HTML renderizzato, osserva il JSON XHR/fetch che la pagina carica già — il modo più affidabile per fare scraping di SPA e griglie dinamiche.

Crawl spider e tarantola

Segui i link interni in un albero, scorri la paginazione e cattura il contenuto di ogni nodo più le API in un albero di dati.

Scarica tutto

File, video (yt-dlp), gallerie (gallery-dl) e commenti delle piattaforme — oltre al solo testo della pagina.

Anonimizzazione delle PII

Tre modalità di privacy — opaca, reversibile e diretta — delimitate dal ruolo e fail-closed, con NER completo tramite Anonimal o un fallback regex integrato.

Proxy e cookie

Incolla un proxy in qualsiasi formato e testa il tuo IP di uscita; incolla i cookie o leggili dal tuo browser locale per pagine dietro un login.

Accesso basato sui ruoli

Tre livelli — dios / angel / humano — ciascuno con la propria password e limiti di capacità, applicati su REST e MCP.

REST + MCP

Pilotalo da curl, n8n, Claude Code o Escriba. La stessa pipeline è esposta come strumenti MCP.

Installa Fisherboy Vedi su GitHub