Da pagina a Markdown o JSON
fit_markdown pulito (Crawl4AI) con fallback Trafilatura, oppure estrazione strutturata verso un JSON Schema tramite un LLM.
Qualsiasi pagina web, pronta per la tua IA.
Fisherboy è il satellite di estrazione web della famiglia Escriba. Puntalo verso qualsiasi pagina e ottieni Markdown pulito o JSON strutturato — depurato dalla navigazione e dal boilerplate, anonimizzato prima di uscire e pronto per essere passato a un LLM. Si impegna di più solo quando un sito oppone resistenza, scalando da una semplice richiesta HTTP fino a un browser reale, e può catturare il JSON/XHR nascosto che le single-page app caricano già.
Fisherboy è self-hostable come singola immagine Docker. Funziona in modalità standalone con la propria interfaccia web, oppure headless dietro Escriba come servizio REST + MCP.
curl, n8n, Claude Code o Escriba tramite REST o MCP.Da pagina a Markdown o JSON
fit_markdown pulito (Crawl4AI) con fallback Trafilatura, oppure estrazione strutturata verso un JSON Schema tramite un LLM.
Fetch a livelli anti-blocco
Scala solo quando viene bloccato: livello 0 HTTP statico, livello 1 impronta TLS, livello 2 browser stealth, livello 3 browser reale. Il livello vincente viene messo in cache per dominio.
Cattura delle API nascoste
Invece di combattere contro l’HTML renderizzato, osserva il JSON XHR/fetch che la pagina carica già — il modo più affidabile per fare scraping di SPA e griglie dinamiche.
Crawl spider e tarantola
Segui i link interni in un albero, scorri la paginazione e cattura il contenuto di ogni nodo più le API in un albero di dati.
Scarica tutto
File, video (yt-dlp), gallerie (gallery-dl) e commenti delle piattaforme — oltre al solo testo della pagina.
Anonimizzazione delle PII
Tre modalità di privacy — opaca, reversibile e diretta — delimitate dal ruolo e fail-closed, con NER completo tramite Anonimal o un fallback regex integrato.
Proxy e cookie
Incolla un proxy in qualsiasi formato e testa il tuo IP di uscita; incolla i cookie o leggili dal tuo browser locale per pagine dietro un login.
Accesso basato sui ruoli
Tre livelli — dios / angel / humano — ciascuno con la propria password e limiti di capacità, applicati su REST e MCP.
REST + MCP
Pilotalo da curl, n8n, Claude Code o Escriba. La stessa pipeline è esposta come strumenti MCP.