Pular para o conteúdo

Fisherboy

Qualquer página web, pronta para a sua IA.

O Fisherboy é o satélite de extração web da família Escriba. Aponte-o para qualquer página e receba de volta Markdown limpo ou JSON estruturado — depurado de navegação e conteúdo supérfluo, anonimizado antes de sair e pronto para alimentar um LLM. Ele só luta com mais empenho quando um site reage, escalando de uma simples requisição HTTP até um navegador real, e consegue capturar o JSON/XHR oculto que as aplicações de página única já carregam.

O Fisherboy é self-hostable como uma única imagem Docker. Ele roda de forma autônoma com sua própria interface web, ou headless por trás do Escriba como um serviço REST + MCP.

  • Qualquer pessoa que colete conteúdo web para um LLM — artigos, documentação, grades de produtos, resultados de busca — e que queira Markdown limpo em vez de HTML cru.
  • Construtores e automatizadores que conduzem a extração a partir de curl, n8n, Claude Code ou Escriba via REST ou MCP.
  • Usuários preocupados com privacidade que precisam remover ou pseudonimizar PII antes que qualquer dado chegue a um modelo ou a terceiros.
  • Self-hosters que querem que tudo rode no próprio hardware, com acesso baseado em papéis e uma postura de segurança auditada.

Página para Markdown ou JSON

fit_markdown limpo (Crawl4AI) com fallback de Trafilatura, ou extração estruturada para um JSON Schema via um LLM.

Busca anti-bloqueio em camadas

Escala somente quando bloqueado: camada 0 HTTP estático, camada 1 fingerprint TLS, camada 2 navegador stealth, camada 3 navegador real. A camada vencedora é cacheada por domínio.

Captura de API oculta

Em vez de lutar com o HTML renderizado, observe o JSON de XHR/fetch que a página já carrega — a forma mais confiável de fazer scraping de SPAs e grades dinâmicas.

Crawl spider e tarântula

Siga links internos formando uma árvore, varra a paginação e capture o conteúdo de cada nó mais sua API em uma árvore de dados.

Baixe tudo

Arquivos, vídeo (yt-dlp), galerias (gallery-dl) e comentários de plataformas — além do mero texto da página.

Anonimização de PII

Três modos de privacidade — opaco, reversível e direto — limitados por papel e fail-closed, com NER completo via Anonimal ou um fallback de regex embutido.

Proxies e cookies

Cole um proxy em qualquer formato e teste o seu IP de saída; cole cookies ou leia-os do seu navegador local para páginas atrás de um login.

Acesso baseado em papéis

Três níveis — dios / angel / humano — cada um com sua própria senha e limites de capacidade, aplicados em REST e MCP.

REST + MCP

Conduza-o a partir de curl, n8n, Claude Code ou Escriba. O mesmo pipeline é exposto como ferramentas MCP.

Instalar o Fisherboy Ver no GitHub