跳转到内容

Fisherboy

任意网页,随时供你的 AI 使用。

Fisherboy 是 Escriba 家族的网页提取卫星。将它指向任意页面,即可得到干净的 Markdown 或结构化 JSON——已剔除导航与样板内容、在数据离开之前完成匿名化,可直接喂给 LLM。只有当站点反制时它才会加大力度,从一次普通的 HTTP 请求一路升级到真实浏览器,并且能够捕获单页应用已经加载的隐藏 JSON/XHR

Fisherboy 以单个 Docker 镜像的形式可自托管。它既可作为独立服务带着自己的 Web UI 运行,也可作为 Escriba 背后的 REST + MCP 服务以无头方式运行。

  • 为 LLM 收集网页内容的任何人——文章、文档、商品列表、搜索结果——希望得到干净的 Markdown 而非原始 HTML。
  • 构建者与自动化人员,通过 REST 或 MCP,从 curl、n8n、Claude Code 或 Escriba 驱动提取。
  • 注重隐私的用户,需要在任何数据到达模型或第三方之前剥离或假名化 PII。
  • 自托管者,希望一切都在自己的硬件上运行,配备基于角色的访问控制和经审计的安全态势。

页面转 Markdown 或 JSON

干净的 fit_markdown(Crawl4AI),以 Trafilatura 作为回退,或通过 LLM 按 JSON Schema 进行结构化提取。

分级反封锁取数

仅在被封锁时升级:第 0 级静态 HTTP、第 1 级 TLS 指纹、第 2 级隐身浏览器、第 3 级真实浏览器。成功的级别会按域名缓存。

隐藏 API 捕获

与其与渲染后的 HTML 较劲,不如监听页面已经加载的 XHR/fetch JSON——这是抓取 SPA 和动态列表最可靠的方式。

蜘蛛与狼蛛爬取

沿内部链接深入成树、扫遍分页,并将每个节点的内容连同 API 一并捕获到数据树中。

下载一切

文件、视频(yt-dlp)、图库(gallery-dl)以及平台评论——不止于页面文本。

PII 匿名化

三种隐私模式——不透明、可逆与直接——受角色约束并采用失败即关闭策略,通过 Anonimal 提供完整 NER 或内置正则回退。

代理与 Cookie

以任意格式粘贴代理并测试你的出口 IP;粘贴 Cookie 或从本地浏览器读取它们,以访问登录后的页面。

基于角色的访问控制

三个级别——dios / angel / humano——各有独立密码与能力限制,在 REST 和 MCP 上均强制执行。

REST + MCP

curl、n8n、Claude Code 或 Escriba 驱动它。同一条流水线以 MCP 工具形式暴露。

安装 Fisherboy 在 GitHub 上查看