Fisherboy

任意网页，随时供你的 AI 使用。

Fisherboy 是 Escriba 家族的网页提取卫星。将它指向任意页面，即可得到干净的 Markdown 或结构化 JSON——已剔除导航与样板内容、在数据离开之前完成匿名化，可直接喂给 LLM。只有当站点反制时它才会加大力度，从一次普通的 HTTP 请求一路升级到真实浏览器，并且能够捕获单页应用已经加载的隐藏 JSON/XHR。

Fisherboy 以单个 Docker 镜像的形式可自托管。它既可作为独立服务带着自己的 Web UI 运行，也可作为 Escriba 背后的 REST + MCP 服务以无头方式运行。

适用人群

为 LLM 收集网页内容的任何人——文章、文档、商品列表、搜索结果——希望得到干净的 Markdown 而非原始 HTML。
构建者与自动化人员，通过 REST 或 MCP，从 curl、n8n、Claude Code 或 Escriba 驱动提取。
注重隐私的用户，需要在任何数据到达模型或第三方之前剥离或假名化 PII。
自托管者，希望一切都在自己的硬件上运行，配备基于角色的访问控制和经审计的安全态势。

核心功能

页面转 Markdown 或 JSON

干净的 fit_markdown（Crawl4AI），以 Trafilatura 作为回退，或通过 LLM 按 JSON Schema 进行结构化提取。

分级反封锁取数

仅在被封锁时升级：第 0 级静态 HTTP、第 1 级 TLS 指纹、第 2 级隐身浏览器、第 3 级真实浏览器。成功的级别会按域名缓存。

隐藏 API 捕获

与其与渲染后的 HTML 较劲，不如监听页面已经加载的 XHR/fetch JSON——这是抓取 SPA 和动态列表最可靠的方式。

蜘蛛与狼蛛爬取

沿内部链接深入成树、扫遍分页，并将每个节点的内容连同 API 一并捕获到数据树中。

下载一切

文件、视频（yt-dlp）、图库（gallery-dl）以及平台评论——不止于页面文本。

PII 匿名化

三种隐私模式——不透明、可逆与直接——受角色约束并采用失败即关闭策略，通过 Anonimal 提供完整 NER 或内置正则回退。

代理与 Cookie

以任意格式粘贴代理并测试你的出口 IP；粘贴 Cookie 或从本地浏览器读取它们，以访问登录后的页面。

基于角色的访问控制

三个级别——dios / angel / humano——各有独立密码与能力限制，在 REST 和 MCP 上均强制执行。

REST + MCP

从 curl、n8n、Claude Code 或 Escriba 驱动它。同一条流水线以 MCP 工具形式暴露。

快速开始

安装 Fisherboy 在 GitHub 上查看