页面转 Markdown 或 JSON
干净的 fit_markdown(Crawl4AI),以 Trafilatura 作为回退,或通过 LLM 按 JSON Schema 进行结构化提取。
任意网页,随时供你的 AI 使用。
Fisherboy 是 Escriba 家族的网页提取卫星。将它指向任意页面,即可得到干净的 Markdown 或结构化 JSON——已剔除导航与样板内容、在数据离开之前完成匿名化,可直接喂给 LLM。只有当站点反制时它才会加大力度,从一次普通的 HTTP 请求一路升级到真实浏览器,并且能够捕获单页应用已经加载的隐藏 JSON/XHR。
Fisherboy 以单个 Docker 镜像的形式可自托管。它既可作为独立服务带着自己的 Web UI 运行,也可作为 Escriba 背后的 REST + MCP 服务以无头方式运行。
curl、n8n、Claude Code 或 Escriba 驱动提取。页面转 Markdown 或 JSON
干净的 fit_markdown(Crawl4AI),以 Trafilatura 作为回退,或通过 LLM 按 JSON Schema 进行结构化提取。
分级反封锁取数
仅在被封锁时升级:第 0 级静态 HTTP、第 1 级 TLS 指纹、第 2 级隐身浏览器、第 3 级真实浏览器。成功的级别会按域名缓存。
隐藏 API 捕获
与其与渲染后的 HTML 较劲,不如监听页面已经加载的 XHR/fetch JSON——这是抓取 SPA 和动态列表最可靠的方式。
蜘蛛与狼蛛爬取
沿内部链接深入成树、扫遍分页,并将每个节点的内容连同 API 一并捕获到数据树中。
下载一切
文件、视频(yt-dlp)、图库(gallery-dl)以及平台评论——不止于页面文本。
PII 匿名化
三种隐私模式——不透明、可逆与直接——受角色约束并采用失败即关闭策略,通过 Anonimal 提供完整 NER 或内置正则回退。
代理与 Cookie
以任意格式粘贴代理并测试你的出口 IP;粘贴 Cookie 或从本地浏览器读取它们,以访问登录后的页面。
基于角色的访问控制
三个级别——dios / angel / humano——各有独立密码与能力限制,在 REST 和 MCP 上均强制执行。
REST + MCP
从 curl、n8n、Claude Code 或 Escriba 驱动它。同一条流水线以 MCP 工具形式暴露。