Fisherboy

任意のWebページを、あなたのAIにすぐ届ける。

Fisherboyは、Escriba ファミリーのWeb抽出サテライトです。任意のページを指定すれば、クリーンなMarkdownや構造化JSON が返ってきます。ナビゲーションや定型部分が取り除かれ、外部に出る前に匿名化され、LLMにそのまま渡せる状態です。サイトが抵抗してきたときだけより強く対抗し、素のHTTPリクエストから本物のブラウザまで段階的にエスカレーションします。さらに、シングルページアプリがすでに読み込んでいる 隠れたJSON/XHR を捕捉することもできます。

Fisherboyは単一のDockerイメージとして セルフホスト可能 です。独自のWeb UIを備えてスタンドアロンで動作することも、Escribaの背後で REST + MCP サービスとしてヘッドレスに動作することもできます。

対象ユーザー

LLM向けにWebコンテンツを収集するすべての人 — 記事、ドキュメント、製品グリッド、検索結果など — 生のHTMLではなくクリーンなMarkdownを求める人。
ビルダーや自動化を行う人 — curl、n8n、Claude Code、EscribaからRESTまたはMCP経由で抽出を駆動する人。
プライバシーを重視するユーザー — モデルや第三者にデータが届く前にPIIを除去または仮名化する必要がある人。
セルフホスター — すべてを自前のハードウェアで実行し、ロールベースのアクセス制御と監査済みのセキュリティ態勢を求める人。

主な機能

ページをMarkdownまたはJSONへ

クリーンな fit_markdown（Crawl4AI）とTrafilaturaフォールバック、またはLLMによるJSON Schemaへの構造化抽出。

段階的なブロック回避フェッチ

ブロックされたときだけエスカレーション：tier 0 静的HTTP、tier 1 TLSフィンガープリント、tier 2 ステルスブラウザ、tier 3 本物のブラウザ。成功したtierはドメインごとにキャッシュされます。

隠れたAPIの捕捉

レンダリングされたHTMLと戦う代わりに、ページがすでに読み込んでいるXHR/fetchのJSONを監視します。SPAや動的グリッドをスクレイピングする最も確実な方法です。

スパイダー＆タランチュラクロール

内部リンクをツリー状にたどり、ページネーションを一掃し、各ノードのコンテンツとAPIをデータツリーに捕捉します。

あらゆるものをダウンロード

ファイル、動画（yt-dlp）、ギャラリー（gallery-dl）、プラットフォームのコメントまで — ページのテキストだけにとどまりません。

PII匿名化

3つのプライバシーモード — opaque、reversible、direct — はロールによって制限され、フェイルクローズで動作し、Anonimalによる完全なNERまたは組み込みの正規表現フォールバックを備えます。

プロキシ＆クッキー

任意の形式でプロキシを貼り付けて出口IPをテストできます。ログインの背後にあるページのために、クッキーを貼り付けたりローカルブラウザから読み取ったりできます。

ロールベースのアクセス

3つのレベル — dios / angel / humano — それぞれに独自のパスワードと機能制限があり、RESTとMCPの両方で適用されます。

REST + MCP

curl、n8n、Claude Code、Escribaから駆動できます。同じパイプラインがMCPツールとして公開されています。

はじめる

Fisherboyをインストール GitHubで見る