コンテンツにスキップ

Fisherboy

任意のWebページを、あなたのAIにすぐ届ける。

Fisherboyは、Escriba ファミリーのWeb抽出サテライトです。 任意のページを指定すれば、クリーンなMarkdownや構造化JSON が返ってきます。ナビゲーションや定型部分が 取り除かれ、外部に出る前に匿名化され、LLMにそのまま渡せる状態です。サイトが抵抗してきたときだけより強く 対抗し、素のHTTPリクエストから本物のブラウザまで段階的にエスカレーションします。さらに、シングルページ アプリがすでに読み込んでいる 隠れたJSON/XHR を捕捉することもできます。

Fisherboyは単一のDockerイメージとして セルフホスト可能 です。独自のWeb UIを備えてスタンドアロンで 動作することも、Escribaの背後で REST + MCP サービスとしてヘッドレスに動作することもできます。

  • LLM向けにWebコンテンツを収集するすべての人 — 記事、ドキュメント、製品グリッド、検索結果など — 生のHTMLではなくクリーンなMarkdownを求める人。
  • ビルダーや自動化を行う人curl、n8n、Claude Code、EscribaからRESTまたはMCP経由で抽出を駆動する人。
  • プライバシーを重視するユーザー — モデルや第三者にデータが届く前にPIIを除去または仮名化する必要がある人。
  • セルフホスター — すべてを自前のハードウェアで実行し、ロールベースのアクセス制御と監査済みのセキュリティ態勢を求める人。

ページをMarkdownまたはJSONへ

クリーンな fit_markdown(Crawl4AI)とTrafilaturaフォールバック、またはLLMによるJSON Schemaへの構造化抽出。

段階的なブロック回避フェッチ

ブロックされたときだけエスカレーション:tier 0 静的HTTP、tier 1 TLSフィンガープリント、tier 2 ステルスブラウザ、tier 3 本物のブラウザ。成功したtierはドメインごとにキャッシュされます。

隠れたAPIの捕捉

レンダリングされたHTMLと戦う代わりに、ページがすでに読み込んでいるXHR/fetchのJSONを監視します。SPAや動的グリッドをスクレイピングする最も確実な方法です。

スパイダー&タランチュラクロール

内部リンクをツリー状にたどり、ページネーションを一掃し、各ノードのコンテンツとAPIをデータツリーに捕捉します。

あらゆるものをダウンロード

ファイル、動画(yt-dlp)、ギャラリー(gallery-dl)、プラットフォームのコメントまで — ページのテキストだけにとどまりません。

PII匿名化

3つのプライバシーモード — opaque、reversible、direct — はロールによって制限され、フェイルクローズで動作し、Anonimalによる完全なNERまたは組み込みの正規表現フォールバックを備えます。

プロキシ&クッキー

任意の形式でプロキシを貼り付けて出口IPをテストできます。ログインの背後にあるページのために、クッキーを貼り付けたりローカルブラウザから読み取ったりできます。

ロールベースのアクセス

3つのレベル — dios / angel / humano — それぞれに独自のパスワードと機能制限があり、RESTとMCPの両方で適用されます。

REST + MCP

curl、n8n、Claude Code、Escribaから駆動できます。同じパイプラインがMCPツールとして公開されています。

Fisherboyをインストール GitHubで見る