ページをMarkdownまたはJSONへ
クリーンな fit_markdown(Crawl4AI)とTrafilaturaフォールバック、またはLLMによるJSON Schemaへの構造化抽出。
任意のWebページを、あなたのAIにすぐ届ける。
Fisherboyは、Escriba ファミリーのWeb抽出サテライトです。 任意のページを指定すれば、クリーンなMarkdownや構造化JSON が返ってきます。ナビゲーションや定型部分が 取り除かれ、外部に出る前に匿名化され、LLMにそのまま渡せる状態です。サイトが抵抗してきたときだけより強く 対抗し、素のHTTPリクエストから本物のブラウザまで段階的にエスカレーションします。さらに、シングルページ アプリがすでに読み込んでいる 隠れたJSON/XHR を捕捉することもできます。
Fisherboyは単一のDockerイメージとして セルフホスト可能 です。独自のWeb UIを備えてスタンドアロンで 動作することも、Escribaの背後で REST + MCP サービスとしてヘッドレスに動作することもできます。
curl、n8n、Claude Code、EscribaからRESTまたはMCP経由で抽出を駆動する人。ページをMarkdownまたはJSONへ
クリーンな fit_markdown(Crawl4AI)とTrafilaturaフォールバック、またはLLMによるJSON Schemaへの構造化抽出。
段階的なブロック回避フェッチ
ブロックされたときだけエスカレーション:tier 0 静的HTTP、tier 1 TLSフィンガープリント、tier 2 ステルスブラウザ、tier 3 本物のブラウザ。成功したtierはドメインごとにキャッシュされます。
隠れたAPIの捕捉
レンダリングされたHTMLと戦う代わりに、ページがすでに読み込んでいるXHR/fetchのJSONを監視します。SPAや動的グリッドをスクレイピングする最も確実な方法です。
スパイダー&タランチュラクロール
内部リンクをツリー状にたどり、ページネーションを一掃し、各ノードのコンテンツとAPIをデータツリーに捕捉します。
あらゆるものをダウンロード
ファイル、動画(yt-dlp)、ギャラリー(gallery-dl)、プラットフォームのコメントまで — ページのテキストだけにとどまりません。
PII匿名化
3つのプライバシーモード — opaque、reversible、direct — はロールによって制限され、フェイルクローズで動作し、Anonimalによる完全なNERまたは組み込みの正規表現フォールバックを備えます。
プロキシ&クッキー
任意の形式でプロキシを貼り付けて出口IPをテストできます。ログインの背後にあるページのために、クッキーを貼り付けたりローカルブラウザから読み取ったりできます。
ロールベースのアクセス
3つのレベル — dios / angel / humano — それぞれに独自のパスワードと機能制限があり、RESTとMCPの両方で適用されます。
REST + MCP
curl、n8n、Claude Code、Escribaから駆動できます。同じパイプラインがMCPツールとして公開されています。