ウェブサイトをスクレイピングするAPIサービス Firecrawlを公式MCPサーバーから使ってみる

ウェブサイトをスクレイピングするAPIサービス Firecrawlを公式MCPサーバーから使ってみる

Clock Icon2025.04.16

こんばんは、製造ビジネステクノロジー部の夏目です。

Firecrawlというサービスが公式MCPサーバーを公開していたので試してみます。

Firecrawlとは

https://www.firecrawl.dev/

https://docs.firecrawl.dev/introduction

(Quickstartですが、どういうサービスなのかの説明が充実しています)

Firecrawlは、URLを取得し、クロールし、きれいなマークダウンに変換するAPIサービスです。アクセス可能なすべてのサブページをクロールし、それぞれのきれいなマークダウンを提供します。サイトマップは必要ありません。
https://docs.firecrawl.dev/introduction#welcome-to-firecrawl

  • LLM対応フォーマット: マークダウン、構造化データ、スクリーンショット、HTML、リンク、メタデータ
  • 難しいこと:プロキシ、ボット対策、動的コンテンツ(js-rendered)、出力解析、オーケストレーション
  • カスタマイズ性:タグの除外、カスタムヘッダによる認証ウォールの後ろへのクロール、最大クロール深度など。
  • メディア解析:PDF、docx、画像。
  • 信頼性第一:必要なデータを取得するために設計されています-それがどんなに難しいことであっても。
  • アクション:データを抽出する前に、クリック、スクロール、入力、待機など。

https://docs.firecrawl.dev/introduction#powerful-capabilities

機能

4つの機能とAlpha版の2つの機能があります。
MCPサーバーでもこれらの機能が使えます。

  • Scrape
    • ウェブページをスクレイプします
  • Crawl
    • URLを渡すとサブページも含めてスクレイプします
  • Map
    • ウェブページからリンクを抽出します
  • Extract
    • LLMを使用しウェブページからJSON Schemaで指定した構造化データを抽出します
  • LLMs.txt
    • Alpha版の機能
    • URLを渡してクロールしLLMs.txtを作成します
  • Deep Research
    • Alpha版の機能
    • FirecrawlがインターネットをクロールしてDeep Searchを行います

使ってみる

Firecrawlのアカウントを作成してMCPサーバーを使ってみます。

  1. Firecrawlのアカウントを作成
  2. MCPサーバーを設定する
  3. 使ってみる

1. Firecrawlのアカウントを作成

Firecrawlではアカウントを作成すると500クレジットを付与されます。
(このクレジットを使い切ると課金するか有料プランにする必要があります)
(1クレジットで1ページをスクレイピングできます)

65ee4396-b556-436d-bc1c-bb63049dbd30

Sign Upをクリックします。

f6a3995a-e133-4a0f-8ace-7042978b4031

メールアドレスとパスワードを入力し、 Sign upをクリックします。

b9f66523-fc33-41be-b5d3-8e9802475df9

登録完了のためのメールが届くので、メールボックスを確認します。

92d97fee-7ac4-499f-ba10-fa4064aa5ad8

Confirm your mailをクリックします。

21522f35-271d-440e-8093-11fb54d85d7f

いくつかの質問に答えていきます。
最初はFirecrawlをどこで知ったかです。

選択し、 Next をクリックします。

cd55ad8f-978d-445e-a3b8-dcc917a6e611

製品か会社のURLを質問されます。
回答必須ではないので Next をクリックします。

3005d46f-8d8d-4279-864c-3d53268b9bbb

Firecrawlを何に使うのか訊かれます。

2a9f8988-419f-4170-b00f-289ae4d2e8dc

"もし私たちがあなたのために何かを解決できるとしたら、それは何ですか?"と訊かれます。
解答必須ではないので Next をクリックします。

08e134cd-cc4e-4ccc-bf2d-c0111f0ddfcc

利用規約とプライバシーポリシーへの合意を求められます。
中身を確認して、上のチェックボックスにチェックを付け、 Submit をクリックします。

99d4c641-4330-4e58-bfc7-466b5fac2ce4

登録が完了しました。

右上にAPI Keyをコピーするためのボタンがあります。
次のMCPサーバーの設定で使用します。

2. MCPサーバーを設定する

https://github.com/mendableai/firecrawl-mcp-server

Firecrawlが公式に出しているMCP Server。

FirecrawlのAPI KEYの他に環境変数で色々と設定できます。

README.mdにClaude Desktop用の設定のサンプルがありましたので、見ていきます。

{
  "mcpServers": {
    "mcp-server-firecrawl": {
      "command": "npx",
      "args": ["-y", "firecrawl-mcp"],
      "env": {
        "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE",

        "FIRECRAWL_RETRY_MAX_ATTEMPTS": "5",
        "FIRECRAWL_RETRY_INITIAL_DELAY": "2000",
        "FIRECRAWL_RETRY_MAX_DELAY": "30000",
        "FIRECRAWL_RETRY_BACKOFF_FACTOR": "3",

        "FIRECRAWL_CREDIT_WARNING_THRESHOLD": "2000",
        "FIRECRAWL_CREDIT_CRITICAL_THRESHOLD": "500"
      }
    }
  }
}
  • FIRECRAWL_API_KEY: FirecrawlのAPI Key
  • FIRECRAWL_RETRY_MAX_ATTEMPTS: 最大のリトライ回数
  • FIRECRAWL_RETRY_INITIAL_DELAY: 最初のリトライまでの遅延時間 (ミリ秒)
  • FIRECRAWL_RETRY_MAX_DELAY: リトライの遅延時間の最大値 (ミリ秒)
  • FIRECRAWL_RETRY_BACKOFF_FACTOR: リトライの遅延時間を延ばすための指数バックオフ乗数
  • FIRECRAWL_CREDIT_WARNING_THRESHOLD: 残りのクレジット数が下回ったら警告を出す閾値
  • FIRECRAWL_CREDIT_CRITICAL_THRESHOLD: 残りのクレジット数が下回ったら重度の警告を出す閾値

API Key以外はデフォルト値があるので、必ずしも設定する必要はありません。

3. 使ってみる

IP制限がされているページをスクレイプしてみる。

IP制限がかかっているウェブサイトもスクレイプできるということなので、日本からしかアクセスできないウェブサイトのスクレイピングをしてみます。

今回は小説家になろうの小説ページを対象にします。

https://ncode.syosetu.com/n7787eq/424/

edec154f-611a-4bf9-acb2-d66755fe6574

日本からしかアクセスできないウェブサイトをスクレイプできました。

Deep Researchを使ってみる

9fc805f1-3525-4c73-9657-808043268a97

まとめ

FirecrawlでスクレイピングやDeep Researchをしてみました。

いろいろな制限を越えてスクレイピングできるのは便利ですね。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.