ヘッドレスChrome経由でSeleniumをEC2から動かしてみた
はじめに
こんにちは、アノテーションのなかたです。
今回は、ヘッドレスChromeがインストールされたAmazon Linux 2023(AL2023)のEC2インスタンス上で、Seleniumを用いてスクレイピングしてみました。
ヘッドレスChromeをインストールする方法については、以下の記事を参考にしています。
やってみる
1. ヘッドレスChromeをインストール
こちらのコマンドよりインストールを行います。
wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm
sudo dnf install ./google-chrome-stable_current_x86_64.rpm
こちらは、以下の記事を参考にインストールしました。
2. Seleniumのインストール
venvより仮想環境を作成して、pipからSeleniumをインストールします。
# ディレククトリの作成
mkdir ~/app
cd ~/app
# 仮想環境の作成と起動
python3 -m venv .venv
source .venv/bin/activate
# seleniumのインストール
pip install selenium
3. スクレイピングスクリプトの作成
以下のPythonスクリプトを作成します。
from selenium import webdriver
# 設定
options = webdriver.ChromeOptions()
options.add_argument("--headless=new")
driver = webdriver.Chrome(options=options)
# Webページのリクエスト
url = "https://dev.classmethod.jp/"
driver.get(url)
# タイトルの取得
title = driver.title
print(f"{title=}")
# 終了
driver.quit()
options.add_argument("--headless=new")
により、明示的にヘッドレスブラウザを使用することを宣言しています。
4. スクリプトの実行
python3 main.py
により実行します。
おわりに
スクレイピングにブラウザを用いる方法はよく詰まるイメージがあったのですが、スムーズに実行できたので良かったです。
ヘッドレスChromeをスクレイピングライブラリで用いるメリットは、JavaScriptが読み込まれるようなWebページでも情報の取得が行えることであるため、次回はそのようなWebページを対象にスクレイピングしてみたいと思います。
参考
アノテーション株式会社について
アノテーション株式会社はクラスメソッドグループのオペレーション専門特化企業です。サポート・運用・開発保守・情シス・バックオフィスの専門チームが、最新 IT テクノロジー、高い技術力、蓄積されたノウハウをフル活用し、お客様の課題解決を行っています。当社は様々な職種でメンバーを募集しています。「オペレーション・エクセレンス」と「らしく働く、らしく生きる」を共に実現するカルチャー・しくみ・働き方にご興味がある方は、アノテーション株式会社 採用サイトをぜひご覧ください。