SeleniumでWebスクレイピング(1) 環境構築

SeleniumでWebスクレイピング(1) 環境構築


はじめに

スクリプトで作業を自動化したり情報収集したりする際、ウェブ上の情報を取得したいときがあります。

ただ、ウェブは基本的には人間に読みやすいように作られているため、プログラムで扱うのは少し大変です。

その部分を容易にできるようにしたツールにSeleniumというものがあり、これを今回は使ってみようと思います。


環境構築からSeleniumでウェブのデータを取得してみるまでのウォークスルーを記載しましたので、上から順番にやっていけばできるようになっています。

なお、Windowsで作業しますので、基本的にWindows用コマンドとなります。



環境構築(selenium,pillow)

pip

windows

pip install --upgrade pip


Selenium

mac

pip3 install selenium

windows

pip install selenium

anaconda

python -m pip install selenium


Pillow

画像を扱うライブラリPillowも一緒にインストールしておきます。

mac

pip3 install pillow

windows

pip install pillow

anaconda

python -m pip install pillow


環境構築(Jupyter notebook)

インストール

windows

pip install notebook


コード自動補完モジュール追加

# インストール
pip install jupyter-contrib-nbextensions
pip install jupyter-nbextensions-configurator

# 有効化
jupyter contrib nbextension install
jupyter nbextensions_configurator enable


jupyter-notebookの起動

適当なwork用ディレクトリを作成して、下記コマンドを実行

jupyter-notebook


コード自動補完の有効化

  1. 上記画面で「Nbextensions」のタブを開く
  2. 「Hinterland」をEnableにする


ファイルの作成

「Files」タブに戻り、右上のNewからファイルを作成、タイトル部分でファイル名を適当に設定。

以降、このファイルでコマンドを記載して動かしていきます。

各行で命令を記載、Ctrl+Enterで実行できます。aで上に行追加、bで下に行追加です。

ショートカットはこちらを参照:https://qiita.com/zawawahoge/items/baa2a5318df079c5f7e5


Firefoxを起動させる(webdriverの設定&動作確認)

geckodriverのインストール

mac

brew install geckodriver

windows

  1. https://github.com/mozilla/geckodriver から最新版をダウンロード
  2. Jupyter notebookの作業フォルダに、解凍して取り出した「geckodriver.exe」をアップロード


jupyter上で動作確認

from selenium import webdriver
browser = webdriver.Firefox()

Firefoxが立ち上がることを確認。


Chromeを起動させる(webdriverの設定&動作確認)

chromedriverのインストール

mac

brew install chromedriver

windows

  1. https://sites.google.com/a/chromium.org/chromedriver/downloads から最新版をダウンロード
  2. Jupyter notebookの作業フォルダに、解凍して取り出した「chromedriver.exe」をアップロード


jupyter上で動作確認

from selenium import webdriver
browser = webdriver.Chrome()

Chromeが立ち上がることを確認。


Pillowの動作確認

jupyter上で動作確認

from PIL import Image

実行してみてエラーが出ないことを確認。