SeleniumでWebスクレイピング(1) 環境構築
SeleniumでWebスクレイピング(1) 環境構築
はじめに
スクリプトで作業を自動化したり情報収集したりする際、ウェブ上の情報を取得したいときがあります。
ただ、ウェブは基本的には人間に読みやすいように作られているため、プログラムで扱うのは少し大変です。
その部分を容易にできるようにしたツールにSeleniumというものがあり、これを今回は使ってみようと思います。
環境構築からSeleniumでウェブのデータを取得してみるまでのウォークスルーを記載しましたので、上から順番にやっていけばできるようになっています。
なお、Windowsで作業しますので、基本的にWindows用コマンドとなります。
環境構築(selenium,pillow)
pip
pip install --upgrade pip
Selenium
pip3 install selenium
pip install selenium
anaconda
python -m pip install selenium
Pillow
画像を扱うライブラリPillowも一緒にインストールしておきます。
pip3 install pillow
pip install pillow
anaconda
python -m pip install pillow
環境構築(Jupyter notebook)
インストール
pip install notebook
コード自動補完モジュール追加
# インストール pip install jupyter-contrib-nbextensions pip install jupyter-nbextensions-configurator # 有効化 jupyter contrib nbextension install jupyter nbextensions_configurator enable
jupyter-notebookの起動
適当なwork用ディレクトリを作成して、下記コマンドを実行
jupyter-notebook
コード自動補完の有効化
- 上記画面で「Nbextensions」のタブを開く
- 「Hinterland」をEnableにする
ファイルの作成
「Files」タブに戻り、右上のNewからファイルを作成、タイトル部分でファイル名を適当に設定。
以降、このファイルでコマンドを記載して動かしていきます。
各行で命令を記載、Ctrl+Enterで実行できます。aで上に行追加、bで下に行追加です。
ショートカットはこちらを参照:https://qiita.com/zawawahoge/items/baa2a5318df079c5f7e5
Firefoxを起動させる(webdriverの設定&動作確認)
geckodriverのインストール
brew install geckodriver
- https://github.com/mozilla/geckodriver から最新版をダウンロード
- Jupyter notebookの作業フォルダに、解凍して取り出した「geckodriver.exe」をアップロード
jupyter上で動作確認
from selenium import webdriver
browser = webdriver.Firefox()
Firefoxが立ち上がることを確認。
Chromeを起動させる(webdriverの設定&動作確認)
chromedriverのインストール
brew install chromedriver
- https://sites.google.com/a/chromium.org/chromedriver/downloads から最新版をダウンロード
- Jupyter notebookの作業フォルダに、解凍して取り出した「chromedriver.exe」をアップロード
jupyter上で動作確認
from selenium import webdriver
browser = webdriver.Chrome()
Chromeが立ち上がることを確認。
Pillowの動作確認
jupyter上で動作確認
from PIL import Image
実行してみてエラーが出ないことを確認。