スクレイピングでWebの情報を集めてみる(これから始める編)
スクレイピングを始めるにあたって。
Webの情報を集めたいときに手動ですとどうしても限界があります。
どうしたらWebの情報をあつめたらよいかを探していて
「スクレイピング」に出会いました。
スクレイピングとは
Webスクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことである。
Webスクレイピングを行うことで、Webページを対象として、あたかもWeb APIを利用しているかのようにデータを効率的に取得・収集することが可能になる。
「Webスクレイピングとは何ぞや?」という疑問が浮かんできたので調べてみた。
Web上のサイトやブログなどから必要な情報を取得することができる技術ですね。
入門書を探してみた
まずはAmazonで入門書を探してみました。
気になって購入したのがこの3冊。
Pythonを使用してPython3.0に対応していて
初心者でもがんばればスクレイピングが出来そうな本を探してみました。
まずは最初に気になったのがコレ。
「Pythonによるスクレイピング&機械学習」
文章が読みやすそうでサンプルコードのダウンロードもついています。
挿絵が適度に入っていて青のアクセントが目に優しく感じ
読んでいて疲れなそうなのもいいですね。
スクレイピングのコードを中心にサンプルコードを動かしながら学習していく感じですね。
次に気になったのがコレ。
「退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング」
タイトルがいいですね~
「ノンプログラマーでもできる」というのがいいです。
ハードルが下がりますね。
帯の「なぜ48人時の作業を2時間で完了できたのか?」という文章が、
Pythonを使ってどんなことができるのだろうと期待させます。
こちらの本はPythonのインストール、Pythonの基礎からはじまりますので
まさにノンプログラマーでも学習を進められる内容です。
ただ、オライリーらしくシンプルなデザインで書かれており
技術書という感じが出ているところが気になりますね。
そして最後に
「Pythonクローリング&スクレイピング」
この本はPythonでのスクレイピングに特化していて
インストールから基礎、そしてスクレイピング技術へと進めていきます。
白黒の配色ですが挿絵等もあり見やすいつくりになっていますね。
この本が気になったのは、どうやらPythonでスクレイピングをするときに
ライブラリを使うようなのですが、いくつかライブラリがあり
多くは「BeautifulSoup」というライブラリを使用しているケースが多いです。
この本でも「BeautifulSoup」を使用しますが
その他に「Scrapy」というライブラリも使用しており
この「Scrapy」がとても効果的に使用できるという情報があり
この本を購入しました。
一冊選ぶなら目的に合わせて
どの本もスクレイピングについて丁寧に解説してあるようですが
それぞれ特徴があり
スクレイピングと機械学習を覚えたいなら
Pythonで色々なことをしてみたいなら
とにかくスクレイピング!なら
でしょうか。
3冊とも読み進めてみる予定ですので
また改めて感想など書ければと考えています。