Pythonクローリング&スクレイピング[増補改訂版]
―データ収集・解析のための実践開発ガイドー

書籍の概要

この本の概要

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。2017年の初版から内容をアップデート,新ライブラリの解説などを追加した増補改訂版です。基本的なクローリングやAPIを活用したデータ収集,HTMLやXMLの解析から,データ取得後の分析や機械学習などの処理まで解説。データの収集・解析,活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん,基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ,強力なフレームワークを活用して高効率に開発できます。

こんな方におすすめ

  • 業務や学術研究でクローラーを作りたい人
  • Pythonの一歩先の活用方法に興味のある人

本書のサンプル

本書の紙面イメージは次のとおりです。画像をクリックすることで拡大して確認することができます。

サンプル画像1

サンプル画像2

サンプル画像3

サンプル画像4

サンプル画像5

目次

1. クローリング・スクレイピングとは何か

  • 1-1. 本書が取り扱う領域
  • 1-2. Wgetによるクローリング
  • 1-3. スクレイピングに役立つUnixコマンド
  • 1-4. gihyo.jpのスクレイピング
  • 1-5. まとめ

2. Pythonではじめるクローリング・スクレイピング

  • 2-1. Pythonを使うメリット
  • 2-2. Pythonのインストールと実行
  • 2-3. Pythonの基礎知識
  • 2-4. Webページを取得する
  • 2-5. Webページからデータを抜き出す
  • 2-6. データをファイルに保存する
  • 2-7. Pythonによるスクレイピングの流れ
  • 2-8. URLの基礎知識
  • 2-9. まとめ

3. ライブラリによる高度なクローリング・スクレイピング

  • 3-1. HTMLのスクレイピング
  • 3-2. XMLのスクレイピング
  • 3-3. データベースに保存する
  • 3-4. クローラーとURL
  • 3-5. Pythonによるクローラーの作成
  • 3-6. まとめ

4. 実用のためのメソッド

  • 4-1. クローラーの特性
  • 4-2. 収集したデータの利用に関する注意
  • 4-3. クロール先の負荷に関する注意
  • 4-4. 繰り返しの実行を前提とした設計
  • 4-5. まとめ

5. クローリング・スクレイピングの実践とデータの活用

  • 5-1. データセットの取得と活用
  • 5-2. APIによるデータの収集と活用
  • 5-3. 時系列データの収集と活用
  • 5-4. オープンデータの収集と活用
  • 5-5. Webページの自動操作
  • 5-6. JavaScriptを使ったページのスクレイピング
  • 5-7. 取得したデータの活用
  • 5-8. まとめ

6. フレームワーク Scrapy

  • 6-1. Scrapyの概要
  • 6-2. Spiderの作成と実行
  • 6-3. 実践的なクローリング
  • 6-4. 抜き出したデータの処理
  • 6-5. Scrapyの設定
  • 6-6. Scrapyの拡張
  • 6-7. クローリングによるデータの収集と活用
  • 6-8. 画像の収集と活用
  • 6-9. まとめ

7. クローラーの継続的な運用・管理

  • 7-1. クローラーをサーバーで実行する
  • 7-2. クローラーの定期的な実行
  • 7-3. クローリングとスクレイピングの分離
  • 7-4. クローリングの高速化・非同期化
  • 7-5. クラウドを活用する
  • 7-6. まとめ

Appendix. Vagrantによる開発環境の構築

  • A-1. VirtualBoxとVagrant
  • A-2. CPUの仮想化支援機能を有効にする
  • A-3. VirtualBoxのインストール
  • A-4. Vagrantのインストール
  • A-5. 仮想マシンを起動する
  • A-6. ゲストOSにSSH接続する
  • A-7. Pythonのスクリプトファイルを実行する
  • A-8. Linuxの基本操作
  • A-9. Vagrantで仮想マシンを操作するコマンド