Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-

[表紙]Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-

B5変形判/400ページ

定価(本体3,200円+税)

ISBN 978-4-7741-8367-1

電子版
  • 電子化の予定があります

→学校・法人一括購入ご検討の皆様へ

書籍の概要

この本の概要

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。基本的なクローリングやAPIを活用したデータ収集,HTMLやXMLの解析から,データ取得後の分析や機械学習前の処理まで解説。データの収集・解析,活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん,基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ,強力なフレームワークを活用して高効率に開発できます。

こんな方におすすめ

  • 業務や学術研究でクローラーを作りたい人
  • Pythonの一歩先の活用方法に興味のある人

本書のサンプル

本書の一部ページを,PDFで確認することができます。

目次

1. クローリング・スクレイピングとは何か

  • 1. 本書が取り扱う領域
  • 2. Wgetによるクローリング
  • 3. Unixコマンドによるスクレイピング
  • 4. gihyo.jpのスクレイピング
  • 5. まとめ

2. Pythonではじめるクローリング・スクレイピング

  • 1. Pythonを使うメリット
  • 2. Pythonのインストールと実行
  • 3. Pythonの基礎知識
  • 4. Webページを取得する
  • 5. Webページからデータを抜き出す
  • 6. データを保存する
  • 7. Pythonによるスクレイピングの流れ
  • 8. まとめ

3. 強力なライブラリの活用

  • 1. ライブラリのインストール
  • 2. Webページを簡単に取得する
  • 3. HTMLのスクレイピング
  • 4. RSSのスクレイピング
  • 5. データベースに保存する
  • 6. クローラーとURL
  • 7. Pythonによるクローラーの作成
  • 8. まとめ

4. 実用のためのメソッド

  • 1. クローラーの分類
  • 2. クローラー作成にあたっての注意
  • 3. 繰り返しの実行を前提とした設計
  • 4. クロール先の変化に対応する
  • 5. まとめ

5. クローリング・スクレイピングの実践とデータの活用

  • 1. データセットの取得と活用
  • 2. APIによるデータの収集と活用
  • 3. 時系列データの収集と活用
  • 4. オープンデータの収集と活用
  • 5. Webページの自動操作
  • 6. JavaScriptを使ったページのスクレイピング
  • 7. 取得したデータの活用
  • 8. まとめ

6. フレームワーク Scrapy

  • 1. Scrapyの概要
  • 2. Spiderの作成と実行
  • 3. 実践的なクローリング
  • 4. 抜き出したデータの処理
  • 5. Scrapyの設定
  • 6. Scrapyの拡張
  • 7. クローリングによるデータの収集と活用
  • 8. 画像の収集と活用
  • 9. まとめ

7. クローラーの継続的な運用・管理

  • 1. クローラーをサーバーで動かす
  • 2. クローラーの定期的な実行
  • 3. クローリングとスクレイピングの分離
  • 4. クローリングの高速化・非同期化
  • 5. クラウドを活用する
  • 6. まとめ