Pythonクローリング&スクレイピング[増補改訂版] ―データ収集・解析のための実践開発ガイドー

サポートページ

この記事を読むのに必要な時間:およそ 0.5 分

ダウンロード

サンプルファイルのダウンロード

(2019年8月22日更新)

本書のサンプルファイルをご利用いただけます。

ダウンロード
サンプルファイル(sample_codes.zip)

補足情報

P.50 2.4.1のLivedoorお天気WebサービスのAPIが動かず,JSONの検証ができない

(2020年8月13日更新)

Livedoorお天気Webサービスのサービス終了で書籍と同一内容ではJSONを返すAPIの検証ができなくなっています。
こちらについては,代替としてJSONを返すWeb APIを利用すれば同等の操作ができます。
例えば,GitHub APIでも実行できます。


# GitHub REST API v3で、Requestsのリポジトリ情報をJSON形式で取得する。
>>> r = requests.get('https://api.github.com/repos/psf/requests')
>>> r.json()
{'id': 1362490, 'node_id': 'MDEwOlJlcG9zaXRvcnkxMzYyNDkw', 'name':
'requests', 'full_name': 'psf/requests', 'private': False, ...

P.149 5.1.1のWikiExtractor.pyのwgetによる取得

プロジェクトの構成の変更により,書籍で案内した方法ではファイルが取得できなくなっていました。下記の通り,以前のバージョンを導入してください。


$ wget https://github.com/attardi/wikiextractor/raw/3162bb6/WikiExtractor.py

P.220 5.6.1のSeleniumの実行がうまくいかない場合

(2020年8月5日更新)

ホスト側でchromedriverを起動する際に,以下のように --whitelisted-ips オプションを指定することでエラーが出ずにChromeを自動制御できます。なお, 10.0.2.2 はRemote() の引数で指定するURLのIPアドレスと同じ値です。


chromedriver.exe --port=4444 --whitelisted-ips=10.0.2.2

お詫びと訂正(正誤表)

本書の以下の部分に誤りがありました。ここに訂正するとともに,ご迷惑をおかけしたことを深くお詫び申し上げます。

(2020年6月4日最終更新)

P.79 Beautiful Soupの実行例でtitle要素を取得する例

>>> soup.h1 # soup.titleのようにタグ名の属性で、title要素を取得できる。
>>> soup.title # soup.titleのようにタグ名の属性で、title要素を取得できる。

(以下2019年10月21日更新)

P.71 2.7のsave(filepath: str, books: List[dict])の説明

CSVとすべき箇所がSQLiteとなっていました。

引数booksで与えられた書籍のリストをSQLiteデータベースに保存する。
引数booksで与えられた書籍のリストをCSV形式のファイルに保存する。

(以下2019年10月8日更新)

P.62 2.5のインタラクティブシェルの実行例

インタラクティブシェルの実行例のうち,下記の2行は誤りでした。これを実行するとNoneが帰ってくるため,実際には何も表示されません。


>>> h1.text  # text属性で要素のテキストを取得できる。
'今日のくだもの'

(以下2019年8月22日更新)

P.13 1.3の脚注10

サンプルファイルのダウンロードリンクが前版を示していました。なお,前版にも同等のファイルがあるため動作はします。

このファイルは書籍のサンプルファイル(https://gihyo.jp/book/2017/978-4-7741-8367-1)に含まれています。
このファイルは書籍のサンプルファイル(https://gihyo.jp/book/2019/978-4-297-10738-3)に含まれています。

P.199 5.4.2の新幹線旅客輸送量の推移のURL

httpsとすべきURLをhttpで表記していました。

http://www.data.go.jp/data/dataset/mlit_20140919_2423
https://www.data.go.jp/data/dataset/mlit_20140919_2423