書籍概要

Software Design plus_養成読本

データサイエンティスト養成読本 登竜門編

著者
発売日
更新日

概要

データサイエンティストはここ数年で生まれた職種です。どんなスキルを身に付ければ良いかはいろいろなところで語られ,現役のデータサイエンティストのスキルもバラバラなのが現実です。さまざまな技術がある中で,本書ではデータ分析者をはじめる前に最低限知っておきたい知識を取り上げます。

シェルは知らなくても良いでしょうか?
基本的なSQLは書けなくても良いでしょうか?
データフォーマットの知識は不要でしょうか?
機械学習の基礎知識は不要でしょうか?

初学者にとっては避けて通れない知識,現役データサイエンティストにとっては知らないと恥ずかしい知識を登竜門編として1冊にまとめています。

目次

第1章
データサイエンティストへの道標
…… 高橋 淳一,野村 嗣

第2章
データ分析環境構築ガイド
…… 西村隆宏

第3章
はじめてのシェル
…… 水上ひろき

第4章
データベース入門の入門
…… 林田賢二

第5章
RStudio/Jupyter 最速攻略
…… 森 清貴

第6章
データ前処理の基礎知識
…… 越水直人

第7章
くらべて学ぶR/Excelデータ分析の基本
…… 露崎博之

第8章
クローラでWeb上の情報を収集しよう!
…… 早川敦士

第9章
コーディング前に知りたい統計知識
…… 牧允皓

第10章
さまざまなデータの理解と表現
…… 水上ひろき

第11章
機械学習超入門
…… 黒柳敬一

サポート

正誤表

本書の以下の部分に誤りがありました。ここに訂正するとともに,ご迷惑をおかけしたことを深くお詫び申し上げます。

(2017年11月27日最終更新)

P.69 左段下部のSQL5行目


pd.item_num * i.unit_price as sales


sum(pd.item.num * i.unit_price) as sales


(以下2017年11月10日更新)

P.120 図23の2行目


In [6]: population_2015 = population_filtered[[5,7,13]]



In [6]: population_2015 = population_filtered.iloc[:,[5,7,13]]


(以下,2017年7月4日更新)

P.224 第11章「ジニ不純度による分岐すべきかの判定」最初の数式

1-PA^2+PB^2
1-(PA^2+PB^2)

(以下,2017年3月17日更新)

P.175 第9章 右段(正規分布3段落目の1行目)

式のμ, σは平均、分散を表す
式のμ, σは平均、標準偏差を表す

P.176 第9章 右段(2段落目の2行目)

パラメータ a=0、b=1 の一様分布にしたがって
一様分布にしたがって

P.222 第11章 右下段(図8 ROC曲線の例)

誤

正

画像をクリックすると,大きく表示できます。

ダウンロード

(2017年3月17日更新)

以下のサンプルデータをダウンロードできます。圧縮ファイルをダウンロードしていただき,適宜解凍してご利用ください。

ダウンロード
第4章 P67およびP71
第5章 P93
第7章 P126
第8章 P149

商品一覧