Rが生産性を高める
〜データ分析ワークフロー効率化の実践
〜データ分析ワークフロー効率化の実践
2022年1月26日紙版発売
2022年1月21日電子版発売
igjit,atusy,hanaori 著
A5判/288ページ
定価3,190円(本体2,900円+税10%)
ISBN 978-4-297-12524-0
書籍の概要
この本の概要
データ分析によって価値ある意思決定につなげたいと考えるのがデータ分析者の本分ではないでしょうか。ところが「データ分析」を行うためには,さまざまな工程を経ることになります。データ分析に携わったことのある方であれば身に覚えがあるでしょう。
ExcelのGUI操作,可視化の設定,レポート,他ツールとの連携などで発生する繰り返し作業を減らすための手間を惜しんではいけません。これらの工程で発生する手作業を無自覚に受け入れることは,本来取り組まなければならない「分析」の時間を無駄にすることと同じです(1回の業務が5分短縮できたとしましょう。1年で300回同じ作業が発生したとしたら,1500分=25時間。約1日です。この時間で何ができるでしょうか?)。
あなたがRを利用していれば(これからRをはじめるという方も)ラッキーです。Rの豊富なパッケージを利用することでデータ分析のワークフローを効率化できます。本書は以下のような構成で,単純な作業をプログラミングによって自動化する方法を解説していきます。
1章 R環境の準備と基本操作
2章 Excel・CSV・TSVファイルの読み込みとデータ整形
3章 グラフ描画の基本と応用
4章 HTML・Word文書への出力と分析結果の共有
5章 Googleサービスとの連携
6章 Web上のデータ取得とWebブラウザの操作
7章 データフローの整理と定期実行
Excel操作,グラフ描画,レポート,Googleサービス連携,スクレイピングなどデータ分析に欠かせない工程が,本書の内容によって効率化できるかもしれません。Rでなんでも完結してしまいたいというR愛にあふれる執筆者が集まり,便利なパッケージの使いどころを解説していきます。
Rを使って自動化/効率化への第一歩を踏み出しましょう!
こんな方におすすめ
- Rユーザ,データ分析を効率化したい方
目次
- はじめに
Chapter1 R環境の準備と基本操作
- 1-1 R,RStudio,tidyverse
- 1-2 Rのインストール
- 1-3 RStudioのインストール
- 1-4 RStudioの基本機能
- 1-5 tidyverse
- 1-6 まとめ
Chapter2 Excel・CSV・TSVファイルの読み込みとデータ整形
- 2-1 Excel作業を置き換える意義
- 2-2 Excelファイルを読み込む(readxlパッケージ)
- 2-3 CSV・TSVファイルを読み込む(readrパッケージ)
- 2-4 Word文書のテーブルを読み込む(docxtractrパッケージ)
- 2-5 Excelの代わりにRを使う
- 2-6 まとめ
Chapter3 グラフ描画の基本と応用
- 3-1 グラフ描写を効率化する重要性
- 3-2 統一的な記法によるグラフ描写(ggplot2パッケージ)
- 3-3 グラフの色や形を変更(scale関数群)
- 3-4 軸の調整(scale関数群とcoord関数群)
- 3-5 凡例/軸のラベルを変更(labs関数)
- 3-6 日本語表示のためのRStudioの設定
- 3-7 テーマを変えフォントを指定する(theme関数群)
- 3-8 画像として保存
- 3-9 特定のデータを強調
- 3-10 グラフ配置によるデータの俯瞰
- 3-11 最低限のコードによるグラフの対話的操作
- 3-12 まとめ
Chapter4 HTML・Word文書への出力と分析結果の共有
- 4-1 コードに実行結果と説明文をつけて文書化する(R Markdown)
- 4-2 本文を書く
- 4-3 チャンクによるコードとその実行結果の挿入
- 4-4 YAMLフロントマターに文書の情報を記述
- 4-5 HTML文書を作成する
- 4-6 HTMLスライドを作成する(revealjsパッケージ)
- 4-7 Word文書の作成
- 4-8 相互参照可能なHTML文書やWord文書の作成
- 4-9 図表の相互参照
- 4-10 その他の形式の文書やスライドを作成する
- 4-11 まとめ
Chapter5 Googleサービスとの連携
- 5-1 GoogleAPIの利用
- 5-2 Google BigQueryの操作(bigrqueryパッケージ)
- 5-3 Googleドライブの操作
- 5-4 Googleスプレッドシートの操作
- 5-5 まとめ
Chapter6 Web上のデータ取得とWebブラウザの操作
- 6-1 スクレイピングの必要性と基礎知識
- 6-2 スクレイピングによるデータ収集(rvestパッケージ)
- 6-3 ブラウザの操作(RSeleniumパッケージ)
- 6-4 文字列処理(stringrパッケージ)
- 6-5 途中でエラーが起こったときのエラーハンドリング
- 6-6 スクレイピング時の注意点
- 6-7 Rで実践する紳士的なスクレイピング方法(politeパッケージ)
- 6-8 まとめ
Chapter7 データフローの整理と定期実行
- 7-1 再現性を高めるためにパッケージのバージョンを固定(renvパッケージ)
- 7-2 再現性の向上と再分析の高速化を図るためにWeb上のデータをキャッシュ(pinsパッケージ)
- 7-3 パイプラインのメンテナンス(targetsパッケージ)
- 7-4 スクリプトの定期実行
- 7-5 応用:Rに関する新刊情報の通知
- 7-6 まとめ
この本に関連する書籍
-
Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界
Rには多くの分析手法を実行するパッケージが提供されていますが,同じ用途であってもパッケージごとに関数の記法が違ったり,データの入力形式や出力形式が違ったりする...
-
Rでらくらくデータ分析入門 ~効率的なデータ加工のための基礎知識~
ビジネスパーソンに向けた,脱Excel,プログラミングの入口につながるRでのデータ分析入門書! 日々の仕事の中で,こんな作業はありませんか? 表データに決まっ...
-
改訂2版 Rユーザのための RStudio[実践]入門 〜tidyverseによるモダンな分析フローの世界
2018年に刊行した通称「#宇宙本」を最新の情報に改訂! 本書は,R言語のIDEであるRStudioと,モダンなデータ分析を実現するtidyverseパッケージの入門書です。RStudi...