Rが生産性を高める
〜データ分析ワークフロー効率化の実践

[表紙]Rが生産性を高める 〜データ分析ワークフロー効率化の実践

紙版発売
電子版発売

A5判/288ページ

定価3,190円(本体2,900円+税10%)

ISBN 978-4-297-12524-0

電子版

→学校・法人一括購入ご検討の皆様へ

書籍の概要

この本の概要

データ分析によって価値ある意思決定につなげたいと考えるのがデータ分析者の本分ではないでしょうか。ところが「データ分析」を行うためには,さまざまな工程を経ることになります。データ分析に携わったことのある方であれば身に覚えがあるでしょう。

ExcelのGUI操作,可視化の設定,レポート,他ツールとの連携などで発生する繰り返し作業を減らすための手間を惜しんではいけません。これらの工程で発生する手作業を無自覚に受け入れることは,本来取り組まなければならない「分析」の時間を無駄にすることと同じです(1回の業務が5分短縮できたとしましょう。1年で300回同じ作業が発生したとしたら,1500分=25時間。約1日です。この時間で何ができるでしょうか?)。​

あなたがRを利用していれば(これからRをはじめるという方も)ラッキーです。Rの豊富なパッケージを利用することでデータ分析のワークフローを効率化できます。本書は以下のような構成で,単純な作業をプログラミングによって自動化する方法を解説していきます。

1章 R環境の準備と基本操作
2章 Excel・CSV・TSVファイルの読み込みとデータ整形
3章 グラフ描画の基本と応用
4章 HTML・Word文書への出力と分析結果の共有
5章 Googleサービスとの連携
6章 Web上のデータ取得とWebブラウザの操作
7章 データフローの整理と定期実行

Excel操作,グラフ描画,レポート,Googleサービス連携,スクレイピングなどデータ分析に欠かせない工程が,本書の内容によって効率化できるかもしれません。Rでなんでも完結してしまいたいというR愛にあふれる執筆者が集まり,便利なパッケージの使いどころを解説していきます。

Rを使って自動化/効率化への第一歩を踏み出しましょう!

こんな方におすすめ

  • Rユーザ,データ分析を効率化したい方

目次

  • はじめに

Chapter1 R環境の準備と基本操作

  • 1-1 R,RStudio,tidyverse
  • 1-2 Rのインストール
  • 1-3 RStudioのインストール
  • 1-4 RStudioの基本機能
  • 1-5 tidyverse
  • 1-6 まとめ

Chapter2 Excel・CSV・TSVファイルの読み込みとデータ整形

  • 2-1 Excel作業を置き換える意義
  • 2-2 Excelファイルを読み込む(readxlパッケージ)
  • 2-3 CSV・TSVファイルを読み込む(readrパッケージ)
  • 2-4 Word文書のテーブルを読み込む(docxtractrパッケージ)
  • 2-5 Excelの代わりにRを使う
  • 2-6 まとめ

Chapter3 グラフ描画の基本と応用

  • 3-1 グラフ描写を効率化する重要性
  • 3-2 統一的な記法によるグラフ描写(ggplot2パッケージ)
  • 3-3 グラフの色や形を変更(scale関数群)
  • 3-4 軸の調整(scale関数群とcoord関数群)
  • 3-5 凡例/軸のラベルを変更(labs関数)
  • 3-6 日本語表示のためのRStudioの設定
  • 3-7 テーマを変えフォントを指定する(theme関数群)
  • 3-8 画像として保存
  • 3-9 特定のデータを強調
  • 3-10 グラフ配置によるデータの俯瞰
  • 3-11 最低限のコードによるグラフの対話的操作
  • 3-12 まとめ

Chapter4 HTML・Word文書への出力と分析結果の共有

  • 4-1 コードに実行結果と説明文をつけて文書化する(R Markdown)
  • 4-2 本文を書く
  • 4-3 チャンクによるコードとその実行結果の挿入
  • 4-4 YAMLフロントマターに文書の情報を記述
  • 4-5 HTML文書を作成する
  • 4-6 HTMLスライドを作成する(revealjsパッケージ)
  • 4-7 Word文書の作成
  • 4-8 相互参照可能なHTML文書やWord文書の作成
  • 4-9 図表の相互参照
  • 4-10 その他の形式の文書やスライドを作成する
  • 4-11 まとめ

Chapter5 Googleサービスとの連携

  • 5-1 GoogleAPIの利用
  • 5-2 Google BigQueryの操作(bigrqueryパッケージ)
  • 5-3 Googleドライブの操作
  • 5-4 Googleスプレッドシートの操作
  • 5-5 まとめ

Chapter6 Web上のデータ取得とWebブラウザの操作

  • 6-1 スクレイピングの必要性と基礎知識
  • 6-2 スクレイピングによるデータ収集(rvestパッケージ)
  • 6-3 ブラウザの操作(RSeleniumパッケージ)
  • 6-4 文字列処理(stringrパッケージ)
  • 6-5 途中でエラーが起こったときのエラーハンドリング
  • 6-6 スクレイピング時の注意点
  • 6-7 Rで実践する紳士的なスクレイピング方法(politeパッケージ)
  • 6-8 まとめ

Chapter7 データフローの整理と定期実行

  • 7-1 再現性を高めるためにパッケージのバージョンを固定(renvパッケージ)
  • 7-2 再現性の向上と再分析の高速化を図るためにWeb上のデータをキャッシュ(pinsパッケージ)
  • 7-3 パイプラインのメンテナンス(targetsパッケージ)
  • 7-4 スクリプトの定期実行
  • 7-5 応用:Rに関する新刊情報の通知
  • 7-6 まとめ

著者プロフィール

igjit(イグジット)

note株式会社のエンジニア。データを扱う機能のバックエンドの実装を担当。Rの言語仕様に興味があり,Rで変なものを作るのが趣味。


atusy(アツシ)

安本篤史。
株式会社HACARUS所属のデータサイエンティスト。仕事ではもっぱらPython使い。私事でrmarkdownなどのRパッケージ開発に勤しむ。Rには学生時代に岩石の化学分析結果を可視化する過程で出会った。それまではスプレッドシートに大量のグラフを描き,重要なグラフがどれか見失う,データ追加のたびにグラフの更新作業に時間がかかるといった問題を抱えていた。また,発表資料用の清書も多大な時間を要していた。これらの問題をR Markdownやggplot2との出会いで解決し,データの取得・分析に費やせる時間の確保に成功し,どんどんRに惚れていった。


hanaori(ハナオリ)

澤村花織。
エンジニア。note株式会社でユーザー向けの機能開発やデータ基盤の構築に従事。業務では主にRuby on RailsやGolangなどの言語を使用しており,Rはプライベートでよく活用している。社会人になり統計学と出会うとともにRにも出会う。Web上からのデータ取得や加工,可視化などが驚くほど簡単にできるRに親しみと感動を覚える。