新刊ピックアップ
tidyverseとtidymodels
2023年2月8日
前処理, parsnip, rsample, recipes, tune, workflows, workflowsets, yardstick, tidyverse, 評価指標, 交差検証
tidyverseが登場して以降,
- 再利用しやすいデータ構造を使う
(Reuse existing data structures) - 複雑なことを1つの関数で行うよりも,
単純な関数を%>%演算子で組み合わせる (Compose simple functions with the pipe) - 関数型プログラミングを活用する
(Embrace functional programming) - 人間にやさしいデザインにする
(Design for humans)
このようなtidyverseの原則にしたがって機械学習モデリングができないかを考える中でtidymodels
機械学習モデリングのプロセス
ではtidymodelsで具体的に何ができるのでしょうか。図1は一般的な機械学習モデリングのプロセスを示したもので
- ①データ分割
- ○ データを学習データと評価データに分割
- ○ 学習データをさらに分析セットと検証セットに分割する
(交差検証法を用いる場合) - ②特徴量エンジニアリング
- ○ 機械学習モデルの性能向上を目的にデータを整形する
- ○ 機械学習モデルに入力する形式にデータを変換する
- ③モデル作成
- ○ アルゴリズムを選択する
- ○ モデルを作成し,
学習データを適用する - ○ 学習済みのモデルに検証データを適用し,
予測精度を算出する - ④モデルの調整・
更新 - ○ モデル作成のプロセスを繰り返し,
予測精度の良いハイパーパラメータを決定する - ○ 最終的なモデル作成
データの分割はモデルの性能を高くするうえで必要なプロセスです。tidymodelsではrsampleパッケージを用いて豊富な
続いて
モデルは一度作って終わりではなく,
モデリングではさまざまなオブジェクトやコードが作られるため,
本稿ではかんたんに機械学習モデリングのプロセスを説明してしまいましたが,
記事中で紹介した書籍
-
Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界
Rには多くの分析手法を実行するパッケージが提供されていますが,同じ用途であってもパッケージごとに関数の記法が違ったり,データの入力形式や出力形式が違ったりする...