連載第1回が掲載された2010年の6月から,
21回にわたる連載の最後を飾る今回は,
未知のデータへの対応能力
第9回で
しかも都合の悪いことに,
そんな困った過学習を防ぐ方法の1つは,
解く前から答えに見当がついている場合には最も確実で効果も高いのですが,
もう少し汎用的な手法として,
過学習が起きているときには,
そこで,
復習はこれくらいにしておいて,
過学習とは未知のデータに対する予測を間違うことですから,
しかしがんばってテストデータを用意しても,
テストデータを増やせば増やすほどその心配を減らすことができますが,
いやいや,
しかし残念ながらそんな嬉しいことは起きるわけがないので,
そのための方法の一つが
交差検定のやり方はいくつかありますが,
こうした
ここでは詳しく述べませんが,
どんなモデルを使用するかは完全に人の手にゆだねられており,
きれいなモデルと汚いデータ
機械学習の確率モデルのほとんどは,
尤度が確率の掛け算で表せるのは,
しかし現実のデータは,
まず,
実用的な機械学習アプリケーションでは,
一方,
データが本来持っているこういった偏りを計算のために無視することは,
しかし,
そして,
現実のデータを使って機械学習アプリケーションを作ろうとすると,
モデルが複雑になればなるほど,
また,
そういうとき,
と,
機械学習を使う立場の人間としては,