新刊ピックアップ

試験点数の合否判定から学ぶ はじめての機械学習

この記事を読むのに必要な時間:およそ 2 分

判断基準の推測 ~データからの学習~

これまでは合格基準が明らかになっている場合について考えてきました。続いて,合格基準が分からない状態から推測する,つまりデータからの学習について考えてみましょう。

図4を見てください。この図における合格者と不合格者を分ける分類基準を推測してみましょう。

図4 合格基準が不明な例1

図4 合格基準が不明な例1

合格基準は1つではなく,いくつかの境界線をひくことができそうです。ここでは,図5に赤色と青色で示したように2通りの合格基準に注目して問題点を確認します。

図5 推測した2つの合格基準

図5 推測した2つの合格基準

赤線で斜めに引いた境界線も,青線で水平に引いた境界線も,合格者と不合格者を完全に分離できています。つまり,単純に与えられたデータについて,合格基準を推測するだけであれば,赤線も青線も,誤って判定される学生はいないため,何ら問題はないといえそうです。しかしながら,機械学習の目的のひとつとして,データから推測した判断基準を利用して新しいデータの自動判断をさせることがあります。

このように新しいデータの合否判定に利用することを考えると,赤線と青線では大きな違いが生じます。例えば,実際の合格基準が赤線であるにもかかわらず,推測した合格基準が青線である場合には,本来であれば不合格となる領域①に含まれた学生が合格すると誤って推測してしまいます。同様に,本来であれば合格する領域②に含まれた学生は不合格であると誤って推測してしまいます。

つまり,すでに与えられたデータを正しく分類できるだけでなく,新たなデータの分類にも応用できる分類基準が望ましいことが分かります。

次に,少し難しい例を考えてみましょう。図6にはこれまでとは異なる合格基準によって判定した結果をプロットしています。

図6 合格基準が不明な例2

図6 合格基準が不明な例2

図6を見た感じでは,合格者と不合格者を直線で分類することは難しそうです。このような場合でも,いくつかの機械学習の手法を適用(パッケージングされたプログラムを利用)すれば,何らかの分類境界を推測できます。例えば図7のように,1つは誤った分類となってしまうのですが,その他の学生の合否判定を正しくできるような直線を引くことができます。

図7 直線で推測した合格基準

図7 直線で推測した合格基準

または,今までの前提を崩すことにはなりますが,図8のように直線ではなく,曲線で分類する方法も提供されています(もちろん,直線で分類するよりも高度な知識は要求されますが,困難な計算は機械にすべて任せてしまうという割り切りかたもできます)⁠

図8 曲線で推測した合格基準

図8 曲線で推測した合格基準

合格者と不合格者を見分ける意味では,図7であっても30名中1名のみ誤っただけですから,必ずしも分類精度が悪いとは言えません。しかしながら,合格基準を推測する観点からは,両者ともによく推測できているとは言い難いかもしれません。

簡単にまとめると,機械学習によってデータを分類する基準を推測する際には,与えられたデータを正しく分類できているか否かという観点だけでなく,新たなデータを当てはめたときにも正しく分類されているかも重要になります。

もやもやする人もいるかと思いますので,最後に種明かしをしておきましょう。図6の合否判定基準は,英語,数学ともに65点以上を取った学生のみ合格するというものでした。つまり,図9で示した右上の赤点線で囲まれた区画に入った学生が合格者になります。

図9 本当の合格基準

図9 本当の合格基準

答えを知ってしまえば,非常に簡単な合否判定基準であったと思うかもしれません。ただし,合否判定基準が矩形で与えられているため,図7における直線による合否判定基準も,図8での曲線による合否判定基準のいずれも,本当の合否判定基準をうまく推測できていないように感じるかもしれません(ただし,このように感じてしまう原因は,正答を知ったからであることには注意が必要です)⁠

おわりに

現実には分類基準が明らかになっていない状態のデータが数多く存在します(そもそも,分類基準が明らかになっていれば,データから推測する必要はありませんね)⁠加えて,きれいに分類基準が求まらない場合も考えられます。たとえば,直前の模擬試験の結果と,本番の合否結果が得られているときに,模擬試験結果から本番の合否を推測する場合は,模擬試験の結果が良くても不合格する学生(今回の図でイメージすると右上に位置するのに×となる学生)も存在するため,きれいに分類基準が求まらないかもしれません。

簡単に答えが求まらないような問題に直面した時に,あわてずに,しっかりと問題と向き合うためにも,すべてを機械任せにせずに,データを分析するための知識とその経験を積んでおきたいですね。

著者プロフィール

青木義充(あおきよしみつ)

一橋大学非常勤講師。線形代数,微分・積分,確率など統計学に必要となる基本的な数学のほか,時系列解析,ベイズ統計を用いた金融データ分析に関する授業を担当。