この記事を読むのに必要な時間:およそ 0.5 分
統計を専門に扱う方のブログ記事です。データマイニングの学会にて選ばれたアルゴリズムの概要および調査について記した資料「Top 10 algorithms in data mining」の解説を行っています。Top 10に選ばれたアルゴリズムには次のようなものがあります。
- C4.5
- K-means
- サポートベクタマシン(SVM)
- PageRank
- ナイーブベイズ
- CART
C4.5は,あるルールに従って木構造に分岐させ分類していく決定木(Decision Tree)を生成するためのアルゴリズムです。
K-meansはK個のクラスタに分類するためのアルゴリズムで,最も近い中心のクラスタを繰り返し求めていき,視覚化するのに適しています。
サポートベクタマシンは,あらかじめ与えられたデータで学習を行い未知のデータに対して分類を行う「教師あり学習」アルゴリズムの一つです。
PageRankはGoogle検索エンジンで有名になった,リンク間にて重要度を分配していくことでランク付けしていくアルゴリズムです。
ナイーブベイズはメールソフトのスパム除去にも使われている,確率を利用して分類を行うアルゴリズムです。
CART(Classification and Regression Trees)は前述のC4.5と同様決定木に関するアルゴリズムで,CARTは2分岐である一方,C4.5は3分岐以上できるなどの違いがあります。
なお「Top 10 algorithms in data mining」は,より詳細な解説が行われたものが書籍化されています。英語のみですが興味のある方はこちらもどうぞ。
URL:http://d.hatena.ne.jp/isseing333/20111123/1322053940