濃縮還元オレンジニュース

データマイニングで使われるトップ10アルゴリズム

統計を専門に扱う方のブログ記事です。データマイニングの学会にて選ばれたアルゴリズムの概要および調査について記した資料「Top 10 algorithms in data mining」の解説を行っています。Top 10に選ばれたアルゴリズムには次のようなものがあります。

  • C4.5
  • K-means
  • サポートベクタマシン(SVM)
  • PageRank
  • ナイーブベイズ
  • CART

C4.5は、あるルールに従って木構造に分岐させ分類していく決定木Decision Treeを生成するためのアルゴリズムです。

K-meansはK個のクラスタに分類するためのアルゴリズムで、最も近い中心のクラスタを繰り返し求めていき、視覚化するのに適しています。

サポートベクタマシンは、あらかじめ与えられたデータで学習を行い未知のデータに対して分類を行う「教師あり学習」アルゴリズムの一つです。

PageRankはGoogle検索エンジンで有名になった、リンク間にて重要度を分配していくことでランク付けしていくアルゴリズムです。

ナイーブベイズはメールソフトのスパム除去にも使われている、確率を利用して分類を行うアルゴリズムです。

CARTClassification and Regression Treesは前述のC4.5と同様決定木に関するアルゴリズムで、CARTは2分岐である一方、C4.5は3分岐以上できるなどの違いがあります。

なお「Top 10 algorithms in data mining」は、より詳細な解説が行われたものが書籍化されています。英語のみですが興味のある方はこちらもどうぞ。

URLhttp://d.hatena.ne.jp/isseing333/20111123/1322053940

おすすめ記事

記事・ニュース一覧