エンタープライズビジネスを加速させるHadoop

第4回 ログ解析で利用できるHadoop

この記事を読むのに必要な時間:およそ 2 分

Hadoopの出現で「ログ」がどのように活用できるようになったのでしょうか。従来から「ログ」を分析すれば有益な情報が得られる可能性があることは知られていました。しかし,大量のログを格納可能なストレージシステムや,それらを現実的な時間内で処理することができるプロダクトが存在しなかったのです。しかし,Hadoopが利用できる今,我々はログを自由に分析し,活用する自由を手に入れました。

今回は次の3つの題材を用いて,ログから何が分析できるのか,分析した情報をどのように活用できるのかを見てまいりましょう。

  1. ログから「行動パターン」を見つける
  2. ログから「おすすめ」を見つける
  3. ログから「広告効果」を見つける

1.ログから「行動パターン」を見つける~VISAによるカードの不正利用検知~

ログを見れば,誰かが勝手にあなたのカードを使っていないかがわかります。世界最大規模のクレジットカード決済ネットワークを抱える米VISAは,Hadoopを用いてカードの利用・取引状況(トランザクション)データを分析し,クレジットカードの不正利用に関する情報を短時間で効率的に検知しています。トランザクションデータを解析するとカードの利用パターンを分析することができるため,カードの不正利用の検知に役立てることができるのです。もしカードが不正な取引に利用された場合,それまでの利用パターンとは異なった傾向が表れるはずです。例えば月の使用頻度が2~3回で,5万円程度の使用パターンのカードが,ある月から突然2,3日に1回使用され,月に100万円以上使用されるようになっていたら,不正利用されている可能性が高いです。

このようなパターンを分析する領域では多くのデータを必要とします。顔画像認識や音声認識の様なパターン分析も多くのデータを必要としますが,人の行動パターンの分析となると更に複雑になることから,より多くのデータが必要になるのです。ある程度のデータ量がないと,ログの中にパターンは現れてこないでしょう。皆さんも他人の行動パターンを1日2日で理解することは難しいはずです。長い観察記録=長期間のログが必要なのです。

2.ログから「おすすめ」を見つける~レコメンデーション~

ログを見ればあなたが気に入るかもしれないものがわかります。ECサイトでの購入履歴もまたログの一種です。購入履歴を蓄積して分析することで,レコメンデーションを実現することが可能です。皆様の中にも,ECサイトで「○○さんへのおすすめ商品」などのように,商品をレコメンドされたことがある方が多いのではないでしょうか。

 レコメンデーションのイメージ

図 レコメンデーションのイメージ

筆者の印象では,近年ログをレコメンデーションに活用する動きは割とオーソドックスになってきているように感じます。レコメンデーションには,たとえばK-meansなど,統計的手法が用いられることが多いです。

統計的手法を利用する場合においては,サンプリングデータは大量にあったほうが良いです。こうした大量の購入履歴を分析して好みが似ている人が購入した商品や,よく一緒に購入されている商品を記録しておけば,顧客がサイトを訪れた際にそのリストの中から商品をレコメンドすることができます。このような情報を利用して,好みの似ている人が購入した商品をレコメンドしたり,よく一緒に購入されている商品をレコメンドしたりするのです。

レコメンドを実現するためには,日々増加する取扱商品や会員の数に追従できるだけの大容量のストレージシステムが必要であるほか,蓄積したデータを素早く分析できる必要があります。仮に分析に1ヵ月かかっていたとしたら,会員の好みも変わってしまい,レコメンデーションの意味がなくなってしまいます。従来レコメンデーションは,Amazon.comなど一部のECサイトだけの特殊なサービスという印象でした。しかしHadoopが活用できる今,誰でも自由にレコメンデーションシステムを構築し,効果を得ることができるのです。

3.ログから「広告効果」を見つける

ログを見ればあなたの作った広告がどのくらい売り上げに貢献しているのかがわかります。ポータルサイトを運営する企業にとって,広告効果は関心のある対象ではないでしょうか。

たとえば,アクセス数の増加がどの広告によってもたらされたものなのか,商品を購入した人がどの広告をたどってきたのか,といったことをすばやく分析することができればマーケティングの戦略立案に役立てることができます。このような情報を収集するためには,最低限「どのリンク/広告」が,⁠何回」クリックされたかという情報を収集することで実現できます。このようなデータを「クリックログ」と言います。

 クリックログのイメージ

図 クリックログのイメージ

1回のクリックログのデータ量は小さいものかもしれません。しかし,Webサイトはいくつものページを持ち,1つのページの中に大量のリンクや広告が存在します。サイトを訪れる人も,もちろん日に1人や2人ではないでしょう。スマートフォンが普及している今,パソコン以外からのアクセスも急増しています。場合によってはリンクをたどってきた経路を収集したい場合があるかもしれません。このようにあるサイトのクリックログを収集すると,1か月分ともなればそれなりのサイズになります。クリックログの収集と分析もまた,Hadoopの様な大規模データ向けの分散処理基盤が登場して誰でも活用できるようになった技術なのです。

さて,今回はさまざまなログと,その活用例を見てきました。どの活用例も大量のログを必要とし,なおかつ高速に処理する必要があります。このような芸当は,Hadoopが得意とするところです。Hadoopは,今までデータが多すぎて溜めておけなかったり,高速に処理することが難しかったりという理由で実現できなかった新たな領域のビジネスを開拓する手助けをしてくれます。Hadoopはビジネスを変革する道具です。誰もが巨大なデータを分析する方法を手に入れました。しかし忘れてはいけません。Hadoopは大量のログを高速に分析する手段を与えてくれます。しかし分析した結果をどのように活用するかは皆さんが知恵を絞らなくてはならないところであるということを忘れないでください。巨大なデータを分析できること自体はもはや競争要因ではありません。巨大なデータを分析したところからスタートし,どのように活用するかで競う時代になったのです。

著者プロフィール

猿田浩輔(さるたこうすけ)

株式会社NTTデータ基盤システム事業本部に所属。
入社以来HadoopをはじめとするOSSの導入支援や技術検証および技術開発に従事。これまでに数百台規模のHadoopクラスタを構築する他,MapReduceアプリケーションの設計/開発支援なども実施。
社内外でHadoopの普及活動を行っており,2011年1月にPFIの太田一樹氏やNTTデータの濱野賢一朗氏らとともに『Hadoop徹底入門』を出版。
http://oss.nttdata.co.jp/hadoop/

コメント

コメントの記入