新春特別企画
ビッグデータを活かせるか?─2012年の展望
あけましておめでとうございます。
2011年中頃より急速に広がりをはじめた「ビッグデータ(Big Data)活用」。IT各社の事業戦略には必ずと言ってよいほど添えられるキーワードとなってきました。本格的に展開が進むであろう2012年にどういう動きがありそうか,予想してみたいと思います。
注目が集まる「ビッグデータ活用」とは
ビッグデータと言われても「単に多いデータ?」と漠然としたイメージしか浮かばない方もおられるでしょう。予想の前に,ビッグデータ活用がどういうものかを整理することから始めてみましょう。
私の理解では,ビッグデータ活用とは,扱うデータがビッグ(大容量・多件数)であるために,従来のITアーキテクチャでは難しかった,もしくは超高コストにしか実現できなかったシステムを実現する取り組みです。
たとえば,ペタバイト級のデータを蓄積・分析するのは難しかったわけですが,ここ数年で実現できる領域になっています。時々刻々と生成されるライフログデータを扱うシステムは構想としては語られてきたものの,性能面でもコスト面でも実現は難しかったのです。手頃に利用できる分散処理技術の登場やコンピュータ,ネットワークの性能向上などの背景があり,これを実現できるアーキテクチャが手頃なものとなっています。
実際,オンラインゲームではゲーム中の行動を蓄積・分析することで,ユーザがゲームに飽き始める兆候を捉えてアクションを取ることで解約率の低減を実現しているし,クレジットカード会社では過去の決済履歴をもとに個人ごとの利用特性を抽出して不正利用検知に役立てているわけです。このように,従来では扱うことが容易ではなかったビッグデータを活かして,新ビジネスの創出やビジネスの効率化につなげる取り組みが「ビッグデータ活用」といえるでしょう。
新しいITシステムの実現するという観点で,交通,医療,農業などとの融合による新領域の開拓(融合新産業などと言われる)と強い関係があると説明されるケースも見かけます。
注意が必要なのは,従来でも実現されていた「処理を高速化する」話は,ビッグデータ活用とは異なる観点ということです。ビッグデータ活用を支える技術は既存処理の高速化に役立つことがあります。たとえば,長時間かかるバッチ処理をHadoopで高速化するといった話題がありますが,これはビッグデータ活用とは基本的に異なる領域といえるでしょう。
バッチ処理高速化やBIを超えて,価値を生むサイクルを構築する
また,従来のBI(ビジネスインテリジェンス)やデータ分析とも似て非なるものでしょう。従来の分析手法を使って,サンプリングせずに全件データを対象として処理することで解る領域もあります。いわゆる"ロングテール"を把握するといったものです。しかし,ビッグデータ活用はそこに留まらない領域でしょう。
それは,お客様や利用者にデータから得られる結果や知見を直接的にフィードバックする仕組みが展開される点です。Webの世界では過去の閲覧履歴からコンテンツのパーソナライズやレコメンデーションが行われ,オンラインゲームの世界でも飽きないようにコンテンツが調整され,電子決済の世界ではその可否を判定しているわけです。処理結果を一部の関係者(たとえば,社内の分析担当者やマーケティング担当者)だけでなく,お客様のサービスにまで直接結びつけることで価値を生むサイクルを構築するのです。このサイクル全体を構築することがビッグデータ活用なのです。
そういう意味で,ITに従事する皆さんにとっては,ビッグデータ活用を「従来処理の高速化」「従来のBI」「融合新産業」といった領域とは区別して理解することが重要です。
さて,ビッグデータ活用の整理が長くなってしまいましたが,2012年の動きを予測してみましょう。
ビッグデータ活用を生かせるか…明暗が分かれ始める
各社がビッグデータ活用について声高にメッセージを発信するため,少なくないユーザ企業が新しい取り組みを始めるでしょう。
しかし,ビッグデータ活用がうまく成功に導けない企業が出てくるとも予想されます。ビッグデータ活用は,方法論や製品そのものではありません。実現にあたってはビジネス上のアイデアが必要です。したがって,アイデアが十分でない状態で,流行っているから,他企業がやっているからというだけで取り組みをはじめてしまうと,成果を出すサイクルを描けない取り組みになってしまい,ビッグデータ活用は難しい…という話になるでしょう。
一方で,成功した事例もより知られるようになるものと思われます。今は,同業他社との優位性確保のために進めていることが多いため,先行的な取り組みはなかなか発表されない傾向にありますが,年末にはすこしずつ出てくるでしょう。
個社での取り組みも注目に値しますが,データの掛け合わせによる新サービスの登場には注目でしょう。パートナー企業や加盟店からデータをお預かりして,自社が保有するデータと掛け合わせて,個社ではわからなかったような傾向や振る舞いを把握するといったサービスです。広告代理店,ポイントカード・ICカード事業者などが取り組みを加速化させるでしょう。先の将来には,ビッグデータ活用のためのデータ流通のプラットフォームが構築されるものと考えられますが,その動きをリードする取り組みになると見ています。
ビッグデータ活用を支える技術の多様化
支える技術として,分散処理エンジン,分散ストレージ,ストリーム処理エンジン,NoSQL,高スケールアップアーキテクチャなどに注目が集まっていますが,中心的な存在はHadoopです。分散ファイルシステム(HDFS)と分散処理エンジン(MapReduce Framework)が強く結びつくことで,スケールアウト型で,高スループットのデータ処理を実現しています。
まずは,Hadoopの進化が形になって見える1年になるでしょう。すでにMapReduce 2.0やHDFS Federationといった新しい取り組みや実装が知られていますが,これらが利用できる形となって登場するでしょう。Hadoopエコシステムといわれる周辺オープンソースの進化も目まぐるしくなり,より利便性や運用性の高いソフトウェア群に進化することでしょう。
Hadoopについては,BigTopの成熟もひとつのチャレンジです。Hadoop+エコシステムをパッケージ化してLinuxディストリビューションにように利用できる形を目指しているのが,Apacheのプロジェクトとして活動が始まったBigTopです。今年は,BigTopが成長し,LinuxでいうところのFedoraのような存在に成長できるか見ものです。
また,ビッグデータ処理を支える基盤だけでなく,データ活用に必要な周辺ソフトウェアも充実しそうです。たとえば,分散処理に対応した言語処理エンジンや可視化ツールなどもそうですし,準構造化データを上手に取り扱うためのアイデアを盛り込んだソフトウェアも投入されてきそうです。当然,これをパッケージ化したアプライアンス製品の市場投入も拡大しそうです。
分散処理を使いこなせるデータ分析者のニーズが拡大
すでにビッグデータ活用を見込んで,機械学習や分析アルゴリズムについて深く理解している分析者へのニーズは急拡大しています。米国を中心に,サービス企業の求人に「Data Scientist」の募集を見かけることが多くなっています。
従来のように,RやSPSSなどの分析ツールを使いこなせる人材へのニーズも拡大していますが,それ以上に,分散処理としてデータ分析をどう実現すれば,ビッグデータを処理できるかといった課題に取り組める人材に注目が集まるでしょう。ビッグデータに基づくビジネス上のアイデアとHadoopのような分散処理アーキテクチャをどうつないでいけるのか,これがわかる人材が重宝されそうです。
当然ながら,さまざまなデータ分析手法を透過的に分散処理で実現するような製品も登場をはじめるでしょう。
最後に
バズワードとして語られている「ビッグデータ活用」,その形がすこしずつ具現化され,ユーザにとってはその潮流を生かせるかどうか,分かれ道がはじまる年になるでしょう。
一方で,ここ数年で利用が進み始めている,分散処理技術やスケールアウト型アーキテクチャなどの利用は確実に進み,それらを活用した高度なデータ処理へのニーズは高まっていくことでしょう。
漠然とした「ビッグデータ活用」というイメージから脱却して,技術者であれば分散処理技術への取り組みを本格化させる,経営者やビジネス企画の担当者であればビッグデータ活用に基づいた新しい価値を生むサイクルが作れないか真剣に考えてみるといった,具体的な行動につなげていただければと考えています。
皆さんにとって,2012年が実のある一年になりますように!
新春特別企画
- 第4回 Amazon Elastic MapReduceを学ぶ(後編)
- 第5回 稼働中のサービスでin-place updatesが可能に,Windows Azure上で稼働するHadoopベースのBig DataソリューションCTP版が年内にリリース
- 第4回 HadoopベースのBig Dataソリューションの提供,Hortonworksとの戦略的提携,Microsoft Enterprise Library,Windows Azure Autoscaling Application Blockベータ版公開
- Hadoop Hacks Night詳細レポート[後編]
- 第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む

