新春特別企画

2015年のHadoopとビッグデータ活用

この記事を読むのに必要な時間:およそ 2 分

あけましておめでとうございます。濱野 賢一朗です。

1年は早いものですね。本当にあっという間に過ぎ去ってしまうものです。しかし,いざ1年を振り返ってみると,いろんなことが起きていたのだと実感したりもします。ここでは「ビッグデータ(Big Data)活用」が2015年にどう変化していきそうか,Hadoopの話題を中心に紹介したいと思います。

2014年を振り返る

まずは,昨年を振り返ってみましょう。急浮上したバズワードという印象の「ビッグデータ活用」も,すこし落ち着いてきました。まだまだ浮ついた話を耳にしましたが,一方で,具体的な事例や技術の話も増えてきた1年でした。

システム基盤の観点では「Hadoop」の変貌が始まりました。皆さんご存じのとおり,Hadoopは並列分散処理を実現するオープンソースソフトウェアです。技術的側面での変貌は2015年に本格化すると思いますが,その下準備が着実に行われていました。詳細は後ほど紹介します。ビジネス面では,Hadoop専業ベンダClouderaとIntelとの提携,HortonworksのIPOなどに注目が集まりました。

Hadoopの周辺ではApache Sparkのバージョンが1.0がリリースされ,期待をぐっと集めました。アメリカで開催されているイベントSpark Summitに初回から参加していますが,6月末のサンフランシスコでのSpark Summit 2014では参加者が激増していて驚きました。クラウドサービスでは,AWSやGoogleがビッグデータ処理向けサービスの拡充を推し進めてきました。RedShiftやBigQueryに関する事例なども聞こえてくるようになったのも変化でした。

一方,従来のBI,BAやデータアナリティクスなどに取り組んできたベンダがHadoopなどの並列分散処理に大きく近寄ってきた1年でもありました。SASをはじめとして大手ツールベンダなどもHadoopに対応し,従来の領域は維持しつつも,ビッグデータ領域に確実に手を伸ばし始めています。

ビッグデータ活用のひとつの出口としても期待されるIoT領域においても,Intel Edisonの提供に代表されるようにデータ収集や活用に使えるデバイスの幅が広がりました。

振り返ってみると,さまざまな変化があった1年でした。それでは,今年2015年はどのような1年になるのでしょうか。Hadoopを中心に見ていきたいと思います。

MapReduceは次のフェーズに ─Apache Tezの浸透へ─

ビッグデータ処理を支える「MapReduce」が次のフェーズを迎えようとしています。

MapReduceは,Googleの検索エンジンを支える技術として注目され,Hadoopで実現されるようになったアルゴリズム/フレームワークです。Map関数とReduce関数という2つの処理を指定すれば,フレームワーク側で自動的に(いろいろと面倒の多い)並列分散処理が行われるもので,かなり強力な仕組みです。しかし,Hadoopをすでに使いこなしているユーザは,MapReduceでは十分なカバーできない処理領域に直面しており,その解決方法を探っていました。

現在のMapReduceフレームワークは終息して,新しいフレームワークに代替される流れが現実的になってきました。有力株は,Apache Tezです。DAG(非循環有向グラフ)型の処理系で,MapReduceよりもより柔軟なデータ処理パターンを実現できます。MapReduceではMapとReduceの2つが直列に実行されるスタイルでしたが,Tezでは,MapやReduce以外の処理パターンもグラフ状に自由に組み合わせて実行できます。これにより,MapReduceユーザの課題を解決できます。

Tezの普及を急速に進めそうな特徴のひとつに,従来のMapReduceアプリケーションも実行できる点が挙げられます。従来のMapReduceフレームワークをそのまま置き換える形で導入できるのです。

Tezは,すでにHadoopディストリビューションなどにも取り込まれてきており,2015年中に着実に普及していくでしょう。従来のMapReduceやHiveなどを活用しているつもりでも,(Hadoopのバージョンアップなどのうちに)いつの間にかTezに乗り換えていて,性能などでその恩恵に与るというユーザも少なくないでしょう。当然,Tezを意識して,これまでのMapReduceとは違うタイプの処理を実現するユーザも登場してくるに違いありません。

Apache Sparkの本格活用

現在のHadoopではYARNにより,MapReudce以外の並列分散処理ミドルウェアが動作するように進化を遂げつつあります。TezもYARN上のアプリケーションのひとつです。Tezの場合,MapReduceフレームワークを置き換えるものとして,静かに着実に浸透するでしょう。一方,YARN上のアプリケーション(並列分散処理ミドルウェア)として注目株は,Apache Sparkです。昨年末にはバージョン1.2のリリースまでこぎ着けており,スゴい勢いで開発が進んでいます。2015年はSparkの本格的な活用も進むでしょう。

Sparkは高い注目を集めているものの,活用事例として公開されているものは大きくありません。Yahoo!台湾でのレコメンデーション,動画配信やCDNでの最適化システムなど数えられる程度です。しかし,着実に利用を始めているユーザは増えてきています。この取り組みが2015年中に広く紹介され,これまで以上に注目を集めることになるでしょう。

Sparkは,独自のエコシステム(周辺ソフトウェア)が充実している点も注目です。Sparkの特性に合わせた機械学習ライブラリやグラフ処理を実現する取り組みに熱が入っています。まだ成長途上なものが少なくありませんが,使える部分から活用しようという動きが始まっており,ソフトウェアの成熟が図られるとともに,先進的なユーザによる事例が登場するに違いありません。

HadoopのキラーアプリケーションはSQLに?

Hadoopは,実現したい処理やアイデアを持つユーザにとって強力なツールでした。しかし,一方で,Hadoopが「何に」利用できるのか,「どう使ったら」よいか,わからないという意見も多数あったのは事実です。広くレコメンデーションや検索などのシステムを支えてきていましたが,誰でも使うというタイプのものではありませんでした。実際には,多件数データのバッチ処理の高速化にも利用されてきていましたが,どう処理を記述するか等のノウハウも広く知られているとは言えない状況です。そのため「Hadoopにはキラーアプリケーションが必要」といった声が聞こえてきていました。

どうもHadoopのキラーアプリケーションは,SQLの処理系になりそうです。

Hadoop上で実行したい処理をSQLで記述する取り組み(SQL on Hadoopと総称される)は,これまでにもHiveなどで行われてきました。従来のHiveでは,SQLライクなクエリをMapReduceとして実行でき,多くのHadoopユーザに利用されてきました。著者が,イベントHadoop Conference Japan 2014の来場者アンケートで行った調査でも,Hadoopユーザの71.3%がHiveを利用していると回答していました。しかし,従来のHiveでは,SQL標準との互換性や性能の面でも課題があるものでした。そのため,JDBCやODBCを利用した接続や各種ツールとの連携には大きな制約がありました。

いまチャレンジが進むSQL on Hadoopでは,SQL標準にこれまで以上に対応し,高スループットと低レイテンシの両面を追求しようとしています。従来のMapReduceに留まらず,DAG型やMPP型の処理系も活用しようとしています。支えるソフトウェアとしては,Apache Tez,Apache Spark,PrestoCloudera ImpalaApache Drillなどを挙げることができます。

2015年はSQL on Hadoopが実用面でも十分な機能,性能,安定性を持ち,既存のユーザに利用されるだけでなく,これを呼び水にしてHadoopユーザが増えるものと見ています。当然,Hadoopと連携するツールも格段に増えていくことになるでしょう。一方で,SQL on Hadoopを実現するソフトウェアはいくつかあり,その競争も激しくなるでしょう。相互に刺激し合いながら,成長を早めてほしいと期待しています。

クラウドサービスやパーソナルデータの取り扱いなどにも注目を

ここまで,Hadoopを中心にご紹介しましたが,もちろん,ほかにもビッグデータ活用の動向は大きく動いていくでしょう。

ひとつ注目したいのは,クラウドサービスでの展開です。AWS,Google,Azureなどでサービス進化が続くでしょうし,より上位のサービスを提供するトレジャーデータなどの動向にも目が離せません。

また,技術的な側面以外にも,パーソナルデータの取り扱いに関する議論や法整備などにも注意を払っておきたいところです。技術的な限界を別の側面からサポートしたり,社会的なコンセンサスをどう取り付けていくのか,実効的な動きが出てくる1年になると思います。

2015年は,バズワードとしての「ビッグデータ活用」に留まらず,また従来のデータ活用領域に留まらない,新しいデータ活用が提案・実現される1年になるでしょう。また,TezやSparkなどの新しい処理基盤の活用が進むことになると思います。皆さんにとっても,有益で楽しい1年になるようお祈りしています。

著者プロフィール

濱野賢一朗(はまのけんいちろう)

1998年からオープンソースソフトウェア(OSS)の利用に向けた取り組みを継続している。株式会社びぎねっと 取締役副社長,リナックスアカデミー 学校長を経て,2009年より株式会社NTTデータ 基盤システム事業本部にてOSSプロフェッショナルサービスを担当。

日本Hadoopユーザー会のイベント「Hadoop Conference Japan」や勉強会「Hadoopソースコードリーディング」の企画・運営や日本OSS貢献者賞・奨励賞の実行委員長も務める。

バックナンバー

新春特別企画

バックナンバー一覧

コメント

コメントの記入