新春特別企画

Hadoop, Sparkその他分散処理フレームワークの2018年を占う

この記事を読むのに必要な時間:およそ 3 分

「AIブーム」とユーザの関心の移り変わり

HadoopはもともとYahoo!やFacebookの技術者が開発し,TwitterやLinkedInで大規模に利用されていたこともあり,WebとSNSが中心的なユースケースとなっていました。

その後,大量のデータ処理を必要とするテレコム,バイオ,エネルギー,金融と利用される分野が広がったり,IoTという切り口でのユースケースが注目されたりと,年とともにホットな話題の移り変わりが見られます。その意味で2017年は,AIと機械学習がホットな話題だったという印象を受けます。

データを処理する仕組みとしてのHadoopではなく,大規模データ処理で何ができるか,どのような価値を生み出せるかに関心の焦点が移ってきています。これを象徴するのが,Hadoop関連カンファレンスの名称変更です。

一番初めにClouderaが単独で主催していたHadoop Worldは,O'Reilly Media主催のデータサイエンスについてのカンファレンスであるStrataと合併され,"Strata + Hadoop World"となりました。2017年5月にSan Joseで開催された際にはStrata + Hadoop Worldだったものが,2017年9月のNew York開催以降は"Strata Data Conference"となり,イベント名にHadoopの文字が含まれなくなりました。

また,Hortonworks主催のHadoop Summitも,2017年からDataWorks Summitに名前が変わり,Hadoopのコミュニティイベントから,データビジネスのカンファレンスへと,位置づけを変えつつあります。

2017年に開催されたStrataやDataWorks Summitでは,セッションの多くが機械学習に関連する内容を扱っていました。

Sparkやその周辺についてもAI,特にディープラーニングにちなんだ状況の変化が起こり始めています。Sparkはもともと機械学習を主要なユースケースのひとつと捉え,ビルトインのライブラリを提供していました。それに加えて2017年はIntelが「BigDL」を,Databricksが「Deep Learning Pipelines」をいずれもオープンソースとして公開するなど,ディープラーニング向けの処理エンジンとしてSparkを活用するためのエコシステムが広がりを見せています。ディープラーニングではテキストデータだけではなく画像データを用いる場合も多いですが,2018年にリリース予定のバージョン2.3では画像データが処理対象のデータとして標準でサポートされます。このようにSpark本体でもAIやディープラーニングを指向した進化が始まっています。

またDatabricksは,同社が主催するSparkに関する最大級のイベント「Spark Summit」の名称を,2018年から"Spark + AI Summit"に変えると発表しています。こちらも昨今のAIブームの波に乗った形と言えるでしょう。

鯵坂明氏

鯵坂明氏

デファクトスタンダードとなったApache Kafka

HadoopやSparkの利用シーンに近いところで,ここ1~2年で地味によく使われるようになったプロダクトとして,Apache Kafkaが挙げられます。Strata Data ConferenceやDataWorks SummitなどのHadoop関連カンファレンスでも,事例紹介のセッションをみると,データをまず受け止めるツールとして,Apache Kafkaの登場頻度が非常に高いと感じます。2016 年に初開催となったKafka SummitというKafkaを中心としたカンファレンスは,2017年も開催され,NTTデータも講演を行いました

Apache Kafkaも2017年10月にバージョン1.0.0がリリースされ,節目を迎えました。2017年に追加された機能で目立つところとしては,複数のメッセージのKafkaへの読み書きをアトミックに処理する,transactional APIが挙げられます。

初期のKafkaは,データを永続化する前提の,高スループットなメッセージキュー的なプロダクトという印象でした。Spark Streaming,Storm,Flinkといったストリーミングデータ処理エンジンと組み合わせて使われていましたが,Kafka自身もKafka Streamsと呼ばれる処理機能を提供するようになり,ストリーミングデータ処理基盤としての位置づけを強調するようになっています。実際,入出力をKafka前提とすることで,ある程度シンプルで使いやすい機能セットを提供することができているという印象です。

まとめにかえて

2017年はHadoop 3.0がリリースされ,ひとつの節目を迎えました。Sparkは2.2がリリースされ,Kafkaも1.0.0が出て節目の年となりました。いずれも AI,機械学習を代表として大規模データ処理基盤へのニーズは依然として高く,現在も活発に開発は続いています。さらに,不揮発性メモリなどの新しいハードウェアとの組み合わせについても2018年にはさらなる進展が見られることが期待されます。

プロジェクトごとに課題がありつつも,並列分散処理エンジンは進化を続けています。ぜひ,皆さんには2018年もHadoopやSparkに代表されるオープンソースソフトウェアを活用して,役立つ,面白い取り組みを進めてもらえばと考えています。

よい1年になりますように!

著者プロフィール

岩崎正剛(いわさきまさたけ)

株式会社NTTデータ システム技術本部 課長代理

PostgreSQL の機能拡張ツールおよび運用管理ツール Hinemos の開発経験を経て,Hadoop をはじめとする分散処理を安心して使えるようにするための取り組みを進める。2014年に Apache HTrace コミッタ,2015 年に Apache Hadoop コミッタに就任。共著に『Hadoop徹底入門』(第2版)。


猿田浩輔(さるたこうすけ)

株式会社NTTデータ システム技術本部 課長代理

入社以来HadoopをはじめとするOSSの導入支援や技術検証および技術開発に従事。その後,Apache Sparkの開発に貢献,Timeline Viewerの開発を主導。2015年6月Apache Sparkのコミッタに就任。共著に『Hadoop徹底入門(第1版/第2版)』『Hadoop Hacks』『Apache Spark 入門』。


鯵坂明(あじさかあきら)

株式会社NTTデータ システム技術本部 主任

入社以来Apache Hadoopを利用したシステムの導入支援および技術サポートに従事。2013年から本格的にApache Hadoopコミュニティでの開発に参加し,2014年にHadoopのコミッタに就任。2015年にHadoopのPMC(Project Management Committee)に就任。


下垣徹(しもがきとおる)

株式会社NTTデータ システム技術本部 課長

PostgreSQL 本体および周辺ツールの開発経験を経て,現在オープンソースの並列分散処理ミドルウェアを主に担当するチームを束ねる。Hadoop や Spark のお客様への導入推進を担当。共著に『Hadoop徹底入門』(第1版/第2版),『Apache Spark入門』。