レポート

リアルタイムでなければ意味がない ─「Gigaom Structure Data 2016」で見たデータアナリティクス最前線

この記事を読むのに必要な時間:およそ 2.5 分

ここ1年ほどの間,データアナリティクスの世界ではマシンラーニング(機械学習)や深層学習(ディープラーニング)といったキーワードをニュースなどで頻繁に聞くようになりました。その理由に,自動運転カーやロボティクス,あるいは「アルファ碁(AlphaGo)」など,AIにおける技術革新が実用レベルに達しつつあることを感じさせるユースケースが増えていることが挙げられます。そしてこれらのイノベーションの本場はやはりシリコンバレーであり,この地を本拠とするGoogleやFacebook,AppleといったAI研究の最先端企業に牽引され,データアナリティクスの世界はすさまじいスピードで前に進んでいます。

世界最先端を行くAI,そしてデータアナリティクスの本場ではいま何がホットトピックなのでしょうか。 本稿では3月9日,10日(米国時間)の2日間,米サンフランシスコで開催されたデータアナリティクスのカンファレンスである「Gigaom Structure Data 2016」の現地取材を通して,2016年のデータアナリティクスの中心となりそうなトピックを挙げてみたいと思います。

Spark+Kafka ─リアルタイムストリーミング処理の生命線

2月に東京で行われたHadoop / Spark Conference Japan 2016では国内におけるSparkブームの拡大を強く感じましたが,Sparkを生み出したUC BerkeleyがあるシリコンバレーでもSparkの普及スピードはすさまじく,データサイエンティストを名乗るならもはやSparkは必須スキルという雰囲気さえ漂います。

「Sparkは(アナリティクスにおける)アプリケーションの作り方を根底から変えた。Hadoopの良さを引き続きながら,アクセラレーションに注力し,処理スピードを大幅に改善した功績は大きい」と語るのはApache Kafkaのクリエーターのひとりとして知られるNeha Narkhede氏です。LinkedIn出身のNarkhede氏は現在,Kafkaベースのストリーミングデータ処理を得意とするスタートアップCofluentのCTOとして活躍中ですが,「リアルタイムデータを収集するKafkaと低レイテンシでデータを処理するSpark,現在はこの組み合わせがデータアナリティクスにおける定番になりつつある」と語っています。

Neha Narkhede氏(中央),Ion Stoica氏(左)が登壇した「Building the data framework for tomorrow's apps」と題されたセッション。右端はモデレータのZDNet,Andrew Brust氏

Neha Narkhede氏(中央),Ion Stoica氏(左)が登壇した「Building the data framework for tomorrow's apps」<wbr/>と題されたセッション

ちなみにKafkaについては,ユニコーン企業の代表格ともいえるSlackのデータエンジニアリングディレクター Josh Wills氏が別のセッションで「Kafkaは我々にとって頭で考えて使うものじゃない。Kafkaはもう空気みたいな存在で,なければ息ができなくなる」と強調していたのが印象的でした。

Kafkaについて語るJosh Wills氏(中央)

Josh Wills氏(中央)

Narkhede氏が指摘する通り,SparkとKafka,そしてPrestoなどのオープンソースのミドルウェアはいまやリアルタイムデータアナリティクスに欠かせない存在です。現在,データアナリティクスの世界は強力な"リアルタイム指向"ともいうべきトレンドが支配的で,そのニーズに応じてSparkやKafkaも進化しているといえます。たとえばSpark開発の中心的存在であるDatabricksでCEOを務めるIon Stocia氏は「DatabricksはSparkがノーマルなクエリ(SQLクエリ)をリアルタイムで扱えるようにするために,新たなエンジン(Spark SQL)を投入した。これによりストリーミングデータを構造化データのように処理できるようになった」と語っており,SparkはHadoopの資産に必ずしもこだわるのではなく,アナリティクス基盤としての速さと使いやすさをどこまでも追求していく姿勢であることを示しています。Sparkはまもなく2.0がリリースされる予定ですが,1000人以上のコントリビュータがその開発スピードの向上に寄与しています。こうした体制がプロダクト自体の速さを支えているとも言えるかもしれません。

ペタバイトを捌けるのはオープンソースプロダクトだけ

オープンソースプロダクトをデータプラットフォームの中核エンジンとして利用するユーザは多く存在しますが,その象徴的存在ともいえるのがNetflixです。毎日1兆を超えるトラフィックをさばき,「ユーザ数の増加よりもデータ量の増加のほうがはるかに大きい」(Netflix データプラットフォーム部門ディレクター Eva Tse氏)というNetflixでは,膨大なストリーミングデータをいかに効率よく処理するかは最重要課題です。

Netflix,Eva Tse氏(左)のセッション

Netflix,Eva Tse氏(左)のセッション

Tse氏は「NetflixのデータインフラはAmazon S3,Spark,Kafka,Presto,Hive,Pigなど,オープンプラットフォームで構成されている。Teradataなどのプロプライエタリも使っているが,エンジンレイヤはすべてオープンソース。ペタバイト級にスーパーリニアにスケールするデータをさばけるのはオープンソースしか考えられない」と断言しています。とくにPrestoを導入してからは,それまで数十分以上かけていたクエリ処理の90%を1分以下に短縮できるようになったとのこと。プロプライエタリを否定するわけではないが,Netflixのようにデータのスケール規模が桁違いになると,データプロセッシングの要となるミドルウェアにプロプライエタリを採用することはさまざまな面でリスクが大きいことがうかがえます。

著者プロフィール

五味明子(ごみあきこ)

フリーランスライター兼エディター。札幌市出身。東京都立大学経済学部卒。技術評論社で雑誌/書籍の編集に携わった後,「マイコミジャーナル」で主に技術系記事の取材/執筆/編集を担当する。フィールドワークはOSS,Javaプログラミング,Webアプリ開発,クラウドコンピューティングなどエンタープライズITが中心。ビジネス英語やマネジメント,コーチングスキルなどビジネス系のネタもたまに手がける。

Twitter:http://twitter.com/g3akk

コメント

コメントの記入