新春特別企画

Apache Kafkaにも注目 ―Hadoop, Spark,分散処理フレームワークをめぐる2019年

この記事を読むのに必要な時間:およそ 5 分

Kafka

Apache Kafkaは分散メッセージングシステムのデファクトスタンダードとしてここ数年急速に成長していますが,その傾向は2018年も続きました。

佐々木徹氏

佐々木徹氏

堅実に成長したKafka

7月には昨年の1.0.0に引き続きのメジャーバージョンアップとなるKafka 2.0.0がリリースされました。このバージョンではJava 7のサポートが打ち切られたほか,ScalaベースのProducer/Consumerのソースが削除されました。それ以外にもセキュリティなどで多くの機能追加や改善が実施されています。

また,11月には2.1.0がリリースされ,新たにJava 11が正式にサポートされるようになりました。

Kafkaの本体だけでなく,その周辺でもさまざまな変化がありました。

代表的なところでは,Kafkaと組み合わせてSQLライクな言語でストリーム処理を記述できるKSQLが,4月にProduction Readyになりました。Kafkaの主要ディストリビュータのConfluent社が提供しているConfluent Platformの4.1からKSQLのパッケージが含まれるようになっています。データ処理をSQLやSQLに近い言語で行いたいという要望は従前からありますが,新たな選択肢が増えたことはKafkaユーザにとって嬉しいことだと思います。

またConfluent社が提供しているKafkaのクラウドサービスであるConfluent Cloudで,クラウドプロバイダとしてGoogle Cloud Platformが選択できるようになりました。以前はAmazon Web Serviceがクラウドプロバイダとして選択できましたが,ここに選択肢が増えた格好です。

11月にはAmazon Web ServiceからKafkaのマネージドサービスであるMSK(Managed Streaming for Kafka)が発表されました。現在はパブリックプレビューの段階ですが,将来的にはこちらもKafkaの利用シーンを広げることが期待されます。

Kafkaコミュニティの広がりと2019年への期待

Kafkaのユーザコミュニティも引き続き,そして確実に拡大しています。

2016年から開催されている,KafkaをテーマとしたカンファレンスであるKafka Summitについては,米国外では初となるKafka Summit London 2018が4月に開催されました。また,10月に開催されたKafka Summit San Francisco 2018は,前回より広い会場に移り,開催も2日間となるなど,Kafkaの利用者拡大を受け,その規模が徐々に拡大しています。

また,Kafka Summit以外のカンファレンスでも,Kafkaをテーマとした発表が多くみられました。AIをはじめとするデータ活用が広がる中,各方面からのデータを受け止めるツールとしてのユースケースが多い印象です。9月に行われたStrata Data Conference New York 2018では,NTTデータからも発表を行いました

他のプラットフォームと同じようにKafkaも,コンテナ環境で利用するケースが見られるようになりました。カンファレンスで発表された利用事例も複数あり,Confluent社からもKubernetes利用に関する発表がなされています。

書ききれなかったトピックも含めて,2018年はKafka本体,周辺環境,ユーザコミュニティの各方面で堅実な成長がみられました。Kafkaがこの分野のデファクトスタンダードとなり,広がっていることが実感できる1年だったと感じます。手軽にKafkaとストリーム処理を利用できる環境やツールが増えたことで,2019年にはさらなる飛躍が期待されます。

吉田耕陽氏

吉田耕陽氏

まとめにかえて

ユーザの裾野は広がる一方で,開発コミュニティとしては大規模ユーザ向けの開発が続くHadoop,Kubernates対応などのトレンドも取り込みつつ,AI対応の開発が続くSpark,メッセージシステムのデファクトとして利便性を上げる方向に着実に進化を続けるKafkaと,3者3様の状況をご理解いただけたかと思います。

世の中的にクラウドシフトがますます加速していく中においても,クラウドベンダからこれらのマネージドサービスがリリースされ続けている状況を見ると分散処理フレームワークの利用ニーズは2019年も継続していると見るべきでしょう。これらの動向からまだまだ目が話せません。

本稿がみなさまにおけるこれからの Hadoop, Spark, Kafka の利用に関する一助となれば幸いです。2019 年もよい1年となりますように!

著者プロフィール

岩崎正剛(いわさきまさたけ)

株式会社 NTTデータ

Hadoopをはじめとするオープンソースソフトウェアの技術的ななんやかやに従事。NO RICE, NO LIFE. 麺類も好きです。


猿田浩輔(さるたこうすけ)

株式会社 NTTデータ

2009年からHadoopをはじめとしたOSSの並列分散処理基盤の導入支援や技術開発などを行い,2014年からはHadoopを補完するプロダクトの候補としてSparkに取り組みはじめる。技術調査や案件支援などを経て明らかになったSparkの課題に取り組み,コミュニティへのフィードバックを続けてきた。2015年6月に日本人最初のApache Sparkコミッタに就任。


佐々木徹(ささきとおる)

株式会社 NTTデータ

これまでに大規模クラスタでのApche Sparkの性能検証などに関わった。OSSコミュニティでの開発活動も行っており,これまでにApache Hadoop,Apache Spark,Apache Kafkaに貢献してきた。


下垣徹(しもがきとおる)

株式会社 NTTデータ

PostgreSQLを中心としたオープンソースのDBMSに取り組む。本体拡張機能の開発を経て,Oracle DatabaseからPostgreSQLへの移行案件に従事し,ミッションクリティカルな商用システムへの適用を実現してきた。近年,大規模なデータを処理するニーズに応えるかたちでHadoopに取り組み始め,DBMSとHadoopの両者の特徴を活かした効果的な組み合わせの実現に注力する。共著に『Hadoop徹底入 門』(第1版,第2版),『Apache Spark入門』『Apache Kafka分散メッセージングシステムの構築と活用』。