この記事を読むのに必要な時間:およそ 0.5 分
2011年11月15日,大規模分散処理システム「Apache Hadoop」のバージョン0.23がリリースされました(図1)。現在の安定バージョンは0.20であり,マイナーバージョン番号が奇数の場合は開発バージョンを表すので,本番環境への導入は推奨されていません。
図1
![図1 図1]()
今回のバージョンアップにより内部の設計が大幅に変更されました。何と言ってもHadoopの根幹となる処理フレームワークMapReduceについて再設計が行われ,MapReduceアルゴリズムに限らない柔軟な処理が行えるフレームワークへと進化し,MapReduce 2.0またはYARN(Yet Another Resource Negotiator)と名付けられています。また,HDFS(Hadoop Distributed File System)についてもSPOF(Single Point Of Failure)問題を抱えていたNameNodeが複数で管理できるようになり,NamespaceとBlock Storageという単位で分けて管理を行うようになりました。
特にMapReduceに関する部分が大きく変わり,BSP(Bulk Synchronous Parallel)などのMapReduce以外の処理も対応できるようになったため,JobTrackerやTaskTrackerといった概念はなくなり,YARNという名のとおりリソース管理に徹しています。そのため,ResourceManagerやApplicationMaster,NodeManagerなどといった新しい概念が登場しています。
すでに概念を理解するためのドキュメントや実際に動かして試してみるためのチュートリアルが用意されています。次の安定バージョンがリリースされるまで十分な時間がありますので,調査に時間をあててみてはいかがでしょうか。ちなみにブラウザベースの管理画面についても,以前は非常に簡素な見栄えでしたが,今回のバージョンアップによりテーマが変更できるなど少しリッチになっています。
URL:http://hadoop.apache.org/