レポート

Hadoop Hacks Night詳細レポート[前編]

この記事を読むのに必要な時間:およそ 2 分

多くの有名企業が利用し始めたことから注目を浴びているオープンソースの大規模分散データ処理システム「Hadoop」。

2010年3月8日(月),六本木ミッドタウンのYahoo Japanにて,Yahoo! ,Inc. Hadoopチーム アーキテクトのOwen OMalley氏を迎えて「gihyo.jp×Yahoo! JAPAN presents "Open TechTalk" Hadoop Hacks Night」((株)技術評論社・ヤフー(株)主催)が開催されました。

会場の模様

会場の模様

第1部 Owen O'Malley氏のプレゼンテーション

5,000億人ものユーザのデータの解析に威力を発揮

最初のセッションは,Owen氏によるプレゼンテーション。冒頭で,氏がまず述べたのが,「Hadoopはオープンソースであり,開発者が協力して力をあわせてプロジェクトを進めていける」というメリット。コミュニティでのメールのやりとりは2007年から毎年倍以上の伸びを見せており,2009年には大きく増えたことを明らかにしました。

Hadoopを最も利用しているのは米Yahoo!で,所有しているノードは25,000ほど。現在,サブプロジェクトも含めて約40名の開発者がフルタイムでHadoopに関わっていることを明らかにしました。パッチの提供が増えてるにつれ,提供者の中にヤフーが占める割合も増えてきているとのことでした。また,テストは4階層で行っているとのこと。

月間5,000億人ものユニークユーザがいるYahoo!では,毎日のトランザクションでぺタバイト級のデータが発生します。そのような大量のデータを安価でどこでも手に入るハードウェアで処理するのにHadoopが役立つとのことです。また,多くのハードウェアがあるとその分故障も多く発生しますが,Hadoopがあればそのあたりをうまくハンドリングできるメリットもあります。

さらに,Yahoo!でHadoopを利用している事例として,トップページの画像のクリックレートなどの分析が紹介されました。ユーザによってどんなコンテンツを見せればいいかを最適化し,滞在時間を延ばすことなどにも貢献できるとのことです。

他にも,メールサービスにHadoopを利用し,スパムをはじく際の分析などを行っているそうです。

Owen O'Malley氏

Owen O'Malley氏

生産性への驚異的なインパクト

次に,プログラマにとってのメリットとして挙げられたのが生産性の高さです。処理が高速化すれば,分析されているデータが本当に役に立つものかを短時間で知ることができますし,5台のサーバの購入許可を得るのに何日も待つ必要がなくなります。

さらに,JavaやPythonなど汎用言語を利用できるので開発がしやすい点も紹介されました。実例として紹介されたSearch Assistでは,Hadoop使用前はC++で2~3週間かけて実装したプログラムで26日かかっていた処理が,HadoopならばPythonで2~3日で実装,20分で処理が終わるとのことでした。

さらに,より開発を効率化するための手段としてPigを紹介。Pigを利用すると,若干パフォーマンスが遅くなるももの,より短いコードで同じ処理を書くことができます。Yahooでは全体のコードの60%ぐらいがPigで書かれているそうです。

“Hadoop+pigの生産性をアピール

“Hadoop+pig”の生産性をアピール

Hadoopのこれから

現在,Owen氏はケルベロス認証の実現に取り組んでいるそうです。後のセッションでも指摘されているのですが,現在Hadoopはセキュリティ面での不安が取り沙汰されているので,その課題解決を目指しているとのことでした。

もう1つは,後方互換性の確保。Hadoopがスタートして4年間ですが,その間に作られたAPIの資産を引き継ぐ必要があります。また,APIがパブリックか,プライベートかのラベルづけも行っていくとのことです。

この他,HDFSにAppendで追加できるようにする取り組みや,異なるユーザグループでクラスタを共有できるようにする取り組みが行われているとのこと。また,Pigの中にSQLやメタデータを追加し,それによってSQLに近い形でPigを利用できるようになるそうです。

さらに新しいワークフロースケジューリングシステム「Oozie」ではMakeとCronが新しいデータに入ったときジョブを走らせることができるようになり,テストがよりスマートにできるようになる見通しが語られました。

著者プロフィール

傳智之(でんともゆき)

技術評論社の中の人。書籍編集部なのになぜかgihyo.jpに絡ませていただいてます。パソコン入門から本格的な技術書まで,熱い企画のご提案をお待ちしています。

Twitter:http://twitter.com/dentomo

コメント

コメントの記入