レポート

Hadoop Hacks Night詳細レポート[後編]

この記事を読むのに必要な時間:およそ 4 分

3月8日(月)に開催された「gihyo.jp×Yahoo! JAPAN presents "Open TechTalk" Hadoop Hacks Night」。前編では,基調講演のYahoo! ,Inc. Hadoopチーム アーキテクトOwen O'Malley氏のセッション,そして特別講演のヤフー株式会社 R&D統轄本部 吉田一星氏によるセッションをレポートしました。後編では,続いて行われたパネルディスカッションの模様をお届けします。

第3部 パネルディスカッション

最後はOwen氏,吉田氏に加え,田中慎司氏(株式会社はてな),藤川幸一氏(株式会社シリウステクノロジーズ),三上俊輔氏(筑波大学)の5名のパネリスト,モデレータ馮富久(株式会社技術評論社)による計6名でのパネルディスカッションです。

勢揃いしたパネラー一同

勢揃いしたパネラー一同

Hadoopのメリット,用途は?

各自かんたんな自己紹介の後,新たに登場した3氏からHadoopのメリットが語られました。田中氏は「巨大なデータをスケールするリソースを使って短時間で処理できる」,藤川氏は「いろいろフレームワークを使わなければいけないところを,あまり意識せず完全にスケールするシステムを作れること」,三上氏は「プログラマの負担を減らせること」が挙げられました。

続いて3氏がOwen氏に質問。まず田中氏が「Hadoopは今,バッチ系の処理が多い。HBaseなどによってリアルタイムでの処理が多くなってくると期待していいか?」と質問。それに対しては「それはないと思う。今後,時間を短縮することによって,リアルタイム的な処理ができるようになることはあるだろう」との回答が寄せられました。

田中慎司氏

田中慎司氏

次は藤川氏の「一般的にはログ分析がいちばん多いし,インデックスの作成,機械学習がよくでてくる。だが私はRubyで使えるというプロジェクトをやっていることもあり,他の用途で使えないかと思っている」という質問。Owen氏は「パズルのような組みあわせの分析などに使える」と回答,それを受けて三上氏が「生物などの遺伝子解析などで使われることもあると聞いている。結果の話は聞いていないが,将来有望とのこと」と発言。Owen氏も「バンガロールの大学の研究者などあが,遺伝子の組み合わせのマッチング処理に利用している話を聞いたことがある」と答えました。

回答を受けて藤川氏は「Hadoop PapyrusはMapReduceしかラップしていないが,HDFS処理をラップするような形にするのもおもしろい」と興味を示しました。それを受けて三上氏からは「その場合に標準に準拠していないなどの問題があるが」との提議がありましたが,それに対してOwen氏は「インターフェースについては年を追うごとに増えてきている。新たに,APIのFileContextを作成している。0.22にはでると思う」と答えました。

藤川幸一氏

藤川幸一氏

不安が残るHDFSの信頼性

続いて吉田氏がHDFSに言及。「HDFSはくせがあると思う。フロントサーバから大量のアクセスがきたり,小さなファイルがたくさんあるようなものにも向いてない。自分が使った中では不安定な感があるし,重要なデータを置くのはどうかと思う」との見解とともに,「ストレージとしての可能性を目指していくのか,MapReduceのストレージとして割り切るのか」という将来の方針について意見が出ました。

それに対してOwen氏は「Yahoo!バージョンの0.20で出ているが,セキュリティについてもQAに入っている。今年の夏にはリリースされる」とのことでした。

三上氏からは「顧客の情報などをHDFSに載せて運営した例はあるか」との質問。それに対しては「HDFS以外のバックアップは以前は存在していたが,いまはそこにしか残っていない。しかし,今後は複数のクラスタで,複数のデータセンターにまたがったバックアップなどを提供していきたい」との回答でした。

三上俊輔氏

三上俊輔氏

Owen氏は「実際に運用していく中でデータを失ったこともある」という事実も披露。同時に「Hadoopのレプリカを1に設定していたことも原因。HDFS自体は信頼性の高いものになってきている。ユーザのミスによって失うもののほうがはるかに多い」との見解を示しました。

関連して,吉田氏からはネームノードのフェールオーバーについてコメントが。「0.21でバックアップノードができると見た記憶があるが,そのあたりの自動フェイルオーバーのプランについてはどうか」との質問に対し,「0.21で実装されることはまちがいありません。現状ではありませんが,それでも1個のノードのほうが多くのノードよりはいい。近い将来,そちらにも手を加えるつもりではあるが,すぐにではない」とのことでした。

著者プロフィール

傳智之(でんともゆき)

技術評論社の中の人。書籍編集部なのになぜかgihyo.jpに絡ませていただいてます。パソコン入門から本格的な技術書まで,熱い企画のご提案をお待ちしています。

Twitter:http://twitter.com/dentomo

コメント

コメントの記入