アンケートご協力のお願いgihyo.jpでは,2010年度に向けて豪華プレゼントが当たる読者属性アンケートを実施しております。ご協力ください。

gihyo.jp » DEVELOPER STAGE » 連載 » Ruby Freaks Lounge » 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み

Ruby Freaks Lounge

第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み

はじめに

Hadoopとは,Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので,分散処理のフレームワークです。Hadoopを使うと,1台のサーバでは時間の掛かるような処理を,複数のサーバで分散処理させることができます。「処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため,利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!やはてななど,様々な企業でも利用されるようになってきています。

Hadoop導入の背景

筆者はクックパッド株式会社に勤めています。クックパッドというサイトが有名だと思いますが,他にも携帯版クックパッドであるモバれぴや,クックパッドでの検索データを提供するたべみるといったサービスを運営しています。

2009年12月現在,クックパッドはユーザ数が848万人,30代女性の3人に1人が利用するサイトとなっています。たくさんの方が毎日の献立を考える際にクックパッドを利用してくださっていて,日々大量の検索データが溜まっています。また,クックパッドではもっともっと料理が楽しくなるように,ユーザが本当に望んでいる(利用したい)食材が店頭に並ぶようになることを目指しています。そのために,膨大な検索データを週や月,地域といった側面から分かりやすくデータ解析したものがたべみるで,「いつどこで,どんなキーワードが検索されているのか」を見ることができます。このたべみるのデータ解析にHadoopを使ってみました。

図1 たべみるで「カレー」を検索した画面(月別表示,2006年のデータ)

図1 たべみるで「カレー」を検索した画面(月別表示,2006年のデータ)

とはいっても,いきなりHadoopを導入したわけではなく,最初は1台のサーバで(DBを使って)処理していましたが,以下のような問題が出てきて困りました。

  • そもそも扱うデータ量が多くて,DB処理が遅い
  • DB処理の中でも特にGROUP BYする処理が多く,これが猛烈に遅い
  • 1年分のデータ解析で7000時間くらい(推定)掛かりそう

こ,これは何とかしないといけません。そこで,処理時間の短縮を期待してHadoopを試してみることにしたのです。

Hadoop導入時の注意点

時間の掛かる処理でも複数のサーバで分散処理させるので短時間で処理が終わる……良いことだらけのように見えるHadoopですが,DBが扱えないという注意点があります。これは,Hadoopから扱えるデータはHDFS(Hadoop Distributed File System)上にマウントされたデータのみという制約があるためです。つまり,Hadoopを使う場合にはDBを使わないような処理のアルゴリズムで設計しなくてはいけません。

Hadoopを使う

さて,実際にHadoopを使うには2つの方法があります。1つは,もともとHadoopはJavaで作られたものなのでJavaで記述する方法,もう1つはHadoop Streamingという仕組みを使って,Java以外の(標準入出力に対応している)言語で記述する方法です(※1)。

今回はRubyを使いたかったため,Hadoop Streamingを利用しました。

※1
Hadoop Streamingは非常に手軽ですが,オーバーヘッドがありJavaで記述する場合と比べると多少パフォーマンスが落ちるようなので注意してください。

Hadoop Streamingの仕組み

Hadoop Streamingの仕組みについて説明します。Hadoopでは,Map,Shuffle&Sort,Reduceという3つの処理のフェーズがあります。Hadoop Streamingでは,Shuffle&Sortのフェーズは変更することができませんが,MapとReduceのフェーズは標準入出力を介して,利用者が自由にプログラムを記述できます。イメージとしては以下の図のようなものです。

図2 Hadoop Streamingの動作イメージ

図2 Hadoop Streamingの動作イメージ

HadoopではMapでの出力データがタブを区切り文字としたkeyとvalueとして扱われ,同じkeyのデータは必ず同じReduceで処理されます。

著者プロフィール

佐々木達也(ささきたつや)

クックパッド株式会社にて主に大規模データ解析を担当。RubyとPerlと広島カープが好き。

bloghttp://blog.livedoor.jp/sasata299/

twitterhttp://twitter.com/sasata299/

コメント

コメントの記入

パスサポ

多数の情報処理技術者試験対策書籍の発行実績を誇る技術評論社がお届けする,資格試験合格サイト「めざせ! 情報処理試験 パスサポ」が開設されました。

ピックアップ

サクセスストーリーに続く,快適サーバー運用管理のヒント!

データの増大,煩雑な管理,システムダウン,セキュリティなど,迫りくる課題からシステム管理者の負担を軽くするポイントを解説します。

gihyo.jp インフラエンジニア情報局

ネットワークやITにかかわるあらゆる業種で必要とされるインフラエンジニアに向けた技術情報や心構え,その魅力について多角的に紹介。

テストエンジニア ステーション

いま,ITに関わるあらゆる開発業務で注目されつつあるテスト系エンジニアをターゲットにしたコンテンツサイトを展開します。

一行クイックアンケート

gihyo.jpで取り上げてほしいネタは?

※検索はページ右上の検索ボックスをご利用ください。

その他の連載

読むウェブ ~本とインタラクション

ディスプレイで読む活字とそのインタラクション(interaction:相互作用)について,最新Webを紹介しながら読み解いていく。

いま,見ておきたいウェブサイト

この連載では,国内外の最新のウェブサイトを隔週更新で取り上げ,これら最新サイトの特徴や素晴らしい部分を,さまざまな角度から解説していきます。

Windows phoneアプリケーション開発入門

Windows Marcketplace for Mobileがサービス開始され,作成したアプリケーションを個人でも世界をターゲットに公開できる環境が整ってきました。これを機にWindows phoneアプリケーションの開発をしてみませんか?

ここは知っておくべき!Windows Server 2008技術TIPS

5年ぶりのサーバOSとなったWindows Server 2008が出荷されて早2年。2009年にはR2が出荷され,再び注目を集めています。発売前から実施したトレーニングによって感じた,インフラエンジニアの方々に知っておいていただきたい機能を中心にご紹介します。

キーパーソンが見るWeb業界

本連載はWeb Site Expert/gihyo.jpとの連動企画です。阿部淳也, 長谷川敦士, 森田雄のお三方による,Web業界をテーマにした座談会です。

きたみりゅうじの聞かせて珍プレー

ソフトウェア開発の現場で体験したトホホな失敗,思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます!

ActionScript 3.0で始めるオブジェクト指向スクリプティング

野中文雄氏が,簡単なスクリプトは書いたことがあるという初級者を対象に,ActionScript 3.0の基本からクラス定義までを解説します。

まだ間に合う「ITパスポート」受験対策 原山先生の短期合格塾

この連載では,4月18日のITパスポート試験の受験に向けて,短い期間で効率良く受験対策を行う方法や,確実に得点するための裏ワザなどを伝授していきます。

連載一覧

gihyo.jp

  • DEVELOPER STAGE
  • ADMINISTRATOR STAGE
  • WEB+DESIGN STAGE
  • LIFESTYLE STAGE
  • SCIENCE STAGE
  • NEWS & REPORT

書籍案内

  • 新刊書籍
  • 書籍ジャンル一覧
  • 書籍シリーズ一覧
  • 新刊ピックアップ
  • ロングセラー
  • 電脳会議

定期刊行物一覧

  • Software Design
  • WEB+DB PRESS
  • Web Site Expert
  • 組込みプレス