はじめに
Hadoopとは,
Hadoop導入の背景
筆者はクックパッド株式会社に勤めています。クックパッドというサイトが有名だと思いますが,
2009年12月現在,
とはいっても,
- そもそも扱うデータ量が多くて,
DB処理が遅い - DB処理の中でも特にGROUP BYする処理が多く,
これが猛烈に遅い - 1年分のデータ解析で7000時間くらい
(推定) 掛かりそう
こ,
Hadoop導入時の注意点
時間の掛かる処理でも複数のサーバで分散処理させるので短時間で処理が終わる……良いことだらけのように見えるHadoopですが,
Hadoopを使う
さて,
今回はRubyを使いたかったため,
- ※1dt>
- Hadoop Streamingは非常に手軽ですが,
オーバーヘッドがありJavaで記述する場合と比べると多少パフォーマンスが落ちるようなので注意してください。
Hadoop Streamingの仕組み
Hadoop Streamingの仕組みについて説明します。Hadoopでは,
HadoopではMapでの出力データがタブを区切り文字としたkeyとvalueとして扱われ,