未来のサービスを作る基礎技術

第6回 実サービスで使うHadoop

この記事を読むのに必要な時間:およそ 1.5 分

大規模データへの取り組み

今回から,大規模データに対するリクルートテクノロジーズの取り組みを紹介します。私たちは,大規模データを分析するため,Hadoopなどのオープンソースを積極的に活用しています。Hadoopに関しては,2008年くらいからリサーチを行っており,今ではリクルートグループの13事業で利用されています。

Googleトレンドのグラフを見ていただくとわかるように,リクルートテクノロジーズは早い段階からHadoopに取り組んできました。

図1 Googleトレンドに見るHadoopの検索ボリューム

図1 Googleトレンドに見るHadoopの検索ボリューム

R&Dの取り組みを行う際に,図2のようなゲートレビューを設けています。各ゲートレビューを通過すると,運用フェーズになります。Hadoopは現在Dev-Stageの状態ですが,すでに13事業に対して100件超のデータ利活用を行っています。

図2 ゲートレビュー

図2 ゲートレビュー

Hadoopリサーチの4フェーズ

はじめに説明したように,リクルートテクノロジーズでは, 2008年からHadoopのリサーチをしてきました。リサーチ当初から現在まで,4段階のフェーズがありました。

第1フェーズ

最初の段階では,3~4台のサーバを利用して処理性能の検証や現在運用しているバッチ処理の移植性などの検証を行い,実際にHadoopがリクルートグループ内で活用できるかどうかの検討をしました。

第2,第3フェーズ

2010年ごろから,第2フェーズとなり,20台のサーバで,サービスのデータを利用した検証実験を行い,サービス運用で問題なく利用できるような実装ノウハウを習得し,第3フェーズでは,実際にサービス運用に耐えられるような設計を行い,様々なサービスに組込を開始していきました。

第4フェーズ

そして現在は第4フェーズですが,こちらのフェーズでは,処理性能を落とすことなくコストメリットをさらに追求するため,サーバセンターのラック代,電気代などの見直しを行い,サーバ性能の向上やミドルウェアの再検討を行いました。

これらの取り組みを行うことで,現在の第2世代と呼ばれている環境は,第1世代の処理性能を落とすことなく,半分のコストで利用できるようになりました。

図3 システム構成の歴史

図3 システム構成の歴史

第1世代と第2世代の大きな違いは,まずHadoopのディストリビューションをApache HadoopからMapRに切り替えたことです。MapRを利用することで,MasterNodeとSlaveNodeを意識することなく,サーバを有効に活用することが可能になりました。

図4 第1世代と第2世代のシステム構成概要

図4 第1世代と第2世代のシステム構成概要

著者プロフィール

高林貴仁(たかばやしたかひと)

2011年9月入社。リクルートでは,Hadoop関連の業務に携わる。2012年4月より,ATL(アドバンスドテクノロジーラボ)配属。脳波を利用したアプリケーションの開発や,Node.jsなどを利用したアプリケーション開発に携わる。

2012年10月から,リクルートテクノロジーズ)として,R&Dの業務に携わる。

Twitter:https://twitter.com/tatakaba

Facebook:https://facebook.com/tatakaba

注)リクルート MIT Unitedは,2012年10月1日の分社化に伴い,リクルートテクノロジーズという機能会社に生まれ変わりました。詳しくはコチラをご覧ください。

コメント

コメントの記入