ハードウェアの処理能力の向上や分散処理技術の進化,
クリックされなかったものも情報として記録したい
- ――お二人は大規模データ分析基盤の構築プロジェクトを進められているとのことですが,
どのようなきっかけでプロジェクトが始まったのでしょうか。 吉村氏:2012年にリクルートが買収したIndeedにヒアリングした際,
自分たちは分析のためのデータを十分に取れていないと感じたのがきっかけです。購入する, 予約するといったトランザクションは当然取得してRDBに記録しているほか, Adobe AnalyticsやGoogle Analyticsを使い, 行動ログからユーザの導線を分析するといったことは行っていました。ただ, それだけでは不十分で, 選択肢として表示された中で何がクリックされなかったのかなどのネガティブな情報や空室・ 空席の推移など, より多くの情報を取得することが重要だと気づいたのです。 たとえば10個の選択肢の上から5番めがクリックされた場合,
ユーザが見たけれど押さなかった上の4個と, ユーザの目に入らなかった下の5個では, クリックされなかったという点では同じですが, その意味合いは異なるでしょう。こうした幅広い情報を記録し, 分析に使えるようにすべきではないかと考えました。 それに加えてデータの粒度という問題があります。たとえば,
我々のサービスの1つである 「じゃらん」 (図1) では, ホテルや旅館の空室の販売をビジネスにしています。その中で, 空き状況がどう推移しているのかを判断するための情報は取得していますが, それぞれの宿と部屋, そしてプランを掛け合わせると, 膨大なデータ量になってしまいます。それをどの単位で保持しておくのか。
そういったデータは,
売上予測を行ったり, あるいは価格設定時における需要の判断に使ったりすることができます。ただ, あまりにデータ量が膨大になるため, 既存のインフラで対応するのは難しい状況でした。また, 大量のデータを集めて分析するための基盤を構築する場合, それがどれくらいの売上につながるのかといった説明も求められますが, 具体的な数値に落とし込むのは容易ではありません。このような背景から, なかなか踏み込めなかったというのが従来の状況でした。
クラウド利用でコストを抑えつつプロフィットを創出
- ――どのようなきっかけから,
プロジェクトが進み出したのでしょうか。 吉村氏:1つは社内のリソースではなく,
外部のクラウドを使えば良いと考えたこと, もう1つは分析をコストセンターとしてとらえるのではなく, プロフィットセンターにするという方針を固めたことです。クラウドはコストの安さに加え, 大量のリソースを使うことができて, 集計処理のためのしくみを備えたサービスもあります。サーバを1台追加するだけで多くの投資が必要で, なおかつ導入まで1ヵ月待たされる, といった制約から解放されるのです。 また海外のサービスには,
取得したログにAPIでアクセスできるようにして, 即時に集計を行ってレコメンドに反映しているものが多くあります。それと同じしくみを実現すれば, 単なるコストセンターではなくなり, プロフィットを生み出して会社に貢献できます。このようなことを説明すると 「やるべきだ」 ということになり, プロジェクトが始まりました。 - ――プロジェクトはどのような方針で進められたのでしょうか。
吉村氏:技術的な制約はなしで考えようと決めました。私たちが提供しているサービスのさまざまなログを全部投入すると,
1日で数百Gバイトから数Tバイトのデータ量になります。それを日次で処理して翌日までに結果が集計されるのではなく, リアルタイムで情報を見ることはできるか。このように, 技術的な制約 (=言い訳) をなくしたらどこまでできるのかチャレンジする, というのが, このプロジェクトの基本スタンスです。 - ――エンジニアとしてそのお話を聞いたとき,
吉田さんはどのように感じられましたか。 吉田氏:制約に縛られずに考えられるので,
すごくチャレンジングかつ創造的で, エンジニアとして活躍の場を与えられたと感じました。事業的なミッションと技術的な挑戦の2つがうまくバランスしたのも良かった点ですね。