1,000名以上のユーザが参加した「Hadoop Conference Japan 2013 Winter」が開催された1月21日の朝、Yahoo!創業者のジェリー・ヤン氏がTreasure Dataに出資というニュースが飛び込んできました。ご存知の方も多いと思いますが、Treasure Dataはファウンダー全員が日本人のスタートアップ企業です。2011年7月に設立されて以来、シリコンバレーを拠点にしながら"ビッグデータ+クラウド"を掲げたビジネスを展開し、順調に業績を伸ばしています。
ジェリー・ヤン氏のほか、有名ベンチャーキャピタリストのナレン・グプタ氏、Herokuファウンダーのジェームズ・リンデンバウム氏、世界のMatzことRuby開発者のまつもとゆきひろ氏など、IT業界のそうそうたるメンバーがTreasure Dataに出資を行っていることからも、いかに彼らに対しての注目度が高まっているかが伺われます。
シリコンバレーの投資家からも一目置かれるTreasure Dataの成長を支えているその技術力と経営理念について、Treasure DataのCTOである太田一樹氏が基調講演で語ったその内容をレポートします。
Feature Creepではなく“ナタ”を作る
太田氏をはじめとするTreasure Dataの創業メンバーはいずれもHadoopやmemcached、MongoDBなど、現在のビッグデータブームを支えるオープンソース技術の開発に学生時代から関わっていました。これらのオープンソースプロダクト、とくにHadoopに触れる経験が長かったことが、Treasure Data設立の大きなきっかけになっています。
「Hadoopの登場はこれまで使いづらいだけの存在だった分散システムの世界を大きく変えた。一方で、ユーザ企業がHadoopをデプロイし、運用をはじめても、結局はメンテナンスが大変になり、既存のDWHを使わざるをえなくなるというケースをたくさん見てきた」と太田氏。一般のユーザ企業には荷が重いHadoop運用にかかわる部分に、ビジネスチャンスを見出したといえます。
HadoopやNoSQLといったビッグデータ関連の技術の最大の難点は、ソリューションが多すぎてわかりにくいことだと太田氏は指摘しています。たとえばHadoopにしてもバージョンが2系統あり、さらにエンタープライズディストリビューションがいくつも存在し、ユーザはどれを使えばよいのか、当然判断に苦しむことになります。
NoSQLにしても同様で、いくつものオープンソースプロダクトがさらに分裂し、それぞれにサポートする企業が存在する状況が続いており、太田氏はこれを"Feature Creep"─求められるがままに機能を追加したスイスアーミーナイフのようだとたとえています。「ウチの製品には全部の機能が付いています、というビッグデータベンダはよく言うが、ユーザはどうやって使えばいいかわからない。実はそれは何にもできないと同じ。これが現在のHadoopエコシステム界隈で起こっていること」(太田氏)
アーミーナイフのようにゴテゴテと機能を追加し続けるのではなく、「ナタのようにシンプルなUI」(太田氏)でビッグデータの課題を解決するのがTreasure Dataの役割だと太田氏は言います。ナタは刃がひとつしかありませんが、木を切ることも、ものを研ぐこともできる。何ができるのかが一目瞭然のインターフェースを備えています。ビッグデータで何ができるのかと問われたとき、誰もが理解できるシンプルな解を提供するという点にTreasure Dataが強くこだわっていることが伝わってきます。
データ収集という“あまり楽しくないけど最も重要な作業”に労力を集約
競争激しいビッグデータビジネスにおいて、Treasure Dataはどうやって頭角を現すことができたのでしょうか。太田氏は講演中、「Treasure Dataは、ビッグデータを集めて、保存して、クエリをかけるというレポーティングだけに特化してる。それしかやっていない会社」と何度か繰り返していました。
ビッグデータビジネスにはレポーティングとアナリティクスという大きく2つのアダプションがあります。統計解析や予測分析といったアナリティクスではなく、その下のレイヤである、データを集めて、クラウド上に保存して、クエリをかけ、そのシステムをつねにメンテナンスするというレポーティングだけを顧客にサービスとして提供しているTreasure Data。その理由について「分析をしたいという顧客の70%は、レポーティングまでで十分と感じている。Hadoopエコシステムの中でHiveの普及率が最も高いというのはそのあらわれ」と太田氏は言います。高度な予測分析よりもアドホックなレポート作成で十分、むしろその部分を徹底的に行うことに価値を見出している企業が多くなってきていると言えるのかもしれません。
もう少し具体的に説明すると、ユーザ企業のオンプレミスの環境に「td-agent」というログコレクタをインストールし、センサーデータやアプリケーションデータなどをクラウド(AWS)上に吸い上げます。アップロードのタイミングは5分に1回、そしてJDBCやODBC経由で既存のBIツールにつなげ、クエリがクラウド上に投げられて実行され、結果がオンプレミスの手元に返ってくるという仕組みです。200億くらいのデータでも、約2週間でデータコレクトが完了するとのこと。「いかに早く提供できるかということもTreasure Dataの強み」(太田氏)
もっともレポーティングだけを行う企業はTreasure Dataのほかにも存在します。Treasure Dataが競合と異なる点は、「データを集めるという、あまり楽しくないけど最も重要な作業に、一番労力をかけている」(太田氏)ことです。Treasure Dataは「Fluentd」というログコレクタを開発し、オープンソースで提供していますが、「日本のソーシャルゲーム企業でFluentdを使っていないところはないのでは」(太田氏)というほどの普及率を誇っているそうです。データコレクションはビッグデータのプロセスの中でも「最も甘く見られやすい部分」だと太田氏は強調しますが、ここでロバストなデータコレクションを実現できていることが、競合との大きな差別化を果たしていることにつながっています。
もうひとつ、インフラ部分で特徴的なのはストレージとコンピュートが完全に分離している点です。Treasure DataではオブジェクトベースのストレージとしてAmazon S3、コンピュートにAmazon EC2を利用していますが、「カラムナー形式のストレージをもっていることが非常に重要」と太田氏は強調しています。ユニークIPを大量のアクセスログから集めるような簡単なクエリでも、既存のHadoopプロダクトにはIPのフィールドだけを見るような単純なものが少なく、結果としてI/Oの負荷が高まることになります。Treasure Dataではユーザにまったく意識させることなく、データをカラムナー形式に変換して保存することで、5~6倍のI/O削減を実現しているそうです。
また、「世界でおそらくTreasure Dataだけがやっていること」として太田氏はHadoopクラスタのユーザ間シェアを挙げています。Treasure Dataは4つのデータセンターで4つのHadoopクラスタを稼働していますが「複数のHadoopクラスタをもつこと、ユーザ企業にそれをシェアしてもらうことに何のためらいもない」と断言する太田氏。ただし、どのユーザをどのクラスタに割り当てるかは非常に悩ましいため、ローカルのスケジューラの上にリソースを管理するグローバルのスケジューラを置き、ジョブ実行時にどこに割り当てるかを決めるようにしているそうです。ここでもポイントとなるのはストレージとコンピュートが完全に分離していることです。「ユーザにとってはローカルのI/Oはあまり問題にならない。S3のプライマリストレージから、エラスティックにスケールアップ/ダウンできるHadoopクラスタであること、これが重要」(太田氏)
AWSがパーツを提供するものをワンストップで
「Treasure DataはAmazonとどう違うのか」─太田氏はときどきこうした質問を受けるそうです。ビッグデータとクラウドを掲げていれば、当然AWSとぶつかる部分もあるのでは、と想像するのですが、「AWSはコンポーネントの提供が基本。ストレージが使いたいといえばS3があり、コンピュート環境が…といえばEC2がある。MapReduceを使いたければEMRもあるし、最近ではDWHのRedshiftも出てきた。このパーツをそれぞれに使いこなせる企業ならAWSで十分だけど、我々の顧客はそこまでITリテラシが高くない」と太田氏。
パーツで使いこなす技術がない企業に対して、ワンストップでレポーティングサービスを提供する─逆にTreasure DataはAWSがあまり手を出さない部分をカバーしているからこそ成功しているとも言えます。
「世界中でひとつだけ解析用のデータベースがあるなら、それがTreasure Dataでありたい」- 太田氏が語ったTreaure Dataの経営理念が強く心に残りました。そのフィロソフィーの下、自分たちの強みを最大限に活かしたソリューションを提供し、顧客と市場のニーズを正確に捉え、競合の動きをも視野にいれてビジネスを展開する - 卓越したITスキルとすぐれたビジネスセンスをもつTreasure Dataに、目の肥えたシリコンバレーの投資家たちが注目しても不思議ではありません。会社創立からわずかな期間で、すでに月間1,000億レコード、実行したMapReduceのジョブは200万という数字からも、Treasure Dataが失敗する要因を筆者は見つけることができません。今後のさらなる活躍に期待がもてます。