Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る

シリコンバレーで起業し、順調にビッグデータビジネスを展開している日本人ベンチャー企業といえば、Hadoop Conference Japan 2013 Winterでも話題となったTreasure Dataがその筆頭に挙げられます。

ですが、Treasure Dataとほぼ同じ時期に西海岸でビジネスをローンチし、現在、国内外の投資家たちから高い注目をあつめるビッグデータベンチャー、それも日本人技術者が創業者である企業が実はもう1社存在します。それが藤川幸一氏率いるHapyrusです。今回、来日中の藤川氏に直接、Hapyrusが現在最も注力するAmazon Redshiftに関するビジネスを中心にお話を伺いました。

Redshiftへのデータアップロードを事業の中核に

─⁠─Hapyrusは具体的には何をメイン事業にしている企業でしょうか。

藤川：もともとは数あるHadoopベンチャーのひとつです。Hapyrusの"H"はHadoopから取っています。現在、ビッグデータという単語がバズっていますが、本当の意味でのビッグデータビジネスというのはまだ始まっていないと思うんです。なぜなら分析すべきデータが正しい場所に置かれていない。正しい場所というのはクラウドのことです。たとえばソーシャルゲーム企業やアドテク企業がビッグデータ分析をリアルタイムに行おうとすれば、既存のオンプレミスに置かれたRDBMSではどうしてもデータが溢れてしまいます。また、モバイルがこれほど普及する現在、どこからでもデータを管理したいという要望も強い。膨大で多様なデータがどれだけスケールしても耐えられる環境、ユーザがどこからでもアクセスできる環境となると、今ではクラウド以外に考えられないのではないでしょうか。

そうは言ってもクラウド上にデータを送るのは実はそう簡単なことではありません。Hapyrusではそうしたニーズに応えるため、クラウド上にユーザのデータをスムースに移行し、正しく分析を実施できるよう、データを適切に管理/処理することを支援します。

─⁠─そのデータの置き場所がHadoopだけでなく、Amazon Redshiftも含むようになったということでしょうか。

藤川：正確に言うと、Hapyrusが提供する「FlyData」という使いやすいインターフェースが特徴のプロダクトを使って、ユーザのデータを自動的/継続的にAmazon S3やAmazon Elastic MapReduce、Amazon Redshiftにアップロードするサービスを提供しています。またHerokuユーザ向けに、Herokuアプリケーションの全ログをAmazon S3にバックアップするアドオンサービスも提供しています。クラウドにログを置くことで、アプリケーション開発者はいつでもどこからでもログ分析を利用できるようになります。

Amazon Redshiftへのアップロードサービスは最近開始したものですが、間違いなくHapyrusの今後の中核となるビジネスになると思っています。

業界の常識を変えるRedshift

─⁠─クラウド上のデータウェアハウジングサービスとして、AWSがAmazon Redshiftを発表したのが去年の11月にラスベガスで行われたイベント「re:Invent」でのことです。そこで発表された破壊的な価格（既存DWHの100分の1以下）と圧倒的なパフォーマンス（既存DWHの10倍以上）に心底驚かされましたが、同時に本当にそれが実現するのかという疑問もありました。

藤川：私もre:Inventで行われたRedshiftの発表を聞いたときは本当に驚きました。そして本当にこの価格とパフォーマンスが実現するのかにも興味がありました。サービス発表後、たまたまAWSの担当者からRedshiftを評価してみないかという話をもらい、ベンチマークを実施しましたが、予想以上の破壊力にもう一度驚かされたというのが本音です。ビッグベンダが提供する既存のDWHはもちろん、Hadoopですらコスト/パフォーマンスともに、ほとんどの部分でかなわないといえるでしょう。

AWSがRedshiftを正式ローンチしたのは2月ですが、このスピードも驚異的ですね。そこでHapyrusでは大手や競合ベンチャーがRedshiftに本格的に取り組む前に、Redshift上にデータを送る「FlyData for Redshift」をベータプログラムとして提供開始しました。現在、多くのユーザから問い合わせをいただいていますが、確実に手ごたえを感じます。Redshiftのコストとパフォーマンスに驚いたユーザの中には、すでにHadoop/Hiveからの移行を検討している企業もあります。

既存のDWHが高額という事実は誰もが気づいていたけれど、あえて業界の誰も口にしなかった。少しずつコストを下げていってパフォーマンスを上げていって……というストーリーをビッグベンダは描いていたと思うんです。ところがAmazonはまったくそういう空気を読まない会社なので（笑⁠）⁠、いきなりRedshiftを投入してしまいました。おそらくDWH業界の常識はこれから大きく変わっていくでしょうね。

─⁠─ビッグベンダによるDWHがコストの面でRedshiftにかなわないのは理解できますが、Hadoop/HiveすらもRedshiftの敵ではない、という感じでしょうか。

藤川：テラバイト級のデータに限って言えば完全にRedshiftに軍配が上がります。インデックス処理中心のHadoopに比べ、カラムナー形式のRedshiftは圧倒的な速さを誇ります。おそらくRedshiftのベースとなっているPostgreSQLはカラムナー形式として利用しやすい性質なんだと思います。NeteezaやGreenplumなど多くのDWHのベースとなってきた実績からもそれが窺えます。ただしペタバイト級のバッチ処理といったレベルになるとまだHadoopのほうが有利かもしれません。

コスト、パフォーマンスに加え、Redshiftが他のDWHを圧倒するのがAWSのサービスらしいスケール力です。ものの数分、数クリックで台数を簡単に増やすことができる。こんなことが可能なDWHはAmazon Redshiftだけでしょう。

─⁠─Redshiftに不利な要素は見当たらないんでしょうか？

藤川：サービスがローンチしたばかりなので、まだ導入実績が少ないというハンデはあります。しかし世界最大のECサイトであるAmazon.comで実証済みで、ベータプログラム提供時から多くのユーザ企業が参加しています。導入企業が増えていくのは時間の問題でしょう。

ただしRedshiftが苦手としている分野ももちろんあります。まずデータのロードに時間がかかることです。そこでHapyrusではデータを一括ではなく継続的にアップロードする仕組みを提供しています。

もうひとつのRedshiftの欠点は、ログ形式として一般的なJSONを扱えないことです。むしろこちらのほうが痛いといえるかもしれません。FlyData for RedshiftではJSONデータをRedshiftのテーブルに書き換えるモジュールを組み込んで提供し、この問題の解決を図っています。

“正しい”ビッグデータ分析の時代が来る

─⁠─日本ではまだほとんどユーザがいないRedshiftに対して、ここまでビジネスリソースを注力するとはかなり大きなチャレンジに思えるのですが、それほどRedshiftが魅力的な存在ということなのでしょうか。

藤川：シリコンバレーでビジネスをしていると、やはりビジネスのスピードが日本とアメリカでは大きく違うと実感します。日本の大企業の場合、DWHのような大きなシステムを入れようとすると検討から導入まで1年以上かかることもしょっちゅうですが、そんなに時間がかかってしまえば我々ベンチャーは干上がってしまいます（笑⁠）⁠。

米国の企業は各業務部門がある程度のITシステム導入に関する決定権をもっているので、Redshiftレベルのコストであれば導入が決まるのはものすごく早いんです。実際、アドテク、金融、ソーシャルといった業界では、ユーザが喉から手が出るほど速いシステムを欲しがっている。Redshiftのような製品が突然現れれば、リスクというよりチャンスに見えて当然でしょう。

HapyrusがRedshiftを高く評価するのは、ようやく正しいビッグデータ分析の時代が始まることを感じさせてくれるからです。最初にも申し上げたように、ビッグデータ分析はもはやクラウドをデータのゆりかごにする流れが支配的であり、その流れは当面変わらないでしょう。精度が高くて高速な分析結果をユーザが得られるように、正しい場所にデータを置き、正しい形式に処理をする ─Hapyrusが目指しているのはHadoopやRedshiftを使いこなすことではなく、正しいデータ分析の時代を切り拓くことです。そしてRedshiftによって、ビッグデータ分析の世界がより身近になるのは間違いないと信じています。