IT Cutting Edge ─世界を変えるテクノロジの最前線

第5回データアナリティクスがLinkedInの原動力 ─世界のプロフェッショナルをつなぐソーシャルネットのビッグデータ活用術

3億人を超えるプロフェッショナルと350万社に上る企業が、日々30億のインタラクションを生成する巨大ソーシャルネットワークLinkedIn。個人と個人、個人と企業をつなぎ、ビジネスの生産性向上と成功をもたらすことをミッションに、2002年の創業以来、劇的な成長を遂げてきました。いまや米国ではLinkedInに登録していないビジネスパーソンはいないとも言われています。

いくつものソーシャルネットワークが生まれ、その多くが淘汰されていった米国において、LinkedInはなぜ"最強のビジネス特化型ソーシャルネットワーク"の地位を獲得できたのでしょうか。その理由のひとつは彼らのデータに対するアプローチにあります。世界最大級のネットワーキングサービスは、絶え間なく生成される膨大なデータをいかに扱っているのか?

今回、米ナッシュビルで開催されたTeradataの年次カンファレンス「2014 Teradata PARTNERS」⁠10/19~10/23)において、LinkedInの2人のエグゼクティブ、ビジネスアナリティクス部門 ディレクター マイケル・リー(Michael Li)氏とビジネスアナリティクスデータソリューション部門 ディレクター ジョナサン・ウー(Jonathan Wu)氏のセッションを聞く機会を得たので、その内容を紹介します。

マイケル・リー氏(右)とジョナサン・ウー氏(左)
マイケル・リー氏(右)とジョナサン・ウー氏(左)

LinkedInが提供するサービスとソリューション

ソーシャルネットワークとしてのLinkedInは参加メンバーに対し、以下のようなサービスを提供しています。

アイデンティティ
プロフェッショナルとしてのキャリアの履歴やスキルの表示(プロファイル)
ネットワーク
キャリアアップやビジネスオポチュニティを促進する世界中のプロフェッショナルとのコネクション
ナレッジ
ビジネスに役立つコンテンツをベースにしたパブリッシングプラットフォーム

もちろん、これらのすべてがデータとしてLinkedInのプラットフォーム上に蓄積されます。

また、顧客企業に対しては以下の3つのソリューションを提供しています。

タレントソリューション
ある程度まとまった人数でのパッシブな人材(求職活動を積極的に行っていない人)の雇用支援
マーケティングソリューション
個々のメンバーの属性や興味に最適化された広告コンテンツの提供
セールスソリューション
LinkedInというソーシャルを駆使した営業支援

なかでもタレントソリューションはLinkedInならではのパッケージであり、同社の収益の半分以上を占めています。企業は「積極的な求職活動は現在行っていないが、ポテンシャルの高いパッシブな人材」をより求める傾向にあり、そうした人材を獲得するにはこれまで限られた手段しかありませんでした。

3億人を超えるメンバーのうち80%がパッシブな人材とされるLinkedInは、その中からさらに適切な人材を自動でターゲティングできるため、タレントソリューションの概念を大きく変えた"ゲームチェンジャー"という評価が高く、導入事例にはソニーやウォルマート、ロレアルなど大手企業の名前も並んでいます。

このようにLinkedInのビジネスは、メンバーに提供するサービスも、顧客に対するソリューションも、すべてがプラットフォーム上に蓄積されたデータをもとに展開されていきます。メンバーや参加企業の増加はインタラクションやエンゲージメントの増加をもたらし、そうなれば当然、生成されるデータも膨大な量になります。この大量のデータを価値あるサービスとプロダクトに変えるためには精度の高いアナリティクスが不可欠です。

リー氏とウー氏が所属するLinkedInのアナリティクスチームは「ベストインクラスでエンドツーエンドなアナリティクスソリューションがLinkedInにより高い生産性と成功をもたらす」というミッションを掲げていますが、それはつまり、データアナリティクスこそがLinkedInという企業の根幹でもあることを意味しています。

LinkedInは現在、世界に約4000名の従業員を抱えていますが、アナリティクスに関わるスタッフは約60名とのこと。この60名がLinkedInを世界最大級のビジネス特化型ソーシャルとして存在させる力強い原動力となっているのです。

データアナリティクスのアプローチは"EOI"

ではLinkedInのアナリティクスチームはどのようなアプローチでもってデータに相対しているのでしょうか。リー氏はLinkedInのデータアナリティクスは「EOI」と呼ばれるフレームワークに沿って行われ、ビジネスもそれに連動して動いていると語っています。EはEmpower、OはOptimize、IはInnovateをそれぞれ表しています。

ひとつめのEはデータアナリティクスのコアとなる部分でもあり、まさしくLinkedInのビジネスの核そのものでもあります。同社のビジネスは、洗練されたツールでもってダイナミックなデータアナリティクスを行うことによって、はじめて活性化するからです。

LinkedInではBIツールとしてデータの美しい視覚化に定評のあるTableauを導入しており、アナリティクスチームだけでなくセールスやマーケティングのチームでも日常的に使われているとのこと。なお余談ですがTableauは筆者がここ最近取材しているアナリティクス系のカンファレンスでつとに人気が高く、今回のPARTNERS 2014においてもTableau導入企業の成功事例を非常に多く耳にしました。

精度の高いインタラクティブなツールによるアナリティクスは、たとえば人材の流動性を評価する際に力を発揮します。セッションにおいてウー氏は、複数の企業の雇用フローと離職率をリアルタイムに表示し、それぞれの相関関係を視覚化することで、現時点で優秀な人材を集めているのはどの企業なのか、人離れが起こっているのはどこなのか、といった情報を得られると説明しています。

データから市場における人材のフローを可視化したアナリティクス。⁠どの企業が好かれている or 嫌われているか」がわかる
データから市場における人材のフローを可視化したアナリティクス。「どの企業が好かれている or 嫌われているか」がわかる

2つめのOは最適化を表していますが、これはLinkedInだけにしかない、ユニークでパワフルなデータを活用してビジネスのパフォーマンスを最適化することを意味しています。LinkedInの戦略を担っている部分ともいえます。

アナリティクスによるデータの最適化が効果を発揮するのはとくにB2Cマーケティングにおいてです。LinkedInはメンバーのデータを以下の3つのディメンジョンに分類しています。

アイデンティティ
学歴、職歴、資格、スキルなどの個人プロファイリングから成るデモグラフィックデータ
ビヘイビア
どのコンテンツに、どのデバイスから、いつ、どのくらいの頻度でアクセスしたかなどのLinkedIn内での行動データ
ソーシャル
LinkedIn内でどんな"つながり"をもち、どんなインタラクションを生成しているかに関するデータ

マーケティングでは、マーケティングコンテンツの内容に応じて全メンバーをビヘイビア→アイデンティティ→ソーシャルの順序でターゲティングして、⁠最適なセグメントのメンバーに最適なプロダクトを最適なタイミングで届ける」⁠リー氏)というステップを踏んでいます。なおLinkedInではアクイジションマーケティング(新規顧客の獲得)においては56%を傾向スコア分析(サブグループ化による2群比較)に頼っており、プロファイルベース(10%)やシグナルベース(34%)を大きく上回っているのも特徴です。

3つめのIはアナリティクスによるイノベーションを表しており、同時に、会社設立からまだ12年しか経っていないLinkedInというスタートアップ出身のベンチャースピリットでもあります。ウー氏は「LinkedInの内部にあるデータと外部データの両方を活用し、アナリティクスでもってビジネスに次のインパクトを起こす」と説明していますが、一歩踏み込んだデータアナリティクスの実践をイノベーションとしてトライし続けているようです。

一歩踏み込んだイノベーティブなアナリティクスとはどんな試みなのでしょうか。リー氏は「マーケティングを展開するとき、B2CとB2Bはどうしても分断されがちになる。LinkedInはこのB2CとB2Bの間にあるギャップをアナリティクスによって埋めていきたい」と強調します。B2Cで得られたアナリティクスの結果をB2Bにも活かしていくという発想です。

たとえばB2Bでは、セールスにおける新規ディールの成功率を高めるには相手企業におけるキーパーソンの正確なターゲティングが重要になってきます。キーパーソンはデシジョンメーカー(意思決定者)とも呼ばれますが、このデシジョンメーカーのターゲティングにLinkedInが利用しているのが、⁠コンタクトインタレストスコア(Contact Interest Score⁠⁠」と呼ばれるスコアです。これは従来からのマーケティングで使われている「デシジョンメーカースコア(Decision Maker Score⁠⁠」に、B2Cで活用した各アカウントにひもづくプロファイルやソーシャルでの履歴、アクティビティなどをスコアリングした「エンゲージメントスコア(Engagement Score⁠⁠」を加えたものです。

このコンタクトインタレストスコアが高いアカウント所有者にディールを持ちかけることで成約率が大幅に高くなる(21%→42%)という成果が出ており、今後もこうしたB2CデータのB2Bにおける再利用が期待されます。

インタレストスコアを加えたことで顧客のディール成約率が高くなった
インタレストスコアを加えたことで顧客のディール成約率が高くなった

オープンソースからプロプライエタリまで、最高のアナリティクスには最高のツールを

LinkedInはプロプライエタリからオープンソースプロダクトに至るまで、アナリティクスのシーンに応じてさざまなITソリューションを使い分けています。セッションの後半は、ウー氏からLinkedInのアナリティクスにおけるデータフローの説明がされました。

LinkedInのデータフローにおいてはペタバイト級の生データをキロバイト級のインサイトに変えるまでが1サイクルです。まずはサイロとして存在するさまざまな外部データソース ─Salesforce.com、Oracle Eloqua、D&B(Dun & Bradstreet、2億以上の企業の格付け情報が格納されているデータベース⁠⁠、doubleclick、そしてLinkedIn自身がもつデータベースなどに格納されているデータは、Oracle DatabaseとEspresso(LinkedInが開発したオープンソースのNoSQLプロダクト)で構築されたOLTPシステムにいったん格納されたのち、オフラインのHadoopクラスタに集約されます。この際、Oracle/EspressoとHadoopの間でデータの一貫性を保つために、LinkedInが開発したオープンソースの分散型データ変更通知システム「Databus」が使われています。

一方でWebログなどのイベントデータ(LinkedInはイベントデータを400のタイプに分けている)は分散型メッセージングシステムの「Apache Kafka」を使ってこれもHadoopクラスタに集約されます。Databus同様、KafkaもLinkedInが開発したオープンソースプロダクトですが、パブリッシュ/サブスクライブ型であり、なおかつオンラインとオフラインの両方の非同期処理が可能という点が特徴です。

ウー氏は「LinkedInには数多くのWebサーバが分散して存在しており、大量のイベントデータを効率よく収集するにはオフラインシステムとも非同期に連携できるパブリッシュ/サブスクライブ型のシステムが必要だった。Kafkaを利用することで、分散したサーバのひとつひとつがメッセージのパブリッシャーとして存在し、Hadoopはそれらのメッセージを聞くリスナー、つまりサブスクライバとして機能する」と説明しており、大量のストリームデータの収集を最適化するためにKafkaを開発したことを強調しています。

LinkedInのデータアナリティクスはペタバイト級のビッグデータをキロバイト級のスモールデータまで落とし込んでインサイトを得るまでが1サイクル
LinkedInのデータアナリティクスはペタバイト級のビッグデータをキロバイト級のスモールデータまで落とし込んでインサイトを得るまでが1サイクル

Hadoopクラスタに集約されたデータはELT処理とアグリゲーションが行われ、オフラインシステムとして連携しているTeradataによってデータウェアハウジングが実施されます。もっともアナリティクスデータをいつまでもオフラインに置いておいてはメンバーや顧客企業にサービスを提供できません。今度はこのオフラインデータを再びオンラインに戻す必要があります。LinkedInはこのオフライン→オンラインのプロセスにおいて、これも同社が開発したオープンソース「Voldemort」を利用し、レコメンデーションなどのデータを配信しています。

Voldemortは分散型キーバーリューストアストレージで非常にスケールしやすく、RDBでは格納しにくいレコメンデーションやスコアリングといったデータを扱うのに適しているだけでなく、データの自動レプリケーション機能を備えているのでフォルトトレランスにもすぐれています。またインメモリキャッシングも内蔵しているため、パフォーマンスも担保でき、メンバーや顧客企業に対してストレスのないサービスを提供するのに役立っています。

LinkedInほどの先進的なIT企業なら、すべてのデータフローをオンライン&オープンソースで処理できそうなイメージがあるのですが、ウー氏にお話を伺ったところ「オンライン - オンライン - オンラインのデータフローではパフォーマンスが遅すぎて話にならない。いったんオフラインに落としてHadoopとTeradataでアグリゲーションを行っているから、高速なデータアナリティクスが実現している」と回答してくれました。

オープンソース開発においても「ニーズに応じて必要なツールを開発しているのであって、オープンソースがすべてだとは思わない。TeradataはHadoopとの相性が良く、パフォーマンスや精度の高さに加え、JSONデータを扱えるところもメリット」と語っており、オープンソース/プロプライエタリにこだわることなく、ベストインクラスのアナリティクスを生み出すためにベストインクラスのソリューションを選んでいるという印象を受けました。

良いデータアナリストに必要なのはパッション!
良いデータアナリストに必要なのはパッション!

セッション後の個別取材で、リー氏「LinkdeInはセールス部門にもSQL文を書いてHadoopの生データから分析するスキルをもっているスタッフが多い。だから我々はデータサイエンティストという呼び方はあまりしない」と話してくれましたが、アナリティクスチームに限らず、全従業員がデータアナリティクスの重要性を認識しており、それに伴うスキルをもっているところにLinnkedInという企業の強さが表れています。だからこそ、アナリティクスチームには「スキルよりもIQよりもデータへのパッションが重要」と断言するリー氏。

世界中のプロフェッショナルをつなぐソーシャルネットワークを支えているのは、高いスキルと熱いパッションをもつデータアナリティクスのプロフェッショナルたちだといえそうです。

セッション終了後、多忙にもかかわらず個別取材に応じてくれたお二人。ありがとうございました
セッション終了後、多忙にもかかわらず個別取材に応じてくれたお二人。ありがとうございました

おすすめ記事

記事・ニュース一覧