レポート

それはAIかコグニティブか ―「BIG DATA ANALYTICS TOKYO」で見えたWatsonによる次世代アナリティクスのポテンシャル

この記事を読むのに必要な時間:およそ 3.5 分

次のステップはデータベースに格納したデータをWatson(Personality Insights)で分析します。ここではPersonality Insightsを使い,ユーザの映画に対するコメントから"personality(性格の特性,個性)"を生成していますが,データはJSON形式で吐き出されます。なお,personalityの推定は「Big 5/OCEAN」と呼ばれる心理学における有名な分類方法で行っているそうです。

  • Openness to experience … 好奇心が強い,独創的
  • Conscientiousness … 勤勉,まめな人
  • Extraversion … 外交的,エネルギッシュ
  • Agreeableness … 人当たりがいい,温情のある
  • Neuroticism … 繊細,神経質

この5つの大カテゴリをさらに細かく分類し,30の小カテゴリにして推定の精度を高めています。なお,Personality Insightsでは欲求(needs)の推定はKevin Fordの「Universal Needs Map」に沿った分析を,価値観(value)「Schwartzの価値概説(Schwartz Value Survey⁠⁠」に沿った分析が行われているとのことです。

Personality Insightsで導き出される心理属性。Twiterなどソーシャルの書き込みからも属性の把握が可能。Bluemixのサイトでは誰でも自分のTwitterを使って試すことができる

Personality Insightsで導き出される心理属性。Twiterなどソーシャルの書き込みからも属性の把握が可能。Bluemixのサイトでは誰でも自分のTwitterを使って試すことができる

映画のコメントをもとにPersonality Insightsを使って属性分析しJSONでデータを生成

映画のコメントをもとにPersonality Insightsを使って属性分析しJSONでデータを生成

コメントからpersonalityを抽出できたら,次のステップはSparkによるモデル作成です。Sparkを選んだ理由として田中氏は「処理スピードの速さ」を挙げています。今回は「映画の評価」「パーソナリティ」という2つの評価軸に沿って前処理とモデル作成を行っています。映画の評価では,ユーザごとにグルーピングし,ユーザに映画の評価の値を付与します。その際,⁠ユーザの傾向(スコアを高く付けやすい or 低く付けやすい)を考慮して,値がぶれないように前処理(正規化)をしておく」⁠田中氏)ことがポイントとなります。パーソナリティにおいてもユーザごとにグルーピングし,コメントから得られたpersonalityの値をもとに,ユーザごとの値に変換しますが,ここでは「インプットの量が少ないと評価にしくいため,エラー率による重みづけ」⁠田中氏)という前処理を行っています。

Sparkによる前処理その1。映画の評価をユーザごとにグルーピングし正規化する

Sparkによる前処理その1。映画の評価をユーザごとにグルーピングし正規化する

Sparkによる前処理その2。コメントから生成したデータを使ってユーザごとにパーソナリティデータを付与

Sparkによる前処理その2。コメントから生成したデータを使ってユーザごとにパーソナリティデータを付与

この2つのテーブルの内積を取ることで"映画のレコメンデーションモデル"が作成できました。田中氏は実際にこのモデルの利用例として,安倍首相とオバマ前米国大統領のスピーチデータ(テキスト)を使い,Watsonでパーソナリティを分析して,そのデータを今回作成したモデルにあてはめ,それぞれに対する"おすすめの映画"を提示するレコメンデーションを作成できたとしています。ただし「二人の要人にどんな映画を勧めたのかはさすがにこわくて言えない」⁠田中氏)とのことで,残念ながら具体的な映画の名前は出ませんでした。

Sparkによる前処理その3。その1とその2で得られたテーブルの内積を取り,レコメンデーションのモデルを作成する。得られたモデルは「どういうパーソナリティをもつ人がどういう映画を好むか」というレコメンデーションのベースになる

Sparkによる前処理その3。その1とその2で得られたテーブルの内積を取り,レコメンデーションのモデルを作成する。得られたモデルは「どういうパーソナリティをもつ人がどういう映画を好むか」というレコメンデーションのベースになる

安倍首相とオバマ前大統領のスピーチからWatsonでパーソナリティを分析し,レコメンデーションモデルに当てはめておすすめ映画を割り出したものの,⁠結果はこわくて言えない」⁠田中氏)そうです

安倍首相とオバマ前大統領のスピーチからWatsonでパーソナリティを分析し,レコメンデーションモデルに当てはめておすすめ映画を割り出したものの,「結果はこわくて言えない」(田中氏)そうです

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Blog 「G3 Enterprise」やTwitter(@g3akk),Facebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。