レポート

大規模データを扱うための実践的知識を大公開「CyberAgent Data Engineering & Data Analysis Workshop #4 ~春の機械学習祭り~」レポート

この記事を読むのに必要な時間:およそ 4 分

サイバーエージェントのメディア事業における研究開発組織「秋葉原ラボ」では,大規模データを効果的に収集・蓄積・活用するための知見を共有する勉強会「CyberAgent Data Engineering and Data Analysis Workshop」⁠略称「CADEDA」を開催しています。第4弾となる今回は,タイトルに「春の機械学習祭り」とあるように,機械学習がテーマです。

今回は,サイバーエージェントから内藤 遥氏,藤坂 祐介氏,さらにゲストスピーカーであるPreferred Networksの秋葉 拓哉氏の3名による講演がありました。

推薦アルゴリズムの今までとこれから

最初の登壇者は,秋葉原ラボにてさまざまなサービスの推薦システムの開発・運用を担当している内藤 遥氏です。本講演では,代表的な推薦アルゴリズムの歴史と,それらを実サービスで利用するための推薦システムの基盤について話がありました。

サイバーエージェント 内藤 遥氏

サイバーエージェント 内藤 遥氏

前半では,推薦アルゴリズムがどのように発展して来たかを解説しています。まず,最も基本的な推薦アルゴリズムであるGroupLensやItem-based Collaborative Filteringに代表される協調フィルタリングを説明し,これらの手法が抱える問題を低減するMatrix Factorizationと呼ばれる手法を説明しています。

続いて,近年提案された主要なアルゴリズムについて解説しています。具体的には,推薦に利用する特徴量の柔軟性に優れるFactorization Machines,時間的変化を考慮できるRecurrent Neural Networksを推薦に応用する手法,高速なオンライン計算を可能にするCollaborative Metric Learningの3つを取り上げています。

「とくに,我々が注目している手法はCollaborative Metric Learningです。この手法はユーザーとアイテムを同一の空間に写像する工夫により,高速な近似最近傍探索アルゴリズムを適用可能にしている点で優れています」⁠内藤氏)

後半では,実際に推薦アルゴリズムをサービスで展開するため,どのような基盤システムを設計・開発しているかの手法から今後の展望までを解説しています。秋葉原ラボでは,サイバーエージェントが抱えるさまざまなサービスを対象とした推薦システムの保守運用に加え,新規サービスへの推薦システムの導入対応も頻繁に行います。そのため,運用コスト・導入コストの低減を目的として,独自のバッチフレームワークを開発しているといいます。このフレームワークでは,たとえばサービスに依存しない部分である「データを読み込み,加工し,推薦結果を作成し,書き出す」という一連の流れについては共通化し,サービス依存のビジネスロジックのみを切り出して可変とすることで導入コストを低減するなどの工夫を行っています。

現在,推薦基盤で用いているアルゴリズムはMatrix Factorizationが中心であり,一部で試験的にFactorization MachinesやItem2Vecを用いているとのことです。前半で紹介したような新しいアルゴリズムの導入についても検討していますが,たとえばFactorization Machinesは予測計算速度の問題に加えて投入する特徴を選択するための深いドメイン知識が必要になることから,一部の導入にとどまっているそうです。

「課題としては,新しいアルゴリズムの導入やリアルタイム化はもちろんですが,これらを支えるための基盤をどのように作って行くかが重要になります。たとえば,アイテムを分散表現にする場合,サービスごとに異なるアイテムのフォーマットを吸収するためのレイヤが必要になると考えています。また,モデルの更新フローをどのように設計し,どのような仕組みで管理するかも検討する必要があります」⁠内藤氏)

本セッションの質疑応答では,リアルタイム化に関わる質問や,推薦精度の評価に関わる質問などが行われていました。どの質問も,サービスに推薦機能を組み込む際に重要となる課題に関連しており,参加者にも推薦システムを導入・改善したいと考えている方が多いことをうかがわせます。

“マルチメディア機械学習”の取り組み

次の登壇者は,同じく秋葉原ラボにて,スパム・不適切コンテンツの監視基盤システムや画像・音楽などのメディアデータ分析・処理システムの開発を担当している藤坂 祐介氏です。本講演では,マルチメディアデータに関連した機械学習システムの開発事例を紹介しています。特に「ブログ画像カテゴライズ」⁠スパム画像検知」⁠楽曲の盛り上がり検知」の3つについて詳しく説明しています。

サイバーエージェント 藤坂 祐介氏

サイバーエージェント 藤坂 祐介氏

まず,ブログを公式ジャンルに自動でカテゴライズするプロジェクトについて説明しています。ここでは投稿画像に注目し,物体認識で高い性能を持つResNet-18と呼ばれるディープラーニングモデルにより投稿画像を分類しています。このモデルに人手で付与した約30万件の学習データを当てはめ,さらにテキスト解析を併用することで,おおむね良好なブログ分類システムを構築できたとしています。

「多くのカテゴリでは問題ないのですが,一部うまく分類できないカテゴリもあります。たとえば『カップル』『友人同士』というカテゴリの間では類似した写真が多いため,これらを正確に分類するのは困難です。実際にt-SNEと呼ばれる手法で可視化し,このように判然としないカテゴリがいくつかあることを明らかにしました。この分類カテゴリセットはサービスのプロデューサーに提案されたものを利用していますが,適切な分類問題の設定とサービスの需要との間でうまくすり合わせることが大切と感じました」⁠藤坂氏)

次に,スパム画像を自動で抽出するプロジェクトについて解説しています。本発表で取り上げるスパム画像の種類は,エロ・グロなどのユーザーが「不快に感じる画像」と,マッチングサービスのプロフィールなどで使いまわされる「コピー画像」の2種類です。

不快画像の検知では,ResNet-18の中間層をさらに増やしたResNet-34と呼ばれるモデルを利用しています。こちらは4年間にわたるサービス運営の過程で得られた約400万枚の画像を学習データとしています。システムが検知した画像は人手で最終判断が行われ,画像と判断結果は次の学習データとして追加されるようになっています。このサイクルにより,モデルが日々アップデートされる仕組みです。

コピー画像の検知では,大量のコピー画像DBから一致する画像を高速に見つけることが求められます。そこで,画像をdHashにより64bitで表現した際のハミング距離を利用します。本システムはマッチングサービスに導入されており,実際に悪質な業者を発見できたそうです。

最後に,音楽のサビ部分を自動で検出するプロジェクトを紹介しています。音楽ストリーミングサービスAWAでは,ハイライト再生という楽曲の盛り上がる部分をピックアップして聴ける機能を提供しています。このハイライト再生に用いる区間を,人手ではなく機械学習によって抽出することが目標です。手法は,入力音楽に短時間フーリエ変換(STFT)を施して周波数強度を抽出し,続いて12層のCNNに入力することで,最終的な出力である「メロディ」⁠サビ」⁠それ以外」の各カテゴリ確率を得るという方法です。

「実際の楽曲データを用いた評価実験を行いましたが,幅広い音楽の全ジャンルに対応するのはなかなか難しいという問題もありました。たとえばJ-POPではある程度の精度が出たものの,クラシックのように明確な『サビ』自体がない曲もあります」⁠藤坂氏)

本セッションの質疑応答では,紹介プロジェクトにおける具体的な質問やコメントが多く寄せられました。たとえば,サビ検出ではどういった曲がうまく行くのか,どういった特徴が有効だったのかと言った質問です。また,スパム検知にアクセス頻度を素性として投入してはどうか,サビ検出の前にサビの有無を判定する段階を加えたらどうかといったコメントを始めとして活発な議論が行われていました。

著者プロフィール

角田孝昭(つのだたかあき)

筑波大学大学院にて博士後期課程を修了後,2016年より株式会社サイバーエージェントに入社。メディア事業における研究開発組織「秋葉原ラボ」にて,自然言語処理を中心としたデータ分析や機械学習システムの開発に従事。特にアメーバブログ(アメブロ)が抱える大量のテキストを活用することで,ブログ検索精度を向上させたりスパム・スプログからの防御を進めたりなど,アメブロの平和を影から支える。

バックナンバー

2018年

バックナンバー一覧

コメント

コメントの記入