- インタビュイー
- LINEではどのようにサービス横断でのデータ活用を実現しているのか
(LINE DEVELOPER DAY 2020) - URL:https://
linedevday. linecorp. com/ 2020/ ja/ sessions/ 5101
LINEでは,
全サービス横断でデータを活用するためにData Science and Engineeringセンターを開設
- ――LINEにおいてデータ分析が本格的に行われるようになったのはいつからですか。
並川:それ以前からデータ分析は行われていましたが,
大きなきっかけとなったのはデータ専門研究開発組織である 「Data Labs」 を2016年に立ち上げたことです。このように専門組織が立ち上がったことで, データ分析が本格的なスタートを切りました。 チョルホ:LINEのサービスを立ち上げた2011年6月からデータ分析は行っていました。ただ,
このときはサービスを開発するソフトウェアエンジニアが, 自分が担当するシステムのデータだけを自分なりの方法で分析するレベルに留まっていたんです。こうしたデータ分析に限界を感じたことから, 専門の組織や仕組みが必要であるということで, Data Labsが立ち上がりました。 さらに2019年には,
「Data Science and Engineeringセンター」 を開設しています。メッセンジャーやタイムライン, LINE公式アカウント関連のメッセンジャー系と, 我々がファミリー系と呼んでいる, それ以外のサービスの分析はそれぞれ別のシステム・ 基盤で行われていました。ただAIを活用してサービス横断でデータ分析を行うためには, メッセンジャー系とファミリー系の分析システムを統合する必要があると判断し, 組織を統合しました。 現在は,
さらに組織としての機動性を高めるために, 「Data Engineeringセンター」 と 「Data Scienceセンター」 の2つに分かれています。 - ――どのような機能を持った組織なのでしょうか。
並川:すべてのデータ分析基盤を担当するData Platform室,
そして集まったデータを活用してサービスの向上などを実現するData Labsがあります。また, データを使うためのルールの整備やトレーニングなどを行うのがData Management室です。
データ分析のためのプラットフォーム 「Information Universe」
- ――Data Management室の具体的な業務内容を伺えますか。
勝山:みんながデータを使いたいから使う,
やりたいことをやるという形では, どうしてもリスクが広がってしまいます。情報漏えいであったり, あるいは悪意がなくてもミスによってデータを流出させてしまうといったことです。こうした事件が発生すると大きなダメージを被ることになるため, ルールを作って皆さんに守ってもらうという取り組みをしています。 このルールについて,
新しく入ってきた人に守ってくださいというのはそれほど難しくないのですが, ルールがなかったところからデータを活用している人たちにとっては, それまでにはなかった足かせができることになるため, 少なからず反発はあります。ただ徹底しなければリスクは上がってしまうため, ルールを守っていただけるように, またルールの存在を知ってもらうためにトレーニングを実施しています。 現状は守りが中心ですが,
データ活用という攻めの観点でも取り組みを進めています。たとえばとくに新規事業ではベーシックなデータ分析もできていないケースがあるので, そうした部門に対してデータ分析をサポートするようなことを始めています。 また契約関連も我々の守備範囲ですが,
これも大変です。たとえば金融サービスが絡むと, 契約関連の処理が非常に複雑になります。またEUのGDPR (General Data Protection Regulation:EU一般データ保護規則) やアメリカのカリフォルニア州のCCPA (California Consumer Privacy Act) など, 各国・ 各地域の法規制への対応もにらみながら対応しています。 - ――LINEで利用しているデータプラットフォームについて教えてください。
チョルホ:データプラットフォームの名称は
「IU」 (Information Universe) で, 現時点でサーバ台数は2,500台以上, ストレージサイズは270PB, 日々のワークロードは30万を越えています。利用しているのはKubernetesとHadoop, そして分散ストレージであるCephです。 コンピューティングフレームワークとしては,
ストリーミング処理にはHive, 汎用的に使われているのはSpark, SQLで使いたい場合はHiveなどと使い分けています。これらの分散処理フレームワークはIU上でデータを処理するためだけでなく, サービス側のストレージにデータを提供したり, あるいはサービス側からデータを収集してIUに保存したりする際にも使っています。 データサイエンティストやサービス企画者がインサイトを得るために,
あるいは機械学習エンジニアがモデルを開発することを目的として, Tableauなどの分析環境も提供しています。 各サービスのデータの収集はストリーミングの場合もあればバッチで取得するケースもあります。これらのデータは整形されて,
サービスごとの差異を吸収し, 横断的に利用できるように格納されています。また機械学習にはユーザーの行動ログとコンテンツの情報の両方が必要なため, それぞれを連携して利用できる形で保存しているほか, ディープラーニングなどで使いやすいように, 特徴量を埋め込んだベクトルに変換したデータも提供しています。 得られた特徴量はコンテンツの推薦やクラス分類,
CT予測のようなタスクに利用されていて, 各々のサービスに反映されています。また, サービス側は自らのサービス以外のデータを使った機械学習の結果を得ることも可能です。