LINE テクノロジー&エンジニアリング大全

LINEがサービス横断で実現する“データ活用の民主化”

この記事を読むのに必要な時間:およそ 3.5 分

インタビュイー

ML基盤開発担当 フェロー 並川淳
Data Engineering基盤開発担当 フェロー チェ チョルホ
Data Management室 室長 勝山公雄

画像

LINEではどのようにサービス横断でのデータ活用を実現しているのか
(LINE DEVELOPER DAY 2020)
URL:https://linedevday.linecorp.com/2020/ja/sessions/5101

LINEでは,サービス横断でのデータ活用を実現するための組織として「Data Science and Engineeringセンター」を2019年に立ち上げています。⁠LINE DEVELOPER DAY 2020」では,ML基盤開発担当フェローの並川淳氏が,LINEにおけるデータ活用事例を解説しています。さらにここでは,その並川氏に加え,データ分析のためのプラットフォーム構築に携わるチョルホ氏,そしてデータマネジメント室の勝山公雄氏に,具体的な取り組みなどについて伺いました。

全サービス横断でデータを活用するためにData Science and Engineeringセンターを開設

――LINEにおいてデータ分析が本格的に行われるようになったのはいつからですか。

並川:それ以前からデータ分析は行われていましたが,大きなきっかけとなったのはデータ専門研究開発組織である「Data Labs」を2016年に立ち上げたことです。このように専門組織が立ち上がったことで,データ分析が本格的なスタートを切りました。

チョルホ:LINEのサービスを立ち上げた2011年6月からデータ分析は行っていました。ただ,このときはサービスを開発するソフトウェアエンジニアが,自分が担当するシステムのデータだけを自分なりの方法で分析するレベルに留まっていたんです。こうしたデータ分析に限界を感じたことから,専門の組織や仕組みが必要であるということで,Data Labsが立ち上がりました。

さらに2019年には,⁠Data Science and Engineeringセンター」を開設しています。メッセンジャーやタイムライン,LINE公式アカウント関連のメッセンジャー系と,我々がファミリー系と呼んでいる,それ以外のサービスの分析はそれぞれ別のシステム・基盤で行われていました。ただAIを活用してサービス横断でデータ分析を行うためには,メッセンジャー系とファミリー系の分析システムを統合する必要があると判断し,組織を統合しました。

現在は,さらに組織としての機動性を高めるために,⁠Data Engineeringセンター」「Data Scienceセンター」の2つに分かれています。

――どのような機能を持った組織なのでしょうか。

並川:すべてのデータ分析基盤を担当するData Platform室,そして集まったデータを活用してサービスの向上などを実現するData Labsがあります。また,データを使うためのルールの整備やトレーニングなどを行うのがData Management室です。

データ分析のためのプラットフォーム「Information Universe」

――Data Management室の具体的な業務内容を伺えますか。

勝山:みんながデータを使いたいから使う,やりたいことをやるという形では,どうしてもリスクが広がってしまいます。情報漏えいであったり,あるいは悪意がなくてもミスによってデータを流出させてしまうといったことです。こうした事件が発生すると大きなダメージを被ることになるため,ルールを作って皆さんに守ってもらうという取り組みをしています。

画像

このルールについて,新しく入ってきた人に守ってくださいというのはそれほど難しくないのですが,ルールがなかったところからデータを活用している人たちにとっては,それまでにはなかった足かせができることになるため,少なからず反発はあります。ただ徹底しなければリスクは上がってしまうため,ルールを守っていただけるように,またルールの存在を知ってもらうためにトレーニングを実施しています。

現状は守りが中心ですが,データ活用という攻めの観点でも取り組みを進めています。たとえばとくに新規事業ではベーシックなデータ分析もできていないケースがあるので,そうした部門に対してデータ分析をサポートするようなことを始めています。

また契約関連も我々の守備範囲ですが,これも大変です。たとえば金融サービスが絡むと,契約関連の処理が非常に複雑になります。またEUのGDPR(General Data Protection Regulation:EU一般データ保護規則)やアメリカのカリフォルニア州のCCPA(California Consumer Privacy Act)など,各国・各地域の法規制への対応もにらみながら対応しています。

――LINEで利用しているデータプラットフォームについて教えてください。

チョルホ:データプラットフォームの名称は「IU」⁠Information Universe)で,現時点でサーバ台数は2,500台以上,ストレージサイズは270PB,日々のワークロードは30万を越えています。利用しているのはKubernetesとHadoop,そして分散ストレージであるCephです。

コンピューティングフレームワークとしては,ストリーミング処理にはHive,汎用的に使われているのはSpark,SQLで使いたい場合はHiveなどと使い分けています。これらの分散処理フレームワークはIU上でデータを処理するためだけでなく,サービス側のストレージにデータを提供したり,あるいはサービス側からデータを収集してIUに保存したりする際にも使っています。

データサイエンティストやサービス企画者がインサイトを得るために,あるいは機械学習エンジニアがモデルを開発することを目的として,Tableauなどの分析環境も提供しています。

各サービスのデータの収集はストリーミングの場合もあればバッチで取得するケースもあります。これらのデータは整形されて,サービスごとの差異を吸収し,横断的に利用できるように格納されています。また機械学習にはユーザーの行動ログとコンテンツの情報の両方が必要なため,それぞれを連携して利用できる形で保存しているほか,ディープラーニングなどで使いやすいように,特徴量を埋め込んだベクトルに変換したデータも提供しています。

得られた特徴量はコンテンツの推薦やクラス分類,CT予測のようなタスクに利用されていて,各々のサービスに反映されています。また,サービス側は自らのサービス以外のデータを使った機械学習の結果を得ることも可能です。

著者プロフィール

川添貴生(かわぞえたかお)

株式会社インサイトイメージ代表取締役。企業サイトの構築及び運用支援のほか、エンタープライズ領域を中心に執筆活動を展開している。

メール:mail@insightimage.jp


馮富久(ふぉんとみひさ)

株式会社技術評論社クロスメディア事業室室長。

1975年生まれ。横浜市出身。1999年4月株式会社技術評論社に入社。入社後から『Software Design』編集部に配属され,2004年1月に編集長へ就任。同2004年9月に『Web Site Expert』を立ち上げ,同誌編集長に就任,現在に至る。その後,2008年9月に設立したクロスメディア事業部(現クロスメディア事業室)に配属。現在,社外活動として電子書籍を考える出版社の会の代表幹事やWebSig 24/7のモデレーター,TechLIONプロデューサーなども務める。過去にIPAオープンソースデータベースワーキンググループ委員やアックゼロヨン・アワード他各賞審査員などの経験を持つ。

Twitte ID:tomihisa(http://twitter.com/tomihisa/