LINE テクノロジー&エンジニアリング大全

LINEがサービス横断で実現する“データ活用の民主化”

この記事を読むのに必要な時間:およそ 3.5 分

機械学習の最新トレンドも積極的にキャッチアップ

――IUの構築や運用において意識していることはありますか。

チョルホ:もっとも重要だと考えているのは,これはLINEの魂でもあるのですが,絶対にオフラインでメンテナンスは行わないことです。メンテナンスのためにシステムをダウンさせることなく,オンラインの状態でアップグレードやバックアップなどの作業を行います。このように,サービスの可用性は極めて重要な要素となっています。

画像

また扱うデータ量が膨大であるため,同じプロダクトを使っているほかのケースとは異なるノウハウやテクニックが必要になります。IUではHadoopやSparkなどオープンソースのプロダクトを数多く利用していますが,単に使うだけでなく,その中身もきちんと理解し,必要であれば我々自身がコードを修正し,安定運用につなげています。なお修正したコードはコミットし,プロジェクトにも貢献しています。

――機械学習やデータ分析で使われるテクノロジーやプロダクトの選定はどのように行われるのでしょうか。

並川:画像の解析やクリックレートの予測,あるいはレコメンデーションなど,さまざまなタイプの機械学習の要件があり,その種類によって機械学習のモデルやアルゴリズム,手法は異なります。この要件に合わせて最適なものを探し,また内部で研究開発しているものでマッチするものがあれば,それを基準に検討していくことになります。その後,それを動かすためのオープンソースのプロダクト,あるいは内製で研究開発しているものを使うといった流れになります。

――とくに機械学習は世界中で研究開発が積極的に進められていますが,それにはどのように対応しているのでしょうか。

並川:AI系の国際学会であるNeurIPSなどに出席しているほか,各基調の状況などもキャッチアップしています。その中で魅力的なものがあれば適用していくわけですが,その際にあまり作り込んでしまうと,最新のものが出てゲームチェンジしたときに対応が遅れる可能性があります。これは将来的にも使われ続けると判断できれば最適に作り込みますが,そうでなければ少し遊びを待たせた形で開発するケースもあります。

チョルホ:昨今の機械学習のトレンドの移り変わりは非常に早く,新しいテクノロジーに対して大きなニーズがあります。当然インフラもそれに追従することが求められるわけですが,一方でIUはレガシーなテクノロジーも多く使っていて,それをすぐに変えるのは容易ではありません。

ただ機械学習やデータサイエンティストのチームから要望があれば,できるだけ対応することを意識しています。トレンドに追従できなければ人材採用の観点でも不利になりますし,ひいては機械学習の世界で競合に遅れを取ることにもなりかねないためです。今後もグローバルのトレンドをきちんとキャッチアップし,プラットフォームを進化させていきたいと考えています。

機械学習のための統合プラットフォームの開発も進行中

――機械学習のためのプラットフォームを構築するというお話も伺いました。

並川:はい,IUの上で機械学習のプラットフォームを統一し,機械学習エンジニアやデータサイエンティストが,より快適にすばやく成果を出せる環境を作ることを目標にしています。

画像

これまでの取り組みを通じて,データ分析基盤が統一されていることの利便性を感じており,同様に機械学習においても統一したいと考えています。それによって,機械学習のエンジニアがどこの組織に移っても同様に便利な機能が使えるという状況を実現できると思っています。

このプラットフォームはMLU(ML Universe)と呼んでいます。主要なコンポーネントとしては,OCRやオブジェクトコレクションなど,世間ではAIと呼ばれるケースが多い機能をAPIで提供するサービスに利用するDeepPocketや,統合的な開発環境に対し,モデルのデプロイまでをサポートすることを目指したプラットフォームであるJutopiaなどがあります。

またIUクラスタとつながることを前提に設計したKubernetesクラスタであるDatagroundもあります。普段,機械学習のタスクはKubernetesで動かすことが多く,またデータはIUのものを用いています。そこでKubernetesクラスタからUIのデータを使うためのインフラ部分をDatagroundで実現しようとしています。

機械学習用の分散処理ライブラリとして,Masalaも提供します。IUには非常に大きなデータが存在するため,エンジニアはそれらを効率的に扱う必要があります。しかし機械学習のエンジニアや研究者が,個別に並列計算のためのロジックを書くのは非常にコストが高くなります。そこで分散処理の部分をライブラリ化し,並列計算が容易に行えることを目指してMasalaを開発しています。

チョルホ:MLUは機械学習のエンジニアのためのプラットフォームですが,それ以外のユーザーにとっても重要なものになると考えています。機械学習のエンジニアが活用した結果,その成果物としてモデルやデータなどが生まれます。そのモデルがどういったものであり,その結果どのようなベネフィットが生まれるのか,そういったことを可視化し,経営レベルで判断できるようにしておく必要があります。そのため,MLエンジニアだけでなく,それ以外の人たちでも機械学習のメリットを享受できるプラットフォームにしていきたいと思っています。

MLU(ML Universe)の構成

MLU(ML Universe)の構成

――最後に,今後の取り組みについて教えてください。

並川:まずMLUの開発を進めていきます。先ほどのチョルホの話につながりますが,機械学習のエンジニアだけが機械学習を分かっていて,その人たちが成果を出すというだけでなく,経営やプランナー,エンジニアなどさまざまな立場の人が機械学習について理解できる,何か面白いアイデアがあれば機械学習のエンジニアでなくてもMLUを使ってサービスを改善できるような世界を目指していきたいですね。

勝山:我々の組織のミッションにデータの民主化という言葉がありますが,それを我々はデータ活用の民主化と置き換えています。いろんな事業の人たちがデータを分析できる,あるいはデータを活用できる,そういった世界を創っていきたいという思いがあり,それを後押しする組織にしていきたいと考えています。

私がリードしている Data Management室は,データ利用に際してのルールを整備するなど守りの側面もありますが,一方でデータ活用を進めていくには攻めも必要です。守りばかりをやっていてもだめで,やはり攻めてこそ意味がある。優先しているのは攻めであり,危ないところだけを守る,そういった考え方で今後の取り組みを進めていきたいと思っています。

チョルホ:IUは主にデータ分析と機械学習のためのシステムとして存在しているのですが,これをもっと一般的なデータプロセッシングのシステムとしていきたいと考えています。つまり分析の観点だけでなく,データが生成されて,それを処理して結果をデリバリーする,その一連の処理をサポートしていくことを考えています。

またガートナーが発信したHTAP(Hybrid Transaction and Analytical Processing)と呼ばれるコンセプトでは,OLTPとOLAPを1つのシステムで実現できるデータベースがこれからは必要であるとしています。IUはまさにそういったシステムになっていきたい。そのために,Hadoopのみではなく,さまざまな分散データベースを活用し,それぞれのワークロードに合わせて使い分ける,そういった形を見据えて研究開発に取り組んでいます。

最終的には,LINEのすべての社員が積極的にデータを活用するデータコミュニティとして活動できるプラットフォームを実現していきます。

――本日はありがとうございました。

著者プロフィール

川添貴生(かわぞえたかお)

株式会社インサイトイメージ代表取締役。企業サイトの構築及び運用支援のほか、エンタープライズ領域を中心に執筆活動を展開している。

メール:mail@insightimage.jp


馮富久(ふぉんとみひさ)

株式会社技術評論社クロスメディア事業室室長。

1975年生まれ。横浜市出身。1999年4月株式会社技術評論社に入社。入社後から『Software Design』編集部に配属され,2004年1月に編集長へ就任。同2004年9月に『Web Site Expert』を立ち上げ,同誌編集長に就任,現在に至る。その後,2008年9月に設立したクロスメディア事業部(現クロスメディア事業室)に配属。現在,社外活動として電子書籍を考える出版社の会の代表幹事やWebSig 24/7のモデレーター,TechLIONプロデューサーなども務める。過去にIPAオープンソースデータベースワーキンググループ委員やアックゼロヨン・アワード他各賞審査員などの経験を持つ。

Twitte ID:tomihisa(http://twitter.com/tomihisa/