LINE テクノロジー&エンジニアリング大全

LINEが日本語の大規模汎用言語モデルの構築を推進~LINE AIカンパニートップの砂金信一郎氏とNLPチームを率いる佐藤敏紀氏に訊く,大規模汎用言語モデルがもたらす価値

この記事を読むのに必要な時間:およそ 4 分

インタビュイー

LINE AIカンパニーCEO 砂金信一郎氏(左⁠⁠,
LINE株式会社NLP Development Team, Engineering Manager 佐藤敏紀氏(右)

LINE AIカンパニーCEO 砂金信一郎氏(左),LINE株式会社NLP Development Team, Engineering Manager 佐藤敏紀氏(右)

日本語に特化した大規模汎用言語モデルとして,LINEで開発を進めているのが「HyperCLOVA」です。文章の作成や要約,人間との自然な対話などを実現するものであり,AIの適用範囲を大きく広げる可能性を秘めた技術だと言えます。このHyperCLOVAの開発背景や具体的な用途,今後の展開などについて,LINEの砂金信一郎氏と佐藤敏紀氏にお話を伺いました。

AIの民主化に寄与する大規模汎用言語モデル

――LINEとNAVERが共同で構築している大規模汎用言語モデルには,どのような強みがあるのでしょうか。

佐藤:言語モデルには,従来の特化型言語モデルと大規模汎用言語モデルの大きく2つに分けられます。

特化型言語モデルは,事前に用意した教師データを使ってファインチューニングを行う際,最適なアウトプットを出力するためのパラメータの調整を行えるため,特定のタスクに対して性能を出しやすいといったよさがあります。さらにモデルがコンパクトであることも特化型言語モデルのメリットになります。

一方,大規模な汎用言語モデルはファインチューニングがしづらく,モデルも大きなものになる代わりに,1つのモデルでさまざまな用途に対応できることが利点です。

これにより個別のタスクごとにモデルを作る必要がないことから,ある問題を解きたいと考えたとき,スピーディに着手してアウトプットまで辿り着くことができます。

さらに,大規模なデータを用いてモデルを構築することから,出力されるテキストが非常に滑らかであることも大規模汎用言語モデルのメリットです。実際,大規模汎用言語モデルであるHyperCLOVAから出力したテキストは,AIが出力したものだとわからないレベルです。

砂金:特定の用途に特化して言語モデルを作ろうとすると,自然言語処理や機械学習,深層学習を理解している,市場価値の非常に高い人が何人も必要となってしまいます。

しかし大規模汎用言語モデルであれば,1つでさまざまな課題をカバーすることが可能です。さらに専門家が関与することなく多くの処理を実施できることも大規模汎用言語モデルの利点です。

従来のAIを用いた対話や文章生成は,扱うのが非常に難しい側面がありました。しかし大規模汎用言語モデルであれば,その難しさを解消することが可能です。これによって一気に言語モデルを民主化し,どんな場面でも気軽に使ってもらうことができる。これが我々のやりたかったことです。

HyperCLOVAのアーキテクチャ

HyperCLOVAのアーキテクチャ

HyperCLOVAの開発はLINEのフラグシッププロジェクト

――大規模汎用言語モデルの開発には,どのような意図や考えがあったのでしょうか。

佐藤:自然言語処理のアプリケーションなどを開発するうえで,大規模汎用言語モデルを自ら開発できるか否かは大きな分かれ目になり,我々が到達できる地点がまったく変わります。

LINEとしては,こうした言語モデルを自分たちで作ることができて,お客さまが使えるように提供することもできる。そういう立場になるために,大規模汎用言語モデルの構築に取り組みました。

砂金:我々の身近なところには,解くべき課題が山積みになっています。その課題ごとに言語モデルを用意するのではなく,大規模汎用言語モデルを1つ構築し,それを使ってまとめて課題解決すればいいんじゃないかと考えました。

LINEは提供するサービスの多さや規模ゆえに,日本語を扱ううえで多くの課題を抱えていますので,その解決のための仕組みとしてHyperCLOVAを作ったというのは,すごく自然な流れだったと思います。

――ただ,大規模汎用言語モデルの構築には多大なリソースを費やすことになるため,プロジェクトをスタートさせるかどうかの判断は難しかったのではないでしょうか。

砂金:流れとして最初にあったのは,OpenAIが開発した「GPT-3」です。これを見たときに,確かにエポックメイキングだねと話していました。ただ,GPT-3はあくまで英語圏の言語モデルなんですね。当然ながら言語ごとにクセや難しさがあり,英語でできているからといって,日本語でも同じことがすぐにできるわけではありません。

しかしGPT-3で大きな可能性が見えているのに,英語以外の言語を使う我々はその恩恵を享受できないのは望ましいことではないでしょう。じゃあ誰かがやらなければならないとなったときに,日本においてはLINE,韓国ではNAVERがそれぞれやるべきだろうと判断しました。

さらに言えば,今回のHyperCLOVAの構築は多くの人に注目してもらえるフラグシッププロジェクトになります。そのプロジェクトを走らせることによって多くの人たちに注目していただき,自分も貢献したい,あるいはプロジェクトに関わってみたいと考える人が増えるのであれば,このプロジェクトに取り組む価値は十分にあると考えています。

――言語モデルの構築における日本語特有の難しさとしては,どういったものが挙げられますか。

佐藤:たとえば商品販売サイトで「モニターが欲しい」といったとき,目的のモニターを探すためのキーワードとして,モニターやディスプレイ,あるいは液晶モニターや液晶ディスプレイなど,さまざまなパターンが考えられます。

このように日本語は,単語に紐付く言葉がたくさん発生し,その紐付く言葉を適切に指定しなければ求める情報が満遍なく手に入らないといったことが起こります。

日本人の場合,こうしたことはあたりまえだと思いがちですが,こうした悩みは日本語圏特有のもので,それ以外の言語でそういったことに悩むことはあまりありません。

日本語にはこのような特性があるため,日本語と英語で同じサイズのテキストを集め,それらを使ってモデルを構築すると,日本語は英語のものよりも性能が出ないことになります。

また,日本語は何か学習させるときに文字の種類が非常に多くなってしまいます。深層学習でモデルを構築する際,その中で使える語彙の数が5万とした場合,英語であれば文字だけでなく単語まで含めることができますが,日本語で5万程度だとかなりの部分が1つの文字で埋まってしまいます。そうすると,英語と同程度の言語モデルを構築するためには語彙の数をもっと増やす必要があり,学習のやり方や調整もまったく違うといったことが起きます。

こうした背景があるため,英語と日本語で素直に同じ手法を適用すると,日本語は全然性能が出ないといったことになります。こうした点は日本語ならではの難しさです。

著者プロフィール

川添貴生(かわぞえたかお)

株式会社インサイトイメージ代表取締役。企業サイトの構築及び運用支援のほか、エンタープライズ領域を中心に執筆活動を展開している。

メール:mail@insightimage.jp


馮富久(ふぉんとみひさ)

株式会社技術評論社クロスメディア事業室部長代理。

1975年生まれ。横浜市出身。1999年4月株式会社技術評論社に入社。入社後から『Software Design』編集部に配属,同誌編集長(2004年1月~2011年12月)や『Web Site Expert』編集長を歴任。その後,2008年9月に設立したクロスメディア事業部(現クロスメディア事業室)の責任者として,イベントやWeb・オンライン企画を統括。現在は,技術評論社の電子出版事業を中心に,デジタル・オンライン事業を取りまとめる。社外活動として電子書籍を考える出版社の会の代表幹事やWebSig 24/7のモデレーター,TechLIONプロデューサーなども務める。過去にIPAオープンソースデータベースワーキンググループ委員やアックゼロヨン・アワード他各賞審査員などの経験を持つ。

Twitte ID:tomihisa(http://twitter.com/tomihisa/