- インタビュイー
日本語に特化した大規模汎用言語モデルとして,
AIの民主化に寄与する大規模汎用言語モデル
- ――LINEとNAVERが共同で構築している大規模汎用言語モデルには,
どのような強みがあるのでしょうか。 佐藤:言語モデルには,
従来の特化型言語モデルと大規模汎用言語モデルの大きく2つに分けられます。 特化型言語モデルは,
事前に用意した教師データを使ってファインチューニングを行う際, 最適なアウトプットを出力するためのパラメータの調整を行えるため, 特定のタスクに対して性能を出しやすいといったよさがあります。さらにモデルがコンパクトであることも特化型言語モデルのメリットになります。 一方,
大規模な汎用言語モデルはファインチューニングがしづらく, モデルも大きなものになる代わりに, 1つのモデルでさまざまな用途に対応できることが利点です。 これにより個別のタスクごとにモデルを作る必要がないことから,
ある問題を解きたいと考えたとき, スピーディに着手してアウトプットまで辿り着くことができます。 さらに,
大規模なデータを用いてモデルを構築することから, 出力されるテキストが非常に滑らかであることも大規模汎用言語モデルのメリットです。実際, 大規模汎用言語モデルであるHyperCLOVAから出力したテキストは, AIが出力したものだとわからないレベルです。 砂金:特定の用途に特化して言語モデルを作ろうとすると,
自然言語処理や機械学習, 深層学習を理解している, 市場価値の非常に高い人が何人も必要となってしまいます。 しかし大規模汎用言語モデルであれば,
1つでさまざまな課題をカバーすることが可能です。さらに専門家が関与することなく多くの処理を実施できることも大規模汎用言語モデルの利点です。 従来のAIを用いた対話や文章生成は,
扱うのが非常に難しい側面がありました。しかし大規模汎用言語モデルであれば, その難しさを解消することが可能です。これによって一気に言語モデルを民主化し, どんな場面でも気軽に使ってもらうことができる。これが我々のやりたかったことです。
HyperCLOVAの開発はLINEのフラグシッププロジェクト
- ――大規模汎用言語モデルの開発には,
どのような意図や考えがあったのでしょうか。 佐藤:自然言語処理のアプリケーションなどを開発するうえで,
大規模汎用言語モデルを自ら開発できるか否かは大きな分かれ目になり, 我々が到達できる地点がまったく変わります。 LINEとしては,
こうした言語モデルを自分たちで作ることができて, お客さまが使えるように提供することもできる。そういう立場になるために, 大規模汎用言語モデルの構築に取り組みました。 砂金:我々の身近なところには,
解くべき課題が山積みになっています。その課題ごとに言語モデルを用意するのではなく, 大規模汎用言語モデルを1つ構築し, それを使ってまとめて課題解決すればいいんじゃないかと考えました。 LINEは提供するサービスの多さや規模ゆえに,
日本語を扱ううえで多くの課題を抱えていますので, その解決のための仕組みとしてHyperCLOVAを作ったというのは, すごく自然な流れだったと思います。 - ――ただ,
大規模汎用言語モデルの構築には多大なリソースを費やすことになるため, プロジェクトをスタートさせるかどうかの判断は難しかったのではないでしょうか。 砂金:流れとして最初にあったのは,
OpenAIが開発した 「GPT-3」 です。これを見たときに, 確かにエポックメイキングだねと話していました。ただ, GPT-3はあくまで英語圏の言語モデルなんですね。当然ながら言語ごとにクセや難しさがあり, 英語でできているからといって, 日本語でも同じことがすぐにできるわけではありません。 しかしGPT-3で大きな可能性が見えているのに,
英語以外の言語を使う我々はその恩恵を享受できないのは望ましいことではないでしょう。じゃあ誰かがやらなければならないとなったときに, 日本においてはLINE, 韓国ではNAVERがそれぞれやるべきだろうと判断しました。 さらに言えば,
今回のHyperCLOVAの構築は多くの人に注目してもらえるフラグシッププロジェクトになります。そのプロジェクトを走らせることによって多くの人たちに注目していただき, 自分も貢献したい, あるいはプロジェクトに関わってみたいと考える人が増えるのであれば, このプロジェクトに取り組む価値は十分にあると考えています。 - ――言語モデルの構築における日本語特有の難しさとしては,
どういったものが挙げられますか。 佐藤:たとえば商品販売サイトで
「モニターが欲しい」 といったとき, 目的のモニターを探すためのキーワードとして, モニターやディスプレイ, あるいは液晶モニターや液晶ディスプレイなど, さまざまなパターンが考えられます。 このように日本語は,
単語に紐付く言葉がたくさん発生し, その紐付く言葉を適切に指定しなければ求める情報が満遍なく手に入らないといったことが起こります。 日本人の場合,
こうしたことはあたりまえだと思いがちですが, こうした悩みは日本語圏特有のもので, それ以外の言語でそういったことに悩むことはあまりありません。 日本語にはこのような特性があるため,
日本語と英語で同じサイズのテキストを集め, それらを使ってモデルを構築すると, 日本語は英語のものよりも性能が出ないことになります。 また,
日本語は何か学習させるときに文字の種類が非常に多くなってしまいます。深層学習でモデルを構築する際, その中で使える語彙の数が5万とした場合, 英語であれば文字だけでなく単語まで含めることができますが, 日本語で5万程度だとかなりの部分が1つの文字で埋まってしまいます。そうすると, 英語と同程度の言語モデルを構築するためには語彙の数をもっと増やす必要があり, 学習のやり方や調整もまったく違うといったことが起きます。 こうした背景があるため,
英語と日本語で素直に同じ手法を適用すると, 日本語は全然性能が出ないといったことになります。こうした点は日本語ならではの難しさです。