NII⁠完全オープンな1720億パラメータのLLM「llm-jp-3-172b-instruct3」公開

国立情報学研究所(NII)の大規模言語モデル研究開発センター(LLMC)は2024年12月24日、約1720億パラメータの大規模言語モデル(LLM)⁠llm-jp-3-172b-instruct3」を一般公開した。

llm-jp-3-172b-instruct3はMetaのLlama 2をベースとした言語モデルで、1,720億パラメータをもち、これを2.1兆トークンの学習データを用いてフルスクラッチから学習させ、さらに指示チューニングを施している。学習データまで含めすべてオープンなモデルとしては世界最大規模。言語モデルの日本語理解能力を測るベンチマーク「llm-jp-eval」等でOpenAIのGPT-3.5を超える性能を達成したという。

事前学習用の日本語データ(コーパス)として、WebアーカイブCommon Crawl(CC)から抽出/フィルタリングした日本語テキストや、国立国会図書館インターネット資料収集保存事業(WARP)で収集されたWebサイトのURLを基にクロールしたデータ、日本語Wikipedia、KAKEN(科学研究費助成事業データベース)における各研究課題の概要テキスト、5,920億トークンが用いられた。

このほか、英語など多言語のトークンやプログラムコードなども含めた計約1.7兆トークンに加え、日本語コーパスのうち約0.4兆トークンを2回学習させ、合計約2.1兆トークンが学習に用いられている。

llm-jp-3-172b-instruct3は、Hugging Faceで公開されている。

おすすめ記事

記事・ニュース一覧