NII、完全オープンな1720億パラメータのLLM「llm-jp-3-172b-instruct3」を公開

国立情報学研究所（NII）の大規模言語モデル研究開発センター（LLMC）は2024年12月24日、約1720億パラメータの大規模言語モデル（LLM）「⁠llm-jp-3-172b-instruct3」を一般公開した。

完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「⁠llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ -国立情報学研究所

約1,720億パラメータ(GPT-3級)の大規模言語モデルを2.1兆トークンの学習データを用いてフルスクラッチで学習し、指示チューニングを施したモデルを「llm-jp-3-172b-instruct3」として公開しました。学習データまで含めすべてオープンなモデルとしては世界最大規模です。https://t.co/ebFhmrA8yP
— LLM勉強会（LLM-jp） (@llm_jp) December 24, 2024

llm-jp-3-172b-instruct3はMetaのLlama 2をベースとした言語モデルで、1,720億パラメータをもち、これを2.1兆トークンの学習データを用いてフルスクラッチから学習させ、さらに指示チューニングを施している。学習データまで含めすべてオープンなモデルとしては世界最大規模。言語モデルの日本語理解能力を測るベンチマーク「llm-jp-eval」等でOpenAIのGPT-3.5を超える性能を達成したという。

事前学習用の日本語データ（コーパス）として、WebアーカイブCommon Crawl（CC）から抽出/フィルタリングした日本語テキストや、国立国会図書館インターネット資料収集保存事業（WARP）で収集されたWebサイトのURLを基にクロールしたデータ、日本語Wikipedia、KAKEN（科学研究費助成事業データベース）における各研究課題の概要テキスト、5,920億トークンが用いられた。

このほか、英語など多言語のトークンやプログラムコードなども含めた計約1.7兆トークンに加え、日本語コーパスのうち約0.4兆トークンを2回学習させ、合計約2.1兆トークンが学習に用いられている。

llm-jp-3-172b-instruct3は、Hugging Faceで公開されている。