大規模言語モデル入門

[表紙]大規模言語モデル入門

紙版発売
電子版発売

B5変形判/336ページ

定価3,520円(本体3,200円+税10%)

ISBN 978-4-297-13633-8

電子版

→学校・法人一括購入ご検討の皆様へ

この本の概要

ChatGPTに代表される大規模言語モデルが自然言語処理の幅広いタスクで高い性能を獲得し,大きな話題となっています。大規模言語モデルは,大規模なテキストデータで訓練された大規模なパラメータで構成されるニューラルネットワークです。2020年以降,自然言語処理や機械学習の知見をもとに,パラメータ数とテキストデータの拡大により,性能が飛躍的に向上しました。

Hugging Face社の"transformers"というPythonライブラリを利用することで,プログラミングの経験があれば,モデルの操作やデータからの学習がかんたんにできます。モデルを訓練するための日本語もしくは日本語を含む多言語のデータセットも充実してきており,すぐに業務に使える実用的なモデルを作ることが可能な時代がやってきました。

本書は,大規模言語モデルの理論と実装の両方を解説した入門書です。大規模言語モデルの技術や自然言語処理の課題について理解し,実際の問題に対処できるようになることを目指しています。以下のような構成によって,理論とプログラミングの双方の側面から,大規模言語モデルに関する情報を提供します。

こんな方におすすめ

  • 大規模言語モデルに興味のあるエンジニア,学生,研究者

この書籍に関連する記事があります!

「大規模言語モデル入門」の前書きを公開!
「大規模言語モデル入門」は、GPT、BERT、T5といったLLMのしくみから、最新のLLMに関する話題を取り上げ、理論と実装を丁寧に解説した書籍です。日本語データセットを試すことができる実装例を収録し、無料で試すことができるColabも話題になっています。本稿では、購入を迷われている方のために、本書の「前書き」の一部を公開します。

著者プロフィール

山田育矢(やまだいくや)

株式会社Studio Ousia代表取締役チーフサイエンティスト・理化学研究所革新知能統合研究センター客員研究員

2007年にStudio Ousiaを創業し,自然言語処理の技術開発に従事。

2016年3月に慶應義塾大学大学院政策・メディア研究科博士後期課程を修了し,博士(学術)を取得。

大規模言語モデルLUKEの開発者。

監修と1章から4章の執筆を担当。


鈴木正敏(すずきまさとし)

株式会社Studio Ousiaソフトウェアエンジニア・東北大学データ駆動科学・AI教育研究センター学術研究員

2021年3月に東北大学大学院情報科学研究科博士後期課程を修了し,博士(情報科学)を取得。

博士課程では質問応答の研究に従事。

日本語質問応答のコンペティション「AI王」の実行委員。

東北大学が公開している日本語BERTの開発者。

8章と9章の約半分の執筆を担当。


山田康輔(やまだこうすけ)

株式会社Studio Ousiaリサーチエンジニア・名古屋大学大学院情報学研究科博士後期課程3年

2021年3月名古屋大学大学院情報学研究科博士前期課程修了。

2022年4月より日本学術振興会特別研究員 (DC2)。

自然言語処理,特にフレーム意味論に関する研究に従事。

6章と7章の執筆を担当。


李凌寒(りりょうかん)

LINE株式会社(2023年10月よりLINEヤフー株式会社)自然言語処理エンジニア

2023年3月に東京大学大学院情報理工学系研究科博士後期課程を修了し,博士(情報理工)を取得。

博士課程では言語モデルの解析や多言語応用の研究に従事。

大規模言語モデルmLUKEの開発者。

5章と9章の約半分の執筆を担当。