ゲームから学ぶAI ——環境シミュレータ×深層強化学習で広がる世界

本書について

この記事を読むのに必要な時間:およそ 2 分

『ゲームから学ぶAI —⁠—環境シミュレータ×深層強化学習で広がる世界』より転載

本書は「DeepMindが発表した論文」を中心として,現代的な「AI」⁠人工知能)がどのように作られているのかを解説します。テーマは「ゲームをプレイするAI」です。おもに「深層強化学習」の技術を取り上げます。

2016年に発表された「囲碁AI」である「AlphaGo」が世界チャンピオンに勝利したことは広くニュースにも取り上げられ,現在のAIブームのきっかけともなりました。

AlphaGoの根幹となる「深層強化学習」は,いま世の中で広く使われている「深層学習」⁠ディープラーニング)をゲームの世界に応用した技術です。深層強化学習には「高性能なシミュレータ」が必要であり,ゲームのような架空の世界を舞台として最先端の研究が進められています。

本書に登場する数々の技術は,まだまだ発展途上の分野であり,読者の大半にとっては実社会ですぐに役立つものではないかもしれません。それでも本書を執筆したのは,この分野が「真に知的なAI」を目指して世界中の研究者が取り組むエキサイティングな学術分野だからです。

筆者自身が一人のエンジニアとして,現代の「AI」と呼ばれるものが「具体的に何をしているのか」を知りたいと考えています。よく「AIが人を超えた」とか「人の仕事がなくなる」とか言われていますが,実際のところAIは何をやっているのでしょうか。

本書では2015〜2020年の論文を中心として,⁠世界最先端のAI研究所」の一つであるDeepMindが発表してきた成果を順に見ていきます。専門家でなくともわかるように,なるべく平易な言葉で技術解説に努めます。

背景 歴史を知らなければ最先端のAIは理解できない

2016年にAlphaGoを開発したDeepMindは,⁠囲碁の次のターゲット」として「リアルタイムストラテジーゲーム」である「StarCraft II」の攻略を宣言しました。そして,2019年には「AlphaStar」を発表し,世界トップクラスの強さを実現しました。

AlphaStarが人間に勝利し,そのしくみが論文として発表されたことは多くのブログなどでも取り上げられましたが,その技術的な詳細はあまり知られていません。

筆者がAlphaStarの論文を読んだとき,書かれてあることがまるでわからないことに愕然(がくぜん)としました。よくよく調べてみるうちに,筆者には「前提となる予備知識」が根本的に足りないのだとわかりました。AlphaStarに至るまでには数多くの先行研究があり,それらを理解しないまま「AlphaStarだけを理解しようとしても無理」だったということです。

深層強化学習の歴史を遡(さかのぼ)ると,2013年に発表された「DQN」に辿り着きます。本書ではそれ以降に発表された数々の論文を読み解くことで,最新のAIを理解するのに必要な予備知識を身につけます。

本書の目的 汎用AIの現状を知る

「囲碁」「StarCraft II」を攻略することは,AI研究のゴールではありません。DeepMindが取り組んでいるのは,⁠汎用AI」⁠AGI)とも呼ばれる汎用的なAIの研究です。

汎用AIの実現には,まだまだ時間が掛かると言われています。DeepMindはその実現を目指す数少ない研究機関の一つであり,その論文には「研究の現状⁠⁠,ひいては「将来のAIの姿」が示されていると考えます。

本書は教科書ではないので,現代のAIの技術を網羅的に解説することはしていません。本書の目的は,これまでに発表されてきた論文を通して,⁠いま技術的に何ができて,何が難しいのか」を理解することです。そしてその先に,DeepMindが実現を目指す汎用AIの姿が見えてくるのではないでしょうか。

本書では論文解説をその中心に据(す)えていますが,それ以外の「小ネタ」もコラムという形で多数取り上げています。おもに3〜6章で論文には直接的に書かれていない話題は,すべてコラムとして区別できるようにしました。なかでも大きなテーマの一つとして,⁠人間の脳とAI」を比較することで,AIの技術がどれだけ脳と似ているのか,あるいは異なるのかを見比べながら,⁠知能」とは何なのかを考えていきます。

想定読者と予備知識 高校2年生以上

本書は技術書として,⁠AIのしくみ」を知りたいと思う人に向けて執筆しています。読み物として読み進められるのは1章だけであり,それ以降は技術解説が続きます。章が進むにつれて難易度が上がります。

なるべく数式は使わないようにしており,四則演算よりも複雑な計算式はほとんど登場しません。とはいえ,ベクトル(2022年施行の学習指導要領からは数学Cへ移行)や確率分布などの概念を知らないと,さすがに理解は難しいかもしれません。高校2年生で習う数学Bくらいの予備知識はあるものとします。

一方,プログラミングの知識は必要ありません。機械学習や深層学習の知識はあると助けになりますが,最低限の用語は2章でも解説してあります。

本書の構成

1章では,⁠ゲームAIの歴史」を説明します。⁠チェスプログラム」に始まったゲームAIの研究は,2016年の「AlphaGo」によって人類を超えるレベルに到達し,今もなおゲームを題材として多数の研究が進められています。

2章では「機械学習の基礎知識」として,3章以降を読み進めるのに必要となる基本的な用語を解説します。用語解説が続くので,すでに知識のある人は読み飛ばしてしまっても問題ありません。

3章では,⁠囲碁」を中心とするボードゲームのAIについて説明します。世界ではじめて世界チャンピオンに勝利した囲碁AIである「AlphaGo」をはじめとして,世界最強の将棋AIとなった「AlphaZero」などのゲームAIを順に取り上げます。

4章では,⁠Atari 2600」をプレイするAIについて説明します。2013年に登場し,⁠深層強化学習」の先駆けとなった「DQN」をはじめとして,全部で57個ものゲームをプレイする「Agent57」へと至る約8年の歴史を説明します。

5章では,⁠StarCraft II」をプレイするAIについて説明します。AlphaStarは本書に登場するAIの中でも最も複雑であり,現代的なゲームAIの設計を理解する上で多くの示唆を与えてくれます。

6章では少し趣向を変えて,⁠Minecraft」をプレイするAIをいくつか取り上げます。6章のAIはDeepMindが開発したものではなく,最先端のテクノロジーというわけでもありません。Minecraftをプレイするのは現代のAIにとってもまだ難しく,今の技術には足りないものを強く感じさせられます。

6章の最後では「今後の展望」として,これからのAI研究に使われそうなゲームをいくつか取り上げています。DeepMindが発表した「XLand」や,Facebook AI Researchが発表した「NLE」など,次の時代を感じさせられる新しいゲーム環境が次々と登場しています。

現代のAIは「汎用性」という意味では,まだ人間には遠く及びません。本書を読み終えて,⁠いまだにこんなことしかできないのか」と感じる人もいるかもしれません。

とはいえ,一つ一つの技術を積み上げた先に,次の時代のAIが来ることもたしかです。本書がこれまでの5年間を振り返り,次の5年に備える助けとなれば幸いです。

著者プロフィール

西田圭介(にしだけいすけ)

フリーランスのソフトウェアエンジニア。著書に『Googleを支える技術 巨大システムの内側の世界』(技術評論社,2008),『ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界』(技術評論社,2017)などがある。