新春特別企画

コンピュータビジョン(CV)の動向 2021

この記事を読むのに必要な時間:およそ 7 分

はじめに

国立研究開発法人 産業技術総合研究所の人工知能研究センターに所属している,片岡裕雄と申します。研究者としてコンピュータビジョン(CV)やパターン認識に関する研究を行う一方で,研究コミュニティcvpaper.challengeを主宰して「CV分野の今を映し,トレンドを創り出す」ことにも挑戦しています。cvpaper.challengeには最新動向の日本語サーベイ資料や研究メンバーによる研究成果も載せています。今回の記事に書ききれない,より詳細な情報はぜひそちらをご覧ください。

今回の記事については,出身大学の大先輩・皆川卓也氏から話を受けて実現しました。皆川氏は2010年にコンピュータビジョンの業界動向を寄稿されているのですが,今回恐れ多くもその企画を受け継ぐことになりました。

それから11年,深層学習の隆盛とともに発展してきたCV分野の動向を述べるにはあまりにも紙面が限られていますが,私なりに最近の動向をまとめてみたいと思います。一方で,昨今のAIブームにつき多くの皆様にとって既知のことも多いでしょう。少しでも退屈にならないよう,豆知識や舞台裏の話なども織り交ぜながら紹介していきます。

第3次AIブーム

2010年代くらいから続くAI分野の激動は第3次AIブームと言われています。今回の第3次AIブームの目玉はなんといっても深層学習(ディープラーニング)による革新でした。

第1次〜第3次AIブームまでの大まかな流れ

AIブーム

第3次AIブームの始まりは各画像に1種類ずつ映る合計1,000カテゴリの一般物体(犬猫の種類や人工物など)を認識する世界的コンペティションILSVRC(ImageNet Large-Scale Visual Recognition Challenge)の2012年大会でした。この話は専門家の間ではもはや説明不要なくらい有名なのですが,カナダ・トロント大学のチームが当時主流だった手法とは異なる深層学習によるモデルを用いて,2位に約10%の差をつけて圧倒したことがビッグニュースになりました。それまでの数年間は大会ごとに1%前後の向上を続けていたので,実に10年分くらいの進展をたったの一年で実現したことに相当します。トロント大学のチームはのちにAI業界のゴッドファーザーと呼ばれるジェフリー・ヒントン氏が指揮しており,AlexNetの由来ともなったアレックス・クリジェフスキー氏,現在OpenAIにて活躍するAIスターのイリヤ・スツケヴェル氏というドリームチームでした。ちなみに,私はNewsPicks社の取材でクリジェフスキー氏のより詳細な情報を知りました。

なお,2012年大会第2位のチームは東京大学の(現在)原田研究室のメンバーにより構成されており,当時博士課程学生(2021年1月現在,オムロンサイニックエックス株式会社 リサーチアドミニストレイティブディビジョン プリンシパルインベスティゲーター)として中心的な役割を果たしていた牛久祥孝氏は日経新聞社の取材2019年9月1日付記事以降「ヒントンに敗れた男」として知られるようになりました。

何年も後に語り継がれるくらいにはILSVRCによる深層学習登場は鮮烈な印象を残していきました。この深層学習隆盛の背景には大規模データセットや計算リソースが充実してきたことが挙げられます。大規模データセットについては先のImageNetデータセットが代表的な例です。ImageNetデータセットは合計約1,400万枚,2万カテゴリのデータセットですが,標準的に用いられるのは,ILSVRCで用いられた1,000カテゴリの物体ラベルが各画像に付与された学習データ約128万枚,評価用データ5万枚のデータセットです。クラウドソーシングにより約2年間の歳月をかけ,約5万人が参加して画像データ収集・画像の厳選・ラベル付け・ラベルチェックを経てデータセットが完成されています。計算リソースについても,大規模並列計算に向けて作られたGraphics Processing Unit(GPU)を使用しています。AIブームが訪れる当時は「ゲームくらいにしか使用できない」とまで言われていたGPUですが,深層学習のブレイクにより市場規模が大きく拡大しました。

かくして,第3次AIブームの火蓋は切られました。私は博士課程学生としてこの時代を迎えた(ILSVRC 2012時に博士課程2年目)わけですが,最初は体力のある研究者が深層学習に取り掛かり,次に大部分の研究者が取り掛かり始めたのは2014年くらいからだったように思います。背景にはUC BerkeleyからリリースされたCaffeと呼ばれる深層学習フレームワークが登場したことで,すぐに試せるようになりました。その後,日本で一般的に広くAIという言葉をよく聞くようになったのは2016年以降だったと思います。現在ではFacebook社のPyTorchやGoogle社のTensorFlowなどが広く用いられ,研究者や技術者のみならず,学生や日曜プログラマでも比較的簡単に深層学習を用いたコンピュータビジョンのプログラムを扱えるようになってきました。

逆に言えば,コンピュータビジョンにあまり詳しくなくてもResNetGANなどのコードを扱って改良することができるため,研究者としては単なるモジュールの改善に止まらず「本質を捉えて見直す」⁠今までできなかったことができるようになる」などの研究に取り組みたいとは常に思います。誰でも技術実装をできるようになった(なってしまった)ことで比較的研究に対する参入障壁が下がり,研究者顔負けの研究をできる人が増えたことは辛いところではあります。しかし,私が学生だった頃は「CVの認識精度は信用ならない」と言われるくらいだったのが,最近では社会的にも注目を集めるくらいになり,市民権を得てきた中で研究できるのはとても幸せなことですね。

著者プロフィール

片岡裕雄(かたおかひろかつ)

産業技術総合研究所 人工知能研究センター 主任研究員,cvpaper.challenge 主宰。
2014年 慶應義塾大学大学院理工学研究科修了,博士(工学)。2013,2014年ミュンヘン工科大学訪問研究員。2014年東京大学 JSPS特別研究員(PD)。画像認識,動画解析,人物行動解析,大規模データセット構築に興味を持つ。2019年度産総研論文賞,ACCV 2020 Best Paper H. M. Awardなど受賞。

URL:http://hirokatsukataoka.net/http://xpaperchallenge.org/cv/