新春特別企画

コンピュータビジョン(CV)の動向 2021

この記事を読むのに必要な時間:およそ 7 分

深層学習の性能向上と汎用性

前述のILSVRCは2012年以降も続けられ,2017年まで研究者コミュニティの中で続いていました。前述のCaffeが登場したことで深層学習による改善は熾烈を極めていくことになりますが,その後数年間は深層学習の層数を増やす,つまりよりモデルを深くすることでの改善がセオリーとなっていました。

ILSVRCに見る,深層学習構造の変遷

ILSVRCの変遷

2013年大会ではAlexNetの中間層を可視化し,その構造を見直すことで精度向上を図る手法が優勝しましたが,2014年大会ではオックスフォード大学からVGGNetが,Google社からGoogLeNetが提案され,1,2位を争いました。VGGNetやGoogLeNetは2021年現在も使用されることもあるアーキテクチャとして残されています。GoogLeNetはもちろん会社名から名付けられているのですが,VGGNetも研究室名のVisual Geometry Group(VGG)が由来です。ポイントとしては,GoogLeNetは畳み込みのサイズを数種類用意して統合するモジュールを用意して積み上げることで層を増やし,VGGNetは比較的小さなサイズ(3x3)の畳み込みカーネルを用意して数段回組み合わせて行くことで層数を増やしています。

2015年大会では今でも多くの研究者が用いることになるResNet(Residual Network)が提案されます。ResNetの登場は衝撃的でした。まず結果は投稿したタスクすべてで1位を獲得,ILSVRCのプレゼンでも印象的なスライドを残しています。また,ラスベガスで開催されたCVPR 2016の口頭発表前にはResNetの発表だけ拍手が起こり,その後のアワードセレモニーでは大方の予想通りベストペーパーを獲得していました。2021年1月現在では6万以上の論文にて引用されるなど,間違いなくCV分野の発展に貢献しています。

ResNetは入力とその入力に対し畳み込み処理を施した特徴マップの残差(Residual)を計算する基本ユニットを積み上げることでモデルを構成しています。CV分野において残差は,カメラ幾何や特徴抽出などの文脈でも古くから使用されてきましたが,深層学習の構造に取り入れるというアイディアはシンプルながら「層を深くすると性能が向上する」という定説に対して効果を最大限に発揮したようです。

ResNetの著者であるカイミン・フゥ氏※1はいつも他の研究者が「これやっておけば良かった」⁠なぜ今まで思いつかなかったのか」というくらいシンプルな改善案で最大限の効果を発揮する手法を提案してくれるため,CV分野の研究者から一目置かれる存在です。分かりやすい・理にかなった方法で一気に精度を向上させる論文がCV分野では注目を集める傾向にあり,フゥ氏は何度もメジャー会議の舞台にてベストペーパーを獲得しています。

※1
アルファベットでの綴りだとKaiming Heなのですが,Heの部分がフゥともヒーとも読めます。中国人の知り合いに伺ってみると日本語読み的にはガというみたいで,もうよく分からなくなってきたので雰囲気で読んでいます。日本語にしづらい発音ですね。

その後の2016, 2017年大会はResNetベースの改善になりました。特筆すべきはアテンション構造を導入したSqueeze-and-Excitation Network(SENet)でしょうか。パラメータ数と計算量の削減を同時に達成しつつも精度を向上させています。SENetが研究者コミュニティで開催されたILSVRCの最後の勝者となりました。

ResNet提案以降の構造。NAS/EfficientNetなどAutoML含む

構造の複雑化・自動化

深層学習構造を巡る競争はその後,NAS(Neural Architecture Search)が登場して効率的にパラメータを探索するEfficientNetに繋がり,人間が構造を探索する時代から「いかに(コンピュータに)構造を探索させるか」の時代に突入しました。ハイパーパラメータやデータ拡張などの部分においても自動化するAutoML(MLはMachine Learning)なる分野も大きくなり,あらゆることが自動化されつつあります。

画像識別のみならず,深層学習は物体検出,領域分割,画像説明文,動画認識などに応用された

他タスクへの応用

その間,他タスクへの応用がImageNetデータセットで扱っていた画像識別(Image Classification)に近いタスクから進んでいきました。画像識別は1枚の画像の入力に対して1つ以上のラベルを返却する問題設定であるため,周辺のタスクである物体検出(Object Detection; ラベルに追加して検出枠を出力⁠⁠,領域分割(Semantic Segmentation; 画像内の領域を意味ごとに塗り分ける)に対して適用されています。

ここで,機械学習には学習済みモデルを再利用して追加のタスクを行う転移学習という概念があります。転移学習は割と広い概念で色々方法論が確立されているのですが,深層学習,特に画像認識周りではあるデータセット(この場合にはImageNet)で事前に学習しておいて,異なるデータセットに対して追加で学習することを指します。物体検出であれば検出枠を推定するモジュールを挿入して追加学習,領域分割であればピクセルごとに色を塗り分ける構造を挿入して追加学習という具合に変更を加えます。

本当は,物体検出や領域分割,動画認識のモデルの変遷などを詳細に説明したかったのですが,そちらは既発表の参考資料に譲り,次に進みます。余談として,物体検出にておいてデファクトスタンダードとして扱われているFaster R-CNNというモデルがMicrosoft社から2015年に提案され,現在米国特許が取得されています※2⁠。

※2
2021年1月現在では著者全員が転職していました。こういう場合はやはりMicrosoft社に帰属する(?⁠⁠,著者は特許の権利を持っていないのでしょうか。詳しい方がいましたらぜひご教示ください。

著者プロフィール

片岡裕雄(かたおかひろかつ)

産業技術総合研究所 人工知能研究センター 主任研究員,cvpaper.challenge 主宰。
2014年 慶應義塾大学大学院理工学研究科修了,博士(工学)。2013,2014年ミュンヘン工科大学訪問研究員。2014年東京大学 JSPS特別研究員(PD)。画像認識,動画解析,人物行動解析,大規模データセット構築に興味を持つ。2019年度産総研論文賞,ACCV 2020 Best Paper H. M. Awardなど受賞。

URL:http://hirokatsukataoka.net/http://xpaperchallenge.org/cv/