新春特別企画

コンピュータビジョン(CV)の動向 2021

この記事を読むのに必要な時間:およそ 7 分

少量の教師により学習される深層学習

教師なし及び少量教師あり学習に対しても説明が必要でしょう。深層学習初期の発展は,人間が画像や動画などに対して教師ラベルを与え,教師ラベルと画像の対応関係をニューラルネットが学習していました。徐々にその教師ラベルは人間が新しく与えなくても既存のラベルから間接的に学習したり,自ら教師ラベルを生成して学習できることが明らかになってきました。

すべての概念を完璧に整理して区分けすることは難しいですが,学習戦略についてキーワードだけでもここで示しておきます。

  • Unsupervised Learning:教師なし学習。アノテーションが一切ないデータで学習。
  • Weak-supervised Learning:弱教師あり学習。文字通り弱いラベルのみで学習する。例として,画像識別のラベルのみを用いて間接的に領域分割の学習を実施するなど。
  • Semi-Supervised Learning:教師ラベルを持つデータと持たないデータで学習。通常は少量の教師ラベル付き画像と大量の教師なし画像により学習する問題設定。
  • Self-Supervised Learning:自己教師学習。自ら教師を作成して学習。CVの場合には追加学習を行う前の特徴表現を獲得する際に用いられる。
  • {Zero, One, Few}-shot Learning:0/1枚,もしくは数枚の画像のみで学習する枠組み。
  • Transfer Learning:転移学習。
  • Domain Adaptation:ドメイン適応。環境Aで学習したモデルをいかに環境Bにて使用するか,という枠組み。シミュレーション環境にて生成したデータを如何に実環境にて使用するかを検討するなど。
  • Reinforcement Learning:強化学習。

このすべてについて解説するのは紙面の関係で適切ではないため,もっとも勢いのあると言われる学習戦略である,自己教師学習(Self-Supervised Learning)について主に取り上げることにします。

自己教師学習とは,教師がないデータに対して自ら教師を作成し,その問題設定において良好な特徴表現を獲得することです。詳細については我々で作成した自己教師学習に関する資料の中で言及していますが,重要なポイントのみを説明します。

特徴表現の良さについては,ある解決したい特定のタスク(Target task)に有効なデータの特徴表現(Pretext task)を事前に解くことで獲得しておきます。自己教師については自動で生成できる教師信号を用いてPretext taskが定義されます。ここで,画像認識における自己教師学習の学習及び評価方法について以下に示します。

特徴表現学習

特徴表現学習

  • 特徴表現学習:教師ラベルなしの画像データセットを使用。画像の各画像に対して自己教師を生成,画像と自己教師をペアとして画像認識の学習を実施する。
  • 転移学習:特徴表現学習(Pretext task)で学習したモデルを初期値として,重み固定の特徴抽出器として用いる。転移学習用のデータセットに対して,最終の全結合層のみを更新して識別を実施する。

代表的なPretext taskには,例えば3x3の画像局所領域をシャッフルして整列問題を解くJigsaw Puzzle,グレースケール画像をカラー画像化するColorization,画像を回転させて回転角を推定するRotationなどがあります。2020年最初の頃に注目を集めたのが対比学習(Contrastive Learning)による自己教師であり,特にSimCLR(Simple Framework for Contrastive Learning of Visual Representations)においては自己教師学習と数%の教師のみで既存の教師あり学習に近接する精度を達成しました。

パラメータを増やした状態でSimCLRを適用すると,教師あり学習とほぼ同等の精度まで到達できることも明らかにしています。下図はSimCLRの論文中にて紹介された,教師あり学習,SimCLR,その他自己教師学習との比較を示したグラフです。Supervised(教師あり学習)は50層のResNet-50を用いてImageNetを学習した例です。SimCLRではPretext taskにてラベルなしのImageNetを学習し,転移学習時にはImageNetの中でも数%のラベルのみを用いて学習を実施しました。SimCLR(2x, 4x)という数字はResNet-50の特徴パラメータ数の増加を示しています。下図では教師あり学習のResNet-50とパラメータをおおよそ4倍にしたResNet-50 + SimCLRが同等の精度にまで到達したことを示します。

教師あり学習の精度に迫る自己教師学習

教師あり学習の精度に迫る自己教師学習

我々が2020年4月に資料を公開した当時のPretext taskの分類が下図です。自己教師学習はアイディアベースなところもあり分類が難しい部分もありますが,代表的な識別系(前述のJigsaw, Rotationなど⁠⁠,再構成系(前述のColorizationなど⁠⁠,現在精度の面で主流の対比系(Contrastive Learning)を始めあらゆる取り組みがなされています。

自己教師学習(Pretext task)の分類

自己教師学習(Pretext task)の分類

自己教師学習の話題から離れる前に,自己教師学習における有意義な取り組みを紹介します。ICCV 2019で提案されたこの論文はそれまで凝り固まってしまった自己教師学習のルール(例えばAlexNetのみしか使ってはいけない)を少し見直そう,さらにはより広いタスクで自己教師を使用していこう,という取り組みを実施していました(下図参照⁠⁠。さらには,Pretext taskで使用するデータセットのサイズもImageNetレベルの100万枚から最大でYFCC100Mデータセットの1億枚まで拡張しました。タスクにおいても,画像識別のみならず物体検出,法線推定,Few-shot画像識別や視覚的ナビゲーションにまで及びます。特に深層学習の時代になってから同一環境・同一パラメータ下での構造比較実験などは非常に貴重です。新しいアーキテクチャで分野を開拓するのと同様に,この手の一度基本に立ち返って分野自体を見直す論文も非常に貴重な取り組みであると言えます。

自己教師学習(Pretext task)の分類

自己教師学習(Pretext task)の分類

著者プロフィール

片岡裕雄(かたおかひろかつ)

産業技術総合研究所 人工知能研究センター 主任研究員,cvpaper.challenge 主宰。
2014年 慶應義塾大学大学院理工学研究科修了,博士(工学)。2013,2014年ミュンヘン工科大学訪問研究員。2014年東京大学 JSPS特別研究員(PD)。画像認識,動画解析,人物行動解析,大規模データセット構築に興味を持つ。2019年度産総研論文賞,ACCV 2020 Best Paper H. M. Awardなど受賞。

URL:http://hirokatsukataoka.net/http://xpaperchallenge.org/cv/