新春特別企画

コンピュータビジョン(CV)の動向 2021

この記事を読むのに必要な時間:およそ 7 分

生成モデルの登場と過熱ぶり

画像生成の鮮明さを競う敵対的生成ネットワーク(Generative Adversarial Network; GAN)も非常に活発に議論されていました。GANはGenerator(G; 生成器)とDiscriminator(D; 識別器)からそのモデルが構成されています。学習対象の画像データセットに対して,Gはできる限り綺麗な画像を生成する,Dは生成器により生成された画像なのかデータセットから(そのまま)入力された画像なのかを見分ける,というGとDの目的関数のMin-Max最適化(GはDを大きく騙したい,Gは画像データセットの分布にフィットさせたい)を解くことで両者の学習が進みます。

GANの詳細や大まかな流れは私が以前に作成した資料敵対的生成ネットワーク(GAN)にて説明していますが,オリジナルのGANが2014年に提案されてからは,以下のように発展していきました。

  • DCGAN(Deep Convolutional GAN⁠⁠:畳み込み層を構造内に導入。
  • Pix2Pix(Pixel-to-Pixel⁠⁠:画像のピクセル同士が対応付くという意味で条件付けられたGAN。ある画像からある画像への対応関係を学習する。この枠組みの中で例えばグレースケール画像からRGB画像,線画からイラストなどの変換が可能となる。さらに双方向の変換も可能。
  • CycleGAN:Pix2Pixの教師なし版。Pix2Pixの特徴でもある画像同士の双方向変換を利用して,ドメインを行き来する際の一貫性を学習する。
  • ACGAN:カテゴリ識別も同時に実施して条件付けることで,多様なカテゴリの学習を可能とした。生成画像の解像度をそれまでの64ピクセル四方から128ピクセル四方に拡張することにも成功し,データセットとしてImageNetを初めて使用したとして知られている。
  • WGAN/SNGAN(Wasserstein GAN / Spectral Normalization GAN⁠⁠:両者とも学習安定化を実現した。GANはもともと学習が不安定でパラメータに依存する側面があったが,WGANではEarth Mover Distance(EMD)を,SNGANではリプシッツ制約をDの学習安定化のための正則化として使用した。
  • PGGAN(Progressive Growing GAN⁠⁠:学習時にモデルの構造を変化させながら学習することで,徐々に生成の解像度を高くしていく方法論を提案した。
  • SAGAN(Self-Attention GAN⁠⁠:アテンション機構を採用。前景の物体をより鮮明に生成してから背景を描写するなどができるようになった。
  • BigGAN:超高精細なGANを生成。学習した画像データセット(3億枚画像を含むJFT-300M)や使用したグラフィックボードの枚数(512GPU⁠⁠,バッチサイズ(2048)などを比較的大きくすることで鮮明な画像を生成した。

GANの性能評価は,生成した画像が「物体カテゴリとして識別しやすいか」「物体カテゴリが多様な出力となっているか」について評価されます。ImageNetにて学習済みのInception(GoogLeNet)に生成画像xを入力して,出力のカテゴリyの確率分布p(y|x)を用いています。p(y)との類似度(正確にはKL Divergenceを用いた情報量同士の近さ)を計算し,すべてのxiに対して正規化してexpを計算したものがInception Score(IS)です。

クラウドソーシングにより人間のスコア付とISを比較した結果,相関があったとのことでISが使われるようになったようです。また,個別に計算するのみならず,正解画像群と生成画像群の分布間の距離を算出するFrechet Inception Distance(FID)も適用されています。ISで指摘されていた,識別器による事後確率はノイズの影響を多分に受けてしまう問題を緩和しています。

少し意外だったのが,グラフィクス系や機械学習系の国際会議のみならず,CV系の国際会議でGANを用いた画像の鮮明さが競われていたことです。元々は画像や動画,3次元系の認識率やエラー値を競っていたのですが,おそらくIS/FIDというスコアの提案により明確な評価ができるようになったという要因もあるように思います。

生成モデルについては鮮明な画像を生成できるということで期待度が非常に高く,当時競争の過熱ぶりを確認できました。学習が不安定であり初期パラメータ探索が重要であること,研究が進むたびに徐々にモデルのサイズが大きくなるという傾向もあり,計算リソースの量がそのまま業績の量に直結していきました。実は多少のIS/FIDの差がどの程度画像の鮮明さに直結するかは現在でも定かではないこともあり,各々の技術の宣伝に力が入ることも多かったように思います。その過程で,馬をシマウマに変換するという謎技術も駆使されましたが,これも論文を読んでもらうための宣伝だと言えます。

著者プロフィール

片岡裕雄(かたおかひろかつ)

産業技術総合研究所 人工知能研究センター 主任研究員,cvpaper.challenge 主宰。
2014年 慶應義塾大学大学院理工学研究科修了,博士(工学)。2013,2014年ミュンヘン工科大学訪問研究員。2014年東京大学 JSPS特別研究員(PD)。画像認識,動画解析,人物行動解析,大規模データセット構築に興味を持つ。2019年度産総研論文賞,ACCV 2020 Best Paper H. M. Awardなど受賞。

URL:http://hirokatsukataoka.net/http://xpaperchallenge.org/cv/