新春特別企画

コンピュータビジョン(CV)の動向 2021

この記事を読むのに必要な時間:およそ 7 分

最近(2020〜2021年)の話題

最近の話として,すでに流行っている/これからの数年間はホットになるであろうトピックを取り上げます。CVPR 2020にて特に目立ったトピックは下図のとおりです。学習戦略は前述の「少量の教師により学習される深層学習」とほぼ同様なので,それ以外の4トピックについて説明します。

CVPR 2020において「特に」目立つトレンド

CVPR 2020において「特に」目立つトレンド

まずは深層学習による3D研究です。実際には3Dと言ってもメッシュや点群,ボクセルなど多様な表現があるため,分ける必要があります。CVPR 2020においてはBest Paperを始め,いくつもの論文がBest Paperとしてノミネートされていました。この背景には,3Dのデータセットの整備はもちろん,ベースとなる深層学習の構造や2D画像から取得できる情報の確立なども要因として挙げられます。深層学習の発展に伴い,単一から現実世界の情報をいかに引き出して表現するか,という研究は今後も増えてくると予想されます。

深層学習による3D研究

深層学習による3D研究

AIの説明性や倫理という面ではXAI(eXplainable AI)やFATE(Fairness, Accountability, Transparency, and Ethics)も見逃せません。実際に画像認識を実世界の問題に適用する際には,⁠なぜ,その結果が導かれたのか?(XAI⁠⁠」や「ある特定の人々に不利な出力をしてはならない(Fairness⁠⁠」という側面もあるため,今後対策されないと(いわゆる)AIは結局使えない,と言われかねません。CVの国際会議においてもFATEやXAIを主として議論するセッションを設けるなど,注目度が上がってきています。

XAI/FATE研究

XAI/FATE研究

学習効率化では,機械学習の取り組み自体をさらに自動化しようとする,いわゆるAutoMLに関する議論が行われています。高精度な画像認識を達成するため,学習の過程で構造自体を自動で探索するNeural Architecture Search(NAS)やパラメータ探索を徐々に大きくし効率的な構造を探索するEfficientNetなどがCV分野では中心的に議論されています。その他,データ拡張やハイパーパラメータ探索なども議論されているところをみかけます。

学習効率化

学習効率化

動画認識は以前から議論されていた内容ですが,最近では未解決問題を提供して,さらに盛り上がりを見せようとしています。例えば,深層学習による初期の人物行動認識では明らかな行動の違い(歩くと走るなど)を見分けるに止まっていたのですが,僅かな差の行動を見分ける詳細行動認識に関しても議論が進んでいます。わずかな顔の表情の違いにより心理状態を読み取ったり,人間の目でも分かりづらい疑わしい行動(万引きなど)も動画認識によりできる日が来るかもしれません。

動画認識

動画認識

上記のトレンド以外では,自然言語処理にて大注目のTransformerがCV分野でも適用されていることも見逃せない視点です。Vision Transformer(ViT)Data-efficient image Transformer(DeiT)なる枠組みも登場していて,来年にはさらに多くのタスクにて適用されそうな予感があります。BERT(NAACL 2019 Best Paper)GPT-3(NeurIPS 2020 Best Paper)などが爆発的に自然言語処理にて用いられているように,CVにおいても画像認識の主力となっている畳み込みニューラルネットを置き換えるかどうか,今後に注目です。

結びに

最後に,大変恐縮ながら我々の取り組みを紹介してこの記事の結びとしたいと思います。

我々の研究グループでは2020年,Pre-training without Natural Images(自然画像を用いない事前学習)というタイトルで論文を提案しました。これは,自然画像を用いずにできる限り良好な深層学習の特徴表現を獲得しようという取り組みです。ImageNetの公平性やプライバシー問題により商用利用が禁止されていることが背景にあります。教師ラベルなしのImageNetを用いる自己教師学習でも,結局は自然画像を用いていて画像ダウンロードや権利関係も含め完全にはクリアにはできていない状態です。この状況において我々は,画像パターンとその画像ラベルを自動で生成する数式ドリブン教師あり学習(Formula-driven Supervised Learning)を提案しました。画像パターンをある数式や自然法則などにより生成し,そのパラメータ区間により画像カテゴリ分けができるのであればいかなる方法でも事前学習用の大規模画像データセットが自動で構築可能とした点に貢献があります。論文中ではフラクタル幾何が最も良好な事前学習効果が得られることを示しています。現実世界の自然物などにフラクタル性が見られることを鑑みても,理にかなった手法であると言えます。当プロジェクトは画像識別のみならず,あらゆるタスクのための事前学習を提供していきたいと思います。

Pre-training without Natural Images

参考資料

著者プロフィール

片岡裕雄(かたおかひろかつ)

産業技術総合研究所 人工知能研究センター 主任研究員,cvpaper.challenge 主宰。
2014年 慶應義塾大学大学院理工学研究科修了,博士(工学)。2013,2014年ミュンヘン工科大学訪問研究員。2014年東京大学 JSPS特別研究員(PD)。画像認識,動画解析,人物行動解析,大規模データセット構築に興味を持つ。2019年度産総研論文賞,ACCV 2020 Best Paper H. M. Awardなど受賞。

URL:http://hirokatsukataoka.net/http://xpaperchallenge.org/cv/