新刊ピックアップ

Vision Transformerの衝撃

この記事を読むのに必要な時間:およそ 1 分

「Vision Transformer入門」「はじめに」から一部抜粋・編集して掲載しています。

2020年10月22日に論文共有サイトarXivに掲載された1本の論文がコンピュータビジョン分野に衝撃を与えました。ViT(Vision Transformer)[Dosovitskiy21]の提案論文である"An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(画像は16x16文字に相当する:スケールアップする画像認識のためのトランスフォーマー)" がGoogle Researchから投稿されたのです。
ViTは自然言語処理におけるTransformerより簡素な構造でありながら、画像のコンテンツを理解し、適切なラベルを返却するという画像識別問題において、従来法を置き換える十分な精度に到達していると主張しました。従来法とひと言で言いましたが、画像識別におけるCNN(Convolutional Neural Networks:畳み込みニューラルネットワーク)は、2012年10月に開催されたILSVRCでAlexNet[Krizhevsky12]が提案されてから約8年間にもわたり世界的に改善が繰り返されてきた強力なツールです。
機械学習の分野では、たった1本の論文がその後の流れを大きく変えることがありますが、ViT論文は間違いなくコンピュータビジョンの研究動向を劇的に塗り替えました。実際に、2021年の大きな研究トレンドは、いかにTransformerをコンピュータビジョン分野に浸透させるかの一色になり、その年の秋に開催されたICCV 2021のBest Paper Award(Marr Prize)は、ViTの問題点を効果的に解決し、性能改善に寄与するSwin Transformer[Liu21]でした。

図1 コンピュータビジョン分野の主要会議における、Transformerをタイトルに含む論文数の推移(⁠⁠Vision Transformer入門⁠⁠ 1章P20より転載)

図1

さて、2022年9月に発売となった 『Vision Transformer入門』 では日本国内の若手研究者・若手技術者から精鋭を招聘して、ViTという新規トピックでありながら毎月のように変化していく動向を迅速にキャッチアップし、難解に見える技術を可能な限り平易な文章で説明できるように編集しています。

執筆時点においてもめまぐるしく変化するViTに関する動向を紐解いていきます。ViT論文がコンピュータビジョン分野の研究を加速させてきたように、本書、通称ViT-Book(#vitbook)が日本国内のVision Transformer研究を加速させるための起爆剤になればこれ以上幸いなことはありません。

2022年8月 片岡裕雄

参考文献

  • [Dosovitskiy21]
  • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" ICLR, 2021.

  • [Krizhevsky12]
  • Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton "ImageNet Classification with Deep Convolutional Neural Networks" NIPS, pages 1097-1105, 2012.

  • [Liu21]
  • Ze Liu, Yutong Lin, Yue Cao, et al. "Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows" ICCV, pages 10012-10022. 2021.