Computer Vision LibraryシリーズVision Transformer入門

[表紙]Vision Transformer入門

紙版発売
電子版発売

B5変形判/272ページ

定価3,520円(本体3,200円+税10%)

ISBN 978-4-297-13058-9

ただいま弊社在庫はございません。次回配本予定は10月7日です。

電子版

→学校・法人一括購入ご検討の皆様へ

書籍の概要

この本の概要

自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて,ディープラーニングではスタンダードとなっているRNN,CNN,および既存手法を用いた処理精度を上回ることが確認されています。

本書は注目のViTの入門書です。Transformerの成り立ちからはじめ,その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク,ViTから派生したモデルを紹介したあと,TransoformerとViTを分析し,その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。

こんな方におすすめ

  • ViTに興味のある方
  • 実務で画像処理に取り組んでいる方
監修者プロフィール

片岡裕雄(かたおかひろかつ)

国立研究開発法人産業技術総合研究所人工知能研究センター主任研究員
2014年慶應義塾大学大学院理工学研究科後期博士課程修了,博士(工学)。2020年10月より国立研究開発法人産業技術総合研究所主任研究員。画像認識,動画解析,人物行動解析に従事。2011/2020年VIEW小田原賞,2019年度産総研論文賞,ACCV 2020 BEST PAPER HONORABLE MENTION AWARD受賞。

著者プロフィール

山本晋太郎(やまもとしんたろう)

2022年3月に早稲田大学先進理工学研究科物理学及応用物理学専攻にて博士後期課程を修了し,博士(工学)を取得。学生時代は主にコンピュータビジョンと自然言語処理の分野の研究に従事。博士論文のテーマは,効率的な研究コミュニケーションのための科学論文解析。現在は企業の研究開発部門に勤める会社員。本書の第1章の執筆を担当。

徳永匡臣(とくながまさおみ)

株式会社野村総合研究所AIソリューション推進部AI tech lab.所属
2019年3月,東北大学工学部を卒業。2021年3月,東京工業大学大学院情報理工学院情報工学系知能情報コースにて修士課程を修了。現在は,コンピュータビジョンおよび自然言語の業務に従事。趣味として,インターネット上で論文の解説記事を執筆。本書の第2章の執筆を担当。

箕浦大晃(みのうらひろあき)

中部大学大学院工学研究科情報工学専攻博士後期課程3年
2020年中部大学大学院博士前期課程情報工学専攻修了。2020年中部大学大学院博士後期課程情報工学専攻在学中。コンピュータビジョン,パターン認識の研究に従事。本書の第3章,第6章の執筆を担当。

邱玥(きゅうげつ,QIU YUE)

国立研究開発法人産業技術総合研究所人工知能研究センター研究員
2021年3月筑波大学大学院システム情報工学研究科博士後期課程修了(工学),2021年10月により産業技術総合研究所人工知能研究センター研究員。言語と画像のマルチモーダルタスク・画像認識・3次元認識・動画像認識に従事。本書の第4章,第5章の執筆を担当。

品川政太朗(しながわせいたろう)

奈良先端科学技術大学院大学先端科学技術研究科情報科学領域助教
2013年東北大学工学部を卒業,2015年同大学大学院情報科学研究科で修士(情報科学),2020年9月に奈良先端科学技術大学院大学で博士(工学)を取得し,同年11月より同大学助教。コンピュータビジョンと自然言語処理双方の領域を中心として幅広く興味を持ち,自然言語による対話的な画像編集をはじめとした視覚と言語の融合研究と対話システム研究に従事。本書の第7章,第8章の執筆を担当。

目次

第1章 TransformerからVision Transformerへの進化

  • 1-1 自然言語処理におけるTransformerの登場
  • 1-2 Vision and languageへの拡張
  • 1-3 コンピュータビジョンにおけるTransformer

第2章 Vision Transformerの基礎と実装

  • 2-1 準備
  • 2-2 ViTの全体像
  • 2-3 Input Layer
  • 2-4 Self-Attention
  • 2-5 Encoder
  • 2-6 ViTの実装

第3章 実験と可視化によるVision Transformerの探求

  • 3-1 実験の概要
  • 3-2 使用するデータセット
  • 3-3 実験条件
  • 3-4 既存手法との比較
  • 3-5 データ拡張における比較
  • 3-6 位置埋め込みの可視化
  • 3-7 ViTにおける判断根拠の可視化
  • 3-8 ViTが捉えているモノ

第4章 コンピュータビジョンタスクへの応用

  • 4-1 コンピュータビジョンのサブタスク
  • 4-2 画像認識への応用
  • 4-3 物体検出、セマンティックセグメンテーションへの応用
  • 4-4 ビデオ認識への応用
  • 4-5 オブジェクトトラッキングへの応用
  • 4-6 3Dビジョンへの応用
  • 4-7 その他のコンピュータビジョンサブタスクへの応用
  • 4-8 Transformer応用のまとめと展望

第5章 Vision and Languageタスクへの応用

  • 5-1 Vision and Languageのサブタスク
  • 5-2 VQAへの応用
  • 5-3 Image Captioningへの応用
  • 5-4 Embodied AIへの応用
  • 5-5 その他のVision and Languageサブタスクへの応用
  • 5-6 Vision and Languageのまとめと展望

第6章 Vision Transformerの派生手法

  • 6-1 ViT派生手法の分類
  • 6-2 Swin Transformer
  • 6-3 DeiT
  • 6-4 CvT
  • 6-5 SegFormer
  • 6-6 TimeSformer
  • 6-7 MAE

第7章 Transformerの謎を読み解く

  • 7-1 Transformerの謎に人々は驚き困惑した
  • 7-2 Positional embeddingの謎
  • 7-3 Multi-head Attentionの謎
  • 7-4 Layer Normalizationの謎

第8章 Vision Transformerの謎を読み解く

  • 8-1 ViT vs CNN vs MLPの三国時代の到来
  • 8-2 ViTはCNNと同じく局所特徴を学習する
  • 8-3 ViTはより形状に反応する?
  • 8-4 ViTは早期から大域的な領域も見ている
  • 8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健?
  • 8-6 3つのモデルの特性と使い分けの勘どころ
  • 8-7 ViTの新常識