書籍概要

Computer Vision Library

Vision Transformer入門

著者: 片岡裕雄　監修，山本晋太郎，徳永匡臣，箕浦大晃，邱玥（QIU YUE），品川政太朗　著
発売日: 2022年9月15日
更新日: 2022年9月15日

概要

※電子書籍版はフルカラーです。

自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer（ViT）です。さまざまなコンピュータビジョンのタスクにおいて，ディープラーニングではスタンダードとなっているRNN，CNN，および既存手法を用いた処理精度を上回ることが確認されています。

本書は注目のViTの入門書です。Transformerの成り立ちからはじめ，その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク，ViTから派生したモデルを紹介したあと，TransoformerとViTを分析し，その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。

こんな方におすすめ

ViTに興味のある方
実務で画像処理に取り組んでいる方

4-1 コンピュータビジョンのサブタスク
4-2 画像認識への応用
4-3 物体検出、セマンティックセグメンテーションへの応用
4-4 ビデオ認識への応用
4-5 オブジェクトトラッキングへの応用
4-6 3Dビジョンへの応用
4-7 その他のコンピュータビジョンサブタスクへの応用
4-8 Transformer応用のまとめと展望

第5章 Vision and Languageタスクへの応用

5-1 Vision and Languageのサブタスク
5-2 VQAへの応用
5-3 Image Captioningへの応用
5-4 Embodied AIへの応用
5-5 その他のVision and Languageサブタスクへの応用
5-6 Vision and Languageのまとめと展望

第6章 Vision Transformerの派生手法

6-1 ViT派生手法の分類
6-2 Swin Transformer
6-3 DeiT
6-4 CvT
6-5 SegFormer
6-6 TimeSformer
6-7 MAE

第7章 Transformerの謎を読み解く

7-1 Transformerの謎に人々は驚き困惑した
7-2 Positional embeddingの謎
7-3 Multi-head Attentionの謎
7-4 Layer Normalizationの謎

第8章 Vision Transformerの謎を読み解く

8-1 ViT vs CNN vs MLPの三国時代の到来
8-2 ViTはCNNと同じく局所特徴を学習する
8-3 ViTはより形状に反応する?
8-4 ViTは早期から大域的な領域も見ている
8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健？
8-6 3つのモデルの特性と使い分けの勘どころ
8-7 ViTの新常識

サポート

ダウンロード

サンプルコードのダウンロード

（2022年9月8日最終更新）

本書「Vision Transformer入門」の第3章で解説している内容を試していただけるように，以下のリンクからサンプルコードをダウンロードできます。

ダウンロード: ch3.zip

Gihyo Digital Publishing

技術評論社の電子書籍サイト

書籍概要

Computer Vision Library

Vision Transformer入門

概要

こんな方におすすめ

目次

第1章 TransformerからVision Transformerへの進化

第2章 Vision Transformerの基礎と実装

第3章実験と可視化によるVision Transformerの探求

第4章コンピュータビジョンタスクへの応用

第5章 Vision and Languageタスクへの応用

第6章 Vision Transformerの派生手法

第7章 Transformerの謎を読み解く

第8章 Vision Transformerの謎を読み解く

サポート

ダウンロード

サンプルコードのダウンロード

商品一覧

Computer Vision Library

Vision Transformer入門

概要

こんな方におすすめ

目次

第1章 TransformerからVision Transformerへの進化

第2章 Vision Transformerの基礎と実装

第3章 実験と可視化によるVision Transformerの探求

第4章 コンピュータビジョンタスクへの応用

第5章 Vision and Languageタスクへの応用

第6章 Vision Transformerの派生手法

第7章 Transformerの謎を読み解く

第8章 Vision Transformerの謎を読み解く

サポート

ダウンロード

サンプルコードのダウンロード

商品一覧

第3章実験と可視化によるVision Transformerの探求

第4章コンピュータビジョンタスクへの応用