あけましておめでとうございます。以前このgihyo.jpで「OpenCVで学ぶ画像認識」というタイトルで連載をさせていただいた皆川です。
今回,技術評論社様から「コンピュータ・ビジョンの今」についての執筆依頼をいただきました。私が普段ウォッチしている業界や技術分野には偏りがあるため,俯瞰的な形での解説は難しいかもしれませんが,私の独断と偏見で最近の動向についてまとめてみたいと思います。
ここでは,主に以下の3点について述べさせていただければと思います。
- ビジネスでの動向
- アカデミックでの動向
- コミュニティでの動向
「コンピュータ・ビジョンってなに?」という方は,「OpenCVで学ぶ画像認識」の第1回をお読みください。
ビジネスでの動向
拡張現実感(AR)
昨年,IT業界で間違いなく一つの流行語となったのは“拡張現実感(AR: Augmented Reality)”でしょう。ARは現実の環境に仮想世界(例えばインターネットや遠隔地など)の情報を付加することで,現実世界を拡張するという広い意味を持つ概念ですが,コンピュータ・ビジョンの分野でARというとカメラで撮影した対象を認識し,その上に3D画像等を重畳表示する技術のことを言います。
ARについて詳しく解説しだすと長くなるのでそれは他の記事に譲るとして,簡単な具体例を並べます。まず最初にIT業界にARの存在を大きく知らしめたのは,間違いなく2008年に発売された芸者東京エンターテイメントのARisでしょう。以下の動画を見て頂ければ,そのインパクトは一発でお分かりいただけるかと思います。
また,最近は広告キャンペーンなどにおいて,ARを多く見るようになりました。例えば,BMWが自車のプロモーションに使用したり,大阪道頓堀のARを使ったプリクラ「未来SNAP」,住友商事がAR連動型新聞広告を発表したり,また今年EPSONはARを使った3D年賀状を発表しました。
ゲームの分野では,ARisよりも前に「THE EYE OF JUDGMENT」というゲームがPS3向けに発売されています。また,欧米のみのようですが昨年PSP向けに「Invizimals」というゲームも発表されした。
なお,昨年大きく話題になったセカイカメラは無線LANを用いた位置計測(クウジットのプレースエンジン)を用いており,画像認識は使っていません。
他にも昨年話題になったARには枚挙に暇がありませんが,マーカーを使用したARに顔認識やモーションキャプチャを組み合わせるような例もいくつか見受けられました(例えば,PS3ゲームのEyePet,映画「トランスフォーマー2」のキャンペーン,AR試着サービスなど)。
このようなAR流行の背景には,iPhoneやAndroidなどのスマートフォンの普及があるのではないかと思います。かつてカメラ付き携帯電話が普及したことにより,顔認識や特定物体認識(後述)といった技術を実生活で見かけるようになりましたが,同様にスマートフォンが普及したことで,カメラから撮影された画像への重畳表示が開発しやすくなったことが一つの要因と考えられます。
大手IT企業の動向
もう一つ,私が大きな流れになってきたと感じているのが,これまでコンピュータ・ビジョンのR&Dに多大な投資を行ってきたIT系の大企業が,いよいよ本気で商品を世に出し始めたのではないかという点です。
この分野の研究に多大な投資をしているIT企業というと例えば,Microsoft,Adobe,Googleが挙げられます。特に前の2社は,CVPRやICCV,SIGGRAPHといった世界トップクラスの国際会議に,毎回多くの研究を通しています。この3社が昨年,次々と驚くべき製品/サービスを発表しました。
Microsoft
まずMicrosoftですが,昨年のE3でXBOX360向けに"Project Natal"を発表しました。これは以下の動画を見ていただければ分かる通り,体の動き(モーションキャプチャ)や顔認識,音声認識などを併用したゲームコントローラです。
またMicrosoftは,Google Mapへの対抗として"Bing Maps"のベータ版を公開しましたが,その中でMicrosoftが2006年のSIGGRAPHで発表し,2008年に一般公開したPhotosynthとの連携が行われています。Photosynthはあるランドマーク(例えば自由の女神など)の写真が,どのカメラ位置から取られたのかを判定し,それらの画像をつなぎあわてブラウズできる技術です。
確かにPhotosynthの地図との連携は非常に親和性が高いと思いますし,何よりここまでの視覚的インパクトは今のGoogle Mapでも実現できていません。Microsoft Researchの面目躍如といったところでしょうか。

