新春特別企画

コンピュータ・ビジョンの業界動向

この記事を読むのに必要な時間:およそ 4 分

アカデミック及びコミュニティの動向

ビジネスでの話が長くなってしまいましたが,以降は簡単にアカデミックの領域と開発者コミュニティの話に触れたいと思います。

注目の研究分野

研究の分野でここ数年盛り上がっているテーマの一つに「一般物体認識」と呼ばれる技術があります。これは,例えば「車」⁠顔」⁠犬」といった,画像に写っているオブジェクトのカテゴリを判別するための技術を指します。先程説明した「特定物体認識」が事前に登録した画像の中からマッチするものを検索するのに対し,一般物体認識では例えば「カローラ」であっても「プリウス」であっても全て「車」として認識します。技術的により詳細な全体像を知りたい方は,電気通信大学の柳井先生が書かれた論文[1]を読んでいただくと良いかと思います。

国際学会等で見られるここ最近の動きとしては,単にカテゴリを判別するだけでなく,その位置を効率的に探索する方法[2][3]や,判別性能を上げるために様々な特徴(異なる特徴量や色など)を組み合わせたり[4]そのオブジェクトの持っている属性(例えば顔であれば,性別,年齢,肌の色など)[5][6][7]オブジェクト周辺のコンテクスト[8]や物体の姿勢変化[9]にまで認識の枠組みを広げるような発表が見受けられるようになってきました。

日本においても昨年11月に,電気情報通信学会の「パターン認識・メディア理解研究会」及び情報処理学会の「コンピュータビジョンとイメージメディア研究会」合同で「一般物体認識・画像特徴量」という独立したテーマセッションが開かれるまでに至りました。

各企業も力を入れて研究しているようなので,今後数年のうちに市場に出てくる可能性が高いと思います。

私がもう一つ注目しているトレンドが,インターネット上の膨大な画像データを積極的に使うことによって,なんらかの新しい結果を出している研究群です。例えば画像の欠損をインターネット中の大量の画像からそれらしいパーツを集めて補間してしまう研究[10]インターネット上の大量の画像から街全体を⁠1日で⁠3次元復元してしまうプロジェクト[11]などがあります(技術的にはPhotosynthの流れを組んでいます)⁠また,デジカメで撮影された画像にはカメラ情報が"exif"と呼ばれる形式で埋め込まれているのですが,ネット上の大量の画像からexifを取り出して統計的に分析することで,カメラごとの特性(応答特性やレンズ口径)や,その写真が素人が撮ったか玄人が撮ったかまで分析してしまうという研究も発表されました[12]

GoogleがCVPRで発表したランドマーク検索は,ジオタグのついたインターネット中の大量の画像とwikitravelなどの旅行ガイドから,ランドマーク画像を自動収集するというものですが[13]これもネット上の大量データを利用したものと言えます。

これらは,まさに今の時代だからこそ生まれた研究達で,これからこういった新しいアプローチが次々に生まれてくるのではないかと期待しています。

ネット上の大量データを用いた画像補間(画像出典:SIGGRAPH 2007[10]

画像

Ref.
[1] 柳井啓司, "一般物体認識の現状と今後", 情報処理学会論文誌:コンピュータビジョンとイメージメディア, Vol.48, Nov 2007
[2] C. H. Lampert, et al, "Beyond Sliding Windows: Object Localization by Efficient Subwindow Search", CVPR 2008
[3] M. B. Blaschko, et al, "Learning to Localize Objects with Structured Output Regression", ECCV 2008
[4] P. Gehler, et al, "On Feature Combination for Multiclass Object Classification", ICCV 2009
[5] N. Kumar, et al, "Attribute and Simile Classifiers for Face Verification", ICCV 2009
[6] J. Aghajanian, et al "Patch-based Within-object Classification", ICCV 2009
[7] Q. Yuan, et al, "Is a Detector Only Good for Detection?", ICCV 2009
[8] C. Desai, et al, "Discriminative Models for Multi-class Object Layout", ICCV 2009
[9] H. Su, et al, "Learning a Dense Multi-view Representation for Detection, Viewpoint Classification and Synthesis of Object Categories", ICCV 2009
[10] J. Hays, et al, "Scene Completion Using Millions of Photographs", SIGGRAPH 2007
[11] "Building Rome in a Day", ICCV 2009
[12] S. Kuthirummal, et al, "Priors for Large Photo Collections and What They Reveal about Cameras", ECCV 2008
[13] Y. Zheng, et al, "Tour the World: building a web-scale landmark recognition engine", CVPR 2009

開発者コミュニティの成長

これまで,コンピュータ・ビジョンという分野はほとんど研究者だけの閉じられた世界でしたが,最近はコンピュータ・ビジョンを専門としないプログラマー達も加わった開発コミュニティが成長してきているようです。私も昨年「CV・ARに関する普通じゃない勉強会」というものに初めて参加して,その盛況ぶりに驚きました。

その背景としてあるのが,ARToolKitOpenCVなどのオープンなライブラリによって,開発の敷居が大きく下がったことがあげられます。また工学ナビのようなエヴァンジェリストの存在や,ニコニコ動画のように,作った作品を公開する「場」が整ったことも大きな要因と言えるでしょう。コンピュータ・ビジョンは元々視覚的インパクトの強い研究分野なので,このような動画共有サイトは発表の場として最適ですし,視聴者の反応が見えるため開発者のモチベーションも上がり易いという利点があります。

OpenCVはまだまだ研究者のためのライブラリという側面が強いですが,それでも今後はより顔検出のような使い易い機能が増えていくでしょう(実際OpenCV 2.0から顔検出だけでなく,人物検出も加わりました)⁠そうなれば,これから益々コミュニティは盛り上がり,それがビジネスへも波及することでしょう。

またOpenCVの新しいバージョンを待たずとも,研究者がそれらのライブラリを使ったソフトを書いて使い方と一緒に公開すれば,このようなハッカー達の間に一気に広がる可能性があります。例えば,2007年に発表されたPTAMなどはソースコードが公開された途端に,ニコニコ動画へ「街中を歩く初音ミク」としてアップされました。

初音ミクが家の前を歩いてたんだけど…

ニコニコ動画:http://www.nicovideo.jp/watch/sm4788237

今後,こういったコミュニティが盛り上がっていくことで,よりコンピュータ・ビジョンの技術が一般に浸透したり,思わぬ使われ方が提案されたりと言ったことが期待されます。

終わりに

というわけで,私見に基づいてコンピュータ・ビジョンの業界動向をまとめてみました。近年,明らかにこの分野の動きは加速しています。今年1年,一体どんな動きが起こるのか大変楽しみです。

著者プロフィール

皆川卓也(みながわたくや)

慶応大学の博士課程でコンピュータビジョンを研究する学生兼フリーエンジニア。画像認識とIT技術を融合して新しいソリューションを開発することを生業とする自称テクニカル・ソリューション・アーキテクト。

URL慶応大学 斎藤英雄研究室
URL著者ホームページ

コメント

コメントの記入