OpenCVで学ぶ画像認識

第1回 画像認識の基本を知ろう

この記事を読むのに必要な時間:およそ 3 分

この連載の目的

こんにちは。この連載を担当することになった,ジェイマジック株式会社の皆川と申します。この連載では,"画像認識技術って何?"というところから,実際にコーディングしてオブジェクト認識を行うまでを扱いたいと思います。

最近,デジカメの顔検出機能などで,私たちにとって身近になりつつある画像認識技術ですが,Web技術など他のIT技術と比べてしまうと,まだまだ研究色の強い分野です。そのため,本当に自分で一から動くものを作ろうとしたら,数学などの専門知識が必要になりますし,この短い連載の中で扱うのは非常に難しいです。

そこで,この連載ではOpenCVという便利なツールを使いながら,プログラミング知識以外の専門知識を必要としない形で,画像認識技術について解説していきたいと思います。

第1回目の今回は,画像認識技術の概要について解説します。

画像認識って何?

そもそも画像認識とはなんでしょうか?

この連載を読んでいる方には説明不要かもしれませんが,画像というのはコンピュータ上では,全て「ピクセル」という単位で扱われています。コンピュータは,「このピクセルは赤,このピクセルは青,……」ということは理解しているのですが,「この画像には人の顔が映っている」というのは理解できません。このようにコンピュータに画像に何が映っているのかを理解させるのが,画像認識技術になります。いわば,人間が当たり前に行っている視覚の機能をなんとかコンピュータに持たせようという研究分野とも言えます。

図1 コンピュータの理解している画像

図1 コンピュータの理解している画像

画像の内容をコンピュータに理解させるためには,ピクセルの集合からなんらかのパターンを抽出しなくてはなりません。つまりピクセルを個別に見ていくのではなく,一つの集合として見て,その集合が持つパターンによって,画像が何を表しているのかを判断する必要があります。

このように,信号のパターンから意味を抽出することを「パターン認識」と呼びます。「パターン認識」は画像認識だけでなく,音声認識や言語解析など,ある信号から意味を抽出する処理全般を指します。

画像に関する研究分野

画像認識技術は,学会などでは「コンピュータビジョン」という分野の中で扱われています。有名な学会としては,毎年アメリカで開催されるCVPR(IEEE Computer Society Conference on Computer Vision and Pattern Recognition)や2年に一度開催されるICCV(IEEE International Conference on Computer Vision)などがあり,日本でも電気情報通信学会や情報処理学会などで盛んに研究が行われています。

先ほど,画像認識技術は画像に何が映っているのかをコンピュータに理解させることだと書きましたが,この「理解」にも2通りあります。一つはその画像が「何」であるかを何らかのシンボル(例えば「顔」「自動車」「文字」のような単語)として表したり分類したりする方法。もう一つはステレオカメラや動画像,画像の陰影などから,画像に映っているオブジェクトやシーンを三次元モデルとして復元する方法です。画像認識と言う場合は前者をさし,後者は画像理解や三次元復元などと呼ばれます。

また,「画像処理」という言葉もこれらの用語と混同して使われることが多いですが,これも意味が少し異なります。画像処理には認識は含まず,例えば画像をぼかしたり,逆に輪郭などのエッジ部分を強調したり,モザイクをかけたりといった,画像を変換して別の画像を作成する処理のことをさします。

図2 画像処理の例(エッジ抽出)

図2 画像処理の例(エッジ抽出)

図3 画像認識の例(顔認識)

図3 画像認識の例(顔認識)

図4 画像理解の例(三次元復元)

図4 画像理解の例(三次元復元)

コンピュータビジョンという言葉は主に「画像理解」をさすようですが,コンピュータビジョンの学会や論文誌などでは,これら画像認識,画像理解,画像処理が全て扱われてます。実際,例えば画像処理によって画像から特徴を抽出して認識を行ったり,画像認識の結果を元に画像理解を行うなど,3つの領域がお互い深く関係し合っています。

表1 画像処理・認識・理解

用語意味
画像処理 画像に対して数学的な変換処理をかける
画像認識 画像をパターンに基づいて認識・分類する
画像理解 画像(2次元)から,被写体の三次元情報を復元する

この連載では,この表で言う画像認識技術を主に扱いますが,どの技術も非常に活発に研究されており,様々な分野で実用化されています。

著者プロフィール

皆川卓也(みながわたくや)

ジェイマジック株式会社のラボに所属する傍ら,慶応義塾大学の博士課程でコンピュータビジョンを研究する社会人ドクター。画像認識とIT技術を融合して新しいソリューションを開発することを生業とする自称テクニカル・ソリューション・アーキテクト。ジェイマジックでは、「顔ちぇき!~誰に似てる?~™」や「SAYL™」のシステムの立ち上げに携わる。

ジェイマジック
URLhttp://www.j-magic.co.jp/
慶応大学 斎藤英雄研究室
URLhttp://www.hvrl.ics.keio.ac.jp/

コメント

コメントの記入