アンケートご協力のお願いgihyo.jpでは,2010年度に向けて豪華プレゼントが当たる読者属性アンケートを実施しております。ご協力ください。

gihyo.jp » DEVELOPER STAGE » 特集 » OpenCVで学ぶ画像認識 » 第1回 画像認識の基本を知ろう

OpenCVで学ぶ画像認識

第1回 画像認識の基本を知ろう

この連載の目的

こんにちは。この連載を担当することになった,ジェイマジック株式会社の皆川と申します。この連載では,"画像認識技術って何?"というところから,実際にコーディングしてオブジェクト認識を行うまでを扱いたいと思います。

最近,デジカメの顔検出機能などで,私たちにとって身近になりつつある画像認識技術ですが,Web技術など他のIT技術と比べてしまうと,まだまだ研究色の強い分野です。そのため,本当に自分で一から動くものを作ろうとしたら,数学などの専門知識が必要になりますし,この短い連載の中で扱うのは非常に難しいです。

そこで,この連載ではOpenCVという便利なツールを使いながら,プログラミング知識以外の専門知識を必要としない形で,画像認識技術について解説していきたいと思います。

第1回目の今回は,画像認識技術の概要について解説します。

画像認識って何?

そもそも画像認識とはなんでしょうか?

この連載を読んでいる方には説明不要かもしれませんが,画像というのはコンピュータ上では,全て「ピクセル」という単位で扱われています。コンピュータは,「このピクセルは赤,このピクセルは青,……」ということは理解しているのですが,「この画像には人の顔が映っている」というのは理解できません。このようにコンピュータに画像に何が映っているのかを理解させるのが,画像認識技術になります。いわば,人間が当たり前に行っている視覚の機能をなんとかコンピュータに持たせようという研究分野とも言えます。

図1 コンピュータの理解している画像

図1 コンピュータの理解している画像

画像の内容をコンピュータに理解させるためには,ピクセルの集合からなんらかのパターンを抽出しなくてはなりません。つまりピクセルを個別に見ていくのではなく,一つの集合として見て,その集合が持つパターンによって,画像が何を表しているのかを判断する必要があります。

このように,信号のパターンから意味を抽出することを「パターン認識」と呼びます。「パターン認識」は画像認識だけでなく,音声認識や言語解析など,ある信号から意味を抽出する処理全般を指します。

画像に関する研究分野

画像認識技術は,学会などでは「コンピュータビジョン」という分野の中で扱われています。有名な学会としては,毎年アメリカで開催されるCVPR(IEEE Computer Society Conference on Computer Vision and Pattern Recognition)や2年に一度開催されるICCV(IEEE International Conference on Computer Vision)などがあり,日本でも電気情報通信学会や情報処理学会などで盛んに研究が行われています。

先ほど,画像認識技術は画像に何が映っているのかをコンピュータに理解させることだと書きましたが,この「理解」にも2通りあります。一つはその画像が「何」であるかを何らかのシンボル(例えば「顔」「自動車」「文字」のような単語)として表したり分類したりする方法。もう一つはステレオカメラや動画像,画像の陰影などから,画像に映っているオブジェクトやシーンを三次元モデルとして復元する方法です。画像認識と言う場合は前者をさし,後者は画像理解や三次元復元などと呼ばれます。

また,「画像処理」という言葉もこれらの用語と混同して使われることが多いですが,これも意味が少し異なります。画像処理には認識は含まず,例えば画像をぼかしたり,逆に輪郭などのエッジ部分を強調したり,モザイクをかけたりといった,画像を変換して別の画像を作成する処理のことをさします。

図2 画像処理の例(エッジ抽出)

図2 画像処理の例(エッジ抽出)

図3 画像認識の例(顔認識)

図3 画像認識の例(顔認識)

図4 画像理解の例(三次元復元)

図4 画像理解の例(三次元復元)

コンピュータビジョンという言葉は主に「画像理解」をさすようですが,コンピュータビジョンの学会や論文誌などでは,これら画像認識,画像理解,画像処理が全て扱われてます。実際,例えば画像処理によって画像から特徴を抽出して認識を行ったり,画像認識の結果を元に画像理解を行うなど,3つの領域がお互い深く関係し合っています。

表1 画像処理・認識・理解

用語意味
画像処理 画像に対して数学的な変換処理をかける
画像認識 画像をパターンに基づいて認識・分類する
画像理解 画像(2次元)から,被写体の三次元情報を復元する

この連載では,この表で言う画像認識技術を主に扱いますが,どの技術も非常に活発に研究されており,様々な分野で実用化されています。

著者プロフィール

皆川卓也(みながわたくや)

ジェイマジック株式会社のラボに所属する傍ら,慶応義塾大学の博士課程でコンピュータビジョンを研究する社会人ドクター。画像認識とIT技術を融合して新しいソリューションを開発することを生業とする自称テクニカル・ソリューション・アーキテクト。ジェイマジックでは、「顔ちぇき!~誰に似てる?~™」や「SAYL™」のシステムの立ち上げに携わる。

ジェイマジック
URLhttp://www.j-magic.co.jp/
慶応大学 斎藤英雄研究室
URLhttp://www.hvrl.ics.keio.ac.jp/

コメント

コメントの記入

パスサポ

多数の情報処理技術者試験対策書籍の発行実績を誇る技術評論社がお届けする,資格試験合格サイト「めざせ! 情報処理試験 パスサポ」が開設されました。

ピックアップ

サクセスストーリーに続く,快適サーバー運用管理のヒント!

データの増大,煩雑な管理,システムダウン,セキュリティなど,迫りくる課題からシステム管理者の負担を軽くするポイントを解説します。

gihyo.jp インフラエンジニア情報局

ネットワークやITにかかわるあらゆる業種で必要とされるインフラエンジニアに向けた技術情報や心構え,その魅力について多角的に紹介。

テストエンジニア ステーション

いま,ITに関わるあらゆる開発業務で注目されつつあるテスト系エンジニアをターゲットにしたコンテンツサイトを展開します。

一行クイックアンケート

gihyo.jpで取り上げてほしいネタは?

※検索はページ右上の検索ボックスをご利用ください。

その他の連載

キーパーソンが見るWeb業界

本連載はWeb Site Expert/gihyo.jpとの連動企画です。阿部淳也, 長谷川敦士, 森田雄のお三方による,Web業界をテーマにした座談会です。

きたみりゅうじの聞かせて珍プレー

ソフトウェア開発の現場で体験したトホホな失敗,思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます!

ActionScript 3.0で始めるオブジェクト指向スクリプティング

野中文雄氏が,簡単なスクリプトは書いたことがあるという初級者を対象に,ActionScript 3.0の基本からクラス定義までを解説します。

まだ間に合う「ITパスポート」受験対策 原山先生の短期合格塾

この連載では,4月18日のITパスポート試験の受験に向けて,短い期間で効率良く受験対策を行う方法や,確実に得点するための裏ワザなどを伝授していきます。

Ubuntu Weekly Recipe

Ubuntuの強力なデスクトップ機能を活用するための,いろいろなレシピをお届けします。

C/C++プログラマのためのDTrace入門

よくカーネルのチューニングや解析で活用されるDTraceですが,実はユーザプログラムの開発においても非常に有用です。連載ではC/C++プログラマやテストに関わる方向けにDTraceの使い方を解説します。

Blogopolisから学ぶ計算幾何

計算幾何学は,図形に関するアルゴリズムを研究するコンピュータサイエンスの一分野です。本連載では,ビジュアルブログ検索エンジン「Blogopolis」で採用されている計算幾何のアプローチを例に取り上げながら,計算幾何の初歩を実践的に学習します。

検索エンジンはいかにして動くのか?

本連載では, 今や誰もが利用している検索エンジンの中身を,全体の仕組みやデータ構造,アルゴリズムから分散インデックスまで,最近の研究事例も交えて紹介します。

連載一覧

gihyo.jp

  • DEVELOPER STAGE
  • ADMINISTRATOR STAGE
  • WEB+DESIGN STAGE
  • LIFESTYLE STAGE
  • SCIENCE STAGE
  • NEWS & REPORT

書籍案内

  • 新刊書籍
  • 書籍ジャンル一覧
  • 書籍シリーズ一覧
  • 新刊ピックアップ
  • ロングセラー
  • 電脳会議

定期刊行物一覧

  • Software Design
  • WEB+DB PRESS
  • Web Site Expert
  • 組込みプレス