LINE テクノロジー&エンジニアリング大全

LINEだからこそできるマルチモーダルAIというアプローチ~井尻善久氏に訊くComputer Vision Labで動き出した画像認識技術の研究開発と実装

この記事を読むのに必要な時間:およそ 2.5 分

鍵を握るマルチモーダル・クロスモーダルでのAI利用

――具体的に,どのような研究開発を進める予定でしょうか。

井尻:eKYCとDXに共通する要素として,文字を認識してデジタルデータ化するOCRがあります。eKYCでは免許証などの券面に記載された文字を読み取る必要があり,DXでは紙で保存された資料をデジタル化する上で文字認識は欠かせません。

DXに向けた流れが大きくなっている中で,紙に印刷されたアナログの文字をデジタル化できることは大きなメリットになります。しかし技術的には完全と言える状況ではありません。

このOCRの精度向上において,重要になるのは言語に対する理解です。

たとえば我々が文章を読むとき,一部の文字がかすれていたり,あるいは知らない漢字が使われていたりしたとしても,前後の文脈から類推しながら読むことができますよね。場合によっては,知らない漢字であっても正しく読めることすらあります。これがまさにOCRにおいても重要で,正しく文字を認識するためには,単なる画像のパターン認識だけでなく,文脈を理解することが必要になると思っています。

現時点のOCRは,こうした言語に対する理解が組み込まれていないため,たとえば漢数字の「一」と記号の「-」⁠ハイフン)を区別できないなどといった問題が起こってしまいます。しかし文脈を理解することができれば,それが漢数字なのか,それとも記号のハイフンなのかは明白に判断できるようになるでしょう。

このように,画像の課題を画像だけで解決するのではなく,ほかの技術との組み合わせの中で考えることは大切です。実際,人と同じような読み取り精度を実現する,もしくは人が納得できる性能を達成するためには,マルチモーダルなAIの融合が必要になると考えています。

――昨今では手書き文字でも高精度に認識できるAI-OCRと呼ばれるカテゴリのソリューションも登場していますが,実際にはまだまだというわけですね。

井尻:現状ではまだ十分な精度には至っていないと感じています。実は私自身,前職でもOCRに係わっていました。そのときのものと比較すると,現在のAI-OCRの精度は非常に高いのですが,それでも漢数字の一と記号のハイフンを間違えることはあります。

もう1つ,現状の問題としてあげられるのは認識すべき文字が書かれている場所を指定しなければならないことです。たとえば帳票に書かれた文字を認識するといった場合,帳票のフォーマットが変わると改めて文字認識すべき場所を設定しなければなりません。

LINEはすでに音声認識や音声合成,そして自然言語処理といった分野の研究を独自に進めており,多くの成果や知見を積み重ねています。OCRの認識精度向上を考えたとき,画像認識だけではなく,そのほかの技術も組み合わせてアプローチできるのはLINEの強みとなります。

LINE CLOVAが提供する「Product」

LINE CLOVAが提供する「Product」

(提供:LINE株式会社)

たとえば空間に一定のレイアウトで配置されている文字の認識を考えたとき,レイアウトを把握したり,書かれている文字が日本語として成り立っているのか,文脈から考えて内容は妥当かなどといったことを判断したりする,そこでAIカンパニーが培ってきた技術や積み重ねてきた知見が生きてきます。このようにLINEの強みを全面的に打ち出して研究を推進したいと思っています。

ビジネスサイドと研究者が同じ方向を見ていることがLINEの強み

――井尻さんのキャリアについて教えてください。

井尻:以前勤めていた会社に入社したのは2002年で,2021年にLINEにジョインしました。以前の会社では,研究から技術を生み出すハブとなる会社の設立もリードしていました。その経験から,チームビルディングや,最先端の研究を事業に結びつけるための組織的構造やそのような場を生み出すことに興味を覚えるようになりました。そしてLINEから,今後AIに関する研究から開発,そして事業創出までを一貫して対応する体制を作り上げていきたいというお話を伺い,ぜひやってみたいとLINEに入社することを決めました。

AIに関しては,以前の会社に入社したころから携わっていました。当時は多少統計的な手法も利用されていましたが,信号処理の延長線的な画像処理が中心であり,エッジや特徴量の抽出によって画像を認識するといった処理が主流でした。ちょうど私が入社したころに,画像処理と機械学習の融合が実用化できるレベルに達し,特に顔検出の技術が実用化レベルに至ったことでブレークスルーが起きたと感じています。当時は機械学習の画像処理応用のあけぼの時代でしたが,思い返せばそのころからAI技術を中心にキャリアを築いてきました。

LINEに入社することを決めた理由の1つは,最初にお話したように,AIカンパニーが研究からプロダクト化,ビジネス推進まで一気通貫で対応する体制を整えていることに魅力を感じたためです。大企業では事業部のある本体と研究所が離れているため,どうしても組織が縦割りになってしまい,両者の間に壁が生まれてしまいます。しかしLINEであれば同じ組織の中で事業化まで担う形であり,情報がエンド・ツー・エンドで流れるため,研究者が実世界の課題に触れることができます。これは大きなメリットでしょう。

事業部と研究所が別々に存在していると,どうしても対立構造になりがちです。しかし本来は対立するのではなく,同じ方向を見る,つまりビジネス側の人間と研究者が同じ課題に向き合うことが大切です。LINEのAIカンパニーは,それができる体制だと考えています。

――Computer Vision Labでは人材を募集しているとのことですが,どういった人と働きたいと考えていますか。

井尻:アイデアが豊富でクリエイティブな人ですね。そしてさまざまなことに興味を持ち,生まれてきた課題を自分事として捉えられる人。そして夢のある人と一緒に働きたいと思います。

また誰かの下で働くということではなく,自分で何かを成し遂げて「これは俺が創ったんだ」と言いたい,そういった強い思いを持った人にぜひ応募してもらいたいですね。

画像

著者プロフィール

川添貴生(かわぞえたかお)

株式会社インサイトイメージ代表取締役。企業サイトの構築及び運用支援のほか、エンタープライズ領域を中心に執筆活動を展開している。

メール:mail@insightimage.jp


馮富久(ふぉんとみひさ)

株式会社技術評論社クロスメディア事業室部長代理。

1975年生まれ。横浜市出身。1999年4月株式会社技術評論社に入社。入社後から『Software Design』編集部に配属,同誌編集長(2004年1月~2011年12月)や『Web Site Expert』編集長を歴任。その後,2008年9月に設立したクロスメディア事業部(現クロスメディア事業室)の責任者として,イベントやWeb・オンライン企画を統括。現在は,技術評論社の電子出版事業を中心に,デジタル・オンライン事業を取りまとめる。社外活動として電子書籍を考える出版社の会の代表幹事やWebSig 24/7のモデレーター,TechLIONプロデューサーなども務める。過去にIPAオープンソースデータベースワーキンググループ委員やアックゼロヨン・アワード他各賞審査員などの経験を持つ。

Twitte ID:tomihisa(http://twitter.com/tomihisa/