日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界

はじめに

この記事を読むのに必要な時間:およそ 0.5 分

『日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界』より転載
2012年1月 徳永 拓之

本書は,コンピュータで日本語を入力する際に必要となるソフトウェアについての本です。

本書をお読みの皆さんは,パソコンや携帯電話で日常的に日本語を入力しているものと思います。コンピュータを使い始めた最初の頃はちょっと戸惑うでしょうが,すぐに慣れてしまい,その後は日本語を入力する際のからくりを意識することは,あまりないでしょう。

しかし,考えてみれば,これはなかなかに複雑な仕組みです。実際,文字を入力する際に,日本語のかな漢字変換は文字を入力する際の仕組みとしてはトップクラスに複雑なもののひとつです。

日本語は,漢字,ひらがな,カタカナと,多くの文字を使って表現される言語です。我々が普段使っているキーボードには,多くてもせいぜい100個ちょっとのキーしか付いていませんから,英語のように,キーと文字とを1対1で対応させるわけにはいきません。そこで一般的には,日本語を入力する際には,まずひらがなを入力し,それを漢字かな交じりの文字列に変換するという方法がとられます。この方式をかな漢字変換と言います。

かな漢字変換はかな文字列を漢字混じり列に変換するという原理的に,間違いを完璧になくすことは不可能です。しかし,間違いをできるだけ減らすための努力がこれまで続けられてきましたし,これからも続けられていくことでしょう。変換精度の向上はかな漢字変換の永遠の課題であると言えます。また,コンピュータ,特に携帯電話やカーナビなどのモバイルデバイスは急激に普及しており,予測入力など,新しい入力方式の模索も含め,日本語入力の重要性は増しています。本書ではこのような,いかにしてかな漢字変換の変換精度を向上させるか,どのようにして効率よく日本語を入力するか,といった話題を取り扱います。

本書の前半は日本語入力システム全般の知識を解説し,後半ではかな漢字変換を中心に,そこで使われるアルゴリズムやデータ構造などを掘り下げます。かな漢字変換には,自然言語処理という研究分野で用いられる手法がそのまま使えます。逆に,本書を自然言語処理への入門書として読むこともできるでしょう。

本書が,読者の方々が日本語入力に興味を持つ一助となりましたら幸いです。

著者プロフィール

徳永拓之(とくながひろゆき)

日本語入力に興味を持つプログラマ。大阪大学 基礎工学部システム科学科、東京大学大学院 情報理工学系研究科卒業。

ヤフー(株)を経て、現在は(株)Preferred Infrastructureにて自然言語処理や機械学習に関する業務に携わっている。

趣味はカレーの食べ歩き。2012年はもう少し摂取カロリーの低い趣味も見つけたいと考えている。