日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界（WEB+DB PRESS plusシリーズ）

書籍案内 » 書籍案内 » 定期刊行物一覧 » WEB+DB PRESS » WEB+DB PRESS plusシリーズ » 日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界 » はじめに『日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界』

日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界

はじめに

『日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界』より転載
2012年1月　徳永拓之

本書は，コンピュータで日本語を入力する際に必要となるソフトウェアについての本です。

本書をお読みの皆さんは，パソコンや携帯電話で日常的に日本語を入力しているものと思います。コンピュータを使い始めた最初の頃はちょっと戸惑うでしょうが，すぐに慣れてしまい，その後は日本語を入力する際のからくりを意識することは，あまりないでしょう。

しかし，考えてみれば，これはなかなかに複雑な仕組みです。実際，文字を入力する際に，日本語のかな漢字変換は文字を入力する際の仕組みとしてはトップクラスに複雑なもののひとつです。

日本語は，漢字，ひらがな，カタカナと，多くの文字を使って表現される言語です。我々が普段使っているキーボードには，多くてもせいぜい100個ちょっとのキーしか付いていませんから，英語のように，キーと文字とを1対1で対応させるわけにはいきません。そこで一般的には，日本語を入力する際には，まずひらがなを入力し，それを漢字かな交じりの文字列に変換するという方法がとられます。この方式をかな漢字変換と言います。

かな漢字変換はかな文字列を漢字混じり列に変換するという原理的に，間違いを完璧になくすことは不可能です。しかし，間違いをできるだけ減らすための努力がこれまで続けられてきましたし，これからも続けられていくことでしょう。変換精度の向上はかな漢字変換の永遠の課題であると言えます。また，コンピュータ，特に携帯電話やカーナビなどのモバイルデバイスは急激に普及しており，予測入力など，新しい入力方式の模索も含め，日本語入力の重要性は増しています。本書ではこのような，いかにしてかな漢字変換の変換精度を向上させるか，どのようにして効率よく日本語を入力するか，といった話題を取り扱います。

本書の前半は日本語入力システム全般の知識を解説し，後半ではかな漢字変換を中心に，そこで使われるアルゴリズムやデータ構造などを掘り下げます。かな漢字変換には，自然言語処理という研究分野で用いられる手法がそのまま使えます。逆に，本書を自然言語処理への入門書として読むこともできるでしょう。

本書が，読者の方々が日本語入力に興味を持つ一助となりましたら幸いです。

徳永拓之（とくながひろゆき）

日本語入力に興味を持つプログラマ。大阪大学基礎工学部システム科学科、東京大学大学院情報理工学系研究科卒業。

ヤフー（株）を経て、現在は（株）Preferred Infrastructureにて自然言語処理や機械学習に関する業務に携わっている。

趣味はカレーの食べ歩き。2012年はもう少し摂取カロリーの低い趣味も見つけたいと考えている。

コメントの記入

お名前
メールアドレス
タイトル
コメント

WEB+DB PRESSは，Webアプリケーションの開発，運用に関わるすべてのエンジニアのための，プログラミング技術情報誌です。

よく読まれている連載

Ubuntu Weekly Recipe: Ubuntuの強力なデスクトップ機能を活用するための，いろいろなレシピをお届けします。
Ubuntu Weekly Topics: Ubuntuコミュニティに興味があるユーザ向けに，ML・Wiki・フォーラムなどの最新の話題を1週間分厳選してお届けします。
書籍『ピタゴラスの定理でわかる相対性理論』の補講: 書籍『ピタゴラスの定理でわかる相対性理論』の補足的な事柄を，本連載としてメモすることにします。読者のみなさまからのご感想やご質問などをお待ちしております。
HTTP/3入門: 新しく登場したHTTP/3とQUICのしくみをゼロから徹底解説します。HTTP/3では，TCPに代わって新しく策定されたQUICというプロトコルを活用し，より速く，より安全に，より効率的にHTTPメッセージをやりとりします。ブラウザやWebサービスでは，すでにHTTP/3とQUICの利用が開始されています。Web開発者である本誌読者のみなさんには必読の特集です！
サバンナ便り～ソフトウェア開発の荒野を生き抜く～: 現代のソフトウェア開発の対象領域は，広く複雑で不確実なものになりました。この連載では，自動テスト（Automated Test）に関わるトピックを中心に，ソフトウェア開発の荒野を生き抜いていくためのプログラミングやソフトウェアエンジニアリングの考え方を書いていきたいと考えています。
コードの安全性・安定性を高める開発サイクル～テスト管理の効率を上げ，脆弱性診断を自動で行う～: 早期リリースが注目される中で，ソフトウェアの品質やセキュリティ面への対応も重要になってきたと感じます。本連載では，安全性・安定性を加えた開発サイクルについて考えていきます。
基本から学ぶ　TCPと輻輳制御 ……押さえておきたい輻輳制御アルゴリズム: 本連載ではTCP/IPの中でも特に，新たなアルゴリズム登場の背景として，ネットワーク環境の変化や，TCP輻輳制御アルゴリズムの変遷と概要をみていきます。
いま，見ておきたいウェブサイト: この連載では，国内外の最新のウェブサイトを隔週更新で取り上げ，これら最新サイトの特徴や素晴らしい部分を，さまざまな角度から解説していきます。

連載一覧