「UnicodeとUTF-8とUCS-2の関係 ――符号化文字集合？文字符号化方式？」プログラマのための文字コード技術入門（WEB+DB PRESS plusシリーズ）

書籍案内 » 書籍案内 » 定期刊行物一覧 » WEB+DB PRESS » WEB+DB PRESS plusシリーズ » プログラマのための文字コード技術入門 » UnicodeとUTF-8とUCS-2の関係 ――符号化文字集合？文字符号化方式？

プログラマのための文字コード技術入門

UnicodeとUTF-8とUCS-2の関係 ――符号化文字集合？文字符号化方式？

『プログラマのための文字コード技術入門』（p.116）を元に一部改変
矢野啓介

UnicodeとUTF-8とUCS-2，UCS-4など，Unicode関連用語は，いわゆる用語解説にあたるだけでは理解するのに混乱しがちな話題かもしれません。それぞれの用語が登場した経緯や，符号化文字集合，符号化方式としてどういった存在かについて追っていくと，きちんと理解されることと思います。ここでは，簡単に整理してみることにしましょう。

まとめると，Unicodeは整数値で表される符号位置と文字とを対応付けています。そして，その整数である符号位置をコンピュータで用いるバイト列の形で表現するための方式として，UTF-8やUTF-16やUTF-32といった各種の符号化方式が定められており，用途に応じて使い分けるようになっています。

たとえば，「山」という文字の符号位置はU+5C71だということがUnicodeとして決まっています。符号位置の整数値0x5C71をUTF-16で符号化すると5C71という2バイトに，UTF-8で符号化するとE5 B1 B1という3バイトに，UTF-32では00 00 5C 71という4バイトになるということです（ここではUTF-16とUTF-32のバイト順としてビッグエンディアンを採用しています）。

ただし，歴史的な経緯としては，上に述べたような「整数値の符号位置を符号化方式によってバイト列に符号化する」という概念が元々あったわけではありません。当初は，Unicodeといえば16ビット固定長のコードというのが売り文句だったように，「山」という文字に5C71という16ビットのビット組み合わせが対応するというのがUnicodeで定義される内容でした。これはISO/IEC 10646で規定されるUCS-2と同じです。

Windowsのメモ帳のファイル保存のダイアログで，文字コードの選択肢として現れる「Unicode」は，実際にはUTF-16を意味しています。これは，かつてUnicodeが16ビット固定長の文字コードであったことの名残りといえるでしょう。メモ帳ではUTF-8は「Unicode」とは別に「UTF-8」として選択肢に現れます。

時々「UCS-2は符号化文字集合なのか文字符号化方式なのか」といった悩みを見かけることがあります。UCS-2は符号化文字集合だと聞いたけど，UTF-16は符号化方式のはずだ。でもUTF-16はUCS-2の拡張だという。すると一体……？ということでしょう。

用語はひとまずおくとして，肝心なのは中身です。UCS-2が定める内容というのは，上に記したような，「山という文字に5C71という16ビットが対応する」といった対応付けの規則の集合です。それを符号化文字集合と呼ぶか文字符号化方式と呼ぶかは，用語の定義次第でどちらにも言えます。用語法にはいくつかの流派があるので，どれを採用するかによって呼び方も変わります。ただ，こうしたUCS-2の定義内容が，ISOで以前から使われている「符号化文字集合」（coded character set）（※注）にちょうど合致することは確かです。

※注）: ISO/IEC 10646:2003「Information technology -- Universal Multiple-Octet Coded Character Set (UCS)」の4.9項に，この用語の定義があります。

矢野啓介（やのけいすけ）

北海道札幌市出身，工学修士（北海道大学，システム情報工学専攻）。（株）富士通研究所に勤務し企業向けソフトウェア技術の研究開発に従事するかたわら，ライフワークとして文字の符号化を探求。オープンソースの仮名漢字変換ソフトウェアSKKのJIS第3第4水準漢字辞書の開発に携わる。ソフトウェア工学分野の研究により，情報処理学会から2017年度山下記念研究賞を受賞。

コメントの記入

お名前
メールアドレス
タイトル
コメント

WEB+DB PRESSは，Webアプリケーションの開発，運用に関わるすべてのエンジニアのための，プログラミング技術情報誌です。

よく読まれている連載

Ubuntu Weekly Recipe: Ubuntuの強力なデスクトップ機能を活用するための，いろいろなレシピをお届けします。
Ubuntu Weekly Topics: Ubuntuコミュニティに興味があるユーザ向けに，ML・Wiki・フォーラムなどの最新の話題を1週間分厳選してお届けします。
書籍『ピタゴラスの定理でわかる相対性理論』の補講: 書籍『ピタゴラスの定理でわかる相対性理論』の補足的な事柄を，本連載としてメモすることにします。読者のみなさまからのご感想やご質問などをお待ちしております。
HTTP/3入門: 新しく登場したHTTP/3とQUICのしくみをゼロから徹底解説します。HTTP/3では，TCPに代わって新しく策定されたQUICというプロトコルを活用し，より速く，より安全に，より効率的にHTTPメッセージをやりとりします。ブラウザやWebサービスでは，すでにHTTP/3とQUICの利用が開始されています。Web開発者である本誌読者のみなさんには必読の特集です！
サバンナ便り～ソフトウェア開発の荒野を生き抜く～: 現代のソフトウェア開発の対象領域は，広く複雑で不確実なものになりました。この連載では，自動テスト（Automated Test）に関わるトピックを中心に，ソフトウェア開発の荒野を生き抜いていくためのプログラミングやソフトウェアエンジニアリングの考え方を書いていきたいと考えています。
コードの安全性・安定性を高める開発サイクル～テスト管理の効率を上げ，脆弱性診断を自動で行う～: 早期リリースが注目される中で，ソフトウェアの品質やセキュリティ面への対応も重要になってきたと感じます。本連載では，安全性・安定性を加えた開発サイクルについて考えていきます。
基本から学ぶ　TCPと輻輳制御 ……押さえておきたい輻輳制御アルゴリズム: 本連載ではTCP/IPの中でも特に，新たなアルゴリズム登場の背景として，ネットワーク環境の変化や，TCP輻輳制御アルゴリズムの変遷と概要をみていきます。
いま，見ておきたいウェブサイト: この連載では，国内外の最新のウェブサイトを隔週更新で取り上げ，これら最新サイトの特徴や素晴らしい部分を，さまざまな角度から解説していきます。

連載一覧

UnicodeとUTF-8とUCS-2の関係 ――符号化文字集合？ 文字符号化方式？

矢野啓介（やのけいすけ）

コメントの記入

よく読まれている連載

UnicodeとUTF-8とUCS-2の関係 ――符号化文字集合？文字符号化方式？