BK通信 ―Bad Knowhow Tsushin―
#06 文字コードのバッドノウハウ[最終回]
ソフトウェアなどを使いこなすために,ストレスを感じながらもしぶしぶ覚えなければならないようなノウハウ,「バッドノウハウ」がテーマの本連載,最終回の今回は文字コードのBKを取り上げたいと思います。
文字コードとバッドノウハウ
文字コードは,Web開発を行う上で避けては通れない分野です。文字化けを起こさずに,コンテンツをブラウザに正しく表示させることはWeb開発の基本といえます。
しかしながら,文字コードには歴史的な紆余曲折がいろいろあり,膨大なバッドノウハウが人類の英知として蓄積されています。今回は,その膨大なるBKの一部を紹介したいと思います。
機種依存文字は滅びず
文字コードのBKといえば,機種依存文字の存在を忘れてはなりません。インターネットの世界では,古くから「①などの丸付き数字は機種依存文字だから使うな」といわれています。これらの文字はその昔「NEC特殊文字」と呼ばれ,Macとの相性が悪いことで知られていました。たとえば,「①」が含まれるテキストファイルをWindowsで作ってMacで開くと「(日)」と表示されるといった具合です(注1)。
この問題は最近ではどうなったのかと思い,調べてみました。まず,丸付き数字① ② ③を含むページをCP932という文字コード(注2)で保存し,Macのブラウザで表示してみました。その結果,Firefox,Safariとも,問題なく丸数字を表示できました(図1・注3)。幸いなことに,最近のMacのブラウザではこの問題は解決しているようです。
次に,丸付き数字①②③を含むメールをISO-2022-JP(注4)という文字コードで送信し,MacのMailで受信してみました(注5)。結果はなんと...(図2)。
見事に文字化け。機種依存文字という言葉は最近あまり聞かなくなりすでに克服されていると思っていたのですが,まだまだ健在のようです。

- 注1)
- 機種依存文字についての詳しい解説が以下にあります。とくに,Appleの歴史は興味深い内容です。URL:http://mikeneko.creator.club.ne.jp/~lab/kcode/vendor.html
- 注2)
- Shift_JIS を拡張して,NEC 特殊文字などを含めた文字コード。以下に詳しい解説があります。同じ文字が重複して登録されているなど,奥が深い文字コードです。たとえば,髙はEEE0 でもFBFC の2 つのコードを持ちます。
- 注3)
- Mac OS X 10.5のSafari 3.0.4,Firefox 3.0.5 動作確認。
- 注4)
- 厳密にはISO-2022-JP はこれら文字を含みませんが,Windows 上の多くのメーラでは送ることができます。
- 注5)
- Mac OS X 10.5のMail 3.5。
絵文字をめぐる混乱
携帯電話の世界では欠かせない絵文字,これも機種依存文字の一種といえます。各キャリアごとに使える絵文字が異なり,使われている文字コードも異なります。たとえば,太陽の絵文字を各キャリアのShift_JIS(注6)で扱うにはDoCoMoの場合F89F,auの場合F660,SoftBankの場合F98Bというコードになります(注7)。
さらに厄介なことに,SoftBankの一部の絵文字は「IBM拡張文字」との互換性にも問題があります。たとえば,名字に使われる「瀨」という文字はCP932ではFB50というコードが割り当てられていますが,SoftBankのShift_JISではFB50はショックを受けた顔文字になります(図3・注8)。
これらの混乱のため,ネット上には絵文字に関する膨大なBKが蓄積されています。PerlのEncode::JP::Mobileといった相互変換ライブラリや,Six Apartの自由に使える絵文字アイコン画像といった先人の成果により,絵文字の扱いはだいぶ楽になりつつあります。
また,最近ではUnicodeの専門家等によるemoji4unicodeプロジェクトが発足し,絵文字をUnicodeに追加する計画が進行しています。絵文字の混乱を鎮めるためにはまだまだ多くの労力が必要そうです。
絵文字の登場により,機種依存文字の悪夢が再びやってきた,といった感じでしょうか。

- 注6)各キャリアともに絵文字を追加した独自のShift_JISを定義しています。
- 注7)
- 絵文字にはほかにも,auの<img localsrc>やSoftBankの「Webコード」といった恐るべきBKがあります。興味のある方は調べてみてください。
- 注8)
- SoftBank 913SHで動作確認しました。
BK通信 ―Bad Knowhow Tsushin―
- #06 文字コードのバッドノウハウ[最終回]
- #05 ブラウザのバッドノウハウ コンテンツ編
- #04 ブラウザのバッドノウハウ <form>編
- #03 C++のバッドノウハウ
- #02 数字のバッドノウハウ
- #01 JavaScriptのバッドノウハウ




