アンケートご協力のお願いgihyo.jpでは,2010年度に向けて豪華プレゼントが当たる読者属性アンケートを実施しております。ご協力ください。

gihyo.jp » ADMINISTRATOR STAGE » 連載 » 本当は怖い文字コードの話 » 第4回 UTF-8の冗長なエンコード

本当は怖い文字コードの話

第4回 UTF-8の冗長なエンコード

今回は,文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。

UTF-8とは

UTF-8は,各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。

U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため,US-ASCIIと互換性がある,バイト列の途中からでも文字の先頭バイトを簡単に検出できる,多バイト文字の途中に0x00や0x5C(\),0x2F(/)などが現れない,などの特徴があります。

UTF-8での文字のビットパターンは表1のようになります。

表1 UTF-8でのビットパターン

Unicode文字範囲UTF-8でのバイト列
U+0000~ U+007F0xxxxxxx
(00~7F)
U+0080~ U+07FF110xxxxx  10xxxxxx
(C2~DF) (80~BF)
U+0800~ U+FFFF1110xxxx  10xxxxxx  10xxxxxx
(E0~EF) (80~BF)  (80~BF)
U+10000~
U+10FFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
(F0~F7)(80~BF)(80~BF)(80~BF)

たとえば,ひらがなの「あ」をUTF-8で表現すると,図1のように0xE3 0x81 0x82というバイト列になります。

図1 「あ」のUTF-8でのエンコード方法

図1 「あ」のUTF-8でのエンコード方法

冗長なエンコードとは

先に述べたとおり,UTF-8ではU+0000からU+007Fまでの範囲の文字はUS-ASCIIと互換を持ち,0x00~0x7Fとなりますので,多くのOSでのパス区切り記号として使われる「/」(U+002F)は0x2Fとなります。

ところが,これを表1のU+0000~U+007F以外の欄に無理やり当てはめて,1バイト以外の形式で表現することができてしまいます(表2)。

表2 「/」のUTF-8でのエンコード

正しいエンコード0x2F
不正なエンコード0xC0 0xAF  (2バイト表現)
0xE0 0x80 0xAF  (3バイト表現)
0xF0 0x80 0x80 0xAF (4バイト表現)

図2に,3バイトで「/」をエンコードするときのビットパターンを示しておきます。

図2 「/」の不正なエンコード方法(3バイトでの表現)

図2 「/」の不正なエンコード方法(3バイトでの表現)

このように,UTF-8では特定の文字を複数の形式のバイト列で表現できるため,

  1. 処理A=UTF-8のデータ中に「/」等の文字が含まれていないか検査を行う
  2. 処理B=処理AからUTF-8のデータを受け取り,UTF-16等に順次解釈しながら処理する

のような流れのときに,処理Aが冗長なUTF-8を意識せずに検査していると,UTF-16に変換したデータ中に処理Aでフィルタリングされるべき文字が含まれてしまうことになります。

このような問題が発生することを防ぐため,現在のUnicode仕様ではバイト数が最小になるもの以外は不正なバイト列であるとして,UTF-8として解釈することを明確に禁止しています。

これまでにこのUTF-8の冗長なエンコードの問題の影響をもっとも大きく受けたのは,おそらく2001年のNimdaウイルスによる被害のときでしょう。Nimdaウイルスは複数の感染経路を持っていましたが,そのうちの1つがIISの冗長なUTF-8のリクエストによるパストラバーサル(実際には,当時すでにMS00-057というパッチが提供されていましたが)でした。

対策

現在のほとんどのOSやライブラリ,フレームワークなどのミドルウェアでは,このような冗長なUTF-8表現は禁止されていると考えられます。そのため,冗長なUTF-8による検査の漏れを防ぐもっとも最善の方法は,UTF-8の検査や他の符号化形式への変換をライブラリやフレームワークに任せ,「自前でUTF-8を処理しない」ということに尽きます。

また「CVE-2008-2938: Apache Tomcat におけるディレクトリトラバーサルの脆弱性」のように,比較的最近でもUTF-8の冗長なエンコーディングによる問題は発生していますが,当然ながらこういった問題は個々のWebアプリケーションではなくフレームワーク側で修正すべき問題ですので,使用するフレームワーク等に問題があることが事前に判明しているのではない限り,自前でUTF-8の検査や他の符号化形式への変換を行うのではなくフレームワーク等に任せるべきです。

UTF-8からUTF-16などへの変換は,比較的簡単にビット操作などで書くことができてしまうため,つい自前で実装してしまいたくなりますが,よほどの理由がない限りそういった処理はライブラリやフレームワークなどの信頼できる処理系に任せるべきでしょう。

著者プロフィール

はせがわようすけ

ネットエージェント株式会社 研究開発部。
Unicodeなどの文字コードが引き起こすセキュリティ上の問題点について調査・研究を行っている。Internet Explorer,Mozilla Firefox をはじめソフトウェア製品およびWebアプリケーションに関する脆弱性を多数発見。

URLhttp://utf-8.jp/

コメント

コメントの記入

パスサポ

多数の情報処理技術者試験対策書籍の発行実績を誇る技術評論社がお届けする,資格試験合格サイト「めざせ! 情報処理試験 パスサポ」が開設されました。

ピックアップ

サクセスストーリーに続く,快適サーバー運用管理のヒント!

データの増大,煩雑な管理,システムダウン,セキュリティなど,迫りくる課題からシステム管理者の負担を軽くするポイントを解説します。

gihyo.jp インフラエンジニア情報局

ネットワークやITにかかわるあらゆる業種で必要とされるインフラエンジニアに向けた技術情報や心構え,その魅力について多角的に紹介。

テストエンジニア ステーション

いま,ITに関わるあらゆる開発業務で注目されつつあるテスト系エンジニアをターゲットにしたコンテンツサイトを展開します。

一行クイックアンケート

gihyo.jpで取り上げてほしいネタは?

※検索はページ右上の検索ボックスをご利用ください。

その他の連載

読むウェブ ~本とインタラクション

ディスプレイで読む活字とそのインタラクション(interaction:相互作用)について,最新Webを紹介しながら読み解いていく。

いま,見ておきたいウェブサイト

この連載では,国内外の最新のウェブサイトを隔週更新で取り上げ,これら最新サイトの特徴や素晴らしい部分を,さまざまな角度から解説していきます。

Windows phoneアプリケーション開発入門

Windows Marcketplace for Mobileがサービス開始され,作成したアプリケーションを個人でも世界をターゲットに公開できる環境が整ってきました。これを機にWindows phoneアプリケーションの開発をしてみませんか?

ここは知っておくべき!Windows Server 2008技術TIPS

5年ぶりのサーバOSとなったWindows Server 2008が出荷されて早2年。2009年にはR2が出荷され,再び注目を集めています。発売前から実施したトレーニングによって感じた,インフラエンジニアの方々に知っておいていただきたい機能を中心にご紹介します。

キーパーソンが見るWeb業界

本連載はWeb Site Expert/gihyo.jpとの連動企画です。阿部淳也, 長谷川敦士, 森田雄のお三方による,Web業界をテーマにした座談会です。

きたみりゅうじの聞かせて珍プレー

ソフトウェア開発の現場で体験したトホホな失敗,思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます!

ActionScript 3.0で始めるオブジェクト指向スクリプティング

野中文雄氏が,簡単なスクリプトは書いたことがあるという初級者を対象に,ActionScript 3.0の基本からクラス定義までを解説します。

まだ間に合う「ITパスポート」受験対策 原山先生の短期合格塾

この連載では,4月18日のITパスポート試験の受験に向けて,短い期間で効率良く受験対策を行う方法や,確実に得点するための裏ワザなどを伝授していきます。

連載一覧

gihyo.jp

  • DEVELOPER STAGE
  • ADMINISTRATOR STAGE
  • WEB+DESIGN STAGE
  • LIFESTYLE STAGE
  • SCIENCE STAGE
  • NEWS & REPORT

書籍案内

  • 新刊書籍
  • 書籍ジャンル一覧
  • 書籍シリーズ一覧
  • 新刊ピックアップ
  • ロングセラー
  • 電脳会議

定期刊行物一覧

  • Software Design
  • WEB+DB PRESS
  • Web Site Expert
  • 組込みプレス