アンケートご協力のお願いgihyo.jpでは,2010年度に向けて豪華プレゼントが当たる読者属性アンケートを実施しております。ご協力ください。

gihyo.jp » ADMINISTRATOR STAGE » 連載 » 本当は怖い文字コードの話 » 第8回 Unicodeからの多対一の変換[後編]

本当は怖い文字コードの話

第8回 Unicodeからの多対一の変換[後編]

前回は,WindowsにおいてWideCharToMultiByte APIを使用してUnicodeからShift_JISやISO-8859-1へ変換した場合に,WC_NO_BEST_FIT_CHARSというフラグを指定しなかった場合は「似ている文字への変換」が発生するため,セキュリティ上の問題が発生する可能性がある,という説明をしました。

今回は,実際にUnicodeから他の文字コードへの変換が,具体的に脆弱性を引き起こした例をいくつか紹介します。

電子メールの添付ファイル

電子メールの添付ファイル名には自由にUnicodeの文字が指定できますが,いくつかのメールクライアントにおいては添付ファイル名をUnicodeではなくShift_JISとして扱うために,問題が発生していました。

いくつかのメールクライアントは,添付ファイル名をUnicodeからShift_JISに変換して開こうとしますので,添付ファイルにU+00A9のコピーライトマーク「©」を使った「©ON」やU+00A5の円記号「¥」を使った「¥..¥..¥windows¥win.ini」のようなファイル名を与えると,Shift_JISへの変換の結果ファイル名が「CON」というWindowsでの予約デバイス名や,「﹨..﹨..﹨windows﹨win.ini」(﹨は0x5Cのバックスラッシュすなわちディレクトリ区切り記号)となり,メールクライアントが固まる,あるいは既存のファイルを上書きして添付ファイルを展開してしまうという問題がありました。

検索エンジンのインデックス生成

検索エンジンであるHyper EstraierのWindows版は,インデックス対象のファイル名をShift_JISとして扱います。

このとき,NTFSやFAT32といったWindowsでの一般的なファイルシステム上ではファイル名はUnicodeで保存されていますので,ファイル名のUnicodeからShift_JISへの暗黙的な変換が発生します。攻撃者がたとえば共有ディレクトリなどにU+00A9のコピーライトマーク「©」を使った「©ON」やU+00A5の円記号「¥」を使った「¥..¥..¥windows¥win.ini」のような名前のファイルを事前に作成しておくと,それらをShift_JISに変換した「CON」「﹨..﹨..﹨windows﹨win.ini」といったファイルを検索対象としてインデックス登録してしまうため,インデックスの生成が終わらない,検索対象外のディレクトリのファイルをインデックスに追加してしまうといった問題がありました。

MySQL Connector/JにおけるSQLインジェクション

MySQL Connector/JのPrepared Statementはクライアントサイドとサーバサイドの2種類のPrepared Statementがあり,デフォルトではクライアントサイドのPrepared Statementが使用されます。クライアントサイドでのPrepared Statementではクライアント上で内部的にSQLが生成されますが,characterEncodingパラメータがShift_JISやEUC-JPに設定に設定されている場合やMySQL側でcharacter_set_server=cp932などに設定されている場合には,SQLの生成においてUnicodeからそれらの文字エンコーディングへの変換が発生します。

このとき,SQL内にU+00A5の円記号「¥」やU+20A9のウォン記号「₩」が含まれていると,0x5Cのバックスラッシュ「﹨」に変換されるため,SQLインジェクションが発生してしまうという問題がありました。

対策

このように,Unicodeから他の文字エンコーディングへの変換によって引き起こされる脆弱性というのは,さまざまなソフトウェアのさまざまな個所で発生しています。

気をつけなければいけないのは,「Unicodeから他のエンコーディングへの変換」が開発者も意識していない暗黙のうちに発生することがあるという点です。

たとえば,旧来のC言語のスタイルでargc/argvのメカニズムを使用してコマンドライン引数を取得した場合には,WindowsからUnicodeで渡されたコマンドライン引数がランタイムライブラリ内でShift_JISに変換されます。また,Unicodeをサポートせずに書かれたプログラムがディレクトリのファイルを列挙した場合にはANSIバージョンのFindFirstFileAが呼び出され,ファイルシステム上ではUnicodeで保存されているファイル名がAPI内部でShift_JISに変換されてプログラムに渡されます。

また,それ以外にも外部DLLの呼び出し時の引数の変換(たとえばVBにおけるDLLとの文字列の受け渡しやC#におけるDllImportでのCharSet=CharSet.AutoあるいはCharSet=CharSet.Ansiの指定など),クリップボードからCF_TEXTを指定してのANSI文字列としてのテキストの取得など,プログラマが明示的に意識していない場合でもUnicodeからShift_JISへ変換される機会は多数あります。

これらの変換においては,WC_NO_BEST_FIT_CHARS を指定していない「似ている文字への変換」と同様の変換方法が使用されるため,脆弱性につながることになります。

前回も説明しましたが,

  1. Unicodeで文字列の検査を行う
  2. Unicodeから他のエンコーディングに変換
  3. 変換された文字列を使用する

という処理の流れににおいて,本来であれば1.でフィルタリングされるべき文字が含まれてしまうというのが問題ですので,根源的な対策としては「文字列を最初から最後までUnicodeとして扱い,他の文字エンコーディングへの変換を発生させない」というのが最も有効です。

あるいは,どうしても他のエンコーディングへの変換が必要となる場合には,文字列の検査の後に文字エンコーディングの変換が発生しないように,

  1. Unicodeから他のエンコーディングに変換
  2. 変換された文字列の検査を行う
  3. 変換された文字列を使用する

といった流れになるようにしなければいけません。

著者プロフィール

はせがわようすけ

ネットエージェント株式会社 研究開発部。
Unicodeなどの文字コードが引き起こすセキュリティ上の問題点について調査・研究を行っている。Internet Explorer,Mozilla Firefox をはじめソフトウェア製品およびWebアプリケーションに関する脆弱性を多数発見。

URLhttp://utf-8.jp/

コメント

コメントの記入

パスサポ

多数の情報処理技術者試験対策書籍の発行実績を誇る技術評論社がお届けする,資格試験合格サイト「めざせ! 情報処理試験 パスサポ」が開設されました。

ピックアップ

サクセスストーリーに続く,快適サーバー運用管理のヒント!

データの増大,煩雑な管理,システムダウン,セキュリティなど,迫りくる課題からシステム管理者の負担を軽くするポイントを解説します。

gihyo.jp インフラエンジニア情報局

ネットワークやITにかかわるあらゆる業種で必要とされるインフラエンジニアに向けた技術情報や心構え,その魅力について多角的に紹介。

テストエンジニア ステーション

いま,ITに関わるあらゆる開発業務で注目されつつあるテスト系エンジニアをターゲットにしたコンテンツサイトを展開します。

一行クイックアンケート

gihyo.jpで取り上げてほしいネタは?

※検索はページ右上の検索ボックスをご利用ください。

その他の連載

キーパーソンが見るWeb業界

本連載はWeb Site Expert/gihyo.jpとの連動企画です。阿部淳也, 長谷川敦士, 森田雄のお三方による,Web業界をテーマにした座談会です。

きたみりゅうじの聞かせて珍プレー

ソフトウェア開発の現場で体験したトホホな失敗,思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます!

ActionScript 3.0で始めるオブジェクト指向スクリプティング

野中文雄氏が,簡単なスクリプトは書いたことがあるという初級者を対象に,ActionScript 3.0の基本からクラス定義までを解説します。

まだ間に合う「ITパスポート」受験対策 原山先生の短期合格塾

この連載では,4月18日のITパスポート試験の受験に向けて,短い期間で効率良く受験対策を行う方法や,確実に得点するための裏ワザなどを伝授していきます。

Ubuntu Weekly Recipe

Ubuntuの強力なデスクトップ機能を活用するための,いろいろなレシピをお届けします。

C/C++プログラマのためのDTrace入門

よくカーネルのチューニングや解析で活用されるDTraceですが,実はユーザプログラムの開発においても非常に有用です。連載ではC/C++プログラマやテストに関わる方向けにDTraceの使い方を解説します。

Blogopolisから学ぶ計算幾何

計算幾何学は,図形に関するアルゴリズムを研究するコンピュータサイエンスの一分野です。本連載では,ビジュアルブログ検索エンジン「Blogopolis」で採用されている計算幾何のアプローチを例に取り上げながら,計算幾何の初歩を実践的に学習します。

検索エンジンはいかにして動くのか?

本連載では, 今や誰もが利用している検索エンジンの中身を,全体の仕組みやデータ構造,アルゴリズムから分散インデックスまで,最近の研究事例も交えて紹介します。

連載一覧

gihyo.jp

  • DEVELOPER STAGE
  • ADMINISTRATOR STAGE
  • WEB+DESIGN STAGE
  • LIFESTYLE STAGE
  • SCIENCE STAGE
  • NEWS & REPORT

書籍案内

  • 新刊書籍
  • 書籍ジャンル一覧
  • 書籍シリーズ一覧
  • 新刊ピックアップ
  • ロングセラー
  • 電脳会議

定期刊行物一覧

  • Software Design
  • WEB+DB PRESS
  • Web Site Expert
  • 組込みプレス