なぜPHPアプリにセキュリティホールが多いのか?

第16回XPathインジェクション(その1)

新しいシステムや規格が登場した場合、そのシステムや規格の仕様を理解してから使わないとセキュリティ上の問題が発生します。何も考えないで「動くだけ」のコードを書いても問題ない場合もありますが、多くの場合、規格や仕様を理解していないとセキュリティ上の問題が発生します。

XMLデータベースも一般的に利用されるようになり、XPathも一般的に利用されるようになってきました。次回以降にXPathのセキュリティ問題を解説するため、簡単にXPathについて解説します。より詳しいXPath入門は書籍や仕様書などを参照してください。今回はXPathの基本を紹介するのみとなります。

XPath入門 ─ XPathとは

XPathとは、XML文書から必要な情報を取得するための規格です。W3Cで規格が策定されています。

XPath 1.0は1999年にリリースされ、XPath 2.0は2007年にリリースされた規格です。XPath 2.0は比較的新しい規格でXPath 1.0のスーパーセット(XPath 1.0を包含する規格)として開発され、XPath 1.0互換モードも定義されています。XPath 1.0とXPath 2.0では表現の記述方法が異なります。

XPathとほかのXML規格

XPathはXSLT、XQuery、XLink、XPointer規格にも含まれています。

図1 XQueryとXPath
図1 XQueryとXPath

出典:XQeury+XMLデータベース入門(日経BP出版センター)

XQueryは文書やデータベース、WebページなどXMLデータソースを統合するクエリ言語です。図からも解るようにXPath 2.0はXQueryの基礎となる規格となっています。

PostgreSQL8.3とXPath

PostgreSQL 8.3からXPathを利用してXMLテキストから情報を取得可能になりました。PostgreSQL 8.3にはXML型のデータ型とXML型のデータを取り扱うXML関数が追加されました。XPathを利用してXML文書を検索するためにデータベースは必要ありませんが、XPathを実効する環境としてPostgreSQL 8.3を紹介します。

PostgreSQL 8.3のXML型

PostgreSQLはXML文書をテキストのまま保存せず、パースした状態のデータをXML型として保存します。XML型コラムにそのままXML文書は保存できないのでxmlparse関数を利用して変換します。

XMLPARSE ( { DOCUMENT | CONTENT } value)
XML文書の場合
XMLPARSE (DOCUMENT '<?xml version="1.0"?><book><title>Manual</title><chapter>...</chapter></book>')
XMLコンテンツの場合
XMLPARSE (CONTENT 'abc<foo>bar</foo><bar>foo</bar>')

このほかにも::xmlを利用してテキストをXML型にキャストすることも可能です。詳しくは

を参照してください。

XPath関数

PostgreSQL 8.3にはXML型コラムやXMLテキストにXPath1.0のクエリを実行するxpath関数が追加されています。

xpath(xpath, xml [, nsarray])

XMLサポートを有効にしたPostgreSQLサーバにpsqlを利用して接続すると、XPathクエリが行えることが解ります。

yohgaki@[local] ~=# create table xml_test (id int, data xml);
yohgaki@[local] ~=# insert into xml_test(id, data) values (1, xmlparse(content  'abc<foo>bar</foo><bar>foo</bar>'));
yohgaki@[local] ~=# insert into xml_test(id, data) values (2, xmlparse(content  'abc<foo>bar2</foo><bar>foo2</bar>'));
yohgaki@[local] ~=# select xpath('/foo//text()', data) from xml_test ;
 xpath
--------
 {bar}
 {bar2}
(2 rows)

Time: 0.391 ms

PostgreSQLをご存知の方なら⁠{bar}⁠⁠、⁠{bar2}⁠と結果が配列型で返ってきていることが解ります。XMLでは同じ要素名の要素が複数あっても構わないので、PostgreSQLは配列型を返します。

XPathの基本

本記事の目的はXPathインジェクション対策が目的ですから、すべての構文は解説しませんが、次回はもう少し詳しくXPath言語を解説します。先ほどの例

select xpath('/foo/text()', data) from xml_test ;

'/foo//text()'

がXPathの表現です。言葉に訳すと

“/⁠(ルート)以下にある⁠foo⁠要素の⁠text⁠を取得せよ

となります。先の例の場合、2つのレコードがあるので2つの結果が返ってきています。

yohgaki@[local] ~=# select xpath('/foo//text()', data) from xml_test ;
 xpath
--------
 {bar}
 {bar2}
(2 rows)

“/⁠以下の要素全てを取り出すには

yohgaki@[local] ~=# select xpath('/*', data) from xml_test ;
               xpath
-----------------------------------
 {<foo>bar</foo>,<bar>foo</bar>}
 {<foo>bar2</foo>,<bar>foo2</bar>}
(2 rows)

Time: 0.373 ms

余計な⁠abc⁠がなくなっていますが、普通にSELECTするとデータ全体が保存されていることが分かります。

yohgaki@[local] ~=# select * from xml_test ;
 id |               data
----+-----------------------------------
  1 | abc<foo>bar</foo><bar>foo</bar>
  2 | abc<foo>bar2</foo><bar>foo2</bar>
(2 rows)

Time: 0.246 ms

まとめ

XPathを利用すると、とても簡単にXML文書からデータを取り出せることが解ります。PostgreSQLはXQeuryはサポートしていませんが、XPath 1.0をサポートしているので基本的な操作は可能になっています。XQeuryをサポートするシステムであればFLOWR(フラワー)構文を利用してさらに高度なクエリが可能です。本連載ではXQeuryの解説は行いません。興味をお持ちの方は書籍などを参考にしてください。

次回はPHP本体に付属しているDOMモジュールのXPath関数を利用し、より複雑なXPath表現を紹介します。

おすすめ記事

記事・ニュース一覧