この記事を読むのに必要な時間:およそ 2 分
はじめに
私たちが通常,C言語やPerl,Javaなどの手続き型言語(またそれに基礎を持つ言語)を使ってプログラミングを行う場合,最も多用する基本的な制御構造が分岐とループです。この2つを使わずにプログラミングしろ,と言われたら,それはかなりきつい制約になるでしょう。腕試しや暇つぶしに試すにはおもしろいかもしれませんが,およそ実務的なコーディングは不可能になるに違いありません。
話は,SQLとデータベースの場合でも同じです。SQLにおいても,やはり分岐とループは非常に重要な役割を果たす機能であり,SQLプログラミングの際にこの2つの機能を欠かすことはできません。しかしながら,手続き型言語を使いこなすプログラマの多くが,なぜかSQLを使う段になると思い通りの制御構造を記述できないことに苛立ちを感じ,結果,非効率的なSQL文が多く生み出されています。これはなぜでしょう?
SQLで分岐とループを表現すること自体は,何の問題もなく可能なのです。通常の手続き型言語で表現可能なアルゴリズムはすべてSQLでも表現可能なことが知られています。それなのに,なぜ多くのプログラマやエンジニアがSQLに戸惑いを感じるかといえば,その処理の基本単位の違いに無頓着なままだからです。
手続き型言語が「文(statement)」を基本単位として分岐やループを記述するのに対し,SQLの基本は「式(expression)」です。これがSQLが「宣言的」と呼ばれる特徴の1つなのですが,長い間手続き型の考え方に親しんできたエンジニア(私たちのほとんどすべて,ということですが)は,この点に無自覚なままSQLを扱い,その力を十全に引き出すことができないままフラストレーションを溜めます。これは,私たちにとってもSQLにとっても不幸なことです。
そこで本章ではまず,SQLにおいて分岐を表現する強力な道具である「CASE式」について学び,その使い方をマスターしていきたいと思います(ループについては,次章で取り上げます)。
なお,本特集で取り上げているSQLは,SQL92/99/2003準拠のもので,RDBMSはPostgreSQL 8.3,MySQL 5.0,Oracle 10g リリース2(10.2),DB2 9.1,SQL Server 2005を対象としています。また,OLAP関数は標準SQLの新しい機能であり,PostgreSQLとMySQLではまだサポートされていません。
ウォーミングアップ:条件に応じて使う列を切り替える
CASE式は,SQLにおいて条件分岐を記述するために導入された非常に重要な機能です。その名前が示すとおり「式」であるため,SQLの実行時には評価されて単一のスカラ値(注1)に定まるところに特徴があります。C言語やVBなどのCASE文と見た目が似ているので同じような感覚で使われることがありますが(特に終端子の「END」が,一連の手続きの終わりを示すように錯覚しやすい),それではCASE式の強みを十分に引き出せません。
CASE式の特性を理解するために,ちょっとした練習から始めましょう。表1のサンプルテーブルを使います。
表1 ChangeColsテーブル
year | col_1 | col_2 |
1998 | 10 | 7 |
1999 | 20 | 6 |
2000 | 30 | 5 |
2001 | 40 | 4 |
2002 | 50 | 3 |
ChangeColsは年単位で何らかの数値を管理しているテーブルですが,具体的に数値が何を意味するかは今は気にしないでください。このテーブル自体に特におかしなところはないのですが,ある日,あなたのもとに妙な要件が持ち込まれてきます。それは,2000年まではcol_1の値を使って,2001年からはcol_2の値を使って集計をしたい,というものです。求める結果は図1のような形です。
図1 求める結果
year new_col
----- -------
1998 10 ← col_1
1999 20 ← col_1
2000 30 ← col_1
2001 4 ← col_2
2002 3 ← col_2
いわば,行によって使う列を変えて1列にまとめる,というイメージです。このテーブルがファイルで,手続き型言語で1行ずつ読み出すのであれば,各行のyear列の値によって条件を分岐させ,使うフィールドを変える,ということになるでしょう。SQLでもその考え方は変わりません。リスト1のように記述します。
リスト1 列の切り替え(SELECT句で)
SELECT year,
CASE WHEN year <= 2000 THEN col_1
WHEN year >= 2001 THEN col_2
ELSE NULL END AS new_col
FROM ChangeCols;
条件を記述するWHEN句は手続き型言語と同じですが,CASE式に特徴的なのは,THENのあとの実行部です。C言語などでは,ここで変数new_colにcol_1(またはcol_2)の値を「代入」する文を記述しますが,SQLにおいてはcol_1,col_2を直接に戻り値としています。あたかも「2つで1つの列」のような返し方をするわけです。
式は列や定数を記述できるところには常に記述できますから,リスト2,図2のようにWHERE句で利用することも問題なく可能です。
リスト2 WHERE句での利用
SELECT year
FROM ChangeCols
WHERE 4 <= CASE WHEN year <= 2000 THEN col_1
WHEN year >= 2001 THEN col_2
ELSE NULL END;
図2 リスト2の実行結果
year
----
1998
1999
2000
2001
これは,先ほどのクエリで作ったnew_colの値が4以上の年度を選択するクエリです。右辺のCASE式は,一見すると値には見えませんが,ちゃんと実行時には評価されて「10」や「3」などの単一の値(=スカラ値)になります。だからこそ,このように比較述語の引数に取ることも可能なのです。