アンケートご協力のお願いgihyo.jpでは,2010年度に向けて豪華プレゼントが当たる読者属性アンケートを実施しております。ご協力ください。

gihyo.jp » DEVELOPER STAGE » 連載 » SQLアタマアカデミー » 第7回 性能改善の鍵,インデックスの特性を知る~B-treeとハッシュ (2)ハッシュ

SQLアタマアカデミー

第7回 性能改善の鍵,インデックスの特性を知る~B-treeとハッシュ (2)ハッシュ

ハッシュ

概要

チューニング技術としてB-treeの次に重要なのは,ハッシュ(hash)です。ハッシュとは「ごちゃまぜ」とか「細切れ」という意味で,ハッシュドビーフとかハッシュポテトなどの料理名にも使われています。

ハッシュのポイントは分散です。キー値に対して適当な関数を適用して,データを格納する先のアドレスを割り当てるのですが,このときポイントなのは,異なる値のキーに対しては,異なるアドレス(それもなるべく離れた)を割り振れるかどうかです。これができるほど,ハッシュ関数として優れているということになります(図6)。

図6 ハッシュのイメージ図(ハッシュパーティションの場合)

図6 ハッシュのイメージ図(ハッシュパーティションの場合)

なおハッシュは,Postgre SQLやMy SQLのようにインデックスとして実装しているDBのほか,OracleやDB2,My SQLのようにパーティションとして実装しているDBもあります(注3)。ハッシュパーティションの場合,テーブル作成時にハッシュキーを指定して,実データそのものを分散させてしまいます。これは,より徹底したハッシュの効果が望める一方,テーブル作成後にハッシュキーを変更するのが難しいという難点があります。

注3)
Oracleは,逆キーインデックスという形で,一種のハッシュインデックスも持っています。

特性

ハッシュの特性を,先ほどのB-treeのようにチャートで示すと図7のようになります。

図7 ハッシュの評価レーダーチャート

図7 ハッシュの評価レーダーチャート

均一性

うまい具合にハッシュによるデータ分散が成功している場合,目的の1つのデータを見つけ出すために必要なコストは,1回のハッシュ関数の計算と1回のファイルアクセスだけです。したがって,ほぼ定数時間O (1)で見つけ出すことができます。これはキー値によらず該当します。

しかし現実には,なかなか完全に均等にデータを分散できるハッシュ関数はなく,キー値が異なるのに,格納先のアドレスが同じになる衝突(collision )が発生します(図8)。衝突するデータに対しては,パフォーマンスが悪化します。

図8 ハッシュで衝突が発生するとパフォーマンスが落ちる

図8 ハッシュで衝突が発生するとパフォーマンスが落ちる

持続性

ハッシュは持続性にもすぐれており,衝突がないと仮定すれば,データ量がいくら増えようと,処理速度はつねに定数時間O (1)が保証されます(図9)。

しかし,先述のように,現実にはデータ量が増大するにつれて衝突の起こる確率も増えるため,徐々にパフォーマンスは悪くなるでしょう(図9のグラフの点線が示すように)。

図9 ハッシュはデータ量がいくら増えても処理速度は定数時間

図9 ハッシュはデータ量がいくら増えても処理速度は定数時間

処理汎用性

ハッシュは,検索だけでなく,挿入/削除/更新といった処理に対しても,やはり定数時間で処理するため,非常に高い性能を発揮します。ここまで見るとハッシュというのはたいへん性能が良いアルゴリズムだと思うでしょう。実際,均一性や持続性という観点では,ハッシュはB-treeより優れる場合もあります。しかし,ここから先が悩みの種です。

非等値性

ハッシュは,たしかに検索などの処理を非常に小さい定数時間で処理するのですが,実はこれが言えるのは,あくまで1つだけのキー値を対象とした操作を考えた場合です。構造から明らかなように,ハッシュは,ランダムアクセスに特化したアルゴリズムであり,シーケンシャルアクセスにはまったく向いていません。したがって,不等号や範囲検索に対しては,何の役にも立ちません(もちろん否定条件に対しても意味がありません)(注4)。

注4)
たとえば,My SQLのマニュアルには,次のように記述されています。「[ハッシュインデックスは] <のように値の範囲を検索する比較演算子には使用されません。オプティマイザはORDER BYオペレーション速度を上げるためにハッシュインデックスを使用することはできません。」(「6.4.5. My SQLにおけるインデックスの使用」『My SQL 5.1 リファレンスマニュアル』)。

親ソート性

同様の理由から,ハッシュはソート処理の助けにもなりません。B-treeは,それ自体がソートされた配列だったので,これにアクセスすることで,実データのソートを回避することが可能でした。しかし,ハッシュにそういう効果はありません。

著者プロフィール

ミック

SI企業に勤務するDBエンジニア。主にデータウェアハウス業務に従事している。自身のサイト「リレーショナル・データベースの世界」でデータベースとSQLについての技術情報を公開している。『Web+DB Press』で「SQLアタマアカデミー」を連載中。

著書:『達人に学ぶ SQL徹底指南書』(翔泳社、2008)訳書:J.セルコ『SQLパズル 第2版』(翔泳社、2007)

SQLアタマアカデミー:サポートページ

コメント

コメントの記入

パスサポ

多数の情報処理技術者試験対策書籍の発行実績を誇る技術評論社がお届けする,資格試験合格サイト「めざせ! 情報処理試験 パスサポ」が開設されました。

ピックアップ

サクセスストーリーに続く,快適サーバー運用管理のヒント!

データの増大,煩雑な管理,システムダウン,セキュリティなど,迫りくる課題からシステム管理者の負担を軽くするポイントを解説します。

gihyo.jp インフラエンジニア情報局

ネットワークやITにかかわるあらゆる業種で必要とされるインフラエンジニアに向けた技術情報や心構え,その魅力について多角的に紹介。

テストエンジニア ステーション

いま,ITに関わるあらゆる開発業務で注目されつつあるテスト系エンジニアをターゲットにしたコンテンツサイトを展開します。

一行クイックアンケート

gihyo.jpで取り上げてほしいネタは?

※検索はページ右上の検索ボックスをご利用ください。

その他の連載

キーパーソンが見るWeb業界

本連載はWeb Site Expert/gihyo.jpとの連動企画です。阿部淳也, 長谷川敦士, 森田雄のお三方による,Web業界をテーマにした座談会です。

きたみりゅうじの聞かせて珍プレー

ソフトウェア開発の現場で体験したトホホな失敗,思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます!

ActionScript 3.0で始めるオブジェクト指向スクリプティング

野中文雄氏が,簡単なスクリプトは書いたことがあるという初級者を対象に,ActionScript 3.0の基本からクラス定義までを解説します。

まだ間に合う「ITパスポート」受験対策 原山先生の短期合格塾

この連載では,4月18日のITパスポート試験の受験に向けて,短い期間で効率良く受験対策を行う方法や,確実に得点するための裏ワザなどを伝授していきます。

Ubuntu Weekly Recipe

Ubuntuの強力なデスクトップ機能を活用するための,いろいろなレシピをお届けします。

C/C++プログラマのためのDTrace入門

よくカーネルのチューニングや解析で活用されるDTraceですが,実はユーザプログラムの開発においても非常に有用です。連載ではC/C++プログラマやテストに関わる方向けにDTraceの使い方を解説します。

Blogopolisから学ぶ計算幾何

計算幾何学は,図形に関するアルゴリズムを研究するコンピュータサイエンスの一分野です。本連載では,ビジュアルブログ検索エンジン「Blogopolis」で採用されている計算幾何のアプローチを例に取り上げながら,計算幾何の初歩を実践的に学習します。

検索エンジンはいかにして動くのか?

本連載では, 今や誰もが利用している検索エンジンの中身を,全体の仕組みやデータ構造,アルゴリズムから分散インデックスまで,最近の研究事例も交えて紹介します。

連載一覧

gihyo.jp

  • DEVELOPER STAGE
  • ADMINISTRATOR STAGE
  • WEB+DESIGN STAGE
  • LIFESTYLE STAGE
  • SCIENCE STAGE
  • NEWS & REPORT

書籍案内

  • 新刊書籍
  • 書籍ジャンル一覧
  • 書籍シリーズ一覧
  • 新刊ピックアップ
  • ロングセラー
  • 電脳会議

定期刊行物一覧

  • Software Design
  • WEB+DB PRESS
  • Web Site Expert
  • 組込みプレス