聞いたら一生の宝,プログラミングの基礎の基礎

第5回 PostgreSQLの基礎を見直す

この記事を読むのに必要な時間:およそ 3 分

VACUUM

PostgreSQLの特徴のひとつに追記型アーキテクチャであることが挙げられます。PostgreSQLではDELETEやUPDATEを実行した際には既存の行は内部的には削除されず,後に新しいデータが追加される形で保存されていきます。DELETEやUPDATEされる前の行は不要な行としてそのまま残り続けるため,長く運用していると性能低下を起こすことがあります。

この不要領域を回収して再利用可能な状態にするのがVACUUMという機能です。テーブルロックを行わないのでサービスが動いていても実行でき,更新頻度が高いテーブルでは定期的にVACUUMを実行する必要があります。

VACUUMは内部的には不要領域を含むページが記録されているVM(Visibility Map)を参照して,ページを走査しながら不要領域を削除します。

VACUUMは以下のようにテーブル名を指定してそのテーブルに対して実行します。指定しない場合はデータベース内の全テーブルに対してVACUUMを行います。

=# VACUUM some_table;

PostgreSQL 8.3以降は自動VACUUM機能がデフォルトで有効化されているため,特に何もしなくても不要行の割合が閾値を超えたら自動的にVACUUMが実行されるようになっています。公式でも自動VACUUMは推奨されていますので,基本的に有効autovacuum=onのままで問題ないでしょう。

閾値は設定パラーメーターであるautovacuum_vacuum_thresholdautovacuum_vacuum_scale_factorを使って以下の式のように表されます。

閾値 = autovacuum_vacuum_threshold + autovacuum_vacuum_scale_factor * 行数

最後のVACUUMのあとに発生した不要行の数が上のVACUUM閾値を超えるとVACUUMが実行されます。テーブルの更新頻度やデータの件数によってこちらをチューニングしていく必要があります。

データベースごとのVACUUMやANALYZEの実行履歴は,pg_stat_user_tablesテーブルから参照できます。

=# SELECT relname, last_vacuum, last_autovacuum, last_analyze, last_autoanalyze, vacuum_count,autovacuum_count, analyze_count,autoanalyze_count FROM pg_stat_user_tables;

VACUUMはPostgreSQLの基本アーキテクチャに関わる部分で非常に重要な機能です。開発環境でVACUUM VERBOSE some_tableをして実行の流れを見てみるとどのような流れでVACUUMが行われていくのかがわかりますので,ぜひ一度確認してみてください。

参考:PostgreSQLのvacuum analyzeについて
https://teratail.com/questions/13605

全文検索モジュールpg_bigm

PostgreSQLではさまざまなモジュールが利用できます。その中でも最も導入が簡単で効果の大きいものがpg_bigmというモジュールです。

pg_bigmモジュールはGINインデックスを利用した全文検索を実現するモジュールで,ブログ記事のような文書内の部分一致検索LIKE '%word%'の速度を大幅に向上させることができます。pg_trgmというPostgreSQLの公式モジュールには,日本語の検索にはPostgreSQLの再ビルドが必要で,かつ2文字以下の検索はインデックスが利用されないという欠点がありました。これに対してpg_bigmはこの2つの欠点を解消したものとなっています。また=%という演算子を利用することで類似度検索にも対応します。

インストール方法は非常に簡単です。pg_bigmの公式ページの指示通りにビルドしてインストールした後に,postgresql.confに以下の2行を追記します。PostgreSQL 9.2以降であれば下のcustom_variable_classesの行は不要です。

shared_preload_libraries = 'pg_bigm'
# custom_variable_classes = 'pg_bigm' # PostgreSQL 9.1以前

そして拡張を有効化します。

=# CREATE EXTENSION pg_bigm;

これで,GINインデックスを張ったカラムに対しての全文検索でpg_bigmが適用されるようになります。

=# CREATE INDEX post_body_gin_index ON posts USING gin(body gin_bigm_ops);

pg_bigmを無効化する場合はDROP EXTENSIONで無効化します。

=# DROP EXTENSION pg_bigm CASCADE;

pg_bigmを使った全文検索では,私が試してみたところ,2万件ほどの文章データでシーケンシャルスキャンのときと比較して,10倍以上高速化したことがあります。

全文検索にはGroongaやElasticSearchのような高機能な全文検索エンジンも効果的ですが,まずPostgreSQLの中でpg_bigmのようなモジュールを導入して簡便に高速化するのも非常におすすめです。

参考:PostgreSQLで,全文検索を行う為のGINとGiSTインデックスの使い分けについて
https://teratail.com/questions/1178

最後に

今回は,PostgreSQLの運用で忘れがちなもっとも基礎的で理解しておくべき部分を説明していきました。teratailではPostgreSQLに関する質問や回答も多く投稿されていますので,疑問点ができたらどんどん質問してみるとよいと思います。

teratail
https://teratail.com

著者プロフィール

出川幾夫(でがわいくお)

レバレジーズ株式会社 teratail開発エンジニア。

サーバサイドの開発を中心に,フロントエンドやインフラなど幅広い領域を担当。

物心ついた時からのApple信者で,Appleのデバイスをそれぞれじっくり使い倒すのを至上の喜びとしている。好きな野菜はネギ。

Twitter:@ikuwow