アンケートご協力のお願いgihyo.jpでは,2010年度に向けて豪華プレゼントが当たる読者属性アンケートを実施しております。ご協力ください。

gihyo.jp » ADMINISTRATOR STAGE » 特集 » FreeBSD 7.0 へようこそ » 第5回 ストレージ新時代-GEOM journaling,ZFS on FreeBSD

FreeBSD 7.0 へようこそ

第5回 ストレージ新時代-GEOM journaling,ZFS on FreeBSD

FreeBSD 7.0-RELEASEではファイルシステムとして新たに,UFS2をジャーナリング機能で高速化する「GEOM journaling」や,OpenSolarisからの移植である「ZFS」が利用できるようになった。これらの新機能はFreeBSDのポリシーに従って,安全性・安定性が確保できるまではオプション扱いであるが,筆者も含めた新しいもの好きにとっては新機能は速攻試したくなるのが人情である。結果,どちらも魅力的で今後FreeBSDでの標準が動く可能性も十分ありうるという印象を得たので報告する。

ファイルシステム発展の歴史-soft updatesとjournaling

FreeBSD 7.0-RELEASEで標準採用されているファイルシステムはUFS2といい,5.1-RELEASEから標準となった「UFS2」と4.5-RELEASEから標準となった「soft updates」との組み合わせで動いている。UFS2に至る歴史は,たとえば技術評論社『FreeBSD Expert』への筆者による寄稿※1 などを読み返して軽くおさらいしてもらうとして,ファイルシステムの進歩の歴史は常に,

  • 大容量化に対応したアクセス速度の高速化: スピード
  • ファイルシステムの完全性(filesystem integrity): 安全性

との,両立しない二つの指標をいかにバランスさせるかに知恵が使われていることを頭に入れておこう。ファイルシステムは,実際のデータと,データに関する情報(ディレクトリやユーザ情報など)であるメタデータから構成されており,特にメタデータ更新の出来不出来で,ファイルシステムは安全にも危険にも,高速にも低速にもなりうるのである。

※1
「安心,安全,UFS」三田吉郎/『FreeBSD Expert 2004』p.50(特別企画1,第1章)/技術評論社/ISBN4-7741-1953-9

一般ユーザがファイルシステムに依存したディスク書き込み性能の限界をを体感できる時は,「ports.tgz展開」のように,ファイルを無数に展開する時である(一方,2Gバイトといった大容量のファイルをコピーする時間は,ハードウェア自身の性能の限界を示している)。データ書き込みは必ずメタデータ情報の更新を伴なうが,更新するべきメタデータの数はファイルの数に比例して増加するので,メタデータ更新のオーバーヘッド分だけ手間が増加して時間がかかる。日頃の生活でも,細切れの仕事が増えれば増えるほど,仕事に取りかかるまでの下準備期間が足枷となって,全体の処理能力が低下することは筆者ならずとも一度は体験したことがあると思う。

日常生活の連想で処理スピードを向上させる方法を考えると,

  • 細切れの仕事をまとめて一気に仕上げる
  • 仕事をやった振りをして空いている時間に実行する

方法を思いつく。実際「非同期(asynchronous)書き込み」と呼ばれる方法はこの戦略を取っている。すなわち,データが一定の大きさにまとまるまでメモリ上に「溜めておき」,定期的に「後から書き込む」という仕組みである。表1のように,asyncオプションでマウントしたディスクは圧倒的に高速である。

表1  asyncマウントとsyncマウントのports.tgz(7.0-RELEASE付属)展開時間比較。:単位は秒

ファイルシステム オプション 新規展開 上書展開 削除
UFS2 非同期書き込み 46.19 58.795 24.95
UFS2 同期書き込み 145.65 142.465 92.3

ところがこの戦略,うまくいっているうちは良いが,もし事故でもあって「仕事をやった振りをして後からやろうと思っているうちにデータを紛失」しようものなら取り返しが付かなくなる。「すみませんがハードディスクが飛んでしまって云々」と方々に言い訳して仕事の割り振りをやり直す羽目になる。もしも無くしたデータが「お金の振込先リスト」だった場合を想像してもらいたい。詐欺の格好の餌食になってしまうであろう。

FreeBSDはこのような,突然電源が切れるなど,不測の事態が起こったときにもファイルシステムの完全性を保てること,具体的には全ての瞬間で,どこまでのメタデータが正常で,どこからが正常でないかを切りわけられることをインテグリティ(integrity)と呼んで重要視している。このファイルシステムインテグリティが保てないと,システムの予期せぬ終了の後,いきなりファイルが他人のものになったり,1つのファイルが2つのオーナーに化けたりすることが考えられ,セキュリティ上重大な問題となる。

特に,データの書き込み途中で電源が切れた場合,このような問題が起こりうるわけで,4.6-RELEASE以前のFreeBSDでは遅いが最も安全な「同期書き込み」(データが来た時点でディスクに書き込む)方法を使っておいたが,4.6-RELEASE以降では遅延書き込みのもう一つの方法として,「soft updates」という方式を採用したのである。soft updatesは,たとえばデータを更新するときに,

  1. まっさらの領域に実体のデータとメタデータの領域を確保し
  2. データとメタデータが完全に用意できた時点で
  3. 新しい実体へのポインタを張り直す

という戦略を取っている。この手法を使えば,メタデータを作成して書き込み待ちの途中に電源が突然切れたとしても,どこからも参照されていないメタデータがディスクに残るだけなので,「fsck」プログラムによって,ゆっくりとこのゴミを取り除けばよい。このようにしてファイルシステムの完全性は何時も保ったまま,実際のディスクにはまとめて後から書き込むという戦略のお蔭で,ファイルシステムの完全性を保証したまま,同期書き込みに比べて1.5倍の速度向上を実現したのである。

FreeBSDでは現在までのところ,UFS2とsoft updatesの組み合わせが,ファイルシステムの完全性を常に保った上で,なおかつファイル生成削除時に体感できるメタデータ更新のスピードとのバランスが最も良く取れているということで,しばらく(少なくとも4年間)の間標準の座を不動のものとしている。確かにUFS2+soft updates,さらにバックグラウンドfsck三羽烏で颯爽と登場した5.1-RELEASEに接したとき,「UFS最強」と筆者も思ったものである。この最強トリオに打ち勝って標準を取るにはよほどのメリットが必要とされるので,新機能の開発者には辛いハードルであると同時に,ハック冥利に尽きるというものである。

本稿で紹介するGEOM journalingは,「これから行うメタデータ変更の予定を日誌(journal)に書き出しておいて,ジャーナルの記入が終了したところで実際のデータ更新を行う」という方針である。記入が終わっていないjournalのパートを単純に無視することで完全性を保証できる(ZFSも同上の方針である)。この方式の最大のメリットは,突然のシステム停止から再起動をした後でもfsckをかける必要がないことである。7.0-RELEASEではシステムを働かせながらファイルシステムのチェックを行う,background fsckが標準であるので,マシンが異常終了してから再起動するまでの待ち時間は正常時とほとんど変わらないとはいいながら,fsck中のあのハードディスクのガリガリ時間が嫌な読者には朗報であろう。

UFS2+GEOM journalingを使ってみよう

GEOM journalingについてのまとまった論文はまだなく,マニュアルページ,開発者のPawel Jakub Dawidek氏のメール,またはソースコードなどが手掛りになる。

# man gjournal

で予習をすると,

  • 新しいディスク上での利用(newfsフォーマットする)
  • 既存のファイルシステム上で応用(newfsフォーマットしない)

の2つのやり方があると書いてある。FreeBSDを使っている読者にとっては当然,既存のファイルシステム上での応用が魅力的なわけだが,手順を1つでもしくじるとデータは戻ってこないので注意が必要である。実際筆者も手順をしくじってスライスを1つ飛ばしてしまったので特に注意を喚起しておきたい。ハードディスクの容量は右肩上り,値段は右肩下りなので,ここは1台新品のディスクを奮発して,本特集第2回「7.0-RELEASEでディスク丸ごとバックアップ」で紹介した方法などを使って「丸ごとバックアップ」を取ってから試すことをお勧めする。

筆者が用意したディスク(ad4,Hitachi HDT725040VLA360/SATA150)には,ad4s2,ad4s3に3つのパーティションが切ってあり,そのうちad4s3eを/home2として使い,ad4s3fが未使用である(正確には/home3だった領域をミスで壊してしまったわけだが…)。この状況で,

  • ad4s3fにjournalingのスライスを新規作成
  • ad4s3fをjournalとして,既存スライスad4s3eのジャーナリングを行う

という2つの方法を試してみることにしよう。

著者プロフィール

三田吉郎(みたよしお)

東京大学 大学院工学系研究科 電気工学専攻 准教授。講義「電気磁気学」「わかる電子回路」やマイクロマシン研究の傍ら,FreeBSDの普及,開発に尽力する。FreeBSD ports committer。2008年3月現在,新研究分野開拓のためフランス国立情報学研究所(INRIA)に招聘教授として出張中。共著書に「FreeBSD徹底入門」(翔泳社),「FreeBSD Expert」など。

コメント

コメントの記入

パスサポ

多数の情報処理技術者試験対策書籍の発行実績を誇る技術評論社がお届けする,資格試験合格サイト「めざせ! 情報処理試験 パスサポ」が開設されました。

ピックアップ

サクセスストーリーに続く,快適サーバー運用管理のヒント!

データの増大,煩雑な管理,システムダウン,セキュリティなど,迫りくる課題からシステム管理者の負担を軽くするポイントを解説します。

gihyo.jp インフラエンジニア情報局

ネットワークやITにかかわるあらゆる業種で必要とされるインフラエンジニアに向けた技術情報や心構え,その魅力について多角的に紹介。

テストエンジニア ステーション

いま,ITに関わるあらゆる開発業務で注目されつつあるテスト系エンジニアをターゲットにしたコンテンツサイトを展開します。

一行クイックアンケート

gihyo.jpで取り上げてほしいネタは?

※検索はページ右上の検索ボックスをご利用ください。

その他の連載

読むウェブ ~本とインタラクション

ディスプレイで読む活字とそのインタラクション(interaction:相互作用)について,最新Webを紹介しながら読み解いていく。

いま,見ておきたいウェブサイト

この連載では,国内外の最新のウェブサイトを隔週更新で取り上げ,これら最新サイトの特徴や素晴らしい部分を,さまざまな角度から解説していきます。

Windows phoneアプリケーション開発入門

Windows Marcketplace for Mobileがサービス開始され,作成したアプリケーションを個人でも世界をターゲットに公開できる環境が整ってきました。これを機にWindows phoneアプリケーションの開発をしてみませんか?

ここは知っておくべき!Windows Server 2008技術TIPS

5年ぶりのサーバOSとなったWindows Server 2008が出荷されて早2年。2009年にはR2が出荷され,再び注目を集めています。発売前から実施したトレーニングによって感じた,インフラエンジニアの方々に知っておいていただきたい機能を中心にご紹介します。

キーパーソンが見るWeb業界

本連載はWeb Site Expert/gihyo.jpとの連動企画です。阿部淳也, 長谷川敦士, 森田雄のお三方による,Web業界をテーマにした座談会です。

きたみりゅうじの聞かせて珍プレー

ソフトウェア開発の現場で体験したトホホな失敗,思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます!

ActionScript 3.0で始めるオブジェクト指向スクリプティング

野中文雄氏が,簡単なスクリプトは書いたことがあるという初級者を対象に,ActionScript 3.0の基本からクラス定義までを解説します。

まだ間に合う「ITパスポート」受験対策 原山先生の短期合格塾

この連載では,4月18日のITパスポート試験の受験に向けて,短い期間で効率良く受験対策を行う方法や,確実に得点するための裏ワザなどを伝授していきます。

連載一覧

gihyo.jp

  • DEVELOPER STAGE
  • ADMINISTRATOR STAGE
  • WEB+DESIGN STAGE
  • LIFESTYLE STAGE
  • SCIENCE STAGE
  • NEWS & REPORT

書籍案内

  • 新刊書籍
  • 書籍ジャンル一覧
  • 書籍シリーズ一覧
  • 新刊ピックアップ
  • ロングセラー
  • 電脳会議

定期刊行物一覧

  • Software Design
  • WEB+DB PRESS
  • Web Site Expert
  • 組込みプレス