クラウド元年をリアルイベントで体感 ─「G-CLOUD Summit 2010」レポート

セッション4B 「障害を発生させない」クラウド向けの障害対処技術

この記事を読むのに必要な時間:およそ 2 分

富士通研究所「高信頼なクラウドコンピューティングを実現する障害対処技術の開発」

株式会社 富士通研究所 クラウドコンピューティング研究センタ 主席研究員 安達 基光 氏

株式会社富士通研究所の安達基光氏による「高信頼なクラウドコンピューティングを実現する障害対処技術の開発」では,同社が考えるクラウドコンピューティングとその取り組み,さらにそこに発生する障害とその対処技術の開発についてを紹介しました。

安達基光氏

画像

富士通研究所の考える未来像はクラウド上に構築される

安達氏はまず,富士通研究所の考える未来像として,すべてを「つなぐ」ことで価値を生み出し,人々に「感動」⁠発見」⁠信頼と発展」を提供する,ヒューマンセントリックなネットワーク社会を実現することを挙げました。このネットワーク社会は,クラウドのインフラ上に構築されると言います。また,クラウドコンピューティングの定義として,(ネットワーク)の向こう側に存在するICTリソース(データセンター)をネットワーク経由でオンデマンドに利用するICTサービスの形態としました。

また,クラウドコンピューティングの利点として,利用者から見た利点では「ハードウェアやファシリティの準備が不要であること」⁠必要なときに必要なだけすぐに使えること」⁠利用した分だけの料金体系であること」を挙げ,運用管理から見た利点では「運用コストの省力化・最適化」⁠標準化の浸透によるスピードアップ」⁠新サービスの提供が容易であること」を挙げました。

将来は「エンタープライズな」クラウドに融合されていく

クラウド活用によるヒューマンセントリックな社会とは,状況認識と集合知の活用で価値創造・最適行動を支援するものとしています。具体的には,⁠食」⁠環境」⁠エネルギー」⁠健康」⁠安心」⁠安全」⁠業務効率」といった実世界にあるさまざまなデバイス(センサ,携帯,機器)からの情報をクラウドコンピューティングに送ることで,クラウド側は情報の解析を行い,蓄積された「知」や,状況に応じたサービスを実世界に提供するというものです。

こういった社会基盤を支えるクラウドには,24時間365日,安全かつ安心してサービスを提供し続けることができる「トラステッドなクラウドサービス(Trusted-Service Platform⁠⁠」が必要であると安達氏は言います。それには可用性,オープン,グリーン,見える化,セキュリティといった要素が要求され,防災セキュリティや高度交通制御システム,農業サービス,医療サービスなどと接続されます。また,パブリック,ハイブリッドと進化するクラウドは,将来的には複数のクラウドを自由に組み合わせて利用する世界を実現する「融合する」クラウド,エンタープライズな「雲」が出てくるとしました。

クラウドの拡大に合わせて,新しいビジネス領域も拡大します。これは,企業の業務システム(バックオフィス)からフロントシステム(現場⁠⁠,そして社会システムへと,クラウドビジネスも拡大していくことを意味します。ユーザは経済性やスピード,柔軟性,セキュリティ,安心安全に期待し,これに対しクラウドシステムへの要件は,最適コストでの構築・運用,環境変化に柔軟に対応すること,クラウド連携機能などが求められます。

画像

障害対応は「事後処理」から「事前回避」

続いて安達氏は,個別に稼働している既存システムをデータセンタや企業内情報システムに集約するため,システムが大規模化すること,また仮想化技術により多数のサービスが同一物理サーバ上で動作するため,システム構成や依存関係が複雑化することがクラウドの特長であると同時に,障害の影響が拡大しやすい要因であると指摘します。さらにクラウドでは安定したサービス提供が必要であるため,障害対応の考え方を従来の「障害発生検知→事後処理」から,⁠早期発見・迅速な対応→事前回避」へと改める必要があるとしました。

クラウドサービスでは障害を発生させないことが重要となるため,障害の予兆を検出し,大問題にならないうちに事前に対処することが必要になります。しかし,障害にはシステムメッセージの分析によって障害を予知できるものと,メッセージが出力されない潜在障害があります。同社ではまず前者について,障害時のメッセージには特定のパターンがあることに着目し,そのパターンの早期検出により検知を行うシステムを作成しました。障害メッセージのパターンをデータベース化し,実運用時のメッセージとのマッチングを行うことで予知を検出するというものです。メッセージは自動学習するようにしました。

社内で試行した結果,製品のQ&A対応業務では非定型の障害対応ノウハウを,変換技術によって63%を定型化することに成功しました。また障害対応窓口業務では,定型化した手順による省力化で,適切な担当者に連絡するまでの時間が16分から1.5分へと大幅に短縮することができたといいます。一方,後者ではパケットを高速解析するとともにサーバの品質・性能をリアルタイムに監視・診断し,パケットのロスや遅延時間など微細な振る舞いから障害を検出する高精度診断を行いました。

後者の社内試行の結果では,約10万端末の大規模ネットワークにおいて障害が顕著に現れる前に設定ミスを発見,対処することができました。原因の特定結果では,⁠全二重・半二重の設定ミス」が80%を占め,⁠ルータのバッファあふれ」が10%でした。同社ではこれらの技術から障害の「事前回避」により高可用・適正コストなクラウドを実現する「クラウド障害対処技術体系」を開発し,今後は2010年10月に開始されるオンデマンド仮想システムサービスおよびLCM監視サービスに,順次これらの技術を適用していくといいます。