今回は2011年5月に起こったクラウド業者の障害について、ユーザ側の視点で検証してみようと思います。
クラウドにおける障害は、契約内容にもよりますが、サービスに影響が出るとはいえ、最終的にはユーザ側の責任になる可能性が大きいです。このため、クラウドサービスに預ける事業に対しては、障害発生時の対処をきちんと整理し、クラウドサービスのメリット、デメリットとうまくつきあう必要があります。
クラウドサービスを利用するにあたって、NTTPCコミュニケーションズが展開する「WebARENA CLOUD9」の障害は大きな衝撃だったかと思います。筆者の所属する事業では「WebARENA CLOUD9」は利用していなかったので、当事者として記載することはできないのですが、現在見ることができるプレスリリースから追ってみましょう。
現実になったクラウドサービスのデメリット
障害が発生したのは2011年5月8日(日)で、正式なプレスリリースが発表されたのは、2011年5月13日付けとなっています。「5月16日の週にお客さまデータが復旧できる見込みになりました。」とありますが、その間、「WebARENA CLOUD9」を利用してサービスを展開している事業などに関しては多大なる影響があったかと思います。明確な影響範囲、原因、それに対する技術的な裏付けなどの記述はなく、「利用者の仮想サーバの起動不可、利用者データの不整合の可能性がある」「原因はファイルシステムの不具合」という記述にとどまっています。
障害の内容にもよりますが、一般的な構成、設定で起こりえる原因、発生時の対応や、それに対する予防保守などがあるようであれば、業界で共有させていただき、教訓にできればと願います。
ここまで大きく障害と発表するからには、特にサービス向け大口顧客に対しては保証などの話があるかも知れませんが、通常一般的には、このような事態が起きても、たとえば料金を従量課金で契約している場合は、その分の徴収がないだけで停止時間に伴う事業、サービスが受けた損失に対する保証などは無いのが一般的と考えます(契約前にSLAなどを締結しようと希望しても、よほど大きな事業でない限りは聞く耳も持ってもらえないかと思います)。外部のクラウドサービスを利用する場合はこのようなリスクがあることを、事業者(ユーザ)側はきちんと認識し、心構えとして備えておく必要があります。
ユーザ側の限界と「業者を越えたクラウド」への期待
さて、ユーザとしては筆者も経験しましたが(第17回 2011年クラウドサービスの適用ドコロ[PART 2]参照)、まず同一のリージョンに全て詰め込むのはリスクと考えるべきです。さすがに同一拠点の全ての機能が停止することは想定し難いのですが、リージョン内の機能が不安定になったりすることは経験しました。
そのようなリスクに対するユーザ側の備えとしては、手間のかかる作業となっても、拠点(リージョン)間でDRなどができる規模のサービスを選択することが挙げられますが、これは環境的、金銭的にも小額からスタートしたいというクラウドのイメージ(メリット)に反する部分と、実際の作業、環境、状態のコントロールなどの手間が発生します。また、現実的には24時間365日動いている(特に課金関係の)データベースや、ネットワーク(グローバルIPアドレスなど)が変更されてしまう場合などは、気軽に対応できる次元を超えてしまうと思います。
なかなか明確な答えが無い現状ではありますが、1事業会社エンジニアの希望的な意見としては、保険会社が保険会社同士で保険に入るように、クラウド業者同士で共通の方式を策定していただき、クラウド業者が他のクラウドサービスを利用できるようになれば、たたえば「WebARENA CLOUD9」と「Amazon EC2」間でユーザが意識することなくDRが実現できる可能性があります。今回のような事故が起こっても、数日程度で他のクラウド業者上の切り替えでサービスが継続できる可能性もあります。技術が進歩すれば、障害で切り替わったことすら意識することは無く、「契約しているクラウド業者はA社だけど、気がついたら大手N社のリージョンで稼働していた…」などといったことも可能かもしれません。
事故は必ずしも自分たちが見える範囲だけで起こるわけではなく、過去に比較的有名なホスティング業者が利用するデータセンターの電源設備事故でサービスが全面的に停止したことを記憶されている方もいらっしゃるかと思います。
このように、全く想定していない障害に備え、業界内での助け合いに近い制度が充実すれば、利用者(ユーザ)に対する信頼を得ることと同時に、比較的小規模でもクラウドサービス事業者として参入することができる可能性があり業界自体が活性化する可能性もあります。筆者一個人としては、これこそがクラウドなのでは?と考えるほどです。
また、1事業会社エンジニアの希望的な意見のついでではありますが、上記のように主力サービスに対する信頼性向上の他に、決済方法のバリエーションなどが増えたりすると嬉しいですね。筆者の会社ではコーポレートカードが廃止されてしまったため、クレジットカード決済の案件が軒並み振込などで対応する必要となり、可能であれば請求対応などで処理できればと願っています。これらも参加する業者が増えればさまざまなサービスが提供される可能性があると思います。
デメリットを知ってこそ先に進むことができる
偶然ではありますが、本連載中にクラウドサービスの良い面とそうでない面について見ることができたかと思います。「危なさそうだから使わない」という判断もあるかと思いますが、それ以上に削減(改善)できたこともありますし、逆に新しい悩みにも直面しました。今改めて感じるのは、時代は変わりつつあるのかなということです。クラウドのようなサービスが5年後、10年後にスタンダードとなるのであれば、大規模な障害への対応は、今受け入れて超えるべき課題であると考えています。
今までリアルサーバ、データセンターなどで培った経験と新しいサービスに関する技術から、中長期的に見てそろそろ新しい世代に任せる準備を始めたいと考えるようになりました。筆者のような経験は、事業立ち上げ時のインフラコンサルティングや、立ち上げからすでに何年も経っているが、小額ながら安定的に売上を生んでいるようなサービスのマイグレーション方法を考えるといったことで世の中に貢献していくのも良いのかもしれないと思っております。そのためにもまずは、手軽なサービス、テスト環境、新人研修用などでもいいので、クラウドの第一歩を踏み出してはいかがでしょうか?