達人が語る,インフラエンジニアの心得

第8回 インフラエンジニアの「修羅場」事件簿

この記事を読むのに必要な時間:およそ 3 分

今回は,前回予告した通り,筆者が経験したことのある修羅場について書いてみます。なかなか微妙な内容で,セミナーとかパネルディスカッションとか(飲みの席とか)では話したことはあるのですが,字にするのはたぶん初めてです。

普通修羅場というと,技術的なトラブルに関するものだと思うのですが,ある程度の経験値を積むと,対処できない技術的なトラブルというのはなくなるものです。もし対処できない技術的なトラブルがあるとすると,もうそれは誰にもどうにもできないので諦めるしかないとかになります。ここであえて「技術的な」と書いたのは,意味があります。筆者が経験した修羅場は技術的なものではなく,法的というか金銭的なものでした。

[Case1]ネットワーク機器差し押さえでルータ13台→4台に

まず1つめは,あるデータセンターの運用をサポートというか代行していたときのことです。そのデータセンターは実は購入しているネットワーク機器のほとんどの代金を払っておらず,ある日突然,裁判所の執行官という人がその機器を購入した業者を連れて差し押さえにきたという事件がありました。

私は急いでそのデータセンターに数人で駆けつけました。自社のデータセンターではなく運用を請け負っていただけなので,機器を差し押えられてそこのサービスが停止しても,本来は埒外のことではあるのですが,インフラエンジニアというのはどういう形にせよネットワークやサーバが止まるのはとても嫌なものなので,なんとかしたいと思ってしまうものです。

撤去秒読み! 待ったなし

現場に到着してみると,裁判所から来た人と,機器を販売した会社(A社とします)の管理部長のような人が来ていました。それはもう強硬な態度で,今日残りの金額を払ってもらわなかったら全部機器を持っていくと言われました。

正確に覚えてはいないのですが,たしか13台程度のネットワーク機器があり,そのうち9台が差し押さえというか撤去の対象だったと思います。その内訳というのは,Ciscoの75xx(当時のハイエンドルータです)を始めとして5,6台,またExtreme(当時Cisco対抗の新進気鋭の会社)が7,8台というような状況でした。それらのネットワークがスタティックルーティングやOSPFによってルーティングされていました。

正直,13台の構成から9台がなくなるというのはかなり困った状況です。今から思えば無謀ですが,とりあえずドアの前に数人ディフェンスで立たせておいて※1),なんとか思いとどまってもらうよう話をしてみました。

※1
あとで聞いたら,執行官の人が来ているときに妨害すると犯罪になるそうで,その時はそういう事態にならなくて良かったですが,真似しないようにしましょう。

機器の代金を支払う云々は,その当時自分が働いていた会社の話ではなくて,そのデータセンターをもっている会社(B社とします)のことなので,もうこれはどうにもなりません。またそのB社の人にはなかなか連絡がつかない状況で,もはや八方ふさがりでした。まあ,機器の代金を払っていないということは,連絡がついてもどうにもならなかった気もしますが。

なので,A社の管理部長のような人に,せめて9台ではなくて4,5台とかそのくらいにしてくださいという話をした覚えがあります。でもそれらの話は一切聞いてもらえず,とにかく今日支払ってもっていかないか,全部もっていくかの二択だということです。その管理部長の人も,携帯電話で上司の人に早くカタをつけろと怒られている場面を見ました。私もしょうがないので「そのデータセンターを持っているB社に急いで連絡を取ろうとしているので,とにかくそれまで待ってくれ」と正直に伝えるしかない状況でした。

撤去作戦開始

そんなこんなで状況が膠着してしまって,執行官の人にも「早くしてくださいよー」と言われて,もうこれはどうにもならないかなーと思いかけたころ,その時までは現場には自分のチームつまりエンジニアしかいなかったのですが,数時間経過したところでそういう法的な話がわかる人がようやく到着しました。そこでA社とのやり取りはその人にまかせて,ここでようやくネットワーク図をじっくり見ることができました。

30分ほどかけて考えてみると,なんとか残りの4台でネットワークをギリギリ再構築できるメドが立ちました。残る4台の機器に,バックボーンのroutingができる(BGPが扱える)機器があり,またポート数が多い機器(L3スイッチ)もあったのが幸いでした。ただ,本当にギリギリで,ポートが1つ余るくらいだったので,2つ以上ポートが死んでいたらもうおしまいです。そこで,当時自分がいた会社でもExtremeの機器を扱うIT商社と付合いがあったので,そこに連絡して代替になるような機器をしばらく貸してくれとお願いしたところ,快く聞いてもらえました。

この時点で,B社には相変わらず連絡がとれない状況だったので,A社の人と執行官の人に「差し押さえしてもらっていいです」と伝えました。

しばらくしてA社のエンジニアが10人くらい到着しました。そこでA社のエンジニアに,機器を撤去して欲しい順を伝えました。A社のエンジニアは「支払いがないから差し押さえだ!」という感じではなく,淡々と撤去作業をする感じでしたので,そういった要望は快く聞いてもらえました。エンジニア同士の共感とかあったのかもしれません。

9台撤去する際に,まずOSPFのエリアごとにネットワークの再設定をして,そこにぶら下がるサーバを順次別のネットワーク機器に収容していき,それが終わったらshutdownして撤去,という手順を繰り返していきました。

そして最後に,大本のCisco 75xxが残りました。このルータはバックボーンにつながっていてBGP routingをしているので,さすがに残った機器で代替はできません。ところがその時,幸いなことに,私がいた会社(C社にしましょう)のデータセンターからB社のデータセンターに,管理用の回線(広域イーサネット)を2本引きこんでいたのです。そこでB社のデータセンターからその2本を使って上流をC社に向けて,C社からBGPのannounseをしてあげることにしました。この2本の管理用の回線がなかったら,もうどうにもならなかったですね。

何だこのチームの能力は……

そうこうしているうちに,先ほど頼んだIT商社から「機器をお持ちしましたー!」とまるで出前のようにExtremeのスイッチが届きました。結果的にはそのExtremenのスイッチは使わなかったのですが,代替機ができたことで精神的な安堵感はかなり増しました。

こうして,ルータやスイッチを1台ずつ落とすそばから他の機器を再設定していっていくし,代替機も届くしという状況で,A社のエンジニアがぼそっと「なんだこのチームの能力は……」というようなことを言っていたそうです。

そしていよいよ,あとはBGPのrerouteだけという状況になりました。BGPだけはリモートから作業したくなかったので,C社のデータセンターに急いで戻ることにしました。そこでA社の人に「今日は1日すみませんでした。これで自社に戻ります」と伝えたときには,それまで1日中,升毅のような顔だった管理部長が笑って「おつかれさまでした」と言ったのがとても印象的でした。

結局,13台中9台の機器を撤去されたのですが,トータルのサービスダウンは30分程度で済みました。まあ本来はB社がA社にちゃんと代金を支払ってさえいれば良かったのですが,それでもエンジニアとしてはサービスダウンでB社のお客さんに迷惑がかかるのが最小限で済んで良かった,と思いました。

著者プロフィール

山崎徳之(やまざきのりゆき)

青山学院大学卒業後,アスキー,So-netなどでネットワーク,サーバエンジニアを経験。オン・ザ・エッヂ(現ライブドア)のデータセンターである「データホテル」を構築,運営。2003年にベイエリアにおいてVoIPベンチャーであるRedSIP Inc.を創業。2006年6月に株式会社ゼロスタートコミュニケーションズ(現 株式会社ゼロスタート)を設立,代表取締役就任(現任)。ECソリューションの「ZERO-ZONE」シリーズとして検索エンジンやレコメンドエンジンを開発,販売している。

blog:http://blog.zaki.jp/
Twitter:http://twitter.com/zaki/

コメント

コメントの記入