達人が語る,インフラエンジニアの心得

第3回 トラブルを利用しろ

この記事を読むのに必要な時間:およそ 3 分

本当にあった恐い話

本当はトラブル実話シリーズは,それ専用で連載を1回費すつもりなんですが,ここでは1つだけ実例を。

あるデータセンターでCiscoの7xxxやExtremeのBlackDiamond,Summit(L3)がうじゃうじゃ,という環境があったんですが,⁠ある」経緯によりそれらの機器やサーバの管理パスワードが1つもわからないという状況に陥ったことがありました。

あ,ちなみにもちろんそれは自分が働いていたデータセンターではなく,お客さんが預けていた別のデータセンターでの話です。そこのサーバとネットワーク機器を移設するって話になったのですが,もう管理パスワードがわからないのでどうしようもありません。まあ,どうしようもなかったのは,CiscoやサーバじゃなくてExtremeだったんですけどね。

Ciscoはパスワードをリセットするシーケンスがあるので,それで1台ずつ地味に復旧というか,新しいパスワードを設定していきました。もちろん,サーバなんてのは(そのときはSolarisでしたが)CDブートするなりsingleで起動するなりすれば,どうにでもなります。

ところが(今は知らないですけど当時の)Extremeは,パスワードリセットすると設定が全部消えるという,すごく素敵な仕様でした。今でもそうなのかな。中身の設定がどうなってるかもわからないし,設定が全部吹っ飛んで,元の状態まで推測で再構成するというのは,なかなか難易度が高いです。

RIPやOSPFのようなダイナミックなルーティングプロトコルに関しては,Ciscoのほうでrouting情報見れば,少なくともどんなルーティングをしているかはわかりますが,スタティックなルーティングやCiscoに流れてない,Extremeだけで完結しているようなセグメントはもうわかりません。

とりあえず,できることとして,Extreme以外は全部パスワード復旧させて,ルーティングも記録をとって,やれることはやりました。でも,Extremeの設定を吹っ飛ばしたら再構成できるか,正直五分五分だ!という,あの当時としては珍しく,自分でもなんとかできるかわからないという事態でした。

ところが,諦めなければ良いことがあるものです。サーバを復旧させていって,それらのサーバの役割を調べていたら,あるサーバでは何故かradiusdが動いています。もしや?と思って,radiusdの設定ファイルに書かれているパスワードをExtremeに入れてみたら…。

なんということでしょう。あっさり入れました。これで一気に10台くらいあったExtremeが手中に。あのときは気持ち良かったですねえ。

まあ,この例ではたいして経験値は稼げていないですし,かつExtremeの認証がradiusdに入っていたのはたまたまで,これがローカル認証だったらもう駄目だったわけで,スキルで解決したわけでもないですが。ただそれでも,CiscoやExtremeや,他にもいろんな種類の機器のパスワードリセットの方法を身につけたり,多少は稼げる経験値もありました。

このケースではこの後,そんなパスワード事件などかわいいと思えるような事態に直面するわけですが……。それは,もしかしたらいずれ書くかもしれないし,書かない(書けない)かもしれません。

トラブル解決の決め手となるスキルは?

トラブルに限った話ではないですが,ある程度のレベルに達してくると,英語力というのがどうしても必要になってきますね。すべての情報が遅延なく日本語で存在すれば良いですが,翻訳されていない情報は多いです。たとえば機器のマニュアルでも,チュートリアルは翻訳されているけどリファレンスはされてないとか,必要なものほどされていないものです。

自分のレベルが上がってくると,日本語で得られる情報で解決できるものはもうすでにクリアしていて,経験値を稼げるような(それはつまり,自分が最後の砦になっているような)トラブルは英語で情報を集めないと解決できない,という事態も増えてきます。それはマニュアルだったりGoogle先生だったりMLだったりさまざまですが,でもやっぱり,英語というかネイティブではない言語っていうのは,テンション低いときはあんまり手が伸びないものですよね(そんなことないですか? 筆者はそうです。しゃべる/聞くは楽しいですが,読むのは何か疲れます⁠⁠。

でもトラブルのときは,そんなことを言ってられません。そもそも情報がないことだって多いのだから,たとえ英語でも,そこに解決の鍵があれば万々歳,むしろその英語の情報に感謝感激,喜んで読みますよ!!って感じです。

人間って現金ですねえ。でも本当にそういうときは,⁠喜んで読むよ!嬉しい!」っていう気分満載です。つまり稼げる経験値は技術力だけじゃなくて,言語能力も!ってことですね,まあ英語だけですが。あとはGoogle先生に教えてもらうための検索スキルも上がりますね。とにかく必死なので,実にいろいろなスキルが上がります。

トラブル対応中→対応後の心得

ただ,ここまで書いてきた話全部,最初のほうで書いた「責任感がある」っていう部分がすごく重要です。

「ヤバイ!マズイ!」という強い気持ちがなければそもそも成立しない話です。第1回でも書きましたが,トラブルに直面して成長しない人は,向いていないとしか言いようがないです。人間,命の危険にさらされれば,力も出るし頭も回ります。いわゆる火事場のクソ力ってやつです。命が危険にさらされなくても,自分の責任において必死であれば,力も出るし頭も回るというものです。

それから,トラブル対応するときには,前向きな気持ちが重要です。⁠やべー,これ無理かも」と思うよりは「いや絶対なんとかなるでしょ」と思うほうが,解決できる可能性が高くなります。

筆者がよくやっていた自分マインドコントロールは,⁠こんな現象,絶対他の人も遭遇してるよ! だから絶対何か解決策あるよ!!世界で自分だけが遭遇する現象なんてそんなそうそうあるもんじゃないし!!」というものです。

あと,⁠解決したときヒーローだなーこれ」とか考えると,さらにアドレナリンたくさん出てきたりします。実際に自分で見たわけじゃないので,アドレナリンかどうかわからないですが,前向きに考えることで脳を活性化させるホルモンは何か出ています。セロトニン?ドーパミン? よくわかりませんその辺は。

あ,あと最後にひとつ。トラブル対応しているときは,すごく脳が回転しています。なので普段以上の力というか,本来の力が出たりします。でもそんな状態は,解決したらそんな長く続きません。なので,解決したらすぐに自分で記録を取るなり,誰かに記録とってもらうなりしましょう。記憶力いい人は別ですが,筆者なんて,あとから自分でどうやったか思い出せないことなんて,山ほどありましたから。

著者プロフィール

山崎徳之(やまざきのりゆき)

青山学院大学卒業後,アスキー,So-netなどでネットワーク,サーバエンジニアを経験。オン・ザ・エッヂ(現ライブドア)のデータセンターである「データホテル」を構築,運営。2003年にベイエリアにおいてVoIPベンチャーであるRedSIP Inc.を創業。2006年6月に株式会社ゼロスタートコミュニケーションズ(現 ZETA株式会社)を設立,代表取締役就任(現任)。ECソリューションの「ZETA CX」シリーズとして検索エンジンやレコメンドエンジンを開発,販売している。

blog:http://blog.zaki.jp/
社長コラム:https://zetacx.com/column