達人が語る,インフラエンジニアの心得

第3回 トラブルを利用しろ

この記事を読むのに必要な時間:およそ 3 分

これまでは,トラブルコールに慣れる(?)方法,そしてトラブル対応の取り組み方について書いてきましたが,今回は「いかにトラブルを利用するかについて書いてみます。

トラブルが成長の糧になる?!

トラブルというのは望んでやってくるものではないので,あまり利用価値はありませんが,それでも多少は利用できるポイントがあります。

最大の利用価値は,⁠トラブル対応を通じて成長する」というものです。人間,切羽つまっている時のほうが,はるかに早く成長することができるものです。その理由を考えてもしょうがないのですが,しいて考えてみると,真剣さ,集中力が違う」というのと,時間感覚が違う」というのがありそうです。

時間感覚というのは,経験したことがある人も多くいると思いますが,危機的状況だとスローモーションに感じるというアレですね。

ちなみにここで言う(成長のために利用できる)トラブルは,安定して運用しているサービスに障害が発生するという,いわゆるトラブルもですが,それ以外にも「問題ないと思ってオープンしたら実は大丈夫じゃなかった」という,それただの見切り発車というかテスト不足だろ,っていうものも含みます。

要は偉い人に「おい,冗談じゃないぞ早く直せよ!!」って言われていたり,自分で「やっべー,これすぐ何とかしなきゃ!!」とか思っている状況。切羽つまっていて,かつ自分でなんとか解決可能で,かつちょっとハードル高い?というものならなんでもいいんです。⁠あ,これはこうすれば直るわ」とわかってるものでは,もちろん成長はしませんね。

まずは,トラブルを成長に利用できる条件をちょっと整理してみましょう。

  • 1. 一刻も早く解決しないと,⁠何らかの理由により)ヤバイ状況である
  • 2. 自分には責任感がある or 怖い上司とかがいる
  • 3. 自分の実力ではちょっと(もしくはかなり)厳しいけど,頑張れば解決できそう
  • 4. 周囲に頼る人がいない
  • 5. 自分は成長するための良い素材だ

くらいでしょうか。他にもあるかもしれません。

成長レベルとトラブル難易度の関係

それはさておき。

トラブルのときの成長速度っていったら,本当にハンパじゃないですね。もう極端な話,普通にやるときの1週間分の経験値を30分くらいで稼いだりもできます。そしたら1ヵ月もしたらすごい達人に!!と言いたいところですが,そもそもそんな頻繁にトラブルが起きては困りますね。

あとはまあ,ほど良く難易度の高いトラブルがそうそう都合良く起きない,っていうのもあります。最初のうちは,たいていのトラブルが自分の経験値稼ぎの役に立つわけですが,さすがに最初のころだと難易度高すぎてどうにもならないっていうケースも十分ありえます。まあ,そんなレベルのうちに,周囲に誰もいない状況に陥ることはないというか,あったらその環境に問題があるってことになりますが…。

ドラクエで,スタート直後にバラモスとかミルドラース出てきたら,誰もそこから先に行けないよもうブックオフで売る!って感じです。逆に,いつまでもスライムばっかりだとレベル上がんねえ!!もうやだブックオフで売る! っていうのもあります。ドラクエがちょうどいい感じに自分が都合良く成長できるキャラにいつも囲まれているように,良い環境であれば自分ならだいたい解決できる,でももしかしたらちょっと厳しいケースもあるかも,っていう場所に配置されるでしょう。

もちろん,自分のレベルが上がってくれば,あまり経験値を上げられるようなイベントは相対的に発生しなくなります。

これは私の感覚ですが,全体を10段階に分けて,上から4番目くらいのランクになると,楽に解決するか苦労するかはともかく,解決できないトラブルというのは事実上なくなる気がします。そのランクに来るまでに身につけたスキルを駆使すれば,どんな状況でも大概なんとかできるようになる,もしならなければ,それはランク最上位の人でも解決できない,っていう感じですね。

じゃあランク1番目の人と4番目の人は何が違うんだ?っていうと,解決までの速度ですね。そういう意味では,4番目くらい(あくまで感覚ですよ)のランクになった人には,場を任せられるというか,最後の砦にできるってことになります。

システムの「トラブル多発地帯」

トラブルが起こる箇所というのはいろいろありますが,やっぱり一番よくトラブルが起こるのはHDD周辺,というか「物理的に回転するもの」のあたりです。

昔むかーし働いていた会社では,よくファイルサーバを売ってましたが,当時(1995年くらい)はネットで常時サービスという感じでもなかったので,年末年始になるとみんなサーバを落としたりします。んで,HDDって軸がすり減っていくものですが,まあすり減っても,回っているうちは大丈夫だったりするんですね。でも1回止めてしまうと,そこからは二度と回らなかったりします。

なので,正月休み明けは,ファイルサーバの障害の連絡がたくさんありました。風物詩です。まあその当時は営業やってたので,自分でトラブル対応してたわけじゃないですが。なので壊れそうなHDDがある場合,再起動しないほうがいいです。再起動するなら全部データを拾ってからにしましょう。

ということで,ルータやスイッチよりは,サーバやファイルサーバのほうが障害を起こしやすいと思います。ただ,サーバっていうのは,まあ障害が起こっても何とかなることが多いんですね。不安な気持ちでfsckを見守ったりというのはありますが,そもそも最近はファイルシステムがjournalなのでfsckとかしませんね。もちろんsingle user modeでも起動しないようなケースではなかなか厳しいですが,コンソールをつないでrootになれれば,まず原因は究明できるし,究明できればなんとかなるものです。

そこへ行くと,ルータとかスイッチとかロードバランサといったいわゆるハコモノは,限定されたインターフェースしか用意されてないので,厳しいことが多いですね。まあ今ではハコモノも中身はLinuxやFreeBSDで,そこに専用のShellを乗っけてるだけ,っていうパターンが増えてきましたが。

著者プロフィール

山崎徳之(やまざきのりゆき)

青山学院大学卒業後,アスキー,So-netなどでネットワーク,サーバエンジニアを経験。オン・ザ・エッヂ(現ライブドア)のデータセンターである「データホテル」を構築,運営。2003年にベイエリアにおいてVoIPベンチャーであるRedSIP Inc.を創業。2006年6月に株式会社ゼロスタートコミュニケーションズ(現 ZETA株式会社)を設立,代表取締役就任(現任)。ECソリューションの「ZETA CX」シリーズとして検索エンジンやレコメンドエンジンを開発,販売している。

blog:http://blog.zaki.jp/
社長コラム:https://zetacx.com/column

コメント

コメントの記入