2018年6月13日から15日まで、千葉市・幕張メッセで開催されたインターネット技術の総合イベント「Interop Tokyo 2018 」 。その展示会ネットワークであるShowNet の運用にDigitalStacks・PagerDuty が参加しました。
Interop Tokyo 2018出展社の展示機器/サービスやデモンストレーションのため、ボランティアの手によって構築されるネットワークがShowNetです。ルーターや各種のセンサーなどのベンダーとその機器が多数参加します。その運用の課題の1つが様々な監視ツールから発生する大量のアラートの集約でした。PagerDutyはそれを解決する手段として力を発揮しました。
ShowNetの構築作業では、ケーブル接続や設定の間違いなどによるトラブルが発生し、そのたびに大量のアラートが押し寄せます。NOCチームモニタリング担当の阿部博さん(レピダム/ココン)と鈴木孝規さん(ニュータニックス・ジャパン)によると、昨年は「アラートを監視ツールからチャットツールに流しましたが、大量すぎて、一晩でスマホの電源がなくなったほど」( 阿部さん) 。各ツールから個別にアラートが届くため全体を把握しにくいという場面もありました。今回PagerDutyを導入したことで「アラートを1ダッシュボードに集約でき、必要な通知だけに抑制できた」( 鈴木さん)そうです。
Interop ShowNet NOCの中ではPagerDutyを使ってインシデントの情報が管理された
各社の監視ツールとAPIを使った重複アラートを集約
PagerDutyの魅力の1つは、200種類を超える多彩な監視ツール製品と連携(インテグレーションと呼びます)可能なこと。
PagerDutyとのインテグレーションには、1.メールで連携する、2.Event APIを呼び出す、という2つの方法がありますが、アイビーシー(System Answer G3) 、富士通九州ネットワークテクノロジーズ(NXS-TVL) 、VMware、ゾーホージャパン(Netflow Analyzer、Site24x7)の4社は新たにAPI連携するインテグレーションを作成されました。しかも各社ともほんの数日で統合できたとのこと。阿部さんによれば「APIの資料やサンプルも豊富に公開されているので、監視ツールのベンダーにはそう難しくないはず」とコメントいただきました。新しいツールを統合したい場合でも非常に短期間で可能なことも、PagerDutyの魅力。ShowNetはまさにその証明となりました。
Interop Tokyo 2018は無事終わりましたが、ShowNetは常に新しいテーマを追い、新しいベンダーの参加を求め、変化します。NOCチームのお二人からは「そうした変化にもPagerDutyなら対応できる。Digital Stacksさんにはぜひ来年も参加して欲しいです」と強い励ましをいただきました。
アラート・エラー対応プロセスを自動化、監視ツールのアラート情報をビッグデータ化
PagerDutyはオンプレミスやクラウドで稼働しているシステムに不具合が生じた時、あらゆる監視ツールからのアラート情報を受け取り対応する、システム全体のアラートビッグデータシステムを低コストで簡単に構築できるサービスです。
PagerDutyでは、万一の障害発生時に適切な担当エンジニアに段階的に自動通報することができます。1次対応メンバー、2次対応メンバー、技術部門長などへの通報経路を事前定義しておけば、担当者が不在で対応しなかった場合にも、PagerDutyが自動的に次のチームへの通報を電話呼び出しなどで強制実施することで、障害対応業務の自動化を実現できます。
業界の全エンジニア向けデジタルオペレーションズ・マネジメントプラットフォーム(デジタル運用管理ツール)PagerDuty。 GitHubやSlack と並ぶDevOps 業界のデファクトスタンダードが国内でも正式提供を開始。システムの運用監視を自動化することで、エンジニアの業務負荷を大幅に削減するエンジニア向けRPA として世界の1 万社、Fortune 500 の7 割以上の技術部門が導入済み
一度PagerDutyを設定することで、オンプレミス、クラウド、ハイブリッドを問わず他部門や他システムで導入している異なる監視ツールを含めた全システムのアラート情報が自動的に一元管理され、全障害情報の管理・蓄積が開始されます。全てのアラート情報がビッグデータとして収集され始めると、次の障害が発生する前に担当エンジニアは過去の類似パターンから予兆管理や障害分析・予兆分析も可能となり、自社が開発・運用するシステムの障害発生やエンジニアの深夜の障害対応時間などを大きく抑制することが可能になります。また、機械学習による自動対応機能の開発も進んでいます。
約200種類の監視ツールと簡単に接続
対応する監視ツールは約200種類。ZabbixやNagios、Mackerel、Datadogなどほとんどのツールと連携できます。また、REST APIでの連携も可能ですので、独自のシステム環境にも適用できます。
不具合への対処が素早く正確に
不具合が発生するといろいろな監視ツールが一斉にアラートを上げて、現場スタッフを混乱させ、無駄な作業を増やします。PagerDutyは同じ種類のアラートを1つに集約してくれるので、担当者をパニックにさせません。また、インフラの不具合はインフラ担当者に、サービスの不具合はサービス担当者にと、適切なエンジニアに通報します。
面倒な担当者スケジューリングを簡単に。急なシフトチェンジも一目瞭然
もうスプレッドシートは要りません。煩雑なシフト表作成がWebベースで簡単にでき、変更があっても全員がリアルタイムで共有できます。エンジニアだけでなく担当営業や広報、ユーザーサポートなどもスケジュールしておけば、ビジネス面でも適切な対処が可能です。
第1特集
MySQL アプリ開発者の必修5科目
不意なトラブルに困らないためのRDB基礎知識
第2特集
「知りたい」「使いたい」「発信したい」をかなえる
OSSソースコードリーディングのススメ
特別企画
企業のシステムを支えるOSとエコシステムの全貌
[特別企画]Red Hat Enterprise Linux 9最新ガイド
短期連載
今さら聞けないSSH
[前編]リモートログインとコマンドの実行
短期連載
MySQLで学ぶ文字コード
[最終回]文字コードのハマりどころTips集
短期連載
新生「Ansible」徹底解説
[4]Playbookの実行環境(基礎編)