インタビュー

設計,運用,日々改善~Open Compute Projectに見るFacebook流アプローチ~

この記事を読むのに必要な時間:およそ 4 分

データセンターはコンピュータだ

続いてMattに技術的なことを質問しました。

2011年末に,やはりFacebookのOCPチームの1人であるVeerendra Mulay氏がデータセンター内でのサーバ電源部の結露に関するレポートを出しています。筆者はこれを示しながら,どのようにこうした複雑で,予期しない問題を解決するのか尋ねました。

写真4 Matt Corddry氏。

写真4 Matt Corddry氏。

  • Matt Corddry(以後M)⁠Veerendraはこのとき一体何が起きているのだろうと調べあげて,最終的に電源内部に耐水性のコーティングを施すことにしたんです(内側にですか?)⁠ええ,これは実際よく行われていることなのです。たとえば車載用コンピュータなんかだと。⁠ああ!)⁠ これで電源における結露のリスクを減らしたうえで,運用効率をさらに改善することになった。

  • J:我々はデータセンター設計のチーム,建設のチームと密に連携して仕事をしてる。Veerendraはビルディングの温度管理の問題をラックの中のサーバで見たわけだ。そこで彼はビルのオペレーションモードや空調機を調整して調べていた。彼は「データセンターはコンピュータだ」といって,全体から機器の細部まで見る注2んだ。

  • M:まったくそうだね。

    だから彼はビル全体の管理システムのチューンもやる。建設チームがビルのオペレーティングモード,ファン,ダンパー,ミストシステム注3を変えて,これが二度と起きないようにしたんだ。

写真5 Open Compute Projectのタイトルイメージが廊下の壁に描かれていた。

写真5 Open Compute Projectのタイトルイメージが廊下の壁に描かれていた。

注2)
元の表現は「broad view to unit view」です。
注3)
Prineville の噴霧式冷却装置のこと。

直しながら進む

  • M:とても重要なことがある。例外的なリスクを除いて,我々はとても早く設計をやるんだ。ある種の受け入れがたいリスクについては,設計に必要なレッスンを受ける時間が無いので我々は設計変更ができないけれど,それ以外のものについてはアグレッシブな設計をやるんだ。そうでなければコストや,効率を設計によって半分(あるいは倍)にするなんてことは不可能だ。だからある程度のリスクはとる。その業界では普段やらないようなね。

    我々が作ったデータセンターはその例だ。とても低コストで,とても効率が良い。しかしある状況では問題が生じるリスクはある。もしそれに直面したら,我々はそれを直して,学んで,次に行くんだ注4)⁠

  • 筆者:Prinevilleデータセンターは全体で1ホールなのですか?

  • M:いえ,9MW容量の部屋が,ビル1つに4つあると思います。キャンパスには2つのビルがある。

  • 筆者:ダンパーやファンといった機構については,部屋ごとに独立しているんですよね?

  • M:ええ。ただペントハウスは2つの部屋で共有していたんじゃないかな。

  • 筆者:とにかく複数の部屋が独立して(隔離されて)いるのなら,そのうち1つを使ってよりアグレッシブなセットアップを試せるんじゃないですか?

  • M:そのとおり。できるし,また我々はときどきやってる。新しい制御アルゴリズムや新しいデザインアプローチを部屋1つ分,あるいはビル1つ分に対して試す。他にも我々はいつも新しい設計を試してるし,改善しようとしてる。

    たとえば,PrinevilleではRO(逆浸透膜濾過)のプラントを作ってミストシステムのノズルが詰まらない純水を作っていたけれど,ノースカロライナ(彼らの2番目のデータセンター)では水を落とすパネルを試してる。そこには噴霧ノズルがないから(コストのかかる)RO設備も必要ないんだ。

注4)
元の表現は「fix, learn and moving」です。いいですね。

サーバの設計

  • 筆者:サーバを設計するといっても,Intelのプロセッサは世代ごとに「いいところ」が変わってしまうでしょう。ある世代ではピークパフォーマンスが優先され,ある世代では電力効率に力が入っている。どうやってデザインを決めるんですか?

  • M:我々はIntelととても近いところでやっていて,プロセッサがリリースされるより前からテストしています注5)⁠あるTCO(Total Cost of Ownership)でどのくらい働くものができるかを見てますね。Intelや他のプロセッサベンダの可能性のある異なるソリューションをすべて比較して選んでいます。

    その一方で,我々はどんなプロセッサを必要としているか,といった情報をたくさんIntelに提供しています。我々のような顧客は将来のIntelのCPUデザインにも影響を与えていると思います。つまり,プロセッサでどんなワークロードがかかってるか知ることで,将来の彼らのプロセッサのスピード,キャッシュ(の量)⁠フロントサイドバス,メモリコントローラの能力などが需要にミートすることを確実にできますからね。

  • J:Intelから見れば,Facebookはマーケットにおける先行指標(leading indicator)と考えることができる。我々が今後どこへ向かうか,といったことを見れば,すべてのシリコンメーカにとって5年先のモデルになるから。

  • 筆者:うーん。ハードとソフトの設計について考えてしまいます。たしかにあなた方はとてもよくソフトとハードが結び付いたユーザでしょうね。ほとんどのソフトウェア会社はサーバを設計しないし,ほとんどのサーバ業者はソフトウェアを書かないから。

  • M:それはとてもいいポイントだ。聞かれるんだよ。なぜ我々がHPより良いサーバを作れるんだ?と。たしかに,HPはとても良い設計チームを持ってる。我々のチームよりよほど大規模なね。

    しかし我々は(扱うべき)問題を知ってるし,⁠動作する)環境を知ってる。そして,我々はソフトウェアチームとも,データセンターチームとも毎日一緒に仕事をしてる。我々のデザインプロセスでは「良いサーバ」を作ってるんじゃない。そのサーバは「我々にとって良い」ものなんだ。

写真6 OCP Ver.3サーバ

写真6 OCP Ver.3サーバ

注5)
記事執筆の直前に,IntelがFacebookなどに特別なCPUを提供していることが明らかにされました。米インテル,米フェイスブックや米イーベイにカスタムCPUを提供

著者プロフィール

安田豊(やすだゆたか)

京都産業大学コンピュータ理工学部所属。KOF(関西オープンフォーラム)やiPhoneプログラミング勉強会などのコミュニティ活動にも参加。京都の紫野で育ち,いまは岩倉在住。せっかく復帰させたCBX 400Fに乗る機会がなく残念な日々を過ごしている。

バックナンバー

2013年

  • 設計,運用,日々改善~Open Compute Projectに見るFacebook流アプローチ~

コメント

コメントの記入