インタビュー

64ビットARMクラスタへの道のり―Gary Lauterbach氏へのインタビュー~AMDの64ビットARMチップ“Seattle”のカギを握るFabricテクノロジはどこから来たか(前編)

この記事を読むのに必要な時間:およそ 3.5 分

データセンターなど電力効率が重要な環境でのサーバ用途に向けた64ビットARMプロセッサの開発競争が激化しています。

AppliedMicro,Broadcom,Cavium,MediaTek,Freescale,そしてAMDなどがこのレースに加わっています。つい先日Qualcommからも参入の発表がありました。この動きの中,今年の8月,AMDは最新のプロセッサ技術が発表されるHotChipsで彼らの最初の64ビットARMプロセッサ,Seattleを発表しました。

しかし,その発表ではプロセッサ間相互接続(インターコネクト)インタフェイスとして組み込まれるとアナウンスされてきたFreedom Fabricについて何も触れらていません注1)。インターコネクトはサーバ向けARMプロセッサには不可欠の要素です。今後出てくる各社の製品を比較するにはコア数やクロックなどだけでなく,インターコネクトに関する理解が必須です。

筆者は,2014年の3月にFreedom Fabric技術の生みの親であるGary Lauterbach氏(現AMD,Corporate VP & DCSS CTO。以後単にGaryと表記)に取材する機会を得ました。本稿では取材で得られた情報を軸に,Seattleプロセッサの現状や今後の展開について展望を試みます。

注1)
Hot Chipsで発表されたAMDのARMサーバーチップ「Seattle」など”,後藤弘茂のWeekly海外ニュース,PC Watch,インプレス,2014/8/19

SeaMicro のクラスタサーバ

64ビットARMプロセッサの強みはその電力効率にあります。単体処理能力はIntel x86に劣るが,多数のプロセッサを並べて並列分散処理をさせると総処理能力と電力消費の比では64ビットARMに勝ち目がある,というわけです。

つまりARMサーバは必ずクラスタと呼ばれるような多数プロセッサ構成,それもボード上に32個,64個といった高密度実装に向かいます。結果,すべてのプロセッサはI/Oとプロセッサ間通信のために何らかの通信システムで接続することになりますが,これを一般にインターコネクトと呼んでいます。

さて,AMDが Seattleプロセッサに入れるとアナウンスしていたインターコネクト技術Freedom Fabricですが,これはAMD自身が開発したものではありません。

Freedom Fabricはクラスタサーバ専業のベンチャー企業SeaMicro社が開発したもので,AMDはこのSeaMicro社を2012年の春に3.3億ドルを投じて買収しました注2)。そして取材したGaryこそ2007年にSeaMicro社を起業し,Freedom Fabricを開発したその人,というわけです。

SeaMicroの最初の製品SM10000は,Freedom Fabricを使って512個のAtomプロセッサ(ARMではありません)を集積したクラスタサーバです。当時,MozillaがデータセンターにSM10000を導入したニュース注3を覚えている人も多いでしょう。

AMDは当初からSeattleにFreedom Fabricを組み込むとアナウンスしていたのですが,HotChipsではそのインターコネクトについて言及せず,足まわりとしては2本の10G EthernetとSATA,PCIeだけが紹介されました。インターコネクトの重要性,また買収金額から見ても,このまま何もなしで済ませるとは考えられません。必ず近いうちに Freedom Fabric を含めた製品を出してくるでしょう。

注2)
AMD,AtomサーバベンダーのSeaMicroを3億3400万ドルで買収”,佐藤由紀子,ITmediaニュース,アイティメディア,2012/3/1
注3)
SeaMicro Servers Power Launch of Firefox 4”,Rich Miller,Data Center Knowledge,2011

トーラス・ネットワーク

ところでスーパーコンピュータのほとんどはクラスタシステムです。

そこで用いられるインターコネクトの構成に,図1のような2次元メッシュ構成,つまり隣接するノード注4を直接接続し,離れたノードへは中間のノードに中継してもらう方法があります。

中継に際しては遅延を押さえるために,通常のパケットよりさらにデータを細かく切って送るワームホールルーティングと呼ばれる手法が用いられます。単純なメッシュでは両端のプロセッサで通信を行うと中継段数が増えて遅くなるため,両端(左端と右端,上端と下端)のノードをそれぞれ直接結びつけるトーラス図2構成が考案されました。

図1 3x3ノードの2次元メッシュ構成

図1 3x3ノードの2次元メッシュ構成

図2 3x3ノードの2次元トーラス構成

図2 3x3ノードの2次元トーラス構成

より多数のノードを短距離で接続するために次元数を増やすことも行われます。京スパコンのインターコネクト,Tofuは6次元のメッシュ/トーラス混成構造です。Tofuの構造は複雑なので単純な例として図3に3次元トーラスの構造図を示します。

Seattleに搭載されるであろうFreedom Fabricはまさにこの3次元トーラス構成+ワームホールルーティングによるインターコネクトの実例です。SM10000は,8×8×8の3次元トーラス構造で512個のAtomプロセッサを接続しています。

図3 3×3×3ノードの3次元トーラス構成

図3 3×3×3ノードの3次元トーラス構成

注4)
ここでは通信する最小単位の機構を指す。具体的にはプロセッサと通信機構をセットにしたもの。

著者プロフィール

安田豊(やすだゆたか)

京都産業大学コンピュータ理工学部所属。KOF(関西オープンフォーラム)やiPhoneプログラミング勉強会などのコミュニティ活動にも参加。京都の紫野で育ち,いまは岩倉在住。せっかく復帰させたCBX 400Fに乗る機会がなく残念な日々を過ごしている。

バックナンバー

2014年

コメント

コメントの記入