(PUEとDCiE)
米国環境庁(EPA(Environmental Protection Agency))は、自動車、家電製品、OA(Office Automation)機器、IT機器の一部(サーバ)、建造物などのエネルギ効率の指標を登録するエネルギスター(Energy Star)と呼ばれるプログラムを通じて、個々の機器の省エネ性能を公示している。2010年夏には、データセンタのエネルギ効率を示すエネルギスターデータセンタの運用が開始される。データセンタのIT機器の仕事量をエネルギ消費と対比する手法には、米国のデータセンタエネルギ効率化活動を行っている非営利法人のグリーン・グリッド(the Green Grid Association)(非特許文献1参照)が提唱した、PUE(Power Usage Effectiveness)が使用される手法がある。PUEは、データセンタの省エネ度を測るための数値として現在世界で最も普及しているもののひとつと言われている。
しかしながら、PUEを算出するための数式は下記のように単純であり、データセンタの用途の違いやデータセンタ内で運用されているシステムやアプリケーションの違いまでを考慮した仕事の細分化はされていない。
PUEは以下の式1で定義される。
データセンタのインフラ用のエネルギ利用量は、空調、照明、警備、その他データセンタの建物が利用するすべてのエネルギの利用量を含む。通常このエネルギは電力で賄われる。また、IT機器の総エネルギも電力からまかなわれる。したがって、これらのエネルギの利用量は電気の利用量すなわち電力量で表され、特にKWH(キロワット時)の単位で表される。
このPUEを使用した例を説明する。PUE=4の場合、
となる。この式2では、50KWH分のITに関する仕事量を作り出すのに、データセンタの総設備は、200KWHを使ったことになる。
データセンタのエネルギ総利用量には、IT機器のエネルギ総利用量も含まれているため、理論的にはPUEが1.0になることはないと考えられる。しかしながら、1.0に近い数値であればあるほど省エネ度が高いデータセンタとされている。本発明者の当業者としての経験から、PUEは平均的には2程度であり、2を切ると省エネ度がよいと言え、1.5に達すると省エネ度が非常によいと言える。
PUEをパーセンテージで表記する手法として、(PUEの逆数×100%)であるDCiE(Data Center Infrastructure Efficiency)を使用する手法がグリーン・グリッドにより提唱されている。DCiEは以下の式3で定義される。
PUEを定義する式1やDCiEを定義する式3におけるIT機器の総エネルギ利用量は、IT機器(特にサーバ)が稼動している時に使われる電力量のすべてを含む。サーバは、アイドルの状態でも一定の電力を消費する。サーバは、アイドルの状態では、サーバやデータセンタの用途から見て意味のある仕事すなわち有効な仕事を行っていない。つまり、サーバがアイドル状態で運用されている場合は、仕事が効率的には行われていないと考えられる。仮にデータセンタの全ザーバがアイドル状態で運用されている場合は、有効な仕事の仕事量(以下、有効仕事量と称す)がゼロとなりえる。
ネットワーク接続型(特にインターネット接続型)のデータセンタでは、そこで運用されているアプリケーション・システムにより、利用率(仕事量)の傾向(トレンド)が違う。例えば、インターネット検索サービスの提供を主たる用途としているアプリケーションサーバ群は、平日よりも休日に多く利用される傾向にあり、また平日でも午前よりも午後、特に夕方から夜までに多く利用される傾向にある。他の例として、証券取引所接続の証券会社等のインターネット株取引システムでは、証券取引所の取引時間帯には多くの取引が行われることに対応して仕事量が大きくなり、証券取引所が取引を閉じている夕方から朝や土日、祝祭日には、それ程大きな仕事量は発生しない。証券取引所が閉まっている時間帯においては、証券会社の顧客は個々の口座の情報を参照することなどのみを行うと考えられるので、取引時間帯より仕事量は少ないと考えられる。このように仕事量が少ない状態では、サーバはアイドル状態となっている可能性がある。サーバはアイドル状態では有効な仕事を行わずに電力だけを消費していることになる。しかしながら、家電機器などと違い、データセンタのIT機器は、運用上の要請から単純に電源をON・OFFすることはできず、仮に休眠状態とされていても何らかの通電がある。したがって、有効仕事量が少ない状態で電力が消費されていることになる。
スーパーコンピュータなどを持つ特殊用途のデータセンタは、その目的となるプログラム・計算が完了するまでほぼ100%のサーバ利用率で有効な仕事をノンストップで行う。したがって、IT機器の消費電力のほぼ100%が有効に利用されていると仮定できる(一部のオーバヘッドは、存在する)。このようにデータセンタには各種用途があり、またデータセンタ内のシステムやアプリケーションにも様々な用途や特性が存在しうるので、上記のPUEやDCiEでは有効な仕事が効率的に処理されているかを計測することは難しい。PUEは、データセンタの省エネ度を時系列的に比較するのには適しているが、仕事が有効であるか無駄があるかまで考慮する場合には向いていない。
仮にデータセンタで100台のサーバがアイドル状態で稼動しておりそれらのサーバでの消費電力量が100KWHで一定であるとした場合、その100台のサーバから発生する熱により暖められたデータセンタを空調装置を使用して冷却するために消費する電力は、日中と夜間、また夏と冬とで異なる。例えば、夏は外気温が高いので空調の稼動が多くなり、冬は外気温が低いので空調の稼動が少なくなる。したがってPUEは夏と冬とで異なる。具体的には、夏の総データセンタ電力量が200KWHの場合、冬の総データセンタ電力量は150KWH程度となることも考えられ、この場合、夏はPUEが2.0となり、冬は1.5程度となる。このように、PUEは自然環境の変化に伴って変動するので、確度の高い省エネ度の指標とは言い難い。
ムーアの法則によると、IT機器の性能は世代が進むにつれて向上するとされている。2000年に製造されたサーバより2010年に製造されたサーバのほうが性能面において効率が高く、また消費電力の観点からも改善され同時に省エネ化も進んでいると言える。しかしながら、PUEでは、この2000年製のサーバと2010年製のサーバの省エネ度の違いを数値的に解析することは難しい。この課題を解決すべく、グリーン・グリッドや世界のIT業界団体等がIT機器の総有効仕事量とデータセンタの総エネルギ利用量とを比較する方式をいくつか提唱した。しかしながら、それらの方式によってもやはり、用途や目的の違うシステムやアプリケーションが混在したデータセンタに対して省エネ度の比較計測を行うのは難しい。
実施の形態では、ネットワーク上の通信の量の特性をモニタし集計することにより、データセンタの作業効率を計測する省エネ度測定方式を提唱する。
(DCePとプロキシ案)
これまで、いくつかの仮説を立てて有効仕事量の計測手法の提言が行われた。しかしながら、提言された計測手法では、データセンタの個々の運用事情を考慮すると実際の計測が難しいことが発見された。グリーン・グリッドは、PUEやDCiEよりさらに仕事を細分化した分析を試み、DCeP(Data Center Energy Productivity)と呼ばれる指標を策定した。DCePは以下の式4で定義される。
DCePについて、有効作業量の計算は理論的には可能であるが、この有効作業量の計算を行う計算アプリケーションはサーバにかなりの負荷を与えうる。したがって、実際に有効な作業を行っているサーバ内で同時にかかる計算アプリケーションを走らせた場合、計算アプリケーションがメモリやCPUリソースを過大に使用する可能性がある。有効作業量の計算によりサーバへの負荷が増大し、サーバそのものの消費電力がその分増大し、それに伴い熱が発生し、結局データセンタ内の温度が上昇するので空調装置への負荷が多くなる。ベンチマークとして1台程度のサーバでDCePを計測する場合はそのような負荷や発熱もそれ程大きくないかもしれないが、大きなデータセンタでは、DCePを計測するサーバの台数を10数台から、100台、200台と増やすごとに、計測に伴う消費電力や空調負荷が増大することになる。
グリーン・グリッドはDCePを使用する方式に代わる有効作業量計測方式として下記の8つのプロキシ案を提案した。しかしながら、これらの案にはそれぞれ課題がある。
プロキシ案1.データセンタの有効作業量の自己診断と報告による方式(Useful Work Self-Assessment and Reporting)
プロキシ案2.「エネルギ生産性」のサブセット化によるプロダクティビティのリンク方式(DCeP Subset by Productivity Link DCeP )
プロキシ案3.ワークロードのサンプリングによるDCeP「エネルギー生産性」のサブセット化方式(DCeP Subset by Sample Workload)
プロキシ案4.データセンタを出入りする(通信ビット総数)/(キロワット時)(Bits per Kilowatt-hour)
プロキシ案5.SPECint_rate手法によるCPU負荷計測方式(Weighted CPU Utilization - SPECint_rate)
プロキシ案6.SPECpower手法によるCPU負荷計測方式(Weighted CPU Utilization - SPECpower)
プロキシ案7.秒単位のコンピューティング処理ユニット計測方式(Compute Units Per Second (CUPS))
プロキシ案8.基本OSソフトのワークロードの効率化方式(Operating System Workload Efficiency)
他の方式としては、日本のグリーンIT推進協議会(GIPC(Green IT Promotion Council))は、データセンタのエネルギ効率化指標としてDPPE(Datacenter Performance per Energy)を提唱している。米国の会社は、CADE(Corporate Average Datacenter Efficiency)を使用する手法を提唱している。また、オーストラリアの業界団体、また英国のコンピュータ業界団体である、BCS(British Computer Society)も別な計測手法を提唱している。
(従来の手法の課題)
世界で提唱され一部試験的に使われている以上の計測方法は、大きく2つに分けられる。第1グループは、米国のグリーン・グリッドが提唱するPUEとDCiEである。DCiEは単にPUEの逆数を%で表記したものであり、その数値が%の値で見比べられるので単純な比較を行うために作られた。すなわちDCiEはPUEの別表記であり、計算される内容はまったくPUEと同じである。PUEは式1の通り、単純にデータセンタの総消費電力をそのデータセンタ内のIT機器が同じ期間に使用した消費電力で割った数値であるので、その期間にIT機器が何をしていたかは考慮されない。
IT機器のうち例えばサーバは、一般的には、有効な仕事をしていないアイドル状態でもフル稼働時の30%程度の電力を消費しているとされる。最新のブレードサーバでは、その高密度な回路構成と狭いスペースに多くの半導体素子が設置されている都合上、アイドル状態でも消費電力は大きくなる。一部のブレードサーバではアイドル状態においてフル稼働時の70%もの電力を消費しているものも存在する。また、ひとつのデータセンタ内のサーバ全体の30%から60%はアイドル状態にあるというデータも見られる。
一方で、スーパーコンピュータのような特殊サーバ群のみを保有するデータセンタの場合は、そのスーパーコンピュータサーバ群が目的とされる計算を行っているときはほぼ全サーバが100%のフル稼働で稼動しており、全計算が終了するまではアイドル状態にならずにフル稼働をしているとされる。例えば日本国内の地球シミュレータ(スーパーコンピュータ)は、計算時は、フル稼働が長時間にわたり続くデータセンタとなるであろう。また、このスーパーコンピュータ型データセンタは、その特徴として、特殊な用途の計算を実行している間は殆どデータセンタ外との情報通信(例えば、インターネットへのデータ転送)を行わないことがある。
以上を考慮すると、PUEは単に、あるデータセンタについて、IT機器とその運用をサポートする設備機器(エアコン、照明等)とをどの程度のエネルギ効率で稼動させていたか、を時間別に比較するための指標となりうるのみである。証券業務に特化したデータセンタでは、その運用の特性から、夜間処理業務が終了した深夜から取引所の場が開く翌朝までの間や休日はほぼ全サーバがアイドル状態となりうる。したがって、IT機器の消費電力はフル稼働時より下がるのでPUEは向上する(低下する)が、有効仕事量はほぼゼロであり、何もしていないことになる。つまり、PUEは高いが有効仕事量は少ない状態が起こりうる。この状態では省エネ度は悪い。
PUEを使用した手法では、実際の有効仕事量を測ることは難しく、したがってIT機器が有効な仕事を行うのに消費した電力を測ることは難しい。そこで、グリーン・グリッドは上記のDCePを提唱した。DCePを使用した手法では、上記の通り、有効な作業をそのシステムまたはアプリケーションのオーナが定義し、その有効度をもとに、消費電力量と対比させる。DCePでは、下記の通り式と変数を定義している。
現状のデータセンタでは、DCePの変数の一つであるViの定義における思想の通り、多くの違った用途を持つ複数のシステムがサーバ群の中で稼動している。各種用途を持つサーバの例としては、電子メールの処理をするメールサーバ、WEBページを提供するWEBサーバ、データベースを提供するDBサーバ、ビデオ映像を配信するビデオストリーミングサーバなどがある。これらの異なる用途を持つサーバは、それぞれ違った動作とサーバ負荷を発生し、アイドル状態、低負荷状態、中負荷状態、大負荷状態などの動作状態の時間軸上での現れ方も異なる。また、サーバによりアイドル状態における消費電力が異なる。また、サーバにより特定のシステムやアプリケーションを動かす上での消費電力(平均値や最大値)も異なる。アプリケーション面で100%使用されているからといって必ずしもサーバの負荷が100%であるとは限らない。サーバのプロセッサ(CPU、MPU)の性能、メモリサイズ、サーバ内のデータ転送バスのサイズなどにより、特定のアプリケーションは、実際にはそのサーバが提供できる最大出力の60%しか使わないケースもある。
確かに、DCePを使用した手法では、全てのシステムと付随する全てのアプリケーションとを把握してそのアプリケーションの有効仕事量に比重を付けることができれば、理論的には、その総和をもとに有効作業量の比重を計測できる。しかしながら、現実的には、一般的なデータセンタにおいて全てのシステムと付随する全てのアプリケーションの用途とを導出することは難しく、したがって有効作業比率を出すのは難しい。そのため、グリーン・グリッドは上記の8つのプロキシ案を提唱した。
上記の8つのプロキシ案は、大きく分けると下記の3つに分類される。
(1)プロキシ案1〜3
(1−1)有効作業量(Wi)をベースにしている。
(1−2)パフォーマンスモニタなどから得られる数値を測る。
(1−3)ソフトウエアを使い作業量を測る方式。
(2)プロキシ案4
(2−1)データセンタから出る外向けルータの通信量を測る。
(3)プロキシ案5〜8
(3−1)省エネ度の測定で、サーバなどのスペックを比べる。
(3−2)プロキシ案5、6は、公表ベンチマークが基準で、SPEC団体が提供するベンチマーク数字をベースとする。
3分類の(1)に属するプロキシ案1〜3では、有効作業量をモニタするために、すでに基本OSに搭載されている性能計測の機能であるパフォーマンスモニタを利用するか、または特殊な計測ソフトウエアをインストールする必要がある。OSの計測機能や計測ソフトウエアはそれ自体がシステムに対して新たな仕事を発生させてしまい、サーバの負荷を増やすことになり得る。すなわち、サーバに有効作業量の計測をさせるという思想上、計測に伴う新たな負荷の発生は不可避であり、省エネ化が阻害されかねない。
3分類(2)に属するプロキシ案4は、単純にデータセンタから外部に出るネットワーク出力のビット数を計測するものであり、仕組みは簡単であるが用途は限られてしまう。例えば、情報提供のWEBサービス用データセンタが単純にWEBページを外部のインターネットユーザに提供することのみを行っている場合は、このプロキシ案4でも計測が可能である。しかし、複雑な検索や計算等をデータセンタ内で行い、その結果のみを外部に返しているシステムの多いデータセンタにプロキシ案4を適用した場合、内部で処理を行っているサーバの有効作業量が殆ど無視されてしまう。また、映画等の映像配信を行っているデータセンタは、その特性により多大なデータをインターネットに排出してはいるが、そのサーバ側の作業としては、ディスク等のストレージに保存された映像素材のデータを単にネットワークに転送しているのみである。したがって、そのようなデータセンタにプロキシ案4を適用した場合、計算等の複雑な作業が発生しにくく単に大量のデータが出るのみなので、有効作業量対電力消費では非常に良い数字が出てしまう。その反面、計算や複雑な検索、データベース処理が主に行われるデータセンタでは、外部に送信されるデータは主に処理結果を示す単純な画面等の少ないデータなので、プロキシ案4のもとではその有効な仕事量が無視され、現実のデータセンタの有効作業とはかけ離れた非効率な数値が現れうる。
3分類(3)に属するプロキシ案5と6では、ベンチマーク方式を取っている。これは主に、米国の標準化団体が提供しているC言語やC++言語のサンプル計測ソフトを稼動させてサーバ別の性能を測る方式である。案6の場合は、さらにサーバに特殊なハードウエアを装着し、ハードウエアのマイクロコード機能(OSソフトの外側のハードウエアそのもののファームウエア)にて使用された電力量を計測して外部にネットワーク経由で報告する。案6では、SSJ(Server Side Java)と呼ばれるサーバ側で稼動するJAVA(登録商標)言語で書かれたサンプルベンチマークプログラムを稼動させる。どちらにしろ、あくまでベンチマーク用に提供されたソフトウエアにての計測なので、実際に動くアプリケーションソフトウエアとはまったく違った結果を生み出す可能性が高い。したがって、単にサーバ対他のサーバ(同じメーカの他の機種や、別メーカの同等機種、構成の違うサーバなど)の性能評価と電力消費の基準にしかならない可能性が高い。
プロキシ案7は、世代の違うサーバでは電力消費とサーバの性能とが異なりうるという観点から歴代別方式での計測を行う手法である。ここでは、実際のアプリケーションの用途や仕事の区分、有効作業量は考慮されない。プロキシ案7では、サーバも10年程度の時間単位で見ると、10年前よりも現時点のほうが計算速度も速くなり、電力消費も一般には低減することが前提となっている。しかしながら、例えばブレード等の高密度サーバを考えると、従前機種と比べて処理能力は確かに高まったが発生する熱はむしろ増え、電力消費も増えていることがある。プロキシ案7を使用してデータセンタの省エネ度を評価したとしても、古いサーバを多く持って仕事をするより、新しく高性能で省エネ化され電力消費の少ないサーバを多く使った方が良いという結果しか得られない。これは、一つのデータセンタのライフスパンの中で、10年前、5年前、3年前、2年前、1年前などの期間で、どれだけ新しい機材が入りそれが故にデータセンタのIT機器の電力消費がどれだけ変革したかの指標だけしか見出せないと考えられる。
プロキシ案8は、単純に一つのデータセンタ内で稼動している基本OSの数を比較する手法である。これは、基本OSの数をサーバの数に対して増やせば効率が高まると考える手法であり、近年登場した、1台のサーバ下で複数の基本OSを動かす仮想化技術に由来する。平均的なデータセンタ内のサーバ群は、運用時間のうち30%から60%でアイドル状態となっていると考えられている。仮に、サーバが運用時間のうち半分の時間でアイドル状態となって有効な仕事をせずに稼動しているのであれば、基本OSを集約する仮想化技術によりサーバ数を下げることができ、消費される電力量も下げられるというのがプロキシ案8の理論である。例えば、50%アイドル時を持つサーバ2台を仮想化サーバ1台に統合すれば、サーバが1台減り、理想的には電力消費もおよそ半分で済むと言えるかもしれない。しかしながら、現実的には、どの時点でどのサーバがどうアイドル状態になるかは、そのアプリケーションの特性などにより異なる。例えば、集約された2つの基本OSが同時に100%の負荷を要求した場合には、1台のサーバに200%の負荷がかかり、各基本OSの有効作業の処理能力が半減しかねない。つまり、サーバの数は半分に減るが、サーバは負荷100%で動いているにも関わらず仕事の処理に2倍の時間が必要となる不効率が発生し、その分余計な電力消費が発生する可能性がある。
グリーンIT推進協議会(GIPC)が提唱しているDPPEを使用した計測手法は、グリーン・グリッドの提唱するPUEを使用した手法にさらなる計測数値を加えて計算する手法である。この手法では、まず下記の式6でITEU(IT Equipment Utilization)を定義する。
GIPC提唱の手法では、ITEUを使用して、実際に一つのデータセンタで使われているIT機器の消費電力を合算した総消費電力とメーカが提供している定格電力を合算した総定格電力とを比較する。そして前者が後者より低い場合には、IT機器には、更なる電力的な負荷をかける余裕があると想定されるので、仮想化や、アプリケーションの統合によりサーバの総数を減らすことが検討されうる。
またGIPC提唱の手法は、下記の式7で定義されるITEE(IT Equipment Energy Efficiency)という数値を提唱している。
ここでは新たにIT機器を大きく3つ、すなわち「サーバ」、「ストレージ」、「ネットワーク機器」に分類しているが、その能力の総和をとっているので、分子はあくまで(IT機器の総能力)=(データセンタのIT機器の総消費電力)である。したがってITEEはITEUと同様である。
さらにGIPC提唱の手法は、下記の式8で定義されるGEC(Green Energy Coefficient)と呼ばれる数値を提唱している。
GECは、データセンタに熱の再生・再利用やソーラーパネルや風力発電装置などの自然エネルギ装置を導入し、それをグリーンエネルギと称した場合、そのグリーンエネルギとデータセンタの総消費エネルギとの比率を示す。GECは、いかに環境に配慮したエネルギをデータセンタで発生させ、また利用するかという主旨で提唱されている。
DPPEは以下の式9で定義される。
DPPEは理論上は計算できる。しかしながら、特にサーバやストレージについては、製造元が提供する数値である定格電力と定格電力が得られるとされる条件の下での実際の機器の消費電力とは異なっている場合が多い。また、公表されている定格数値についても、製造メーカにより数字の変更や切り上げ等があり統一されていない。また、同じ機種でも世代が違って異なるバージョンとなると、例えば異なる電源装置が装備されている場合もあるので定格数値は必ずしも同等ではない。すなわち、定格電力はあくまで標準的な平均値に許容値を足した安全数値である場合が多く、総定格電力はそのデータセンタが使い得る電力であるとは限らない。むしろ、これらの定格電力を全て足した場合、かなり余裕を持った数値が生じ、実際に全IT機器をフル稼働させ100%負荷をかけても総定格電力にはいたらない場合が多いと考えられる。
似たような事例に自動車の燃費がある。例えば、米国EPAが提唱し、提示し続けているEPAマイレージは、特定の車種の車両の一般道走行時の燃費および高速道路走行時の燃費である。このEPAマイレージは必ずしも実燃費性能とは一致しない。このことからも、メーカによる定格電力にはある程度の誤差が含まれていると考えるべきである。したがって、DPPEはあくまで理論値であると考えるのが正しいと思われる。
米国の会社提唱のCADEは下記の式10で定義される。
CADEも理論上は計算できる。しかしながら、上記のグリーン・グリッドのプロキシ案と同様に実計測が難しい。特に、ファシリティ設備系の利用度の厳密なパーセンテージ化は難しく、ファシリティ設備の種類の多さ(例えば、空調機器では、水冷却装置や水循環装置など単に冷気を排出するエアコンユニット以外にも、多くの機器が組み合わされてはじめて稼動する)や受電設備、変電設備、配電設備、照明設備等を合わせると用途の違いにより単純にパーセンテージ化し難い。つまり、ファシリティ設備の比重の違いの細分化が難しい。同様に、IT機器系の利用度の厳密なパーセンテージ化も難しく、サーバの基本OSやサーバに搭載されるアプリケーションやサーバの用途などの相違により、上記のプロキシ案での区分の難しさの通り、CADEでもIT機器の利用度の比重化による計測は難しい。
また、CADEを使用する手法では、米国のデータセンタの基準であるTier(ティアー)方式の区分を考慮している。Tier方式では、特に二重化、多重化、N+方式のバックアップなどの設備基準とIT機器の装備による区分をしており、必ずしもIT機器の省エネ化を目的としていない。Tier方式では、IT機器とそのシステム・アプリケーションが停止せずに動くためには、電力消費が多くなっても例えば多重化を考慮する方式を取っている。この場合は、電力消費の省エネ化は無視してもよいとの考え方も含まれていると考えられる。
オーストラリアのNABERSデータセンタ提唱の計測手法は、グリーン・グリッドが提唱する複数の計測方法(PUE、DCiE、DCeP、プロキシ案)や米国の会社提唱のCADEを使用した手法を考慮しつつ、サーバのベンチマークを行うことを基準としている。したがって、この手法はあくまでサンプリングの域を超えておらず、実際のアプリケーションやシステムの用途およびデータセンタの特性(WEBベース、映像ベース、科学計算、金融業等)を考慮すると、グリーン・グリッドのプロキシ案5、6と大差がない。
英国BCSのサブワーキンググループであるDCSG(Data Center Specialist Group)が提唱する方式は、グリーン・グリッドのDCiEをベースに考えられている。DCSGが作成したデータセンタシミュレータでは、個々のデータセンタのファシリティ系の構成機器とIT系の機器すべてをデータベース化する。そして、一つのデータセンタの全体をスナップショット化し、その状態でのDCiEを計算して標準とする。その後、機器の構成を変更することでDCiEがどのように変動するかのシミュレーションを行う。これにより、ファシリティ面やIT機器面からどういう機器構成の変更を行えばデータセンタの省エネ化が行えるかを予測する。その予測後に実際に構成変更を行い、実計測をし変更点がどのような省エネ効果を生じたかを見る。しかしながら、この手法では、DCiEをベースとしている限りIT機器全体の電力消費のみを考慮している。したがって、先にPUEの説明で指摘した通り、サーバ個別の利用度合いやサーバの用途などが考慮されておらず、完全な省エネ化とは離れた数値が出てしまう可能性がある。
以上より、現在世界で提唱されている6種類のデータセンタにおける省エネ度の計測手法(グリーン・グリッド提唱のPUE、DCiEを使用する手法、グリーン・グリッドが提唱したプロキシ手法、グリーンIT推進協議会が提唱しているDPPEを使用する手法、米国の会社提唱のCADEを使用する手法、オーストラリアのNABERSデータセンタ提唱の手法、英国BCS提唱の手法)には、計測が単純すぎて使用の用途やサーバの運用上の特性(アプリケーションの稼動の実態)などを考慮していないという課題、あるいは逆に事実上計測不可能な数値や、計測に含んでしまっては誤差を発生させうる数値(製造メーカの定格数値)を含むという課題、あるいは計測を行うために新たな負荷をサーバに発生させ、実稼動以上の負荷とエネルギ消費が発生してしまうという課題がある。
以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。
図1は、実施の形態に係る解析装置100を含むデータセンタ2を示す概略図である。データセンタ2は、第1サブネット4と、第2サブネット6と、第3サブネット8と、PC端末10と、第1サーバ12と、第2サーバ14と、第3サーバ16と、第1ルータ18と、第2ルータ20と、WAN(Wide Area Network)ルータ22と、SAN(Storage Area Network)ストレージ24と、NAS(Network Attached Storage)ストレージ26と、メインフレーム28と、スーパーコンピュータ30と、ノード情報保持部138と、解析装置100と、を備える。
第1サブネット4は、PC端末10と第1サーバ12と第2サーバ14とノード情報保持部138(図5で後述)とに接続され、それらへのパケットおよびそれらからのパケットを中継する。第1サブネット4は、第1ルータ18を介して第2サブネット6およびWANルータ22と接続される。
第2サブネット6は、メインフレーム28とSANストレージ24とに接続され、それらへのパケットおよびそれらからのパケットを中継する。第2サブネット6は、第1ルータ18を介して第1サブネット4と、第2ルータ20を介して第3サブネット8と接続され、第1ルータ18または第2ルータ20を介してWANルータ22と接続される。
第3サブネット8は、第3サーバ16とNASストレージ26とスーパーコンピュータ30とに接続され、それらへのパケットおよびそれらからのパケットを中継する。第3サブネット8は、第2ルータ20を介して第2サブネット6およびWANルータ22と接続される。
WANルータ22は、インターネットなどの外部ネットワーク32と接続される。WANルータ22は、データセンタ2から外部へのパケットを外部ネットワーク32に送出し、外部からデータセンタ2へのパケットを受け取って第1ルータ18または第2ルータ20にルーティングする。
解析装置100は、第1サブネット4と第2サブネット6と第3サブネット8とに接続され、各サブネット内を流れるパケットを傍受する。「傍受する」ことは、傍受対象のパケットを消滅させることなくその内容を取得することであってもよく、例えばパケットをそれに含まれる終点IPアドレスによらずに取得することであってもよい。
解析装置100は、傍受したパケットの内容を蓄積し、IPアドレスでソートすることで各IPアドレスに対応するノードにおける仕事の内訳を導出する。
ここでデータセンタ2は、サーバやPC端末やルータやストレージやIO機器(プリンタなど)などのノードを有するネットワークを含むと見ることができる。各ノードは、TCP(Transmission Control Protocol)/IP(Internet Protocol)プロトコルにしたがい他のノードもしくは外部と通信する。
図2は、図1のデータセンタ2の電力系統を説明するための説明図である。データセンタ2は、バスバー方式のテーブルタップ型の第1PDU(Power Distribution Unit)34と、同じくバスバー方式のテーブルタップ型の第2PDU36と、をさらに備える。
第1PDU34は、外部の電源と接続され、PC端末10、第1サーバ12、第2サーバ14、第1ルータ18、SANストレージ24、ノード情報保持部138、のそれぞれに電力を供給する。第1PDU34は、電力の供給先ごとに供給された電力を計測する機能および計測された電力値を図2では不図示のネットワークを介して解析装置100に報告する機能を有する。これらの機能は公知の技術を使用して実現される。
第2PDU36は、外部の電源と接続され、第3サーバ16、第2ルータ20、WANルータ22、NASストレージ26、メインフレーム28、スーパーコンピュータ30、のそれぞれに電力を供給する。第2PDU36は第1PDU34と同様の機能を有する。
解析装置100は、第1PDU34および第2PDU36から、各ノードに供給された電力の計測値を取得し蓄積する。解析装置100は、蓄積された計測値から、ノードにおける仕事別の消費電力を導出する。
本実施の形態に係る解析装置100は、サーバ・サーバ間通信で一般的に利用されているTCP/IPプロトコルをベースにデータセンタ2内の各サーバの利用度を計測する。また、解析装置100は、米国のEPAが行っている、機器の省エネ度の指標であるEnergy Star for Serverの第二ステップの機能も利用が可能な場合は利用する。米国のEPAが行っているEnergy Star for Server 2では、登録し認定される機器は、3つの報告機能をハードウエア本体のマイクロコード(ファームウエア)のレベルで提供でき、基本OSや他の計測ソフト、アプリケーションや本来のサーバの処理能力(本体のCPU・MPU)には、影響を与えないハードウエアの管理機能を持つこととされている。この3つの報告機能は、1)サーバの実電力消費数値、2)サーバの本体CPU・MPU等の処理用プロセッサの使用率、3)サーバの実稼動の温度、である。
なお、米国のEPAが行っているEnergy Star for Server2の機能がない場合は、電力の実消費は、現在すでに製品化されている電源利用計測機能を持った第1PDU34や第2PDU36などの電源コンセント装置を利用して取得される。この装置は、単体で、個々の電源コンセントにおける電力消費状況をネットワーク経由でレポートできる機能を有する。また、サーバ個々の温度状況は、サーバに外接の温度センサから温度を読み取り、同じくネットワーク経由でその温度をレポートできる機能を持った装置を利用して取得される。サーバのプロセッサ使用率計測は、既存のOS機器に搭載されているパフォーマンスモニタ機能ないしは、計測用の特殊ソフトにより行われる。ただし、この機能を利用した場合に発生するサーバへの個別の負荷は計測され、実計測後、そのパーセンテージを全パーセンテージより引いたものを計測数値とする。
過去のデータセンタは、例えば、大型のホスト系コンピュータと呼ばれる大型コンピュータ装置が、特殊な通信方式を使い周辺機器(ストレージ、ネットワーク機器)とデータの転送や通信を行っていた。その後登場した、クライアントサーバ方式では、特殊な通信方式(例えば、IBM社チャンネルIO(インプット・アウトプット)装置や、バス方式の周辺機器通信、RS232や422方式の平行多線による機器・機器間の接続による通信転送機能)を使用せずに、TCP/IP方式によるサーバと周辺機器間のデータのやりとりが行われる。
現在、多くのデータセンタ内のIT機器間の通信は、TCP/IP方式で行われている。小規模なネットワークでは、HUB装置を使用して機器同士の通信をイーサネット(登録商標)で行う。ネットワーク規模がデータセンタ内でも大きくなると、複数のHUB装置を含むサブネットを接続中継するルータや、高速で個々のIT機器間を直接仮想的に直結する機能を持つスイッチ等が使用される。また、高速通信を行うために、光ファイバ装置を通した通信や、光ファイバの特性を利用した特殊高速データ転送装置のファイバチャンネルなども存在するが、それらは、TCP/IPプロトコルを基本に通信を行っている。つまり、データセンタ内の多くの装置(サーバ、ストレージ、ネットワーク機器、プリンタ、テープや他の記憶装置)は、TCP/IPプロトコルで通信を行っており、そのネットワークは、HUB、ルータ、スイッチ(LAN機材)とワイドエリア遠距離通信用のルータやスイッチ(WAN機材)を備える。
TCP/IPプロトコルには、その標準規格において、ポートと呼ばれる個別の口が用意されており、ポートにより通信の用途(以下、通信用途と称す)が違う。TCP/IPプロトコルでは、サーバAとサーバBとが通信を行う場合に、アドレスと呼ばれる番号が使用される。サーバAからサーバBへ通信を行う場合には、発信元のアドレス(サーバAのアドレス)と行き先のアドレス(サーバBのアドレス)が指定され、また通信用途により口(ポート)が指定される。ここで指定されたポートを使いデータの転送や通信の確認・照会が行われる。
通信用途は、電子メールの送信や受信、FTP(File Transfer Protocol)、WEB閲覧であってもよい。
アドレスは、ノードを特定するIDであり、例えばIPアドレスまたはMACアドレスもしくはその両方である。IPアドレスは、データセンタのネットワーク管理者により個別に割り当てられる。MACアドレスは、ノードが有するネットワーク接続用のハードウエア(例えば、LANカード)に割り当てられ、そのハードウエアを一意に特定するIDである。
PC機器DとWEBサーバCとの通信では、PC機器DのIPアドレスおよびMACアドレスと、対するWEBサーバCのIPアドレスおよびMACアドレスとを元に通信が行われる。また同時に、HTTP(HyperText Transfer Protocol)方式での通信によるデータの転送を行う場合には、ポート番号をこの種類の通信のためのポート番号である「80」に指定してはじめて通信を確立できる。この通信では、TCP/IPプロトコルのルールに基づき、機器・機器間でネットワークを介してIPデータグラムと呼ばれる通信に関する情報を含んだデータがやりとりされる。IPデータグラムは、パケットとも呼ばれ、TCP/IPプロトコルの標準にその内容と記述の方法が定義されており、このルールを守り初めて通信が可能となる。パケットには、例として、始点IPアドレス、終点IPアドレス、プロトコル番号、ポート番号、タイムスタンプ、転送されるデータそのもの、や他の通信に必要な情報(エラー対応や、サイズ・長さ)の情報などが含まれる。
ここで始点IPアドレスや終点IPアドレスは通信に関わるノードを特定するノード情報であり、ポート番号はパケットが関わる通信用途を示す用途情報である。
TCP/IPの標準では、標準的な通信用途のためのポートが用意されている。そのようなポートは「良く知られたポート」(Well-know port number)として定義され、通信用途ごとに指定される。
(TCP/IP Well-known port numberの一部の例)
FTP・ファイル転送のファイルトランスファプロトコル用には、コントロール用にFTP 21/TCP及びFTP 21/UDPが定義されている。データ転送用には、FTP-Data 20/TCP及びFTP-Data 20/UDPが定義されている。
同様に、当初、UNIX(登録商標)系の画面通信が目的で作られたTELNET用には、23/TCPと23/UDPが定義されている。
電子メールでは、SMTPとPOP3通信が標準的に使われ、SMTP用には25/TCPと25/UDPが定義され、POP3用には110/TCPと110/UDPが定義されている。
TCP/IPプロトコルそのものも大きく分けると、IPプロトコル、TCPプロトコル、UDP(User Datagram Protocol)プロトコル、その他、に分けられる。上記の例のFTP転送の場合は、ポート番号「20」のポートをデータの転送に使い、ポート番号「21」のポートをコントロールに使う。また、その転送時には、TCPまたはUDPプロトコルを用途により使い分ける。
ポート番号「23」のポートが指定されている場合は、そのパケットはTELNETの用途で使用されていることが分かる。ポート番号「25」やポート番号「110」のポートが指定されている場合は、そのパケットは電子メール系の用途で使用されていることが分かる。また、WEBブラウザがWEBサーバと通信するときは、ポート番号「80」のポートが標準的に使用される。
本発明者は、TCP/IPプロトコルのネットワークを使ったデータセンタ内の通信について、そのネットワークの上を流れるパケットの内容を確認することにより、何処の何の機器が、何処の他の機器に何の用途で通信を行ったか、ないしは行おうとしたかがわかることを認識した。また本発明者は、同様にパケットの数や搭載されたデータの量により、転送されたデータの量が測れることを認識した。
ルータやスイッチと呼ばれる通信交換のインテリジェントな機能を持ったネットワーク機器は、その機器に対してネットワークから質問を投げると、何を行っているかないしは行っていることの用途(すなわち、通信の情報と内容)を報告する機能を有する。この機能は、主にネットワークの特殊な解析を行うために搭載された機能を利用して実現される。このルータやスイッチに対して質問し報告を受ける行為は、ルータとスイッチに過大なプロセス負担を与える可能性があり、特にあまり多くの質問を投げるとルータやスイッチそのものの処理能力が低下する可能性があり、ネットワーク全体の効率化が損なわれる虞がある。
本実施の形態に係る解析装置100は、データセンタ2内に設置され、ネットワークを通過するパケットを傍受する。解析装置100は、データセンタ2内のノードがTCP/IPプロトコルにしたがった通信を行っている場合に、その通信を傍受し、記憶媒体に通信の状況を記録する。その後、解析装置100は、特定の時間帯の通信状況のデータの解析を行い、どのノードが、何を目的に、何処のノードに通信を行い、またどれだけのデータの転送を行ったかを導出する。
ノードにおける有効な仕事量を解析する場合には、その仕事が何であるかの情報が必要である。例えば、TCP/IPプロトコルのポート「23」番と「110」番の通信ばかり行っているサーバは、メールサーバであり電子メール通信を主に行っていると仮定できる。また、TCP/IPプロトコルのポート「80」番などのWEBサーバ系のWWW通信を主に行っているサーバは、WEBサーバ機能が主業務だと仮定できる。また、「23」番、「110」番、と同時に「80」番などのポートが使われているサーバは、電子メールの機能とWEBサーバが混在しているサーバであるか、ないしは電子メールとWEBのブラウジング(閲覧)を行っているユーザのPC端末であると仮定できる。
データセンタ2内のノードはIPアドレスとMACアドレスとを有する。
データセンタ2のネットワーク管理者は、IPアドレスとそのIPアドレスが割り当てられたノードが何であるかとを対応づけて管理する。また、そのノードがサーバである場合には、ネットワーク管理者は資産管理の観点から、ノードの種類、メーカ、基本OSの種類、所有者等の情報をノード情報保持部138に登録して管理する。解析装置100はノード情報保持部138を参照してノードの機種と用途と基本OSの種類などを取得する。解析装置100はさらに、TCP/IPプロトコルにしたがった通信の記録情報から、ノードが、何の用途で、何時どれだけのデータ転送を何処に対して行ったかを解析する。このように、解析装置100はネットワークを傍受し、その通信内容を記録し、その通信内容のデータを解析することにより、どのような用途の仕事が行われたかを解析し同時にデータの転送の量も把握できる。
このデータセンタ2内のネットワークを傍受する手法により、特にサーバ内に特殊なモニタリングのアプリケーションをインストールしたりサーバの基本OSのパフォーマンス解析用ツールを使用しなくても、明確に個々のサーバの仕事量と用途を把握できる。また、ノードごとに供給された電力が計測できる上記の第1PDU34、第2PDU36を使用することにより、個々のノードが所定の期間にどれだけの電力を消費したかが分かる。さらに、これらを併用することにより、どのような仕事に対してどの程度電力が消費されたかが計測できる。
ただし、個々のサーバは、必ずしもネットワーク通信のみを行っているわけではなく、時にはサーバ筐体内のストレージに対するアクセスやトランザクション処理、外部ネットワークに出ない演算を行っている場合もある。これらの場合には、解析装置100は、そのサーバのプロセッサ使用率を取得し、同時にサーバにインストールされているアプリケーションをデータセンタ2のノード情報保持部138より取得し、ネットワーク通信以外で占めるサーバの仕事量も導出し、個別仕事量として計測する。
このようにネットワークに対する仕事量とそうでない内部の仕事量とを差別化するために、データセンタ2において、ネットワーク通信のみ必要な種類のポート通信とネットワークをまったく使わない状況にて、ベンチマークプログラムを稼動させる。これにより、実環境運用以外の状態でサーバのアプリケーションの特性を把握できる。少なくともネットワークインタフェースの性能より、ネットワーク通信時にかかる最大のプロセッサ負荷は仮定できる。このベンチマーク方式は、上記の従来技術のベンチマークとは違い、プロセッサの負荷を仕事種類別にパーセンテージ比率で仮説するために行われるので、その時の電力消費等は計測に入れない。
図3は、解析装置100およびその周辺の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPU(central processing unit)をはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。
解析装置100は、ネットワークインタフェース部102と、通信情報保持部104と、分類部132と、集計部130と、第1指標保持部108と、係数保持部114と、第1解析部116と、使用状況取得部110と、使用状況保持部112と、実測特性取得部144と、第2指標保持部118と、実測特性保持部150と、第2解析部152と、第3指標保持部158と、表示制御部120と、を備える。
ネットワークインタフェース部102は、傍受部122と、抽出部124と、フィルタ部126と、登録部128と、を含む。
傍受部122は、第1サブネット4と第2サブネット6と第3サブネット8とからパケットを傍受する。抽出部124は、傍受部122によって傍受されたパケットから始点IPアドレスと終点IPアドレスとポート番号とを抽出する。
フィルタ部126は、フィルタ機能がオンとされるフィルタリングモードでは、抽出部124によって抽出された始点IPアドレスおよび終点IPアドレスを基に、計測対象のノードのIPアドレスが含まれたパケットのみを選択して、登録部128に出力する。より具体的にはフィルタ部126は、抽出部124によって抽出された始点IPアドレスおよび終点IPアドレスのうちの少なくとも一方が計測対象のノードのIPアドレスと一致する場合にのみ、抽出元のパケットを登録部128に出力する。
特にフィルタ部126は、計測対象のノードを、データセンタ2に含まれる複数のノードから順番に選択する。すなわち、フィルタ部126は、計測対象のノードのIPアドレスを、データセンタ2に含まれるネットワークに含まれる複数のノードのIPアドレスのなかで順番に切り替える。
フィルタ部126は、フィルタ機能がオフとされるフィルタリングオフモードでは、抽出部124によって始点IPアドレスと終点IPアドレスとポート番号とが抽出されたパケットを登録部128に出力する。
登録部128は、フィルタ部126によって出力されたパケットについて、そのパケットに関する時刻と、抽出部124によってそのパケットから抽出された始点IPアドレスと、抽出部124によってそのパケットから抽出された終点IPアドレスと、抽出部124によってそのパケットから抽出されたポート番号に対応する通信用途と、そのパケットのデータ量と、ネット作業時間と、を対応付けて通信情報保持部104に登録する。
登録部128は、通信情報保持部104のひとつのエントリにひとつのパケットに関する情報を登録してもよいし、ひとつのエントリにひとつのセッションに属する複数のパケットに関する情報を登録してもよい。
分類部132は、抽出部124によって抽出された始点IPアドレスおよび終点IPアドレスのうちの少なくともひとつとポート番号とによってパケットを分類する。以下では分類部132が始点IPアドレスとポート番号とによってパケットを分類する場合について説明する。しかしながら、分類部が終点IPアドレスとポート番号とによってパケットを分類する場合、および分類部が始点および終点IPアドレスとポート番号とによってパケットを分類する場合でも以下と同様の説明が成り立つことは、本明細書に触れた当業者には明らかである。
分類部132は、通信情報保持部104に保持されるデータを始点IPアドレスについてソーティングする。以下、通信情報保持部104に登録されている始点IPアドレスを登録IPアドレスと称す。分類部132は、各登録IPアドレスについて通信用途によってパケットを分類する。特に分類部132は、ノード情報保持部138を参照し、登録IPアドレスに対応するノード(以下、登録ノードと称す)に対して予め定められた通信用途である本来用途に関する情報を取得する。分類部132は、その本来用途に対応したパケットと、本来用途以外の通信用途である非本来用途に対応したパケットとに分類する。本来用途は、例えば登録ノードがメールサーバであればポート番号「25」およびポート番号「110」に対応するメール通信(送受信)であり、WEBサーバであればポート番号「80」に対応するWEB通信である。非本来用途は、例えば本来用途以外の通信用途であり、登録ノードがメールサーバであればポート番号「20」に対応するFTP転送などである。
本実施の形態では、ノードの用途と通信用途とポート番号との関係を以下のように定義する。
1.本来のノードの用途がメールサーバの場合は、TCP/UDPのポート番号「25」や「100」などのメール通信用のポートが多く使われる。したがって、本来用途はメール通信(メール送信およびメール受信を含む)、対応するポート番号は「25」、「100」となる。
2.本来のノードの用途がファイル転送のFTPサーバの場合は、TCP/UDPのポート番号「20」が多く使われる。したがって、本来用途はFTP通信、対応するポート番号は「20」となる。
3.本来のノードの用途がWEBサーバの場合は、TCP/UDPのポート番号「80」が多く使われる。したがって、本来用途はWEB通信、対応するポート番号は「80」となる。
4.その他、TELNETなどのUNIX系サーバの画面操作は、主にシステムのメンテナンス業務に使われる場合が殆どで、逆にTELNET用のTCP/UDPポート番号「23」は使われる頻度が通常低い。但し、この「23」番ポートの利用が多い場合は、メンテナンス作業が多いサーバで、実稼動(有効な仕事)が減っているないしは阻害されていることも考えられる。
5.ジェネリックなサーバで、複数の用途の仕事が混在しているべきサーバは、単にどれだけネットワークへのデータの出入り(転送)が行われていたかを求める。
6.マルチキャストの場合はポート番号は使用されず、パケットに含まれるマルチキャストであることを示す情報を使用する。
集計部130は、少なくともひとつの登録ノードについて、本来用途に対応したパケットを集計する。特に集計部130は、所定の長さの期間すなわち時間帯ごとに、登録ノードの本来用途に対応したパケットのデータ量を集計し、また非本来用途に対応したパケットのデータ量を集計する。例えば、登録IPアドレス「13.3.3.4」に対応する登録ノードについて、時間帯「02/15/10 11:10:00~11:20:00」で集計する場合について考える。図5のノード情報保持部138から登録ノードは「メール5号」でありメールサーバである。集計部130は、分類部132における分類結果から、始点IPアドレスが「13.3.3.4」であり、通信用途が「メール送信」または「メール受信」であり、時刻が時間帯「02/15/10 11:10:00~11:20:00」に含まれるパケットのデータ量を足し合わせて、本来用途に対する集計結果を得る。また、集計部130は、始点IPアドレスが「13.3.3.4」であり、通信用途が「メール送信」または「メール受信」のいずれでもなく、時刻が時間帯「02/15/10 11:10:00~11:20:00」に含まれるパケットのデータ量を足し合わせて、非本来用途に対する集計結果を得る。
集計部130は、集計結果を第1指標保持部108(図6で後述)に登録する。
使用状況取得部110は、第1サブネット4や第2サブネット6や第3サブネット8を通じて所定の時間間隔もしくはリアルタイムで、ネットワークのノードから、そのノードの使用状況に関する情報を取得する。ノードの使用状況は、例えばノードがサーバであれば消費電力(単位はW)や機器の温度(単位は℃)やCPU使用率(単位は%)であり、ノードがストレージであればデータ転送量(単位はMB/秒)や消費電力や機器の温度であり、ノードがネットワーク機器であればデータ転送量や消費電力や機器の温度である。
使用状況取得部110は、サーバの基本OSに搭載されているシステムパフォーマンスモニタのデータを取得する。
使用状況取得部110は、第1PDU34および第2PDU36から、各ノードに供給された電力の計測値を消費電力として取得する。
使用状況取得部110は、ノードの温度を計測できる市販の装置(温度センサや、光ファイバ方式の温度センサ)と、その温度データを記憶して報告するデータ収集機能(市販されているソフトウエアパッケージ、またはサーバ組み込み型の特殊ハードウエアパッケージ)と、を利用して機器の温度を取得する。
あるいはまた、使用状況取得部110は、米国EPAのEnergy Star for Server 2で登録し認定されるノードからは、上記3つの報告機能を使用して消費電力と機器の温度とCPU使用率とを取得する。
使用状況取得部110は、取得した使用状況に関する情報と、それを取得した時刻に対応する時間帯と、取得先のノード名・IPアドレスと、を対応付けて使用状況保持部112(図8で後述)に登録する。使用状況取得部110が所定の時間間隔で情報を取得する場合は、時間帯は例えば取得した時刻から所定の時間間隔が経過するまでの期間に設定される。あるいはまた、使用状況取得部110がリアルタイムで情報を取得する場合は、所定の長さを有する期間を時間帯とし、使用状況に関する情報をその期間で時間平均する。
第1解析部116は、第1算出部134と、第2算出部136と、第1合成部142と、を含む。
第1算出部134は、第1指標保持部108に登録される登録ノードのうちサーバ(以下、登録サーバと称す)について、本来用途データ量と非本来用途データ量とを足し合わせ、対応する計測期間における通信用途の総データ量(例えば、GBの単位)を得る。
一般的に、所定の量、例えば1kBのデータを電子メールとして送るにはどれだけの負荷がメールサーバにかかるかは測定できる。同様に、各種サーバについて、通信用途のデータ量とそれによるCPU使用率との関係は事前に測定できる。係数保持部114(図7で後述)はその関係を示す係数(例えば、%・分/GBの単位)を保持する。この係数が1である場合、例えば1GB分の通信用途のデータ量を処理するためにサーバは1%のCUP使用率で1分間稼動しなければならないことを意味する。この係数では通信用途の違いは平均化されているものとする。
第1算出部134は、登録サーバについて、通信用途の総データ量を対応する計測期間の長さ、例えば分を単位とする長さ、で除し、通信用途の時間平均データ量(例えば、GB/分の単位)を得る。第1算出部134は、係数保持部114からその登録サーバに対応する係数を取得する。第1算出部134は、その登録サーバについて、通信用途の時間平均データ量と係数とを乗算し、乗算の結果得られる値(例えば、%の単位)を、その登録サーバおよび計測期間における、通信に関する処理によるCPU使用率の推測値(以下、第1推測値と称す)とする。
例えば、図6の第1指標保持部108に登録されるノード名「メール5号」に着目すると、第1算出部134は、計測期間「02/15/10 11:10:00~11:20:00」における通信用途の総データ量として「150(GB)」を得る。ここで1GB以下は切り捨てた。第1算出部134は、「150(GB)」を計測期間の長さ「10(分)」で除し、通信用途の時間平均データ量「15(GB/分)」を得る。第1算出部134は、図7の係数保持部114を参照し、係数「4(%・分/GB)」を得る。第1算出部134は、通信用途の時間平均データ量「15(GB/分)」と係数「4(%・分/GB)」とを乗算し「60(%)」を得る。第1算出部134は、この値「60(%)」をノード名「メール5号」のサーバにおける計測期間「02/15/10 11:10:00~11:20:00」中の通信に関する処理による第1推測値とする。
なお、第1算出部は、通信用途ごとに測定された係数を使用して通信用途ごとにサーバにかかっている負荷を求め、それらを足し合わせることで第1推測値を得てもよい。
第2算出部136は、第1算出部134における第1推測値の計算で対象とされた登録サーバのサーバ名・IPアドレスと計測期間とをキーとして使用状況保持部112を検索し、対応する消費電力と機器温度とCPU使用率とを抽出する。第2算出部136は、第1推測値を使用状況保持部112から抽出したCPU使用率から減じ、通信に関する処理以外の処理によるCPU使用率の推測値(以下、第2推測値と称す)とする。
通信に関する処理以外の処理は、例えばウイルスチェッカーによるウイルススキャンやハードディスクドライブへのデータの書き込みである。あるいはまた、アイドル状態にあってなにも仕事をしていないことも考えられる。
第2算出部136は、抽出された消費電力を第1推測値と第2推測値との比に分け、第1推測値に対応する値を通信に関する処理のために使用された電力の推測値、第2推測値に対応する値をそうでない処理のために使用された電力の推測値とする。機器温度についても、機器温度と外気温との差を第1推測値と第2推測値との比に分ける点で同様である。
例えば、図6の第1指標保持部108に登録されるノード名「メール5号」に着目すると、第2算出部136は図8に示される使用状況保持部112から、ノード名「メール5号」と計測期間「02/15/10 11:10:00~11:20:00」とに対応する消費電力「60(W)」、機器温度「40(℃)」、CPU使用率「90(%)」を抽出する。第2算出部136は、第1推測値「60(%)」をCPU使用率「90(%)」から減じ、第2推測値「30(%)」を得る。第2算出部136は、消費電力「60(W)」を第1推測値「60(%)」と第2推測値「30(%)」との比すなわち2:1に分け、通信に関する処理のために使用された電力の推測値「40(W)」とそれ以外の処理のために使用された電力の推測値「20(W)」と、を得る。
第1合成部142は、第2算出部136によって算出された、通信に関する処理のために使用された電力の推測値を本来用途データ量と非本来用途データ量との比に分け、本来用途データ量に対応する値を本来用途のために使用された電力の推測値とする。
第1合成部142は、時刻およびノード名をキーとして、第1指標保持部108に保持されるデータと、使用状況保持部112に保持されるデータと、第2算出部136による計算結果(サーバについての、通信処理由来の消費電力、通信処理由来の上昇温度、通信処理由来のCPU使用率、本来用途由来の消費電力)と、を対応付けて第2指標保持部118(図9で後述)に登録する。
実測特性取得部144は、使用状況保持部112に登録されているノードに対して、実計測の平均値と最大値(ノードがサーバの場合はCPU使用率、ストレージとネットワーク機器の場合はデータの転送量)、および電力の実測値の平均値と最大値、および機器の平均温度と最大温度、を使用した方程式により、省エネ度スコアを算出する。
実測特性取得部144は、第1代表値算出部146と、省エネ度スコア算出部148と、を含む。
第1代表値算出部146は、使用状況取得部110における所定の時間間隔よりも長い時間間隔、例えば1ヶ月や半年の時間間隔で使用状況保持部112に保持されるデータを統計処理する。
第1代表値算出部146は、使用状況保持部112に登録されているノードのうちサーバについては、CPU使用率の時間平均である平均CPU使用率と、統計処理対象の期間内におけるCPU使用率の最高値である最高CPU使用率と、消費電力の時間平均である平均消費電力と、統計処理対象の期間内における消費電力の最高値である最高消費電力と、機器温度の時間平均である平均機器温度と、統計処理対象の期間内における機器温度の最高値である最高機器温度と、を算出する。
第1代表値算出部146は、使用状況保持部112に登録されているノードのうちストレージとネットワーク機器については、データ転送量の時間平均である平均データ転送量と、統計処理対象の期間内におけるデータ転送量の最高値である最高データ転送量と、消費電力の時間平均である平均消費電力と、統計処理対象の期間内における消費電力の最高値である最高消費電力と、機器温度の時間平均である平均機器温度と、統計処理対象の期間内における機器温度の最高値である最高機器温度と、を算出する。
省エネ度スコア算出部148は、下記の式11にしたがってサーバの省エネ度スコアを算出し、下記の式12にしたがってストレージの省エネ度スコアを算出し、下記の式13にしたがってネットワーク機器の省エネ度スコアを算出する。
なお、CPU使用率の単位は(%)であるがここでは単位は無視し、数値のみを扱う。同様に電力の単位は(W)、温度の単位は(℃)であるが単位は無視し数値のみを扱う。すなわち、全ての単位を無視する。
なお、データ転送量の単位は(MB/秒)であるがここでは単位は無視し、数値のみを扱う。同様に電力の単位は(W)、温度の単位は(℃)であるが単位は無視し数値のみを扱う。すなわち、全ての単位を無視する。
なお、データ転送量の単位は(MB/秒)であるがここでは単位は無視し、数値のみを扱う。同様に電力の単位は(W)、温度の単位は(℃)であるが単位は無視し数値のみを扱う。すなわち、全ての単位を無視する。
省エネ度スコア算出部148は、サーバについては、ノード名と、タイプと、IPアドレスと、所有者区分と、第1代表値算出部146で算出された値(平均CPU使用率、最高CPU使用率、平均消費電力、最高消費電力、平均機器温度、最高機器温度)と、省エネ度スコア算出部148で算出された省エネ度スコアとを対応付けて実測特性保持部150(図10で後述)に登録する。省エネ度スコア算出部148は、ストレージおよびネットワーク機器については、ノード名と、タイプと、IPアドレスと、所有者区分と、第1代表値算出部146で算出された値(平均データ転送量、最高データ転送量、平均消費電力、最高消費電力、平均機器温度、最高機器温度)と、省エネ度スコア算出部148で算出された省エネ度スコアと、を対応付けて実測特性保持部150に登録する。
第2解析部152は、第2代表値算出部156と、第2合成部154と、を含む。
第2代表値算出部156は、第1代表値算出部146で使用された時間間隔と同程度の時間間隔で第2指標保持部118に保持されるデータを統計処理する。
第2代表値算出部156は、第2指標保持部118に登録されているノードについて、本来用途データ量の時間平均である平均本来用途データ量と、非本来用途データ量の時間平均である平均非本来用途データ量と、通信由来消費電力の時間平均である平均通信由来消費電力と、通信由来上昇温度の時間平均である平均通信由来上昇温度と、通信由来CPU使用率の時間平均である平均通信由来CPU使用率と、本来用途消費電力の時間平均である平均本来用途消費電力と、を算出する。
第2合成部154は、ノード名をキーとして、実測特性保持部150に保持されるデータと、第2代表値算出部156による算出結果(平均本来用途データ量、平均非本来用途データ量、平均通信由来消費電力、平均通信由来上昇温度、平均通信由来CPU使用率、平均本来用途消費電力)と、を対応付けて第3指標保持部158(図11で後述)に登録する。
表示制御部120は、ユーザからの求めに応じて、第1指標保持部108、第2指標保持部118、第3指標保持部158のうちの少なくともひとつに基づき、ノードごとに各種パラメータを示す画面をモニタ140に表示させる。表示制御部120は、例えば省エネ検討画面336(図12で後述)をモニタ140に表示させる。
図4は、通信情報保持部104に保持されるデータの一例を示すデータ構造図である。通信情報保持部104は、時刻202と、始点IPアドレス204と、終点IPアドレス206と、通信用途208と、データ量210と、ネット作業時間212と、を対応付けて保持する。
時刻202は、パケットに関する時刻であり、例えばパケットにタイムスタンプが含まれているのであればそのタイムスタンプで示される時刻である。あるいはまた、傍受部122によってパケットが傍受された時刻であってもよい。
始点IPアドレス204および終点IPアドレス206はそれぞれ、抽出部124によって抽出された始点IPアドレスおよび終点IPアドレスである。
通信用途208は、抽出部124によって抽出されたポート番号に対応する通信用途である。
データ量210は、パケットに搭載されているデータの量をバイト(B)単位で示す。
ネット作業時間212は、パケットが関わる通信処理が継続した時間を示す。
図5は、ノード情報保持部138に保持されるデータの一例を示すデータ構造図である。ノード情報保持部138は、ノードのノード名・位置214と、ノードが属するサブネットの区分216と、ノードのIPアドレス218と、ノードの機器タイプ220と、ノードの構成情報222と、ノードの基本OS・用途224と、ノードの所有者区分226と、を対応付けて保持する。
分類部132は、ノード情報保持部138を参照してあるノードの本来用途に関する情報を取得する際、そのノードの基本OS・用途を参照して本来用途を取得してもよく、また、ノード情報保持部138に含まれるそのノードのエントリの項目の任意の組み合わせを元に本来用途を決定してもよい。
図6は、第1指標保持部108に保持されるデータの一例を示すデータ構造図である。第1指標保持部108は、登録ノードのノード名228と、登録ノードの本来用途230と、本来用途に対応するポート番号である主なポート番号232と、本来用途データ量234と、非本来用途データ量236と、集計部130で使用される所定の長さの期間すなわち時間帯に対応する計測期間238と、を対応付けて保持する。
本来用途データ量234は、登録ノードの本来用途に対応したパケットのデータ量を計測期間内で足し合わせた結果のデータ量である。
非本来用途データ量236は、登録ノードの非本来用途に対応したパケットのデータ量を計測期間内で足し合わせた結果のデータ量である。
図7は、係数保持部114に保持されるデータの一例を示すデータ構造図である。係数保持部114は、サーバ名240と、係数242と、を対応付けて保持する。
図8は、使用状況保持部112に保持されるデータの一例を示すデータ構造図である。使用状況保持部112は、使用状況取得部110によって使用状況が取得されたノードのノード名・IPアドレス244と、使用状況が取得された時刻に対応する記録時間帯246と、取得された消費電力248と、取得された機器温度250と、取得されたCPU使用率252と、取得されたデータ転送量253と、を対応付けて保持する。
図9は、第2指標保持部118に保持されるデータの一例を示すデータ構造図である。第2指標保持部118は、ノード名254と、本来用途256と、主なポート番号258と、本来用途データ量260と、非本来用途データ量262と、計測期間264と、消費電力266と、機器温度268と、CPU使用率270と、データ転送量271と、通信由来消費電力272と、通信由来上昇温度274と、通信由来CPU使用率276と、本来用途消費電力277と、を対応付けて保持する。
通信由来消費電力272は、第2算出部136によって算出された、通信に関する処理のために使用された電力の推測値である。通信由来上昇温度274は、第2算出部136によって算出された、機器温度と外気温との差のうち通信に関する処理によって上昇したと予測される分である。ここでは外気温は25(℃)とされている。通信由来CPU使用率276は、第1算出部134によって算出された第1推測値である。
本来用途消費電力277は、第1合成部142によって算出された、本来用途のために使用された電力の推測値である。
図10は、実測特性保持部150に保持されるデータの一例を示すデータ構造図である。実測特性保持部150は、ノード名278と、タイプ280と、IPアドレス282と、所有者区分284と、平均CPU使用率286と、最高CPU使用率288と、平均データ転送量290と、最高データ転送量292と、平均消費電力294と、最高消費電力296と、平均機器温度298と、最高機器温度300と、省エネ度スコア302と、を対応付けて保持する。
なお、図10のDASD(Direct Access Storage Device)は、旧ホスト系のコンピュータで使われていた専用ディスク装置である。
図11は、第3指標保持部158に保持されるデータの一例を示すデータ構造図である。第3指標保持部158は、ノード名304と、本来用途306と、平均本来用途データ量308と、平均非本来用途データ量310と、平均通信由来消費電力312と、平均通信由来上昇温度314と、平均通信由来CPU使用率316と、平均本来用途消費電力317と、平均CPU使用率318と、最高CPU使用率320と、平均データ転送量322と、最高データ転送量324と、平均消費電力326と、最高消費電力328と、平均機器温度330と、最高機器温度332と、省エネ度スコア334と、を対応付けて保持する。
図12は、省エネ検討画面336の代表画面図である。省エネ検討画面336は、ユーザによって指定されたノードの状態を表示するノード状態表示領域338を少なくともひとつ有する。
上述の実施の形態において、保持部の例は、ハードディスクやメモリである。また、本明細書の記載に基づき、各部を、図示しないCPUや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶するメモリなどにより実現できることは本明細書に触れた当業者には理解されるところである。
以上の構成による解析装置100の動作を説明する。図13は、解析装置100における一連の処理を示すフローチャートである。傍受部122は、ネットワークからパケットを傍受する(S402)。抽出部124は、傍受されたパケットから始点アドレスとポート番号とを抽出する(S404)。登録部128は、抽出された始点アドレスとポート番号とパケットのデータ量とを通信情報保持部104に登録する(S406)。分類部132は、通信情報保持部104に保持されるデータを始点アドレスでソーティングする(S408)。分類部132は、ソーティングされたデータを本来用途と非本来用途とに分類する(S410)。集計部130は、分類されたデータを集計する(S412)。第1解析部116は、集計結果からノードにおいて通信に関する処理のために使用された電力を推測する(S414)。
本実施の形態に係る解析装置100によると、パケットをネットワークから傍受し、傍受したパケットを始点IPアドレスとポート番号とで分類する。したがって、始点IPアドレスごとおよびポート番号ごとに通信データ量を計測できる。これにより、所望の解析対象のノードについて、どの通信用途(メール通信やWEB閲覧など)に対応する仕事をどの程度行ったかを、そのノードに直接問い合わせることなしにネットワーク上を流れるパケットから追跡できる。ノードへ問い合わせないので、仕事量の解析に伴うノード側の負担はほとんどない。解析装置100はネットワークの傍受を行うので、解析装置100自身の測定への寄与は小さく、また把握できる。
IPアドレスは仕事の主体を示し、ポート番号は通信用途を示すので、本実施の形態ではそれらを用いてノードで行われている仕事の内訳を導出し、特に有効仕事量を計測できる。この点、現実的に有効仕事量の計測が困難であった従来の技術とは大きく異なる。本実施の形態によると、ノードにおける仕事量を解析することで、そのノードが有効な仕事をどの程度行ったかを計測でき、データセンタ2を省エネ化するためのよい指標が得られる。
また、例えばメールサーバについて解析装置100で解析すると、夜間は海外拠点からのメールの受信が多く昼間は社内メールの送受信が多いことが分かるかもしれない。また、社内のメールの送受信だけでメールサーバのCPU使用率をほぼ占有している場合でもそれが分かるので、社内メールを自粛する等の対策を取ることができる。
また、社内の部門別にメールサーバが設けられている場合、部門別に電子メールの傾向を知ることができる。例えば解析装置100による解析によって添付ファイルが多いか少ないかを知ることができるので、多くの添付ファイルを処理するメールサーバを使用している部署は、CADを使用する設計部署等を除いて添付ファイルを減らす努力をするように勧告し省エネ化を進めることができる。あるいはまた、グループウエア導入を検討する指標としてもよい。
また、解析装置100によるとパケットの始点IPアドレスと終点IPアドレスとが分かるので、それを基に、通信経路を最適化してもよい。例えば、東京とニューヨークとサンフランシスコとに拠点を有する企業を考える。この企業では、東京のデータセンタから出たパケットは一端ニューヨークに送られ、それからサンフランシスコへルーティングされているとする。東京のデータセンタを解析装置100を使用して解析した結果、東京からサンフランシスコへのパケットが多いことが判明した場合、この企業は東京からサンフランシスコ経由で他の拠点にパケットを送るルートに変更することで、コストを低減できる。
このように、解析装置100によると各ノードの特性を把握することができる。
また、本実施の形態に係る解析装置100によると、本来用途消費電力を得ることができるので、これをノードにおいて有効な仕事のために消費された電力もしくはそのような電力に強く関連した値と見なすことができる。したがって、本来用途消費電力を例えば本来用途データ量で除した値を有効仕事量と消費電力との比とみなし、その値を比較することで同種のノード間で省エネ度を判断できる。
また、本実施の形態に係る解析装置100では、通信情報保持部104に保持される傍受されたパケットの情報を本来用途と非本来用途とで分類する。したがって、図6の第1指標保持部108に示されるように、所望の解析対象のノードについて、本来用途データ量と非本来用途データ量とを得ることができる。これにより、両者の比率などから解析対象のノードがどの程度本来の用途で使用されているかを追跡できる。これはデータセンタ2を省エネ化するためのよい指標のひとつである。例えば、本来の用途で使用されていないノードを発見し、適切な処置を施すことでデータセンタの効率を向上できる。
また、本実施の形態に係る解析装置100では、第2指標保持部118は、第1指標保持部108と使用状況保持部112とが対応付けられた形となっている。したがって、データセンタ2の省エネ化を考える際に、ノードにおける仕事量と使用状況とを対応付けて把握できる。すなわち、ノードが何の仕事をいつどれだけ行ったことにより、どれだけのCPUの処理能力を使用し、どれだけの電力を消費し、どれだけの温度上昇があったかを解析できる。
例えば、CPU使用率が100%とされているサーバの仕事量の内訳を見ることにより、実際100%のCPU使用率のうちどれだけが有効な仕事のために使用されたかを知ることができる。100%のCPU使用率でもその大半が有効な仕事のために使用されていなければ、そのサーバは省エネ化のための検討対象とすべきである。PUEなどを使用する従来の技術では、仕事の内訳が見えないのでこのような判断をすることができなかったが、本実施の形態に係る解析装置100を使用すると可能となる。
また例えば、消費電力および有効仕事量の両者が共に低いサーバがある場合、使用状況だけを見ていると消費電力が低いので省エネ的によいサーバに見え、このサーバに対しては何ら対策がなされない可能性が高い。しかしながら、本実施の形態で使用状況と仕事量とが対比可能な形で提示される場合、有効仕事量も低いことが分かるので、データセンタの効率を向上してさらなる省エネ化を進めるために、例えば仮想化により他の高負荷サーバから仕事を回す等の対策を取ることができる。したがって、データセンタの省エネ化への寄与は大きい。
また例えば、有効仕事量的には問題ないが排熱の大きなサーバがある場合にそれを見つけることができる。したがって、そのようなサーバがホットアイルに存在する場合には他の位置に移設したほうがよいことをサーバの持ち主に提案できる。
また、実施の形態に係る解析装置100では、第1解析部116は第1指標保持部108に保持されるデータから通信由来消費電力および通信由来上昇温度を算出する。したがって、解析対象のノードにおける消費電力や機器の温度を、そのノードで行われている仕事についてより細分化して解析できる。
例えば、使用状況から分かる消費電力に比べて通信由来消費電力が著しく小さい場合は、その時間帯に例えばウイルスチェッカーが走っていた可能性がある。さらに通信由来消費電力が著しく小さくなるイベントが高頻度で発生している場合は、ウイルスチェッカー関連でなにかの不具合が生じている可能性があると判断でき、適切な対処ができる。したがって、データセンタ2の効率をより高めることができる。
また、実施の形態に係る解析装置100では、フィルタ部126は、フィルタリングモードでは、抽出部124によって抽出された始点IPアドレスおよび終点IPアドレスを基に、計測対象のノードのIPアドレスが含まれたパケットのみを選択して、登録部128に出力する。したがって、計測に影響を与えない範囲で通信情報保持部104に保持されるデータの量を低減できる。
また、フィルタ部126は、計測対象のノードを、データセンタ2に含まれる複数のノードから順番に選択する。つまり、一度に全てのノードを計測対象とするのではなく、例えば月曜日は第1サブネット4に接続されるノード、火曜日は第2サブネット6に接続されるノード、等のように計測対象のノードを順番に変えてゆく。これにより、計測に影響を与えない範囲で通信情報保持部104に保持されるデータの量を低減した上で、ネットワークの全てのノードを計測対象とすることができる。
また、本実施の形態に係る解析装置100では、ノードについて省エネ度スコアを算出して仕事量と対応付ける。したがって、省エネ度スコアによってノードの省エネ度をより容易に把握できる。また、仕事量と省エネ度スコアとを対比することで、例えば同じ用途の2つのサーバについて、こなしている有効仕事量は両者遜色ないが、一方が他方より省エネ度スコアの面で劣っている場合、次回の機材入替の際に省エネ度スコアが劣っている方を優先的に入れ替えるという判断ができる。
仮想化が行なわれているサーバについて考える。従来では主に、親(ホスト)仮想化OSの上での個々のサーバイメージ(個々のゲストOS)のプロセッサ使用率を取得して比較する。そして、ゲストOSを他のプロセッサ使用率的に空いている仮想化ホストOSサーバへ移設させている。しかしながら、このように単にプロセッサ使用率のみを尺度として仮想化サーバ間のゲストOSの移動を行う場合には、実際にゲストOSで行われている仕事の内訳までは考慮されていない。したがって、有効仕事量に基づいた移設が行われているとは言い難い。
本実施の形態に係る解析装置100を使用して仮想化されたサーバにおける仕事を解析する場合、仮想化のプラットフォームごとに仕事量が分かるので、有効仕事量に基づいた精度の高いゲストOSの移設が可能となる。
また、例えば仮想化したことによってどの程度状況が改善されているかを知ることができる。つまり、有効仕事量と消費電力とについて仮想化の前後で比較することで、改善の度合いを知ることができる。また、仮想化後は個々のゲストOSが行っている仕事についてはあまり注意されないのが現状であるが、解析装置100で各ゲストOSについて有効仕事量を追跡することにより、例えば時と共に使用されなくなったゲストOSを特定できる。したがって、そのように特定されたゲストOSを外すことで他のゲストOSの性能を改善できる。これはデータセンタの効率の向上に貢献する。
(まとめ)
従来ではシステム運用者は、システムを運用するにあたり、主にサーバのプロセッサ使用率やメモリの利用度を使用してサーバの性能を評価し、その性能評価を軸にして、サーバの統合、アプリケーションの移設、分配、統合、サーバの更新(新しい機器に交換する・買い換える)を行っている。しかしながら、特に昨今の景気低迷期では、サーバのさらなる有効利用やさらなる消費電力の低減によって一段とデータセンタ全体の運用コストを下げることが求められている。
そこで、本実施の形態に係る解析装置100を使用することにより、サーバにおける仕事が内向け(対サーバ)か、外向け(サーバ発)なのかを詳細に解析でき、また、その仕事がデータセンタ外部への仕事なのかデータセンタ内の他のサーバやアプリケーションに対する仕事なのかも解析できる。したがって、この解析を元にして、省エネ化のための精度の高いサーバ統合、分配、アプリケーション統合、分配、機器の更新、増強、廃止などが行える。
以上、実施の形態に係る解析装置の構成と動作について説明した。これらの実施の形態は例示であり、その各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
実施の形態では、分類部132は、本来用途に対応したパケットと、本来用途以外の通信用途である非本来用途に対応したパケットとに分類する場合について説明したが、これに限られない。例えば、分類部は1セッションに関わるパケットをまとめた上で通信用途ごとに分類してもよい。あるいはまた、分類部は、本来用途にかかわらず通信用途ごとにパケットを分類してもよい。
第1変形例に係る分類部は、通信情報保持部104に登録されているパケットを、本来用途にかかわらず通信用途ごとに分類する。第1変形例に係る集計部は、分類されたパケットを集計し、第1変形例に係る第1指標保持部170に登録する。
図14は、第1変形例に係る第1指標保持部170に保持されるデータの一例を示すデータ構造図である。第1指標保持部170は、ノード名340と、本来用途342と、主なポート番号344と、電子メールの通信に関するパケットのデータ量である電子メール通信346と、WEB通信に関するパケットのデータ量であるWEB通信348と、FTP通信に関するパケットのデータ量であるFTP通信350と、マルチキャストに関するパケットのデータ量であるマルチキャスト352と、ストレージやルータにおけるデータ転送量であるデータ転送354と、計測時間356と、を含む。
実施の形態では、傍受部122は、第1サブネット4と第2サブネット6と第3サブネット8とからパケットを傍受する場合について説明したが、これに限られない。例えば、
データセンタ2のネットワークにスイッチが使用されている状況を考える。そのスイッチがそれだけで完結している場合、そのスイッチのポートとそのポートに接続されているサーバとの間に解析装置を設置してパケットの傍受を行ってもよい。また、スイッチが他のスイッチやルータと接続されている場合は、そのスイッチのポートとそのポートに接続される外部の接続相手のポートとの間に解析装置を設置してパケットの傍受を行ってもよい。
あるいはまた、近年では、データセンタ内のネットワークのスイッチ機能を委ねることができる、スイッチ、HUB、ルータを兼ねたような一つの巨大な装置や、一元化された一つのネットワークハード環境で完結する装置も市販されている。このような装置が使用される場合は、その一元化されたネットワーク制御装置のネットワークトラフィックからパケットを傍受してもよい。
あるいはまた、傍受部は、WANルータ22と接続されそこからパケットを傍受してもよい。これにより、データセンタ2単位での仕事の分析が容易となる。例えば、データセンタ2において電子メールの取り扱いが多いか、またはWEBの処理が多いか、またはストリーミングに特化しているか、などを判定することができる。
実施の形態において、あるサーバが数学的な計算処理のみを行っている場合は、そのサーバと外部の機器との間の通信量が少なくなるか、特定のストレージとの間のデータ転送が主となるか、または、並列処理の場合は、そのサーバと他のサーバとの間でのデータや制御信号のやりとりに特化することがある。この場合、ノード情報保持部138にそのサーバが数学的計算用途に特化したものだと登録し、その仕事量を計算する場合には、ネットワークによる仕事量の解析よりも同サーバのCPU使用率を重視し仕事量と電力消費、発熱状況を解析してもよい。
実施の形態では、例えば図13に示されるように、解析装置100においてパケットの傍受(S402)からデータの集計(S412)が一連の処理として行われる場合について説明したが、これに限られない。例えば、解析装置は、パケットの傍受からデータの分類までを随時行って分類結果のデータを蓄積し、所定の条件が満たされると分類結果のデータを集計してもよい。ここで所定の条件は、例えば前回の集計から所定の期間が経過したこと、もしくは分類結果のデータの量が所定の量に達したことである。
図15は、第2変形例に係る解析装置における一連の処理を示すフローチャートである。第2変形例に係る解析装置は、傍受部と、抽出部と、登録部と、通信情報保持部と、分類部と、分類結果保持部と、集計部と、を備える。傍受部は、ネットワークからパケットを傍受する(S502)。抽出部は、傍受されたパケットから始点アドレスとポート番号とを抽出する(S504)。登録部は、抽出された始点アドレスとポート番号とパケットのデータ量とを通信情報保持部に登録する(S506)。分類部は、通信情報保持部に保持されるデータを始点アドレスでソーティングする(S508)。分類部は、ソーティングされたデータを本来用途と非本来用途とに分類する(S510)。分類部は、分類結果を分類結果保持部に登録する(S512)。所定の条件が満たされていない場合(S514のN)、ステップS502に処理が戻る。これにより、所定の条件が満たされるまで分類結果が分類結果保持部に蓄積されてゆく。所定の条件が満たされた場合(S514のY)、集計部は、分類結果保持部に蓄積されたデータを集計する(S516)。
本変形例によると、所定の条件を変えることにより、集計の母集団として使用する分類結果データの量を調整できる。したがって、集計の結果得られる指標に対して求められている精度に応じて柔軟に分類結果データの量を調整できる。
以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。