JP7632632B2

JP7632632B2 - 仮想化システム障害分離装置及び仮想化システム障害分離方法

Info

Publication number: JP7632632B2
Application number: JP2023531189A
Authority: JP
Inventors: 真生上野; 紀貴堀米; 健太篠原
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2025-02-19
Anticipated expiration: 2041-06-29
Also published as: JPWO2023275983A1; US20240289227A1; WO2023275983A1

Description

本発明は、仮想マシンやコンテナをベースとするコンピューティング基盤において、コンテナやコンテナ上で動作するアプリケーションの異常検知及び障害復旧を実現する仮想化システム障害分離装置及び仮想化システム障害分離方法に関する。

上述した仮想マシンは、物理コンピュータと同機能をソフトウェアで実現したコンピュータである。コンテナは、アプリケーションを「コンテナ」と呼ばれる環境にパッケージ化して作成され、コンテナエンジン上で作動する仮想化技術である。従来のコンテナ系の技術では、主に後述するクーバネテス（kubernetes）が持つ後述のLiveness/Readiness Probe機能（プローブ機能ともいう）により、コンテナやコンテナ上で動作するアプリケーションの異常検知及び障害復旧が実現されている。

クーバネテスは、Docker等のコンテナを作成してクラスタ化するコンテナ仮想化ソフトウェアであり、且つ、オープンソースソフトウェアである。Liveness Probe機能は、コンテナを再起動する等の制御を行い、Readiness Probe機能は、コンテナがリクエストを受け付けるか否か等の制御を行うものである。この種の従来技術として非特許文献１に記載の技術がある。

"Liveness Probe、Readiness ProbeおよびStartup Probeを使用する,"kubernetes，［online］，［令和３年６月１０日検索］，インターネット〈https://kubernetes.io/ja/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/〉

ところで、上述したコンテナに限らず仮想化技術領域としての仮想化システムにおいては、仮想化システム内の障害に対して、発報されたアラートに基づいて人力による復旧作業等が行われている。しかし、アラート発報後に人力で復旧作業を行うので、障害発生から正常化までの時間短縮が難しい。

その障害をクーバネテスが持つ障害復旧を行うプローブ機能で復旧させる場合、障害監視を行う周期を、予め定められた１秒等の遅い周期にしか設定できない。このため、極力早い障害復旧が必要な場合に、デフォルト状態のクーバネテスが持つ障害復旧機能による復旧よりも早く復旧させることができない、という課題があった。

本発明は、このような事情に鑑みてなされたものであり、仮想化システムで発生した障害をコンテナ仮想化ソフトウェアが持つ障害復旧機能による復旧よりも早く復旧させることを課題とする。

上記課題を解決するため、本発明の仮想化システム障害分離装置は、物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部を、コンテナに対応付けて配置する処理を行うデプロイ指示部と、前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記コンテナの異常を検知する異常検知部と、前記外部に作成され、前記異常検知部で検知された異常コンテナへの振分割合を０％にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部とを備え、前記クラスタ管理部は、前記変更コマンドに応じて前記異常コンテナに対応付けられたエンドポイント設定部の振分割合を０％に設定し、前記異常復旧対応部は、前記異常コンテナの復旧時に、復旧対象のコンテナへのトラフィックを所定トラフィック値まで徐々に上げるための復旧コマンドを前記クラスタ管理部へ送信し、前記クラスタ管理部は、前記復旧コマンドに応じて、復旧対象のコンテナに対応付けられたエンドポイント設定部の振分割合を、前記所定トラフィック値まで徐々に上げることを特徴とする。

本発明によれば、仮想化システムで発生した障害をコンテナ仮想化ソフトウェアが持つ障害復旧機能による復旧よりも早く復旧させることができる。

本発明の実施形態に係る仮想化システム障害分離装置の構成を示すブロック図である。本実施形態の仮想化システム障害分離装置のＰｏｄによるコンテナの第１異常検知処理を説明するためのブロック図である。本実施形態の仮想化システム障害分離装置のワーカーノード毎に備えられたルーティングテーブルによる第２異常検知処理を説明するためのブロック図である。本実施形態の仮想化システム障害分離装置のワーカーノード毎に備えられた仮想スイッチのデーモンの監視による第３異常検知処理を説明するためのブロック図である。本実施形態の仮想化システム障害分離装置のワーカーノード毎に備えられたコンテナランタイムのデーモンの監視による第４異常検知処理を説明するためのブロック図である。本実施形態の仮想化システム障害分離装置のワーカーノード毎の監視による第５異常検知処理を説明するためのブロック図である。本実施形態の仮想化システム障害分離装置のコンテナシステムのクラスタに外付けされたＤＢの監視による第６異常検知処理を説明するためのブロック図である。本実施形態の仮想化システム障害分離装置における障害対応デプロイ指示部によるエンドポイント設定部とＰｏｄとを１：１の構成としてデプロイした際の構成を示すブロック図である。本実施形態の仮想化システム障害分離装置の第１異常対応処理を説明するためのブロック図である。上記第１異常対応処理の動作を説明するためのフローチャートである。本実施形態の仮想化システム障害分離装置の第２異常対応処理を説明するためのブロック図である。本実施形態に係る仮想化システム障害分離装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下、本発明の実施形態を、図面を参照して説明する。但し、本明細書の全図において機能が対応する構成部分には同一符号を付し、その説明を適宜省略する。
＜実施形態の構成＞
図１は、本発明の実施形態に係る仮想化システム障害分離装置の構成を示すブロック図である。

図１に示す仮想化システム障害分離装置（障害分離装置ともいう）１０は、後述のコンテナシステム２０の障害が発生したコンテナを停止又は削除して分離し、分離後のコンテナを復旧するものである。この障害分離装置１０は、クラスタ管理部１４と、計算資源クラスタ１５と、異常検知部１７と、異常復旧対応部１８と、障害対応デプロイ指示部１９とを備えて構成されている。クラスタ管理部１４及び計算資源クラスタ１５によってクラスタ１２が構成されている。このクラスタ１２の外部に、異常検知部１７、異常復旧対応部１８及び障害対応デプロイ指示部１９が設けられている。なお、障害対応デプロイ指示部１９は、請求項記載のデプロイ指示部を構成する。

計算資源クラスタ１５は、複数のアプリケーション１５ａ，１５ｂを備えて構成されている。アプリケーション１５ａ，１５ｂは、言い換えれば、１又は複数のコンテナの集合体の管理単位としてのＰｏｄである。Ｐｏｄは、クーバネテス（コンテナ仮想化ソフトウェア）で実行できるアプリケーションの最小単位である。つまり、Ｐｏｄとしてのアプリケーション１５ａ，１５ｂでコンテナを作成してクラスタ化し、このクラスタをコンテナエンジン上で作動させるようになっている。この計算資源クラスタ１５は、物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置するものである。

コンテナシステム２０は、１又は複数のクラスタ１２により構成された仮想化システムである。２つのクラスタ１２が有る場合、各々のクラスタ１２はクラスタ管理部１４及び計算資源クラスタ１５を備えて構成される。

クラスタ管理部１４は、上記仮想的に作成され、上記クラスタ化されたコンテナの配置及び動作に係る制御を管理するものである。このクラスタ管理部１４は、通信振分部１４ａと、計算資源操作部１４ｂと、計算資源管理部１４ｃと、コンテナ構成受付部１４ｄと、コンテナ配置先決定部１４ｅと、コンテナ管理部１４ｆとを備えて構成されている。

このような構成の障害分離装置１０において、障害対応デプロイ指示部（デプロイ指示部ともいう）１９は、図８に示すエンドポイント（終点）設定部１４ｊ，１４ｋとＰｏｄ１５ａ，１５ｂとを、１：１の構成としてデプロイ（配置）する処理を行う。エンドポイント設定部１４ｊ，１４ｋは、複数のＰｏｄ１５ａ，１５ｂ毎に対応付けられ、各Ｐｏｄ１５ａ，１５ｂへのトラフィックの振分割合（％）が設定され、通信データの終点となる。その振分割合をウエイト値（％）という。

図１に示す異常検知部１７は、コンテナシステム２０内の１又は複数のコンテナであるＰｏｄ（アプリケーション）１５ａ，１５ｂの異常を検知する。

異常復旧対応部１８は、異常検知部１７で異常が検知されたＰｏｄ（例えばＰｏｄ１５ａ）に対応付けられたデプロイ指示部１９のウエイト値を０％に変更して、異常Ｐｏｄ１５ａを切り離すための変更コマンドを通信振分部１４ａへ送信する。また、異常復旧対応部１８は、その切り離したＰｏｄ１５ａを復旧する場合、復旧対象のＰｏｄ１５ａへのトラフィックを予め定められた所定トラフィック値まで徐々に上げるための復旧コマンドを通信振分部１４ａへ送信する。

図１に示す通信振分部１４ａは、ルータであり、異常復旧対応部１８からの変更コマンド又は復旧コマンドを該当する各部１４ｂ～１４ｆへ振り分けて通知する。また、通信振分部１４ａは、後述のエンドポイント設定部１４ｊ，１４ｋ毎に設定されるトラフィック振分割合を示すウエイト値（％）を下に、送信先のエンドポイント設定部１４ｊ，１４ｋ（後述）へのトラフィックの振り分けを行う。なお、ウエイト値は、請求項記載の振分割合に対応する。

コンテナ構成受付部（受付部ともいう）１４ｄは、計算資源クラスタ１５にコンテナをデプロイする構成情報を外部サーバ等から受け取る。

コンテナ配置先決定部（配置先決定部ともいう）１４ｅは、受付部１４ｄで受け付けた構成情報を下に、どのコンテナを、どのワーカーノード（計算資源クラスタ１５）に配置するかを決める。

コンテナ管理部１４ｆは、コンテナが正常に動作中か否か等をチェックする。

計算資源管理部１４ｃは、ワーカーノードが動作可能か否か、ワーカーノードを構成するサーバの計算資源の使用量、ＣＰＵ（Central Processing Unit）残量等を把握して管理する。

計算資源操作部１４ｂは、あるコンテナに対して一定量のＣＰＵ等の計算資源を、所定量割り当てる操作、言い換えれば、ストレージ容量の割り当て、ＣＰＵ時間、コンテナが使用可能なメモリ容量等を割り当てる操作を行う。

次に、障害分離装置１０の異常検知部１７によるコンテナシステム２０のコンテナに係る各種の異常検知処理（第１～第６異常検知処理）について、図２～図７を参照して説明する。

＜第１異常検知処理＞
図２は、本実施形態の仮想化システム障害分離装置１０のＰｏｄ（アプリケーション）１５ａ，１５ｂによるコンテナの第１異常検知処理を説明するためのブロック図である。但し、各Ｐｏｄ１５ａ，１５ｂは、１又は複数のコンテナを構成している。

図２において、コンテナシステム２０内には、仮想マシンによってマスタノード１４Ｊと、インフラノード１４Ｋと、ワーカーノード１５Ｊ，１５Ｋとが構成され、各々が仮想スイッチ｛ＯＶＳ（Open vSwitch）｝３０によって接続されるようになっている。マスタノード１４Ｊ及びインフラノード１４Ｋは、クラスタ管理部１４（図１）に対応し、ワーカーノード１５Ｊ，１５Ｋは、計算資源クラスタ１５（図１）に対応している。

更に、マスタノード１４Ｊ及びワーカーノード１５Ｊで１つ目のクラスタ１２が構成され、インフラノード１４Ｋ及びワーカーノード１５Ｋで２つ目のクラスタ１２が構成されている。これらのクラスタ１２でコンテナシステム２０が構成されているとする。

コンテナシステム２０の外部には、図１の構成と同様に異常検知部１７が配置されている。図２では異常検知部１７をワーカーノード１５Ｊ，１５Ｋ毎に合計２つ記載しているが、１つであってもよい。マスタノード１４Ｊ、インフラノード１４Ｋ、ワーカーノード１５Ｊ，１５Ｋ、及び異常検知部１７は、ネットワーク２２によって対向装置２４に接続されている。対向装置２４は、コンテナシステム２０に対して要求信号等を送信する外部サーバ等の通信装置である。

異常検知部１７は、往復矢印Ｙ１，Ｙ２で示すポーリングによって、所定のコマンド（例えば「sudo crictl ps」）をワーカーノード１５Ｊ，１５ＫのＰｏｄ１５ａ，１５ｂへ送信し、コマンドに応じてＰｏｄ１５ａ，１５ｂから返信されてくる応答結果により正常か異常かを判断する。このポーリング実試験においては、ポーリングを１０回実行した際の往復時間の平均値が０．０６秒であった。

異常検知部１７での異常判断は、ポーリングによってＰｏｄ１５ａ，１５ｂから返信されてくるコマンド応答結果に記載された正常又は異常を示す文字列を読み取って行う。例えば、文字列の「Running」はコンテナ（Ｐｏｄ１５ａ，１５ｂ）の動作が正常であることを示し、「Running」以外の文字列は異常であることを示す。このため、異常検知部１７は、コマンド応答結果に「Running」が記載の場合はコンテナ（Ｐｏｄ１５ａ，１５ｂ）の動作が正常と判断し、「Running」以外の文字列が記載の場合は異常と判断する。

＜第２異常検知処理＞
次に、図３は、本実施形態の仮想化システム障害分離装置１０のワーカーノード１５Ｊ，１５Ｋ毎に備えられたルーティングテーブル１５ｃによる第２異常検知処理を説明するためのブロック図である。

ルーティングテーブル（テーブルともいう）１５ｃは、対向装置２４からネットワーク２２を介して、ワーカーノード１５Ｊ，１５ＫのＰｏｄ１５ａ，１５ｂへ送信されるパケットの送信先のコンテナを、送信先を示す経路情報で管理している。このテーブル１５ｃの送信先管理が正しくないと、適切なコンテナにパケットが届かないこととなる。このため、異常検知部１７でテーブル１５ｃの送信先管理の正常又は異常を検知するようにした。

但し、ルーティングテーブル１５ｃは、「iptables」と「nftables」の一対のテーブルから構成されている。

異常検知部１７は、往復矢印Ｙ３，Ｙ４で示すポーリングによって、所定のコマンドをワーカーノード１５Ｊ，１５Ｋの各テーブル１５ｃへ送信し、コマンドに応じて各テーブル１５ｃから返信されてくる応答結果により正常か異常かを判断する。

上記所定のコマンドは、「sudo iptables -L│wc-│」、及び、「sudo nft list ruleset」の一対である。コマンド「sudo iptables -L│wc-│」がテーブル１５ｃの「iptables」に通知され、コマンド「sudo nft list ruleset」が「nftables」に通知される。そして、「iptables」及び「nftables」の各テーブルがコマンドに応じた応答を異常検知部１７へ返信するようになっている。

一対のコマンドによるポーリング実試験においては、ポーリングを１０回実行した際の往復時間の平均値が、コマンド「sudo iptables -L│wc-│」の場合に０．０３秒であり、コマンド「sudo nft list ruleset」の場合に０．０８秒であった。

異常検知部１７での異常判断は、各テーブル１５ｃから返信されてくるコマンド応答結果に、送信先の経路情報が記載されていれば正常と判断し、何も記載されていなければ異常と判断する。

＜第３異常検知処理＞
次に、図４は、本実施形態の仮想化システム障害分離装置１０のワーカーノード１５Ｊ，１５Ｋ毎に備えられた仮想スイッチ３０のデーモンの監視による第３異常検知処理を説明するためのブロック図である。なお、仮想スイッチ３０のデーモンを、ＯＶＳデーモンとも称す。

デーモンは、仮想スイッチ３０においてパケットの送信先を管理するプログラムである。異常検知部１７で、ＯＶＳデーモンを監視し、パケットが適正に送信されていれば正常、送信されていなければ異常と検知するようにした。

異常検知部１７は、往復矢印Ｙ５，Ｙ６で示すポーリングによって、所定のコマンド（例えば「ps aux|grep ovs-vswitchd|grep "db.sock"|wc-│」）をワーカーノード１５Ｊ，１５Ｋ毎の仮想スイッチ３０へ送信し、コマンドに応じて仮想スイッチ３０から返信されてくる応答結果により正常か異常かを判断する。

このポーリング実試験においては、ポーリングを１０回実行した際の往復時間の平均値が０．０３秒であった。

異常検知部１７での異常判断は、各仮想スイッチ３０から返信されてくるコマンド応答結果に、送信先に係る例えば「db.sockプロセス」が記載されていれば正常と判断し、記載されていなければ異常と判断する。

＜第４異常検知処理＞
次に、図５は、本実施形態の仮想化システム障害分離装置１０のワーカーノード１５Ｊ，１５Ｋ毎に備えられたコンテナランタイム１５ｄのデーモンの監視による第４異常検知処理を説明するためのブロック図である。なお、コンテナランタイム１５ｄのデーモンを、ｃｒｉｏデーモンとも称す。ｃｒｉｏ（ｃｒｉ－ｏ）は、コンテナ型仮想化技術で使われるオープンソースのコミュニティ主導型のコンテナエンジンである。

コンテナランタイム１５ｄは、Ｐｏｄ１５ａ，１５ｂのコンテナを起動する役割を担うので、コンテナランタイム１５ｄを監視することでコンテナが正常に起動しているか否かを検知できる。そこで、異常検知部１７で、ｃｒｉｏデーモンを監視し、コンテナが起動していれば正常、起動していなければ異常と検知するようにした。

異常検知部１７は、往復矢印Ｙ７，Ｙ８で示すポーリングによって、所定のコマンド（例えば「systemctl status crio | grep Active」）をワーカーノード１５Ｊ，１５Ｋ毎のコンテナランタイム１５ｄへ送信し、コマンドに応じて各コンテナランタイム１５ｄから返信されてくる応答結果により正常か異常かを判断する。

異常検知部１７での異常判断は、各仮想スイッチ３０から返信されてくるコマンド応答結果において、ｃｒｉｏデーモンの起動状態を示す”active(running)”が記載されていれば正常と判断し、”active(running)”以外の記載であれば異常と判断する。

＜第５異常検知処理＞
次に、図６は、本実施形態の仮想化システム障害分離装置１０のワーカーノード１５Ｊ，１５Ｋ毎の監視による第５異常検知処理を説明するためのブロック図である。

但し、ワーカーノード１５Ｊ，１５Ｋが、物理マシン３２による仮想化技術（仮想マシン）で作成されている構成を前提とする。この構成の場合、仮想マシンの外側の物理マシン３２上に異常検知部１７が存在し、この異常検知部１７で仮想マシンが起動していればコンテナが正常と検知し、起動していなければコンテナが異常と検知するようにした。

異常検知部１７は、往復矢印Ｙ９，Ｙ１０で示すポーリングによって、所定のコマンド（例えば「sudo virsh list」）をワーカーノード１５Ｊ，１５Ｋ毎へ送信し、コマンドに応じて各ワーカーノード１５Ｊ，１５Ｋから返信されてくる応答結果により正常か異常かを判断する。

異常検知部１７での異常判断は、各ワーカーノード１５Ｊ，１５Ｋから返信されてくるコマンド応答結果において、対象のワーカーノード１５Ｊ，１５Ｋの起動状態を示す”running”が記載されていれば正常と判断し、”running”以外の記載であれば異常と判断する。

＜第６異常検知処理＞
次に、図７は、本実施形態の仮想化システム障害分離装置１０のコンテナシステム２０のクラスタ１２に外付けされたＤＢ（Data Base）２６ａ，２６ｂの監視による第６異常検知処理を説明するためのブロック図である。

クラスタ１２（図１）の外付けの装置として、コンテナに係るデータを記憶するＤＢ（外部ＤＢともいう）２６ａ，２６ｂを、ネットワーク２２を介してワーカーノード１５Ｊ，１５Ｋに接続する構成がある。この際、異常検知部１７もネットワーク２２を介してワーカーノード１５Ｊ，１５Ｋに接続されている。

ここで、複数のクラスタ１２がネットワーク２２を介して相互に接続される構成もあるので、図７に示すように、異常検知部１７がネットワーク２２を介してクラスタ１２に接続されていても、図１に示したと同様に、障害分離装置１０内の異常検知部１７と位置付ける。

異常検知部１７は、往復矢印Ｙ１１，Ｙ１２で示すポーリングによって、ネットワーク２２を介して外部ＤＢ２６ａ，２６ｂに所定のコマンドを送信し、コマンドに応じて各外部ＤＢ２６ａ，２６ｂから返信されてくる応答結果により正常か異常かを判断する。この場合のコマンドは、外部ＤＢ２６ａ，２６ｂの種類に依存したものとなる。

応答結果としては、応答・死活監視に係る結果と、コネクション数上限オーバーに係る結果とがある。応答・死活監視は、外部ＤＢ２６ａ，２６ｂが正常に起動しているか否かを監視するものである。つまり、異常検知部１７は、応答結果に、外部ＤＢ２６ａ，２６ｂが正常に起動していない内容が記載されていれば異常と判断する。

コネクション数上限オーバーは、外部ＤＢ２６ａ，２６ｂが接続されているコンテナ数が、予め定められた閾値を超えていることを表す。つまり、異常検知部１７は、応答結果に、外部ＤＢ２６ａ，２６ｂの接続コンテナ数が閾値を超えていることが記載されていれば異常と判断する。

このポーリング実試験においては、ポーリング往復時間は外部ＤＢ２６ａ，２６ｂの種類に依存したものとなる。

次に、上述した第１～第６異常検知時の異常対応処理について説明する。
但し、図８に示すように、障害対応デプロイ指示部１９によって、エンドポイント設定部１４ｊ，１４ｋとＰｏｄ１５ａ，１５ｂとが、１：１の構成としてデプロイ（配置）されているとする。

エンドポイント設定部１４ｊ，１４ｋは、対向装置２４からの矢印Ｙ２０で示す通信に係るサービス情報を、ルータ１４ａを介して受け取る終点であり、Ｐｏｄ１５ａ，１５ｂがアクセス可能となっている。言い換えれば、対向装置２４からのサービス情報がルータ１４ａからエンドポイント設定部１４ｊ，１４ｋを介してＰｏｄ１５ａ，１５ｂのコンテナへ送信される。また、エンドポイント設定部１４ｊ，１４ｋ毎に、トラフィック振分割合を示すウエイト値（％）が設定されている。

ルータ１４ａは、ウエイト値をもとに、矢印Ｙ１６，Ｙ１７で示すように、送信先のエンドポイント設定部１４ｊ，１４ｋへのトラフィックの振り分けを行う。例えば、エンドポイント設定部１４ｊのウエイト値が３０％で、エンドポイント設定部１４ｋのウエイト値が７０％に設定されているとする。この場合、ルータ１４ａから送信されるデータは、３０％が矢印Ｙ１６で示す方向のエンドポイント設定部１４ｊへ振り分けられ、７０％が矢印Ｙ１７で示す方向のエンドポイント設定部１４ｋへ振り分けられる。

＜第１異常対応処理＞
図９は、本実施形態の仮想化システム障害分離装置１０の第１異常対応処理を説明するためのブロック図である。第１異常対応処理が必要な異常検知は、第１～第５異常検知の何れか１つである。

図９に示す異常検知部１７がＰｏｄ（例えばワーカーノード１５ＪのＰｏｄ１５ａ）の異常検知時に、異常復旧対応部１８が矢印Ｙ２１で示すように、異常Ｐｏｄ１５ａへのトラフィック振分割合を０％にするための変更コマンドを、マスタノード１４Ｊのルータ１４ａへ送信する。

ルータ１４ａは、矢印Ｙ２２で示すように、ワーカーノード１５Ｊの異常Ｐｏｄ１５ａに対応付けられたエンドポイント設定部１４ｊのウエイト値を０％とすることで、異常Ｐｏｄ１５ａを切り離す処理（×印参照）を行う。この際、ルータ１４ａは、必要に応じて、矢印Ｙ２３で示すように、ワーカーノード１５ＫのＰｏｄ１５ａに対応付けられたエンドポイント設定部１４ｋのウエイト値を１００％とする処理を行う。

このウエイト値の設定によって、異常Ｐｏｄ１５ａが切り離されるので、インフラノード１４Ｋのルータ１４ａからの送信データは、矢印Ｙ１６で示す方向へは送信されず、送信データの全て（１００％）が、矢印Ｙ１７で示す方向のエンドポイント設定部１４ｋへ振り分けられて送信される。

次に、上記切り離されたワーカーノード１５Ｊの異常Ｐｏｄ１５ａを復旧する場合の処理について説明する。この場合、マスタノード１４Ｊによって復旧対象の上記切り離された異常Ｐｏｄ１５ａが異常解消後に待機状態に立ち上げられる。この後、異常復旧対応部１８は、その立ち上げられたＰｏｄ１５ａへのトラフィックを所定トラフィック値まで徐々に上げて復旧するための復旧コマンドを、マスタノード１４Ｊのルータ１４ａへ送信する。

ルータ１４ａは、その復旧変更コマンドに応じて、矢印Ｙ２２で示すように、立ち上げられたＰｏｄ１５ａに対応付けられたエンドポイント設定部１４ｊのウエイト値を所定トラフィック値まで徐々に上げる処理を行う。この処理によりウエイト値が所定値（例えば５０％）とされてＰｏｄ１５ａの復旧が完了する。

次に、第１異常対応処理の動作を、図９並びに、図１０に示すフローチャートを参照して説明する。
但し、障害対応デプロイ指示部１９によって、エンドポイント設定部１４ｊ，１４ｋとＰｏｄ（１又は複数のコンテナ）１５ａ，１５ｂとが、１：１の構成としてデプロイされている。そのエンドポイント設定部１４ｊ，１４ｋ毎に、所定のトラフィック振分割合を示すウエイト値（％）が例えば５０％に設定されていることを前提条件とする。

図１０に示すステップＳ１において、図９に示す異常検知部１７でワーカーノード１５ＪのＰｏｄ１５ａ（コンテナ）の異常が検知されたとする。

この異常検知時に、ステップＳ２において、異常復旧対応部１８は、矢印Ｙ２１で示すように、異常Ｐｏｄ１５ａへのトラフィック振分割合を０％にするための変更コマンド（例えば、「oc set route-backends Router名 Pod名#1=100 Pod名#2=0 ※Pod名#1:通信を継続するPod、Pod名#2:通信を抑止するPod」）を、マスタノード１４Ｊのルータ１４ａへ送信する。

ステップＳ３において、変更コマンドを受けたルータ１４ａは、矢印Ｙ２２で示すように、ワーカーノード１５Ｊの異常Ｐｏｄ１５ａに対応付けられたエンドポイント設定部１４ｊのウエイト値を５０％から０％に変更する。これによって、異常Ｐｏｄ１５ａが切り離される（×印参照）。また、ルータ１４ａは、矢印Ｙ２３で示すように、ワーカーノード１５ＫのＰｏｄ１５ａに対応付けられた他方のエンドポイント設定部１４ｋのウエイト値を５０％から１００％に変更する。

この変更によって、ステップＳ４において、インフラノード１４Ｋのルータ１４ａからワーカーノード１５Ｊ，１５Ｋ毎のＰｏｄ１５ａへ送信されるデータの全て（１００％）が、矢印Ｙ１７で示すように、エンドポイント設定部１４ｋを介して正常なＰｏｄ１５ａへ送信される。

その後、上記切り離された異常Ｐｏｄ１５ａが復旧される場合、マスタノード１４Ｊによって切り離された異常Ｐｏｄ１５ａが異常解消後に待機状態に立ち上げられる。この後、ステップＳ５において、異常復旧対応部１８は、その立ち上げられたＰｏｄ１５ａへのトラフィックを、例えば１０％、３０％、５０％と所定トラフィック値まで徐々に上げて復旧するための復旧コマンドを、マスタノード１４Ｊのルータ１４ａへ送信する。

ステップＳ６において、ルータ１４ａは、その復旧コマンドに応じて、矢印Ｙ２２で示すように、ワーカーノード１５Ｊの復旧対象のＰｏｄ１５ａに対応付けられたエンドポイント設定部１４ｊのウエイト値を１０％、３０％、５０％と所定トラフィック値まで徐々に上げて復旧する。

＜第２異常対応処理＞
図１１は、本実施形態の仮想化システム障害分離装置１０の第２異常対応処理を説明するためのブロック図である。第２異常対応処理が必要な異常検知は、第６異常検知である。

第２異常対応処理を行う場合、ワーカーノード１５Ｊ，１５Ｋ毎のＰｏｄ１５ａ，１５ｂが共用するように対応付けられた外部エンドポイント設定部１６を備える。この構成の他に、外部エンドポイント設定部１６は、エンドポイント（終点）先の外部ＤＢ２６ａ，２６ｂと、１：ｎで対応付けられた構成となっている。これらの対応付け構成は、デプロイ指示部１９で行われる。

外部エンドポイント設定部１６は、ワーカーノード１５Ｊ，１５Ｋ毎のＰｏｄ１５ａ，１５ｂからの矢印Ｙ３１又は矢印Ｙ３２で示すデータを受信し、矢印Ｙ３３，Ｙ３４で示すように複数の外部ＤＢ２６ａ，２６ｂへ振り分けて送信する。また、外部エンドポイント設定部１６は、その送信時のトラフィックを振り分けるための振分割合（％）が設定されており、振分割合に応じたトラフィックでデータを外部ＤＢ２６ａ，２６ｂへ送信する。

上記対応付け構成において、異常検知部１７で、外部ＤＢ（例えば、外部ＤＢ２６ａ）の異常が検知された場合、コンテナ管理部１４ｆが異常外部ＤＢ２６ａのエンドポイントを外部エンドポイント設定部１６から削除する。この削除によって、削除されたエンドポイントへ通信を行うＰｏｄ（例えばワーカーノード１５ＪのＰｏｄ１５ａ）の通信を抑止するようになっている。

また、異常検知部１７が外部ＤＢ２６ａの異常を検知した場合、異常復旧対応部１８は、その検知された外部ＤＢ２６ａのＩＰ（Internet Protocol）アドレスを、どの外部エンドポイント設定部１６が所持するかを認識する。なお、異常が検知された外部ＤＢ２６ａを、異常外部ＤＢ２６ａと称す。

この認識のため、異常復旧対応部１８は、双方向矢印Ｙ２４で示すように、コンテナ管理部１４ｆへ問い合わせを行い、コンテナ管理部１４ｆから、異常外部ＤＢ２６ａのＩＰアドレスを所持する外部エンドポイント設定部１６の情報を取得する。

異常復旧対応部１８は、上記取得した外部エンドポイント設定部１６に設定されたＩＰアドレスの外部ＤＢ２６ａへのトラフィック振分割合を０％とするためのコマンドを、マスタノード１４Ｊのルータ１４ａへ送信する。ルータ１４ａは、そのコマンドを受信し、コンテナ管理部１４ｆへ通知する。

コンテナ管理部１４ｆは、外部エンドポイント設定部１６に設定された異常外部ＤＢ２６ａへのトラフィック振分割合を０％に変更する。これによって、異常外部ＤＢ２６ａが切り離される（×印参照）。

＜ハードウェア構成＞
上述した実施形態に係る仮想化システム障害分離装置１０は、例えば図１２に示すような構成のコンピュータ１００によって実現される。コンピュータ１００は、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、ＨＤＤ（Hard Disk Drive）１０４、入出力Ｉ／Ｆ（Interface）１０５、通信Ｉ／Ｆ１０６、及びメディアＩ／Ｆ１０７を有する。

ＣＰＵ１０１は、ＲＯＭ１０２又はＨＤＤ１０４に記憶されたプログラムに基づき作動し、各機能部の制御を行う。ＲＯＭ１０２は、コンピュータ１００の起動時にＣＰＵ１０１により実行されるブートプログラムや、コンピュータ１００のハードウェアに係るプログラム等を記憶する。

ＣＰＵ１０１は、入出力Ｉ／Ｆ１０５を介して、プリンタやディスプレイ等の出力装置１１１及び、マウスやキーボード等の入力装置１１０を制御する。ＣＰＵ１０１は、入出力Ｉ／Ｆ１０５を介して、入力装置１１０からデータを取得し、又は、生成したデータを出力装置１１１へ出力する。

ＨＤＤ１０４は、ＣＰＵ１０１により実行されるプログラム及び当該プログラムによって使用されるデータ等を記憶する。通信Ｉ／Ｆ１０６は、通信網１１２を介して図示せぬ他の装置からデータを受信してＣＰＵ１０１へ出力し、また、ＣＰＵ１０１が生成したデータを、通信網１１２を介して他の装置へ送信する。

メディアＩ／Ｆ１０７は、記録媒体１１３に格納されたプログラム又はデータを読み取り、ＲＡＭ１０３を介してＣＰＵ１０１へ出力する。ＣＰＵ１０１は、目的の処理に係るプログラムを、メディアＩ／Ｆ１０７を介して記録媒体１１３からＲＡＭ１０３上にロードし、ロードしたプログラムを実行する。記録媒体１１３は、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。

例えば、コンピュータ１００が実施形態に係る仮想化システム障害分離装置１０として機能する場合、コンピュータ１００のＣＰＵ１０１は、ＲＡＭ１０３上にロードされたプログラムを実行することにより、仮想化システム障害分離装置１０の機能を実現する。また、ＨＤＤ１０４には、ＲＡＭ１０３内のデータが記憶される。ＣＰＵ１０１は、目的の処理に係るプログラムを記録媒体１１３から読み取って実行する。この他、ＣＰＵ１０１は、他の装置から通信網１１２を介して目的の処理に係るプログラムを読み込んでもよい。

＜実施形態の効果＞
本発明の実施形態に係る仮想化システム障害分離装置１０の効果について説明する。

（１ａ）障害分離装置１０は、物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタ１５と、仮想的に作成され、クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部１４とを備える。

また、障害分離装置１０は、複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部１４ｊ，１４ｋを、コンテナに対応付けて配置する処理を行うデプロイ指示部１９と、仮想的に作成された計算資源クラスタ１５及びクラスタ管理部１４の外部に作成され、コンテナの異常を検知する異常検知部１７を備える。

更に、障害分離装置１０は、外部に作成され、異常検知部１７で検知された異常コンテナへの振分割合を０％にするための変更コマンドをクラスタ管理部１４へ送信する異常復旧対応部１８を備える。上記のクラスタ管理部１４は、変更コマンドに応じて異常コンテナに対応付けられたエンドポイント設定部（例えばエンドポイント設定部１４ｊ）の振分割合を０％に設定する構成とした。

この構成によれば、振分割合が０％のエンドポイント設定部１４ｊ，１４ｋを介した異常コンテナの通信のトラフィックは０となる。このため、異常コンテナを正常コンテナから切り離すことができる。異常検知部１７及び異常復旧対応部１８はコンテナ仮想化ソフトウェアに関与しないため、コンテナ仮想化ソフトウェアが持つコンテナの障害復旧機能による復旧よりも早く復旧可能となる。この早く復旧できる根拠を更に説明すると、上記の障害復旧機能では、障害監視を行う周期を予め定められた周期にしか設定できないが、本発明では、その監視周期に係わらず、コンテナの障害を検知して異常コンテナを停止できる。このため、上記障害復旧機能による復旧よりも早く復旧可能となる。

（２ａ）異常復旧対応部１８は、異常コンテナの復旧時に、復旧対象のコンテナへのトラフィックを所定トラフィック値まで徐々に上げるための復旧コマンドをクラスタ管理部１４へ送信する。クラスタ管理部１４は、復旧コマンドに応じて、復旧対象のコンテナに対応付けられたエンドポイント設定部１４ｊ，１４ｋの振分割合を、所定トラフィック値まで徐々に上げる構成とした。

この構成によれば、異常コンテナを復旧させる際に、異常コンテナに対応付けられたエンドポイント設定部１４ｊ，１４ｋのトラフィックの振分割合が、所定トラフィック値まで徐々に上げられる。このため、コンテナ復旧時にトラフィックを急激に上げて障害が発生するといったリスクを低減することができる。また、コンテナ仮想化ソフトウェアに関与しない異常復旧対応部１８により復旧コマンドを送信して異常コンテナの復旧を行うので、コンテナ仮想化ソフトウェアが持つコンテナの障害復旧機能による復旧よりも早く復旧できる。

（３ａ）障害分離装置１０は、物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタ１５と、仮想的に作成され、クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部１４とを備える。

また、障害分離装置１０は、計算資源クラスタ１５の外部にネットワークを介して接続され、コンテナに係るデータを記憶する複数の外部ＤＢ２６ａ，２６ｂと、計算資源クラスタ１５の複数のコンテナに対応付けられると共に、複数の外部ＤＢ２６ａ，２６ｂに対応付けられており、コンテナからのデータを複数の外部ＤＢ２６ａ，２６ｂに振り分けて送信する際のトラフィックの振分割合が設定された外部エンドポイント設定部１６とを備える。

また、障害分離装置１０は、複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部１４ｊ，１４ｋを、コンテナに対応付けて配置する処理を行うデプロイ指示部１９と、仮想的に作成された計算資源クラスタ１５及びクラスタ管理部１４の外部に作成され、外部ＤＢ２６ａ，２６ｂの異常を検知する異常検知部１７を備える。更に、上記外部に作成され、異常検知部１７で検知された異常ＤＢ１６ａへの振分割合を０％にするための変更コマンドをクラスタ管理部１４へ送信する異常復旧対応部１８を備える。

異常復旧対応部１８は、異常検知部１７で外部ＤＢ（例えば外部ＤＢ２６ａ）の異常が検知された際に、検知された異常外部ＤＢ２６ａのＩＰアドレスを有する外部エンドポイント設定部１６の情報をクラスタ管理部１４から取得し、取得された情報の外部エンドポイント設定部１６に設定された振分割合を０％にするためのコマンドをクラスタ管理部１４へ送信する。クラスタ管理部１４は、コマンドに応じて異常外部ＤＢ２６ａへのトラフィック振分割合を０％に変更する構成とした。

この構成によれば、振分割合が０％の外部エンドポイント設定部１６を介した、計算資源クラスタ１５の外部の異常外部ＤＢ２６ａへの通信のトラフィックは０となる。このため、計算資源クラスタ１５の外部の異常外部ＤＢ２６ａ，２６ｂを切り離すことができる。

＜効果＞
（１）物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部を、コンテナに対応付けて配置する処理を行うデプロイ指示部と、前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記コンテナの異常を検知する異常検知部と、前記外部に作成され、前記異常検知部で検知された異常コンテナへの振分割合を０％にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部とを備え、前記クラスタ管理部は、前記変更コマンドに応じて前記異常コンテナに対応付けられたエンドポイント設定部の振分割合を０％に設定することを特徴とする仮想化システム障害分離装置である。

この構成によれば、振分割合が０％のエンドポイント設定部を介した異常コンテナの通信のトラフィックは０となる。このため、異常コンテナを正常コンテナから切り離すことができる。異常検知部及び異常復旧対応部はコンテナ仮想化ソフトウェアに関与しないため、コンテナ仮想化ソフトウェアが持つコンテナの障害復旧機能による復旧よりも早く復旧可能となる。この早く復旧できる根拠を更に説明すると、上記の障害復旧機能では、障害監視を行う周期を予め定められた周期にしか設定できないが、本発明では、その監視周期に係わらず、コンテナの障害を検知して異常コンテナを停止できる。このため、上記障害復旧機能による復旧よりも早く復旧可能となる。

（２）前記異常復旧対応部は、前記異常コンテナの復旧時に、復旧対象のコンテナへのトラフィックを所定トラフィック値まで徐々に上げるための復旧コマンドを前記クラスタ管理部へ送信し、前記クラスタ管理部は、前記復旧コマンドに応じて、復旧対象のコンテナに対応付けられたエンドポイント設定部の振分割合を、前記所定トラフィック値まで徐々に上げることを特徴とする上記（１）に記載の仮想化システム障害分離装置である。

この構成によれば、異常コンテナを復旧させる際に、異常コンテナに対応付けられたエンドポイント設定部のトラフィックの振分割合が、所定トラフィック値まで徐々に上げられる。このため、コンテナ復旧時にトラフィックを急激に上げて障害が発生するといったリスクを低減することができる。また、コンテナ仮想化ソフトウェアに関与しない異常復旧対応部により復旧コマンドを送信して異常コンテナの復旧を行うので、コンテナ仮想化ソフトウェアが持つコンテナの障害復旧機能による復旧よりも早く復旧できる。

（３）物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、前記計算資源クラスタの外部にネットワークを介して接続され、前記コンテナに係るデータを記憶する複数のＤＢ（Data Base）と、前記計算資源クラスタの複数のコンテナに対応付けられると共に、前記複数のＤＢに対応付けられており、前記コンテナからのデータを複数のＤＢに振り分けて送信する際のトラフィックの振分割合が設定された外部エンドポイント設定部と、前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記ＤＢの異常を検知する異常検知部と、前記外部に作成され、前記異常検知部で検知された異常ＤＢへの振分割合を０％にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部とを備え、前記異常復旧対応部は、前記異常検知部で前記ＤＢの異常が検知された際に、検知された異常ＤＢのＩＰ（Internet Protocol）アドレスを有する外部エンドポイント設定部の情報を前記クラスタ管理部から取得し、取得された情報の外部エンドポイント設定部に設定された振分割合を０％にするためのコマンドを前記クラスタ管理部へ送信し、前記クラスタ管理部は、前記コマンドに応じて前記異常ＤＢへのトラフィック振分割合を０％に変更することを特徴とする仮想化システム障害分離装置である。

この構成によれば、振分割合が０％の外部エンドポイント設定部を介した、計算資源クラスタの外部の異常ＤＢへの通信のトラフィックは０となる。このため、計算資源クラスタの外部の異常ＤＢを切り離すことができる。

その他、具体的な構成について、本発明の主旨を逸脱しない範囲で適宜変更が可能である。

１０仮想化システム障害分離装置
１４クラスタ管理部
１４ａ通信振分部
１４ｂ計算資源操作部
１４ｃ計算資源管理部
１４ｄコンテナ構成受付部
１４ｅコンテナ配置先決定部
１４ｆコンテナ管理部
１４ｊ，１４ｋエンドポイント設定部
１５計算資源クラスタ
１５ａ，１５ｂアプリケーション
１６外部エンドポイント設定部
１７異常検知部
１８異常復旧対応部
１９障害対応デプロイ指示部（デプロイ指示部）
２６ａ，２６ｂ外部ＤＢ（ＤＢ）

Claims

物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、
前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、
複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部を、コンテナに対応付けて配置する処理を行うデプロイ指示部と、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記コンテナの異常を検知する異常検知部と、
前記外部に作成され、前記異常検知部で検知された異常コンテナへの振分割合を０％にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部と
を備え、
前記クラスタ管理部は、前記変更コマンドに応じて前記異常コンテナに対応付けられたエンドポイント設定部の振分割合を０％に設定し、
前記異常復旧対応部は、前記異常コンテナの復旧時に、復旧対象のコンテナへのトラフィックを所定トラフィック値まで徐々に上げるための復旧コマンドを前記クラスタ管理部へ送信し、
前記クラスタ管理部は、前記復旧コマンドに応じて、復旧対象のコンテナに対応付けられたエンドポイント設定部の振分割合を、前記所定トラフィック値まで徐々に上げる
ことを特徴とする仮想化システム障害分離装置。
物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、
前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、
前記計算資源クラスタの外部にネットワークを介して接続され、前記コンテナに係るデータを記憶する複数のＤＢ（Data Base）と、
前記計算資源クラスタの複数のコンテナに対応付けられると共に、前記複数のＤＢに対応付けられており、前記コンテナからのデータを複数のＤＢに振り分けて送信する際のトラフィックの振分割合が設定された外部エンドポイント設定部と、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記ＤＢの異常を検知する異常検知部と、
前記外部に作成され、前記異常検知部で検知された異常ＤＢへの振分割合を０％にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部と
を備え、
前記異常復旧対応部は、前記異常検知部で前記ＤＢの異常が検知された際に、検知された異常ＤＢのＩＰ（Internet Protocol）アドレスを有する外部エンドポイント設定部の情報を前記クラスタ管理部から取得し、取得された情報の外部エンドポイント設定部に設定された振分割合を０％にするためのコマンドを前記クラスタ管理部へ送信し、
前記クラスタ管理部は、前記コマンドに応じて前記異常ＤＢへのトラフィック振分割合を０％に変更する
ことを特徴とする仮想化システム障害分離装置。
仮想化システム障害分離装置による仮想化システム障害分離方法であって、
前記仮想化システム障害分離装置は、
物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成される計算資源クラスタ上に、当該仮想的に作成されるコンテナをクラスタ化して配置するステップと、
前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部を、前記仮想的に作成するステップと、
複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部を、コンテナに対応付けて配置するステップと、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部において、前記コンテナの異常を検知するステップと、
前記外部に作成され、前記検知された異常コンテナへの振分割合を０％にするための変更コマンドを前記クラスタ管理部へ送信するステップと、
前記クラスタ管理部は、前記変更コマンドに応じて前記異常コンテナに対応付けられたエンドポイント設定部の振分割合を０％に設定するステップと、
前記異常コンテナの復旧時に、復旧対象のコンテナへのトラフィックを所定トラフィック値まで徐々に上げるための復旧コマンドを前記クラスタ管理部へ送信するステップと、
前記復旧コマンドに応じて、復旧対象のコンテナに対応付けられた前記エンドポイント設定部の振分割合を、前記所定トラフィック値まで徐々に上げるステップと
を実行することを特徴とする仮想化システム障害分離方法。
仮想化システム障害分離装置による仮想化システム障害分離方法であって、
前記仮想化システム障害分離装置は、
物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、
前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、
前記計算資源クラスタの外部にネットワークを介して接続され、前記コンテナに係るデータを記憶する複数のＤＢ（Data Base）と、
前記計算資源クラスタの複数のコンテナに対応付けられると共に、前記複数のＤＢに対応付けられており、前記コンテナからのデータを複数のＤＢに振り分けて送信する際のトラフィックの振分割合が設定された外部エンドポイント設定部と、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記ＤＢの異常を検知する異常検知部と、
前記外部に作成され、前記異常検知部で検知された異常ＤＢへの振分割合を０％にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部と
を備え、
前記異常復旧対応部は、前記異常検知部で前記ＤＢの異常が検知された際に、検知された異常ＤＢのＩＰアドレスを有する外部エンドポイント設定部の情報を前記クラスタ管理部から取得し、取得された情報の外部エンドポイント設定部に設定された振分割合を０％にするためのコマンドを前記クラスタ管理部へ送信するステップと、
前記クラスタ管理部は、前記コマンドに応じて前記異常ＤＢへのトラフィック振分割合を０％に変更するステップと
を実行することを特徴とする仮想化システム障害分離方法。