JP7632632B2 - 仮想化システム障害分離装置及び仮想化システム障害分離方法 - Google Patents
仮想化システム障害分離装置及び仮想化システム障害分離方法 Download PDFInfo
- Publication number
- JP7632632B2 JP7632632B2 JP2023531189A JP2023531189A JP7632632B2 JP 7632632 B2 JP7632632 B2 JP 7632632B2 JP 2023531189 A JP2023531189 A JP 2023531189A JP 2023531189 A JP2023531189 A JP 2023531189A JP 7632632 B2 JP7632632 B2 JP 7632632B2
- Authority
- JP
- Japan
- Prior art keywords
- container
- unit
- management unit
- cluster
- anomaly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operations
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/1423—Reconfiguring to eliminate the error by reconfiguration of paths
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operations
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking using middleware or operating system [OS] functionalities
- G06F11/1484—Generic software techniques for error detection or fault masking using middleware or operating system [OS] functionalities involving virtual machines
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0712—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operations
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1443—Transmit or communication errors
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/815—Virtual
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
<実施形態の構成>
図1は、本発明の実施形態に係る仮想化システム障害分離装置の構成を示すブロック図である。
図2は、本実施形態の仮想化システム障害分離装置10のPod(アプリケーション)15a,15bによるコンテナの第1異常検知処理を説明するためのブロック図である。但し、各Pod15a,15bは、1又は複数のコンテナを構成している。
次に、図3は、本実施形態の仮想化システム障害分離装置10のワーカーノード15J,15K毎に備えられたルーティングテーブル15cによる第2異常検知処理を説明するためのブロック図である。
次に、図4は、本実施形態の仮想化システム障害分離装置10のワーカーノード15J,15K毎に備えられた仮想スイッチ30のデーモンの監視による第3異常検知処理を説明するためのブロック図である。なお、仮想スイッチ30のデーモンを、OVSデーモンとも称す。
次に、図5は、本実施形態の仮想化システム障害分離装置10のワーカーノード15J,15K毎に備えられたコンテナランタイム15dのデーモンの監視による第4異常検知処理を説明するためのブロック図である。なお、コンテナランタイム15dのデーモンを、crioデーモンとも称す。crio(cri-o)は、コンテナ型仮想化技術で使われるオープンソースのコミュニティ主導型のコンテナエンジンである。
次に、図6は、本実施形態の仮想化システム障害分離装置10のワーカーノード15J,15K毎の監視による第5異常検知処理を説明するためのブロック図である。
次に、図7は、本実施形態の仮想化システム障害分離装置10のコンテナシステム20のクラスタ12に外付けされたDB(Data Base)26a,26bの監視による第6異常検知処理を説明するためのブロック図である。
但し、図8に示すように、障害対応デプロイ指示部19によって、エンドポイント設定部14j,14kとPod15a,15bとが、1:1の構成としてデプロイ(配置)されているとする。
図9は、本実施形態の仮想化システム障害分離装置10の第1異常対応処理を説明するためのブロック図である。第1異常対応処理が必要な異常検知は、第1~第5異常検知の何れか1つである。
但し、障害対応デプロイ指示部19によって、エンドポイント設定部14j,14kとPod(1又は複数のコンテナ)15a,15bとが、1:1の構成としてデプロイされている。そのエンドポイント設定部14j,14k毎に、所定のトラフィック振分割合を示すウエイト値(%)が例えば50%に設定されていることを前提条件とする。
図11は、本実施形態の仮想化システム障害分離装置10の第2異常対応処理を説明するためのブロック図である。第2異常対応処理が必要な異常検知は、第6異常検知である。
上述した実施形態に係る仮想化システム障害分離装置10は、例えば図12に示すような構成のコンピュータ100によって実現される。コンピュータ100は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)104、入出力I/F(Interface)105、通信I/F106、及びメディアI/F107を有する。
本発明の実施形態に係る仮想化システム障害分離装置10の効果について説明する。
(1)物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部を、コンテナに対応付けて配置する処理を行うデプロイ指示部と、前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記コンテナの異常を検知する異常検知部と、前記外部に作成され、前記異常検知部で検知された異常コンテナへの振分割合を0%にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部とを備え、前記クラスタ管理部は、前記変更コマンドに応じて前記異常コンテナに対応付けられたエンドポイント設定部の振分割合を0%に設定することを特徴とする仮想化システム障害分離装置である。
14 クラスタ管理部
14a 通信振分部
14b 計算資源操作部
14c 計算資源管理部
14d コンテナ構成受付部
14e コンテナ配置先決定部
14f コンテナ管理部
14j,14k エンドポイント設定部
15 計算資源クラスタ
15a,15b アプリケーション
16 外部エンドポイント設定部
17 異常検知部
18 異常復旧対応部
19 障害対応デプロイ指示部(デプロイ指示部)
26a,26b 外部DB(DB)
Claims (4)
- 物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、
前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、
複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部を、コンテナに対応付けて配置する処理を行うデプロイ指示部と、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記コンテナの異常を検知する異常検知部と、
前記外部に作成され、前記異常検知部で検知された異常コンテナへの振分割合を0%にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部と
を備え、
前記クラスタ管理部は、前記変更コマンドに応じて前記異常コンテナに対応付けられたエンドポイント設定部の振分割合を0%に設定し、
前記異常復旧対応部は、前記異常コンテナの復旧時に、復旧対象のコンテナへのトラフィックを所定トラフィック値まで徐々に上げるための復旧コマンドを前記クラスタ管理部へ送信し、
前記クラスタ管理部は、前記復旧コマンドに応じて、復旧対象のコンテナに対応付けられたエンドポイント設定部の振分割合を、前記所定トラフィック値まで徐々に上げる
ことを特徴とする仮想化システム障害分離装置。 - 物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、
前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、
前記計算資源クラスタの外部にネットワークを介して接続され、前記コンテナに係るデータを記憶する複数のDB(Data Base)と、
前記計算資源クラスタの複数のコンテナに対応付けられると共に、前記複数のDBに対応付けられており、前記コンテナからのデータを複数のDBに振り分けて送信する際のトラフィックの振分割合が設定された外部エンドポイント設定部と、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記DBの異常を検知する異常検知部と、
前記外部に作成され、前記異常検知部で検知された異常DBへの振分割合を0%にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部と
を備え、
前記異常復旧対応部は、前記異常検知部で前記DBの異常が検知された際に、検知された異常DBのIP(Internet Protocol)アドレスを有する外部エンドポイント設定部の情報を前記クラスタ管理部から取得し、取得された情報の外部エンドポイント設定部に設定された振分割合を0%にするためのコマンドを前記クラスタ管理部へ送信し、
前記クラスタ管理部は、前記コマンドに応じて前記異常DBへのトラフィック振分割合を0%に変更する
ことを特徴とする仮想化システム障害分離装置。 - 仮想化システム障害分離装置による仮想化システム障害分離方法であって、
前記仮想化システム障害分離装置は、
物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成される計算資源クラスタ上に、当該仮想的に作成されるコンテナをクラスタ化して配置するステップと、
前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部を、前記仮想的に作成するステップと、
複数のコンテナ毎に対応付けられ、各コンテナへのトラフィックの振分割合が設定される通信データの終点となるエンドポイント設定部を、コンテナに対応付けて配置するステップと、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部において、前記コンテナの異常を検知するステップと、
前記外部に作成され、前記検知された異常コンテナへの振分割合を0%にするための変更コマンドを前記クラスタ管理部へ送信するステップと、
前記クラスタ管理部は、前記変更コマンドに応じて前記異常コンテナに対応付けられたエンドポイント設定部の振分割合を0%に設定するステップと、
前記異常コンテナの復旧時に、復旧対象のコンテナへのトラフィックを所定トラフィック値まで徐々に上げるための復旧コマンドを前記クラスタ管理部へ送信するステップと、
前記復旧コマンドに応じて、復旧対象のコンテナに対応付けられた前記エンドポイント設定部の振分割合を、前記所定トラフィック値まで徐々に上げるステップと
を実行することを特徴とする仮想化システム障害分離方法。 - 仮想化システム障害分離装置による仮想化システム障害分離方法であって、
前記仮想化システム障害分離装置は、
物理マシン上にコンテナ仮想化ソフトウェアにより仮想的に作成され、当該仮想的に作成されるコンテナをクラスタ化して配置する計算資源クラスタと、
前記仮想的に作成され、前記クラスタ化されたコンテナの配置及び動作に係る制御を管理するクラスタ管理部と、
前記計算資源クラスタの外部にネットワークを介して接続され、前記コンテナに係るデータを記憶する複数のDB(Data Base)と、
前記計算資源クラスタの複数のコンテナに対応付けられると共に、前記複数のDBに対応付けられており、前記コンテナからのデータを複数のDBに振り分けて送信する際のトラフィックの振分割合が設定された外部エンドポイント設定部と、
前記仮想的に作成された計算資源クラスタ及びクラスタ管理部の外部に作成され、前記DBの異常を検知する異常検知部と、
前記外部に作成され、前記異常検知部で検知された異常DBへの振分割合を0%にするための変更コマンドを前記クラスタ管理部へ送信する異常復旧対応部と
を備え、
前記異常復旧対応部は、前記異常検知部で前記DBの異常が検知された際に、検知された異常DBのIPアドレスを有する外部エンドポイント設定部の情報を前記クラスタ管理部から取得し、取得された情報の外部エンドポイント設定部に設定された振分割合を0%にするためのコマンドを前記クラスタ管理部へ送信するステップと、
前記クラスタ管理部は、前記コマンドに応じて前記異常DBへのトラフィック振分割合を0%に変更するステップと
を実行することを特徴とする仮想化システム障害分離方法。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/024527 WO2023275983A1 (ja) | 2021-06-29 | 2021-06-29 | 仮想化システム障害分離装置及び仮想化システム障害分離方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2023275983A1 JPWO2023275983A1 (ja) | 2023-01-05 |
| JP7632632B2 true JP7632632B2 (ja) | 2025-02-19 |
Family
ID=84689786
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023531189A Active JP7632632B2 (ja) | 2021-06-29 | 2021-06-29 | 仮想化システム障害分離装置及び仮想化システム障害分離方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20240289227A1 (ja) |
| JP (1) | JP7632632B2 (ja) |
| WO (1) | WO2023275983A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12149600B2 (en) * | 2021-12-15 | 2024-11-19 | Red Hat, Inc. | Differentiating controllers and reconcilers for software operators in a distributed computing environment |
| US12306980B2 (en) * | 2023-08-21 | 2025-05-20 | Bank Of America Corporation | Network operating system deployment to remote hardware for network extensibility |
| CN120762379B (zh) * | 2025-07-11 | 2026-04-28 | 深圳华诚包装科技股份有限公司 | 基于智能控制的自动化包装生产线优化方法及其系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111414229A (zh) | 2020-03-09 | 2020-07-14 | 网宿科技股份有限公司 | 一种应用容器异常处理方法及装置 |
| WO2020184362A1 (ja) | 2019-03-08 | 2020-09-17 | ラトナ株式会社 | コンテナオーケストレーション技術を利用したセンサ情報処理システム |
| JP2021027398A (ja) | 2019-07-31 | 2021-02-22 | 日本電気株式会社 | コンテナデーモン、情報処理装置、コンテナ型仮想化システム、パケット振り分け方法及びプログラム |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9535794B2 (en) * | 2013-07-26 | 2017-01-03 | Globalfoundries Inc. | Monitoring hierarchical container-based software systems |
| US10732995B2 (en) * | 2018-02-27 | 2020-08-04 | Portworx, Inc. | Distributed job manager for stateful microservices |
-
2021
- 2021-06-29 WO PCT/JP2021/024527 patent/WO2023275983A1/ja not_active Ceased
- 2021-06-29 US US18/571,435 patent/US20240289227A1/en not_active Abandoned
- 2021-06-29 JP JP2023531189A patent/JP7632632B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020184362A1 (ja) | 2019-03-08 | 2020-09-17 | ラトナ株式会社 | コンテナオーケストレーション技術を利用したセンサ情報処理システム |
| JP2021027398A (ja) | 2019-07-31 | 2021-02-22 | 日本電気株式会社 | コンテナデーモン、情報処理装置、コンテナ型仮想化システム、パケット振り分け方法及びプログラム |
| CN111414229A (zh) | 2020-03-09 | 2020-07-14 | 网宿科技股份有限公司 | 一种应用容器异常处理方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2023275983A1 (ja) | 2023-01-05 |
| US20240289227A1 (en) | 2024-08-29 |
| WO2023275983A1 (ja) | 2023-01-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8910172B2 (en) | Application resource switchover systems and methods | |
| JP7632632B2 (ja) | 仮想化システム障害分離装置及び仮想化システム障害分離方法 | |
| JP5298764B2 (ja) | 仮想システム制御プログラム、方法及び装置 | |
| CN102597962B (zh) | 用于虚拟计算环境中的故障管理的方法和系统 | |
| JP4410804B2 (ja) | 分散ネットワーク環境におけるシステム管理方法、情報処理装置及びプログラム | |
| JP5298763B2 (ja) | 仮想システム制御プログラム、方法及び装置 | |
| JP6089884B2 (ja) | 情報処理システム,情報処理装置,情報処理装置の制御プログラム,及び情報処理システムの制御方法 | |
| US20110004791A1 (en) | Server apparatus, fault detection method of server apparatus, and fault detection program of server apparatus | |
| US8387013B2 (en) | Method, apparatus, and computer product for managing operation | |
| US8990608B1 (en) | Failover of applications between isolated user space instances on a single instance of an operating system | |
| JP2006114040A (ja) | コンピュータクラスタのノードのフェールオーバー範囲 | |
| JP2014522052A (ja) | ハードウェア故障の軽減 | |
| US11762741B2 (en) | Storage system, storage node virtual machine restore method, and recording medium | |
| JP5855724B1 (ja) | 仮想機器管理装置、仮想機器管理方法及び仮想機器管理プログラム | |
| KR102153622B1 (ko) | 결함 처리를 위한 확장 가능한 네트워크 연결 저장 장치 및 방법 | |
| CN112328368A (zh) | 一种基于云平台的应用层存储方法及设备 | |
| WO2020032169A1 (ja) | 障害復旧制御方法、通信装置、通信システム、及びプログラム | |
| JP6555721B2 (ja) | 障害復旧システム及び方法 | |
| US7464302B2 (en) | Method and apparatus for expressing high availability cluster demand based on probability of breach | |
| CN114124803B (zh) | 设备管理方法、装置、电子设备及存储介质 | |
| JP7694659B2 (ja) | 仮想化システム障害分離装置及び仮想化システム障害分離方法 | |
| JP7632633B2 (ja) | 仮想化システム復旧装置及び仮想化システム復旧方法 | |
| JP7498128B2 (ja) | 監視装置、障害検知方法および障害検知プログラム | |
| US12348589B1 (en) | Zero downtime servicing of datapath services in software defined networks | |
| JP2016131286A (ja) | 検証支援プログラム、検証支援装置、及び検証支援方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231027 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241029 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241227 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250107 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250120 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7632632 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |