Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5287440B2 - Non-stop communication recovery system and method in case of failure - Google Patents
[go: Go Back, main page]

JP5287440B2 - Non-stop communication recovery system and method in case of failure - Google Patents

Non-stop communication recovery system and method in case of failure Download PDF

Info

Publication number
JP5287440B2
JP5287440B2 JP2009091132A JP2009091132A JP5287440B2 JP 5287440 B2 JP5287440 B2 JP 5287440B2 JP 2009091132 A JP2009091132 A JP 2009091132A JP 2009091132 A JP2009091132 A JP 2009091132A JP 5287440 B2 JP5287440 B2 JP 5287440B2
Authority
JP
Japan
Prior art keywords
packet
connection
communication
cluster node
connection information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009091132A
Other languages
Japanese (ja)
Other versions
JP2010245757A (en
Inventor
正幸 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009091132A priority Critical patent/JP5287440B2/en
Publication of JP2010245757A publication Critical patent/JP2010245757A/en
Application granted granted Critical
Publication of JP5287440B2 publication Critical patent/JP5287440B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、クラスタ環境のファイルサーバに利用可能な障害時の無停止通信復旧システム及びその方法に関する。   The present invention relates to a non-disruptive communication recovery system and method that can be used for a file server in a cluster environment.

クラスタ環境においては、クラスタ単位でデータの遣り取りによるサービスが行われており、そのサービスが継続されることが要求される。前記クラスタ環境では、サービスが行われている際に通信障害が発生する場合も想定されるため、それに対処する方式が開発されている。   In a cluster environment, data is exchanged on a cluster basis, and it is required that the service be continued. In the cluster environment, a communication failure may occur when a service is being performed. Therefore, a method for dealing with the failure has been developed.

前記通信障害の発生は、前記クラスタ環境の分野に限られるものではなく、通信を応用した分野では想定されるものである。クラスタシステムにおける故障復旧方式が特許文献1に開示されている。また、特許文献2には、コールドスタンバイをベースとしてシステムの停止時間を短縮する中継システムが開示されている。また、特許文献3には、再構築可能な故障に対する耐久性を向上させた多重相互接続ネットワークが開示されている。
再公表特許WO2005−060187号公報 特開2007−81933号公報 特開平5−207011号公報 特開平11−85556号公報
The occurrence of the communication failure is not limited to the field of the cluster environment, but is assumed in a field where communication is applied. A failure recovery method in a cluster system is disclosed in Patent Document 1. Patent Document 2 discloses a relay system that shortens a system stop time based on a cold standby. Patent Document 3 discloses a multiple interconnection network with improved durability against a reconfigurable failure.
Republished patent WO2005-060187 JP 2007-81933 A JP-A-5-207011 JP 11-85556 A

しかしながら、特許文献1では、クラスタ環境において通信障害が発生することによりサービスノードが切り替わった際、コネクションの再接続を行うために、待機系側でもセッション状態の情報を全て共有する必要があった。この場合、待機系側のリソースの増大を招きかねないという問題がある。   However, in Patent Document 1, when a service node is switched due to a communication failure in a cluster environment, it is necessary to share all session state information on the standby system side in order to reconnect the connection. In this case, there is a problem that the resources on the standby side may increase.

また、特許文献2においても、二つの端末相互間を中継している中継装置に通信障害が生じた際、この中継装置を別の中継装置に切り替えるために、再開処理に必要なジャーナルとしての全ての情報を確保する必要があり、特許文献1と同様の問題が残されている。   Also in Patent Document 2, when a communication failure occurs in a relay device that relays between two terminals, all the journals necessary for restart processing are used to switch this relay device to another relay device. It is necessary to secure this information, and the same problem as in Patent Document 1 remains.

また、特許文献3は、スイッチによるネットワークを動的に構成するものであり、相互接続された複数のアクティブ論理スイッチで入出力に使用するポートを選択的に接続する構成に関するものであり、クラスタ環境にそのまま適用することはできず、改良する余地が残されている。   Patent Document 3 dynamically configures a network of switches, and relates to a configuration in which ports used for input / output are selectively connected by a plurality of interconnected active logical switches. It cannot be applied as it is, leaving room for improvement.

また、特許文献4では、実行系制御プロセスと待機系制御プロセスとに対応させて共有メモリ上にネットワーク情報を記憶させておき、この情報を引き継いで通信を継続させるものであり、コネクションの再接続を行うためにセッション状態の情報を全て共有する必要があった。   In Patent Document 4, network information is stored in a shared memory in association with an execution system control process and a standby system control process, and communication is continued by taking over this information. In order to do this, it was necessary to share all session state information.

クラスタ環境においては、クラスタ単位でデータの遣り取りによるサービスを継続させるためには、セッションの再開に加えて通信状態を復旧させる必要がある。しかしながら、前記特許文献に開示された方式は、その何れもがコネクションの再接続を行うためにセッション状態の情報を全て確保する必要があり、それらの情報を利用してセッションの再開のみを実現するものであるから、通信状態の復旧を実現するには至っていないのが実情である。   In a cluster environment, in order to continue a service by exchanging data on a cluster basis, it is necessary to restore the communication state in addition to resuming the session. However, all of the methods disclosed in the above-mentioned patent documents need to secure all the session state information in order to reconnect the connection, and only resume the session using the information. Therefore, the situation is that the recovery of the communication state has not been realized.

本発明の目的は、パケット情報から通信状態を復旧させ、コネクションを再接続しなくてもサービスを継続させる、クラスタ環境における障害時の無停止通信復旧システム及び方法を提供することにある。   An object of the present invention is to provide a non-stop communication recovery system and method in the event of a failure in a cluster environment, in which a communication state is recovered from packet information and a service is continued without reconnection.

前記目的を達成するため、本発明に係る障害時の無停止通信復旧システムは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる障害時の無停止通信復旧システムであって、
前記スイッチは、通信ポートを通して前記クライアントと前記サービス系クライアントノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段を有し、
前記待機系クラスタノードは、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有することを特徴とする。
In order to achieve the above object, a non-stop communication recovery system in the event of a failure according to the present invention uses one cluster node in a cluster environment as a service system and another cluster node as a standby system, and the service system cluster node and client through a switch. A non-stop communication recovery system at the time of failure to restart communication when a failure occurs in the service cluster node when operating communication with
The switch includes a packet duplicating unit that duplicates a packet communicated between the client and the service client node through a communication port, and transmits the duplicated packet to the standby cluster node;
The standby cluster node extracts a packet related to a connection from the duplicated packet, and analyzes a connection analysis based on the extracted packet, and corresponds to an operation monitoring status of the service cluster node. And a connection restoration module for restoring a communication state based on the packet related to the connection and the connection information.

以上の説明では、本発明をハードウェア構成による障害時の無停止通信復旧システムとして構築したが、これに限られるものではない。本発明は、前記障害時の無停止通信復旧システムに用いるスイッチ或いは待機系クラスタノードとして構築してもよい。さらには、本発明は、障害時の無停止通信復旧方法、或いは無停止通信復旧制御プログラムとして構築してもよいものである。   In the above description, the present invention is constructed as a non-stop communication recovery system in the event of a failure due to a hardware configuration, but is not limited to this. The present invention may be constructed as a switch or standby cluster node used in the non-stop communication recovery system at the time of failure. Furthermore, the present invention may be constructed as a non-stop communication recovery method at the time of failure or as a non-stop communication recovery control program.

本発明を前記障害時の無停止通信復旧システムに用いるスイッチとして構築した場合、本発明に係る無停止通信復旧システムのスイッチは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系として通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる無停止通信復旧システムに用いるスイッチであって、
前記スイッチは、前記サービス系クラスタノードとクライアントとの間で通信ポートを通してパケットを通信するものであり、前記通信ポートを通して前記クライアントと前記サービス系クライアントノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段を有する構成として構築する。
When the present invention is constructed as a switch for use in the non-disruptive communication recovery system in the event of a failure, the non-disruptive communication recovery system switch according to the present invention waits for one cluster node in the cluster environment and the other cluster node. A switch used for a non-stop communication recovery system that resumes communication when a failure occurs in the service cluster node when operating communication as a system,
The switch communicates a packet through a communication port between the service cluster node and a client, and duplicates a packet communicated between the client and the service client node through the communication port. The duplicated packet is constructed as a configuration having packet duplicating means for transmitting the duplicated packet to the standby cluster node.

本発明を前記障害時の無停止通信復旧システムに用いるスイッチとして構築した場合、本発明に係る障害時の無停止通信復旧システムの待機系クラスタノードは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系として通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる無停止通信復旧システムに用いる待機系クラスタノードであって、
前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有する構成として構築する。
When the present invention is constructed as a switch for use in the non-stop communication recovery system at the time of failure, the standby cluster node of the non-stop communication recovery system at the time of failure according to the present invention is configured such that one cluster node of the cluster environment is a service system, A standby cluster node used for a non-stop communication recovery system that resumes communication when a failure occurs in the service cluster node when operating communication with another cluster node as a standby system,
A packet analysis module that extracts a packet related to a connection from the duplicated packet, analyzes connection information based on the extracted packet, and a packet related to the connection and an operation monitoring status of the service cluster node Based on the connection information, it is constructed as a configuration having a connection restoration module for restoring the communication state.

本発明を障害時の無停止通信復旧方法として構築した場合、本発明に係る障害時の無停止通信復旧方法は、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる障害時の無停止通信復旧方法であって、
前記通信ポートを通して前記クライアントと前記サービス系クライアントノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信し、前記待機系クラスタノード側において、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析し、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する構成として構築する。
When the present invention is constructed as a non-stop communication recovery method at the time of failure, the non-stop communication recovery method at the time of failure according to the present invention is to use one cluster node in a cluster environment as a service system and another cluster node as a standby system. When operating communication between the service-system cluster node and the client through a switch, a non-stop communication recovery method at the time of failure to restart communication when a failure occurs in the service-system cluster node,
A packet communicated between the client and the service client node through the communication port is duplicated, the duplicated packet is transmitted to the standby cluster node, and the duplicated packet is transmitted on the standby cluster node side. A packet related to the connection is extracted from the packet, connection information is analyzed based on the extracted packet, and communication is performed based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node. Build as a configuration to restore the state.

本発明を障害時の無停止通信復旧制御プログラムとして構築した場合、本発明に係る無停止通信復旧制御プログラムは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系として通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる無停止通信復旧の動作を制御するための制御プログラムであって、
前記待機系クラスタノードを構成するコンピュータに、
前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析する機能と、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する機能とを実行させる構成として構築する。
When the present invention is constructed as a non-stop communication recovery control program in the event of a failure, the non-stop communication recovery control program according to the present invention communicates with one cluster node as a service system and another cluster node as a standby system. A control program for controlling the operation of non-stop communication recovery for resuming communication when a failure occurs in the service system cluster node when operating,
In the computer constituting the standby cluster node,
A function for extracting a packet related to a connection from the duplicated packet and analyzing connection information based on the extracted packet, and a packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node Based on the above, it is constructed as a configuration for executing the function of restoring the communication state.

本発明によれば、クラスタ環境のクラスタノードにおいてサービス系クラスタノードで障害が発生しそれまでのサービスを待機系クラスタノードが引き継ぐ際に、予め待機系クラスタノードでサービス系クラスタノードの通信ポートを流れるパケットをバッファリング(ミラー)しておき、通信状態(例えばコネクション開設/切断)の情報をトレースしつつパケット情報から通信状態を復元させ、コネクションを再接続しなくてもサービスを継続することができる。   According to the present invention, when a failure occurs in a service cluster node in a cluster node of a cluster environment and the standby cluster node takes over the previous service, the standby cluster node flows in advance through the communication port of the service cluster node. The packet can be buffered (mirrored), the communication status can be restored from the packet information while tracing the communication status (for example, connection establishment / disconnection), and the service can be continued without reconnecting the connection. .

本発明の実施形態に係る障害時の無停止通信復旧システムを示す構成図である。It is a block diagram which shows the non-stop communication recovery system at the time of the failure which concerns on embodiment of this invention. 本発明の実施形態に係る障害時の無停止通信復旧システムを用いて障害時の無停止通信復旧方法を実行する場合のシーケンスを示す図である。It is a figure which shows the sequence in the case of performing the non-stop communication recovery method at the time of failure using the non-stop communication recovery system at the time of failure which concerns on embodiment of this invention.

以下、本発明の実施形態を図に基づいて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

本発明の実施形態に係る障害時の無停止通信復旧システムは図1に示す様に、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチ1を通して前記サービス系クラスタノード(2)とクライアント6との間で通信を運用する際に、前記サービス系クラスタノード(2)で障害が発生した際に通信を再開させる障害時の無停止通信復旧システムを対象とするものである。   As shown in FIG. 1, a non-stop communication recovery system in the event of a failure according to an embodiment of the present invention uses one cluster node in a cluster environment as a service system and the other cluster node as a standby system. When operating communication between the node (2) and the client 6, the system is intended for a non-disruptive communication recovery system at the time of failure to restart communication when a failure occurs in the service cluster node (2) It is.

そして、本発明の実施形態に係る障害時の無停止通信復旧システムは図1に示す様に、基本的な構成として、前記スイッチ1は、通信ポートを通して前記クライアント6と前記サービス系クライアントノード(2)との間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段10を有している。さらに、前記待機系クラスタノード(3)は、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュール50と、前記サービス系クラスタノード(2)の動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュール30とを有することを特徴としている。   As shown in FIG. 1, the non-stop communication recovery system at the time of failure according to the embodiment of the present invention has a basic configuration in which the switch 1 is connected to the client 6 and the service system client node (2) through a communication port. And a packet duplicating means 10 for duplicating the packet communicated with the standby cluster node and transmitting the duplicated packet to the standby cluster node. Further, the standby cluster node (3) extracts a packet related to a connection from the duplicated packet, analyzes the connection information based on the extracted packet, and the service cluster node (2) And a connection restoration module 30 for restoring the communication state based on the packet related to the connection and the connection information.

本発明の実施形態では、前記スイッチ1のパケット複製手段10を用いて前記通信ポートを通して前記クライアント6と前記サービス系クライアントノード(2)との間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノード(3)に送信し、前記待機系クラスタノード(3)側において、パケット解析モジュール50を用いて、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析し、前記コネクション復元モジュール30を用いて、前記サービス系クラスタノード(2)の動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する。   In the embodiment of the present invention, the packet duplication unit 10 of the switch 1 is used to duplicate a packet communicated between the client 6 and the service system client node (2) through the communication port, and the duplicated packet To the standby cluster node (3), and on the standby cluster node (3) side, the packet analysis module 50 is used to extract a packet related to the connection from the duplicated packet, and the extracted packet And analyzing the connection information based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node (2) using the connection restoration module 30. Restore.

次に、本発明の実施形態に係る障害時の無停止通信復旧システムをクラスタ環境のファイルサーバに適用した例に基づいて、さらに詳細に説明する。   Next, a more detailed description will be given based on an example in which the non-stop communication recovery system at the time of failure according to the embodiment of the present invention is applied to a file server in a cluster environment.

本発明の実施形態に係る障害時の無停止通信復旧システムをクラスタ環境のファイルサーバに適用した場合、サービス系クラスタノードには図1に示すサービス系ファイルサーバ2が該当し、待機系クラスタノードには図1に示す待機系ファイルサーバ3が該当する。   When the non-disruptive communication recovery system at the time of failure according to the embodiment of the present invention is applied to a file server in a cluster environment, the service cluster node corresponds to the service file server 2 shown in FIG. Corresponds to the standby file server 3 shown in FIG.

クラスタ環境のファイルサーバに適用した本発明の実施形態に係る障害時の無停止復旧システムは図1に示す様に、スイッチ1と、サービス系ファイルサーバ2と、待機系ファイルサーバ3と、クライアント6とを有している。   As shown in FIG. 1, a non-disruptive recovery system for a failure according to an embodiment of the present invention applied to a file server in a cluster environment includes a switch 1, a service file server 2, a standby file server 3, and a client 6. And have.

前記スイッチ1は、前記サービス系ファイルサーバ2と前記クライアント6との相互間で通信ポートを通してパケットの遣り取りを行うものであり、パケット複製手段10を有している。前記パケット複製手段10は、前記通信ポートを通して遣り取りするパケットを複製し、その複製したパケットを前記通信ポートとは異なる通信ポートに流すものである。なお、前記異なる通信ポートには、後述するように前記待機系ファイルサーバ3が接続され、前記パケット複製手段10は、前記複製したパケットを前記待機系ファイルサーバ3に送信するようになっている。   The switch 1 exchanges packets between the service file server 2 and the client 6 through a communication port, and has a packet duplicating means 10. The packet duplicating means 10 duplicates a packet exchanged through the communication port, and flows the duplicated packet to a communication port different from the communication port. As will be described later, the standby file server 3 is connected to the different communication ports, and the packet duplicating means 10 transmits the duplicated packet to the standby file server 3.

前記待機系ファイルサーバ3は、前記サービス系サーバ2と同様に前記クライアント6にサービスを提供するものであり、前記サービス系サーバ2を現用のサーバとした場合、前記サービス系サーバ2に障害が生じた際に前記サービス系サーバ2に代わって前記クライアント6にサービスを提供するものである。前記待機系ファイルサーバ3は、コネクション復元モジュール30と、死活監視手段40と、パケット解析モジュール50とを有している。なお、前記死活監視手段40は、前記待機系ファイルサーバ3に装備したが、これに限られるものではなく、前記待機系ファイルサーバ3とは独立させて設けてもよいものである。   The standby file server 3 provides services to the client 6 in the same manner as the service server 2. When the service server 2 is used as a working server, a failure occurs in the service server 2. In this case, the service is provided to the client 6 instead of the service server 2. The standby file server 3 includes a connection restoration module 30, an alive monitoring unit 40, and a packet analysis module 50. The life and death monitoring means 40 is provided in the standby file server 3, but is not limited thereto, and may be provided independently of the standby file server 3.

前記パケット解析モジュール50は、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するものであり、パケット受信手段51と、パケット抽出手段52と、パケット解析手段53と、パケットバッファ54と、コネクション情報記憶部55とを有している。   The packet analysis module 50 extracts a packet related to a connection from the duplicated packet, and analyzes connection information based on the extracted packet. The packet receiving module 51, the packet extracting module 52, and a packet analyzing module Means 53, a packet buffer 54, and a connection information storage unit 55 are provided.

前記パケット受信手段51は、前記パケット複製手段10が選択した通信ポートに接続して、前記パケット複製手段10が複製したパケットを受信し、その受信したパケットを前記パケット抽出手段52に受け渡すものである。   The packet receiving means 51 is connected to the communication port selected by the packet duplicating means 10, receives the packet duplicated by the packet duplicating means 10, and delivers the received packet to the packet extracting means 52. is there.

前記パケット抽出手段52は、受信したパケットからコネクションに関するパケット、具体的は、コネクションの開設/切断、NFS(Network File System)/CIFS(Common Internet File System)のリクエスト/リプライに関わるパケットを抽出し、前記抽出したパケットを前記パケット解析手段53に受け渡すものである。   The packet extraction means 52 extracts a packet related to a connection from the received packet, specifically, a packet related to connection establishment / disconnection, NFS (Network File System) / CIFS (Common Internet File System) request / reply, The extracted packet is transferred to the packet analysis means 53.

前記パケット解析手段53は、前記パケット抽出手段52が抽出したパケットを受け取り、前記抽出されたパケットからコネクション情報を解析し、その解析結果を前記パケットバッファ54と前記コネクション情報記憶部55とに出力するものである。   The packet analysis unit 53 receives the packet extracted by the packet extraction unit 52, analyzes connection information from the extracted packet, and outputs the analysis result to the packet buffer 54 and the connection information storage unit 55. Is.

前記パッケトバッファ54は、前記パケット解析手段53からの解析結果を得て、コネクション毎に遣り取りされたコネクションに関するパケット、具体的にはNFS/CIFSのリクエスト/リプライに関するパケットを記憶するものである。なお、前記パケットバッファ54は、前記パケット解析手段53からの登録要求に基づいて前記パケットをFIFO(First−In First−Out)方式で記憶している。ここに、FIFO方式とは、格納したデータを、古く格納した順に取り出すようにする方式であって、一番新しく格納されたデータが一番最後に取り出される方式を意味する。   The packet buffer 54 obtains an analysis result from the packet analysis means 53 and stores a packet related to a connection exchanged for each connection, specifically a packet related to an NFS / CIFS request / reply. The packet buffer 54 stores the packet in a FIFO (First-In First-Out) system based on a registration request from the packet analysis unit 53. Here, the FIFO method is a method in which stored data is taken out in the order in which they were stored, and the most recently stored data is taken out last.

前記コネクション情報記憶部55は、前記パケット解析手段53からの解析結果を得て、前記パケット解析手段53が解析したコネクション情報(例えば、TCP(Transmission Control Protocol)/IP(Internet Protocol)ヘッダ、NFSのファイルハンドラ、SMB(Server Message Block)ヘッダ)をテーブル形式で記憶するものである。前記死活監視手段40は、前記サービス系ファイルサーバ2の動作状況を監視して、前記サービス系ファイルサーバ2で障害が発生したかどうかを監視するものである。   The connection information storage unit 55 obtains an analysis result from the packet analysis unit 53 and analyzes the connection information (for example, TCP (Transmission Control Protocol) / IP (Internet Protocol) header, NFS) analyzed by the packet analysis unit 53. A file handler and an SMB (Server Message Block) header) are stored in a table format. The alive monitoring means 40 monitors the operating status of the service file server 2 and monitors whether a failure has occurred in the service file server 2.

前記コネクション復元モジュール30は、前記サービス系クラスタノード2の動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するものである。具体的には、前記コネクション復元モジュール30は、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する。そして、前記コネクション復元モジュール30は、前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチの通信ポートを割り出し、前記スイッチにリセットを送信することにより通信状態の復元を促す。また、前記コネクション復元モジュール30は、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元し、コネクション情報が揃っていない場合に通信状態を切断する指令を前記スイッチ1に送信する。   The connection restoration module 30 restores the communication state based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node 2. Specifically, the connection restoration module 30 restores connection information that has been communicated in the past from the header information and data of the packet related to the connection, and restores the communication state based on the restored connection information. . Then, when the connection information cannot be restored, the connection restoration module 30 determines the communication port of the switch from the packet relating to the connection, and transmits a reset to the switch to prompt the restoration of the communication state. In addition, the connection restoration module 30 analyzes the packet related to the connection extracted from the duplicated packet and the connection information analyzed based on the extracted packet, and determines the communication state when the connection information is available. When the connection information is not prepared, a command to disconnect the communication state is transmitted to the switch 1.

さらに具体的に説明すると、前記コネクション復元モジュール30は、コネクション解析手段31と、コネクション復元手段32と、コネクション切断手段33とを有している。   More specifically, the connection restoration module 30 includes a connection analysis unit 31, a connection restoration unit 32, and a connection disconnection unit 33.

前記コネクション解析手段31は、前記死活監視手段40による監視結果を得て、前記コネクション記憶部55が記憶している情報と前記パケットバッファ54が記憶している情報とに基づいて通信状態(コネクション状態)を解析するものである。   The connection analysis unit 31 obtains a monitoring result by the life and death monitoring unit 40, and based on the information stored in the connection storage unit 55 and the information stored in the packet buffer 54 (connection state) ).

前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する。そして、前記コネクション復元手段32は、前記コネクション解析手段31による解析の結果で前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチ1の通信ポートを割り出し、前記スイッチ1にリセット(RST)を送信することにより通信状態の復元を促す。また、前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元する。   The connection restoring means 32 receives the result analyzed by the connection analyzing means 31, restores the connection information that has been communicated in the past from the header information and data of the packet related to the connection, and converts the connection information into the restored connection information. Based on this, the communication state is restored. Then, the connection restoration means 32 determines the communication port of the switch 1 from the packet related to the connection and resets it to the switch 1 when the connection information cannot be restored as a result of the analysis by the connection analysis means 31 ( RST) is transmitted to prompt the restoration of the communication state. The connection restoration unit 32 receives the result of the analysis by the connection analysis unit 31 and analyzes the packet related to the connection extracted from the duplicated packet and the connection information analyzed based on the extracted packet. The communication state is restored when the connection information is available.

前記コネクション切断手段33は、前記コネクション解析手段31が解析した結果を受けて、コネクション情報が揃っていない場合に、前記コネクション解析手段31の指示でリセット(RST)を前記スイッチ1に送信するものである。前記スイッチ1は、前記コネクション切断手段33からの前記リセットを受けてコネクションを切断する。   The connection disconnecting unit 33 receives a result analyzed by the connection analyzing unit 31 and transmits a reset (RST) to the switch 1 in response to an instruction from the connection analyzing unit 31 when the connection information is not complete. is there. The switch 1 receives the reset from the connection disconnecting means 33 and disconnects the connection.

以上の説明では、本発明の実施形態をハードウェア構成による障害時の無停止通信復旧システムとして構築したが、これに限られるものではない。本発明の実施形態における待機系ファイルサーバ3を構築するコネクション復元モジュール30とパケット解析モジュール50とを、CPUにプログラムを実行させることにより、ソフトウェア上で実現するようにしてもよいものである。   In the above description, the embodiment of the present invention is constructed as a non-stop communication recovery system in the event of a failure by a hardware configuration, but is not limited to this. The connection restoration module 30 and the packet analysis module 50 that construct the standby file server 3 in the embodiment of the present invention may be realized on software by causing a CPU to execute a program.

次に、本発明の実施形態に係る無停止通信復旧システムを用いて、クラスタ環境における障害時の無停止通信復旧方法を実行する場合を図1及び図2に基づいて説明する。   Next, a case where the non-stop communication recovery method at the time of failure in the cluster environment is executed using the non-stop communication recovery system according to the embodiment of the present invention will be described with reference to FIGS.

以下では、クライアント6がサービス系ファイルサーバ2を利用してファイルアクセスする場合における無停止通信復旧方法について説明する。   Hereinafter, a non-stop communication recovery method when the client 6 accesses a file using the service file server 2 will be described.

クライアント6とサービス系ファイルサーバ2との間において、コネクション開設要求/応答のパケットがスイッチ1の通信ポートを通して送受信されると(図2のステップS1,S2,S3,S4)、スイッチ1のパケット複製手段10は、前記通信ポートを通して送受信された前記パケットを受け取って、前記パケットを複製し、その複製したパケットを、前記通信ポートとは異なる通信ポートを通して待機系ファイルサーバ3のパケット受信手段51に送信する(図2のステップS5)。   When a connection establishment request / response packet is transmitted / received between the client 6 and the service file server 2 through the communication port of the switch 1 (steps S1, S2, S3, and S4 in FIG. 2), the packet duplication of the switch 1 is performed. The means 10 receives the packet transmitted / received through the communication port, duplicates the packet, and transmits the duplicated packet to the packet receiving means 51 of the standby file server 3 through a communication port different from the communication port. (Step S5 in FIG. 2).

前記パケット受信手段51は、前記パケット複製手段10が複製した前記パケットを受信すると、そのパケットをそのままパケット抽出手段52に送信する。前記パケット抽出手段52は、前記パケット受信手段51から前記パケットを受け取ると、そのパケットのTCPヘッダのフラグに基づいて、コネクション開設要求か、又はコネクション開設要求に対する応答かを判断し、コネクション情報をコネクション情報記憶部55に出力する。前記コネクション情報記憶部55は、前記パケット抽出手段53からの出力に基づいて前記コネクションに関するパケットをFIFO方式で記録する。   When the packet receiving means 51 receives the packet duplicated by the packet duplicating means 10, it transmits the packet as it is to the packet extracting means 52. When the packet extraction unit 52 receives the packet from the packet reception unit 51, the packet extraction unit 52 determines whether the request is a connection establishment request or a response to the connection establishment request based on a flag of the TCP header of the packet, and connects the connection information to the connection information. The information is output to the information storage unit 55. The connection information storage unit 55 records a packet related to the connection by the FIFO method based on the output from the packet extraction unit 53.

次に、前記クライアント6から前記サービス系ファイルサーバ2にファイルアクセス要求/応答のパケットが前記スイッチ1の通信ポートを通して返送されると、同様に前記パケット複製手段10は、前記通信ポートを通して返送された前記パケットを複製し、その複製したパケットを、前記通信ポートとは異なる通信ポートを通して待機系ファイルサーバ3のパケット受信手段51に送信する。   Next, when a file access request / response packet is returned from the client 6 to the service file server 2 through the communication port of the switch 1, the packet duplicating means 10 is also returned through the communication port. The packet is duplicated, and the duplicated packet is transmitted to the packet receiving means 51 of the standby file server 3 through a communication port different from the communication port.

前記パケット受信手段51は、前記パケット複製手段が複製した前記パケットを受信すると、そのパケットをそのままパケット抽出手段52に送信する。   When the packet receiving means 51 receives the packet duplicated by the packet duplicating means, the packet receiving means 51 transmits the packet as it is to the packet extracting means 52.

前記パケット抽出手段52は、前記パケット受信手段51から前記パケットを受け取ると、そのパケットから前記コネクションに関するパケットを抽出し、そのパケットを前記パケット解析手段53に出力する。   When the packet extraction unit 52 receives the packet from the packet reception unit 51, the packet extraction unit 52 extracts a packet related to the connection from the packet and outputs the packet to the packet analysis unit 53.

前記パケット解析手段53は、前記パケット抽出手段52からの前記パケットを受け取ると、前記コネクション情報記憶部55が記憶しているコネクション情報を読み出し、前記パケット抽出手段52から受け取った前記パケットにおけるTCPヘッダに基づいて、前記クライアント6から前記サービス系ファイルサーバ2への通信が前記コネクション情報記憶部55で記憶されているコネクション情報による通信であるかを判定し、前記コネクション情報による通信である場合に、前記パケットにおけるNFS/CIFSのヘッダに基づいて、ファイルアクセス要求か、或いはそのファイルアクセス要求に対する応答かを判断し、前記パケット抽出手段52から受け取った前記パケットを前記パケットバッファ54に出力する。前記パケットバッファ54は、前記パケット解析手段53から受け取った前記パケットをFIFO方式で記憶する。   When the packet analysis unit 53 receives the packet from the packet extraction unit 52, the packet analysis unit 53 reads the connection information stored in the connection information storage unit 55, and stores it in the TCP header in the packet received from the packet extraction unit 52. On the basis of the communication information from the client 6 to the service file server 2 is determined based on the connection information stored in the connection information storage unit 55. Based on the NFS / CIFS header in the packet, it is determined whether it is a file access request or a response to the file access request, and the packet received from the packet extraction means 52 is output to the packet buffer 54. The packet buffer 54 stores the packet received from the packet analysis unit 53 in a FIFO manner.

ここで、前記クライアント6から前記サービス系ファイルサーバ2に前記スイッチ1の通信ポートを通してコネクション切断要求のパケットが返送された場合には、前記コネクション開設要求時の処理と同様に、前記スイッチ1のパケット複製手段10は、前記通信ポートを通して返送された前記パケットを複製し、その複製したパケットを待機系ファイルサーバ3の前記パケット抽出手段52に向けて送信する。   Here, when a connection disconnection request packet is returned from the client 6 to the service-related file server 2 through the communication port of the switch 1, the packet of the switch 1 is transmitted in the same manner as the processing at the time of the connection opening request. The duplication unit 10 duplicates the packet returned through the communication port, and transmits the duplicated packet to the packet extraction unit 52 of the standby file server 3.

前記パケット解析手段53は、コネクション開設要求時と同様に、前記パケット抽出手段52が抽出したコネクション切断要求のパケットを受け取ると、その受け取った前記パケットのTCPヘッダに基づいて、前記コネクション情報記憶部55が記憶しているコネクション情報に前記コネクション切断要求のコネクション情報が存在している場合に、そのコネクション情報を削除する指令を前記コネクション情報記憶部55に出力する。前記コネクション情報記憶部55は、前記パケット解析手段52からの指令を受けて、記憶しているコネクション情報から、前記コネクション切断要求のコネクション情報に該当するコネクション情報を削除する。   When receiving the connection disconnection request packet extracted by the packet extraction unit 52, the packet analysis unit 53 receives the connection disconnection request packet extracted by the packet extraction unit 52, based on the TCP header of the received packet. When the connection information of the connection disconnection request exists in the connection information stored in the server, a command to delete the connection information is output to the connection information storage unit 55. The connection information storage unit 55 receives a command from the packet analysis unit 52 and deletes connection information corresponding to the connection information of the connection disconnection request from the stored connection information.

次に、前記サービス系ファイルサーバ2で障害が発生した場合について説明する。   Next, a case where a failure occurs in the service file server 2 will be described.

前記待機系ファイルサーバ3の死活監視手段40は、前記サービス系ファイルサーバ2の動作状態を監視している。監視している状態で前記サービス系ファイルサーバ3の障害が発生すると、前記死活監視手段40は直ちに前記サービス系ファイルサーバ2に障害が発生したことを前記待機系ファイルサーバ3のコネクション復元モジュール30に通知する。   The alive monitoring means 40 of the standby file server 3 monitors the operating state of the service file server 2. When a failure of the service file server 3 occurs while being monitored, the alive monitoring means 40 immediately informs the connection restoration module 30 of the standby file server 3 that a failure has occurred in the service file server 2. Notice.

前記コネクション復元モジュール30が前記死活監視手段40から前記サービス系ファイルサーバ2に障害が発生した通知を受け取ると、前記コネクション復元モジュール30のコネクション解析手段31は、前記コネクション情報記憶部55及び前記パケットバッファ54に記憶されている情報を読み出し、その読み出した情報に基づいて通信状態(コネクション状態)を解析し、その解析結果を前記コネクション復元手段32及び前記コネクション切断手段33に出力する。   When the connection restoration module 30 receives a notification that a failure has occurred in the service file server 2 from the alive monitoring unit 40, the connection analysis unit 31 of the connection restoration module 30 includes the connection information storage unit 55 and the packet buffer. The information stored in 54 is read, the communication state (connection state) is analyzed based on the read information, and the analysis result is output to the connection restoration means 32 and the connection disconnection means 33.

前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する。そして、前記コネクション復元手段32は、前記コネクション解析手段31による解析の結果で前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチ1の通信ポートを割り出し、前記スイッチ1にリセット(RST)を送信することにより通信状態の復元を促す。また、前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元する。   The connection restoring means 32 receives the result analyzed by the connection analyzing means 31, restores the connection information that has been communicated in the past from the header information and data of the packet related to the connection, and converts the connection information into the restored connection information. Based on this, the communication state is restored. Then, the connection restoration means 32 determines the communication port of the switch 1 from the packet related to the connection and resets it to the switch 1 when the connection information cannot be restored as a result of the analysis by the connection analysis means 31 ( RST) is transmitted to prompt the restoration of the communication state. The connection restoration unit 32 receives the result of the analysis by the connection analysis unit 31 and analyzes the packet related to the connection extracted from the duplicated packet and the connection information analyzed based on the extracted packet. The communication state is restored when the connection information is available.

さらに、前記コネクション解析手段31がパケットバッファ54に残っている最後のリクエスト/リプライ情報に基づいて、リクエストの受信が最後の受信であると解析した場合、前記コネクション復元手段32は、そのリクエストに対する処理からサービスを再開する旨の指令を前記待機系ファイルサーバ3に出力する。   Further, when the connection analyzing unit 31 analyzes that the request is received last based on the last request / reply information remaining in the packet buffer 54, the connection restoring unit 32 performs processing for the request. A command to restart the service is output to the standby file server 3.

前記待機系ファイルサーバ3は、上述した前記コネクション復元手段32による復元の結果を得て、前記サービス系ファイルサーバ2に代わって、前記クライアント6に対するサービスを再開する。そして、前記待機系ファイルサーバ3は、前記コネクション復元手段32から前記リクエストに対する処理からサービスを再開する旨の指令を受け取った場合、前記そのリクエストに対する処理からサービスを再開する(図2のステップS6,S7)。   The standby file server 3 obtains the result of restoration by the connection restoration means 32 described above, and resumes the service for the client 6 on behalf of the service file server 2. When the standby file server 3 receives an instruction to restart the service from the process for the request from the connection restoration unit 32, the standby file server 3 restarts the service from the process for the request (step S6 in FIG. 2). S7).

また、前記コネクション解析手段31は、前記コネクション情報記憶部55に記憶されているコネクション情報と、前記パケットバッファ54に記憶されている前記コネクションに関するパケットとを読み出し、その読み出したデータに基づいてコネクション状態を解析し、その解析したコネクション情報に結びつくリクエスト/リプライのパケットが前記パケットバッファ54に存在しない場合、切断指令を前記コネクション切断手段33に出力する。   The connection analyzing unit 31 reads the connection information stored in the connection information storage unit 55 and the packet related to the connection stored in the packet buffer 54, and the connection status is based on the read data. When a request / reply packet associated with the analyzed connection information does not exist in the packet buffer 54, a disconnection command is output to the connection disconnecting means 33.

前記コネクション切断手段33は、前記コネクション解析手段31が解析した結果を受けて、コネクション情報が揃っていない場合に、前記コネクション解析手段31の指示でリセット(RST)を前記スイッチ1に送信する。前記スイッチ1は、前記コネクション切断手段33からの前記リセットを受けてコネクションを切断する。   The connection disconnecting means 33 receives a result analyzed by the connection analyzing means 31 and transmits a reset (RST) to the switch 1 in accordance with an instruction from the connection analyzing means 31 when the connection information is not complete. The switch 1 receives the reset from the connection disconnecting means 33 and disconnects the connection.

以上のように、本発明の実施形態によれば、クラスタ環境のクラスタノードにおいてサービス系クラスタノードで障害が発生しそれまでのサービスを待機系クラスタノードが引き継ぐ際に、予め待機系クラスタノードでサービス系クラスタノードの通信ポートを流れるパケットをバッファリング(ミラー)しておき、通信状態(例えばコネクション開設/切断)の情報をトレースしつつパケット情報から通信状態を復元させ、コネクションを再接続しなくてもサービスを継続することができる。   As described above, according to the embodiment of the present invention, when a failure occurs in the service cluster node in the cluster node of the cluster environment and the standby cluster node takes over the previous service, the service is previously performed in the standby cluster node. The packet flowing through the communication port of the host cluster node is buffered (mirrored), the communication state is restored from the packet information while tracing the communication state (for example, connection establishment / disconnection), and the connection is not reconnected. Can continue service.

また、本発明の実施形態によれば、サービス系ファイルサーバの障害時にフェイルオーバしてもサービス中だったファイルアクセスのコネクションを維持することができ、再接続処理をせずに通信を継続できる。その理由は、サービス系ファイルサーバで通信していたパケットを待機系ファイルサーバでもミラーし、コネクション状態をトレースしコネクションを再構築できるためである。   Further, according to the embodiment of the present invention, the file access connection that was in service can be maintained even if a service file server fails over, and communication can be continued without reconnection processing. The reason is that the packet communicated with the service file server can be mirrored with the standby file server, the connection state can be traced, and the connection can be reconstructed.

また、待機系ファイルサーバにおけるコネクション復旧のための処理負荷を低く抑えることができる。その理由は、待機時にはミラーとして流れてくるパケットの処理のみを行いコネクションそのものは扱わず、障害発生時に記憶しているコネクション情報とパケットに基づいてコネクションを復旧させるためである。   In addition, the processing load for restoring the connection in the standby file server can be kept low. The reason is that only the packet flowing as a mirror is processed during standby, not the connection itself, but the connection is restored based on the connection information and the packet stored when a failure occurs.

また、コネクション復旧時に良く使われているコネクションほど優先的に復旧させることができる。その理由は、FIFO方式に基づいてパケットバッファに記録を実行し、過去最近に通信したパケット情報が優先して残り、この情報を使ってコネクションを復旧するためである。   In addition, a connection that is frequently used at the time of connection recovery can be recovered with priority. The reason is that recording is performed in the packet buffer based on the FIFO method, packet information communicated in the past in the past is prioritized and the connection is restored using this information.

また、本発明の他の実施形態として、Nノードクラスタ環境に拡張して考えた場合、例えばクラスタノードが10ノードであれば、1Gbpsポート×10と10Gbpsポート×1とをもつスイッチ1を用意し、コネクション復元モジュール30を装備した各ノードを1Gbpsポートに接続し、パケット解析モジュール50を10Gbpsポートに接続してパケットのミラーを行い、障害発生時には障害ノードのIPアドレスに関わるコネクションを稼動している何れかのノードのコネクション復元モジュール30に、記憶しているコネクション情報を転送し、コネクションを復旧することも可能である。   As another embodiment of the present invention, when extended to an N-node cluster environment, for example, if the cluster node is 10 nodes, a switch 1 having 1 Gbps port × 10 and 10 Gbps port × 1 is prepared. Each node equipped with the connection restoration module 30 is connected to a 1 Gbps port, and the packet analysis module 50 is connected to a 10 Gbps port to perform packet mirroring. It is also possible to restore the connection by transferring the stored connection information to the connection restoration module 30 of any node.

また、以上説明した実施形態では、本発明の実施形態に係る障害時の無停止通信復旧システムをクラスタ環境のファイルサーバに適用した例を説明したが、これに限られるものではない。クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用するシステムであれば、本発明の実施形態に係る無停止通信復旧システムを適用することにより、前記サービス系クラスタノードで障害が発生した際に通信を再開させて、障害時の無停止通信の復旧を行うことができるものである。   In the embodiment described above, the example in which the non-stop communication recovery system at the time of failure according to the embodiment of the present invention is applied to the file server in the cluster environment has been described. However, the present invention is not limited to this. As long as one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and the system operates communication between the service system cluster node and a client through a switch, there is no need for the embodiment of the present invention. By applying the stop communication recovery system, communication can be resumed when a failure occurs in the service cluster node, and the non-stop communication at the time of failure can be recovered.

本発明によれば、例えばクラスタ環境のファイルサーバに利用して、障害時の無停止通信の復旧を実現することに貢献できるものである。   According to the present invention, for example, it can be used for a file server in a cluster environment, and can contribute to realizing non-stop communication recovery in the event of a failure.

1 スイッチ
2 サービス系ファイルサーバ
3 待機系ファイルサーバ
30 コネクション復元モジュール
50 パケット解析モジュール
1 Switch 2 Service File Server 3 Standby File Server 30 Connection Restoration Module 50 Packet Analysis Module

Claims (19)

クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる障害時の無停止通信復旧システムであって、
前記スイッチは、
通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段を有し、
前記待機系クラスタノードは、
前記複製したパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有することを特徴とする障害時の無停止通信復旧システム。
When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch, a failure has occurred in the service system cluster node Non-stop communication recovery system at the time of failure to resume communication at the time,
The switch
A packet duplicating means for duplicating a packet communicated between the client and the service cluster node through a communication port, and transmitting the duplicated packet to the standby cluster node;
The standby cluster node is:
A packet analysis module that extracts a packet related to a connection from the duplicated packet and analyzes connection information based on the extracted packet;
Non-disruptive communication recovery at the time of failure characterized by having a connection restoration module for restoring the communication state based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node system.
前記コネクション復元モジュールは、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元するものである請求項1に記載の障害時の無停止通信復旧システム。   2. The connection restoration module restores connection information that has been communicated in the past recently from header information and data of a packet related to the connection, and restores the communication state based on the restored connection information. Non-stop communication recovery system at the time of failure described in 1. 前記コネクション復元モジュールは、前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチの通信ポートを割り出し、前記スイッチにリセットを送信することにより通信状態の復元を促すものである請求項1に記載の障害時の無停止通信復旧システム。   The connection restoration module is configured to determine a communication port of the switch from a packet related to the connection when the connection information cannot be restored, and to transmit a reset to the switch to promote restoration of a communication state. The non-stop communication recovery system at the time of failure described in 1. 前記コネクション復元モジュールは、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元し、コネクション情報が揃っていない場合に通信状態を切断する指令を前記スイッチに送信するものである請求項1に記載の障害時の無停止通信復旧システム。   The connection restoration module analyzes a packet related to the connection extracted from the duplicated packet and connection information analyzed based on the extracted packet, and restores a communication state when connection information is prepared, The non-stop communication recovery system at the time of failure according to claim 1, wherein a command for disconnecting a communication state is transmitted to the switch when connection information is not prepared. 前記パケット解析モジュールは、前記コネクションに関するパケットをコネクション毎にFIFO方式で記憶しているものである請求項1に記載の障害時の無停止通信復旧システム。   The non-stop communication recovery system at the time of failure according to claim 1, wherein the packet analysis module stores a packet related to the connection for each connection by a FIFO method. クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる障害時の無停止通信復旧システムに用いる待機系クラスタノードであって、
前記スイッチが複製した、通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有することを特徴とする障害時の無停止通信復旧システムの待機系クラスタノード。
When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch , a failure has occurred in the service system cluster node A standby cluster node used in a non-stop communication recovery system in the event of a failure to resume communication
A packet analysis module that extracts a packet relating to a connection from a packet that is duplicated by the switch and communicated between the client and the service cluster node through a communication port, and that analyzes connection information based on the extracted packet;
Non-disruptive communication recovery at the time of failure characterized by having a connection restoration module for restoring the communication state based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node The standby cluster node of the system.
前記コネクション復元モジュールは、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元するものである請求項に記載の無停止通信復旧システム待機系クラスタノード。 The connection restoration module, claim from the header information and data of the packet relating to the connection to restore the connection information which has been communicated to the recent past, is to restore the communication state based on the restored connection information 6 Non-stop communication recovery system standby cluster node described in 1. 前記コネクション復元モジュールは、前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチの通信ポートを割り出し、前記スイッチにリセットを送信することにより通信状態の復元を促すものである請求項に記載の無停止通信復旧システム待機系クラスタノード。 The connection restoration module is configured to determine a communication port of the switch from a packet related to the connection when the connection information cannot be restored, and to transmit a reset to the switch to promote restoration of a communication state. nonstop communication recovery system standby cluster node according to 6. 前記コネクション復元モジュールは、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元し、コネクション情報が揃っていない場合に通信状態を切断する指令を前記スイッチに送信するものである請求項に記載の無停止通信復旧システム待機系クラスタノード。 The connection restoration module analyzes a packet related to the connection extracted from the duplicated packet and connection information analyzed based on the extracted packet, and restores a communication state when connection information is prepared, The non-stop communication recovery system standby cluster node according to claim 6 , wherein a command for disconnecting a communication state is transmitted to the switch when connection information is not available. 前記パケット解析モジュールは、前記コネクションに関するパケットをコネクション毎にFIFO方式で記憶しているものである請求項に記載の無停止通信復旧システム待機系クラスタノード。 The non-stop communication recovery system standby cluster node according to claim 6 , wherein the packet analysis module stores a packet related to the connection for each connection by a FIFO method. クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる障害時の無停止通信復旧方法であって、
通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信し、
前記待機系クラスタノード側において、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析し、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元することを特徴とする障害時の無停止通信復旧方法。
When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch, a failure has occurred in the service system cluster node Non-stop communication recovery method at the time of failure to restart communication when
Duplicating a packet communicated between the client and the service cluster node through a communication port, and sending the duplicated packet to the standby cluster node;
On the standby cluster node side, extract a packet related to the connection from the duplicated packet, analyze connection information based on the extracted packet,
A non-disruptive communication recovery method at the time of failure, wherein the communication state is restored based on the packet related to the connection and the connection information in response to the operation monitoring status of the service cluster node.
前記待機系クラスタノード側において、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する請求項11に記載の障害時の無停止通信復旧方法。 In the standby cluster node side, to restore the connection information which has been communicated to the recent past and a header information and data of the packet relating to the connection, to claim 11 for restoring the communication state based on the restored connection information Non-stop communication recovery method at the time of failure described. 前記待機系クラスタノード側において、前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチの通信ポートを割り出し、前記スイッチにリセットを送信することにより通信状態の復元を促す請求項11に記載の障害時の無停止通信復旧方法。 In the standby cluster node side, the when the connection information is not restored, indexing the communication ports of the switch from the packet relating to the connection, according to claim 11 to promote recovery of the communication state by sending a reset to the switch Non-stop communication recovery method at the time of failure described in 1. 前記待機系クラスタノード側において、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元し、コネクション情報が揃っていない場合に通信状態を切断する指令を前記スイッチに送信する請求項11に記載の障害時の無停止通信復旧方法。 On the standby cluster node side, the packet related to the connection extracted from the duplicated packet and the connection information analyzed based on the extracted packet are analyzed, and the communication state is restored when the connection information is available. 12. The non-stop communication recovery method at the time of failure according to claim 11 , wherein a command for disconnecting a communication state is transmitted to the switch when connection information is not prepared. 前記待機系クラスタノード側において、前記コネクションに関するパケットをコネクション毎にFIFO方式で記憶してバッファリングする請求項11に記載の障害時の無停止通信復旧方法。 12. The non-disruptive communication recovery method at the time of failure according to claim 11 , wherein a packet related to the connection is stored and buffered for each connection by a FIFO method on the standby cluster node side. クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる無停止通信復旧の動作を制御するための制御プログラムであって、
前記待機系クラスタノードを構成するコンピュータに、
前記スイッチが複製した、通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析する機能と、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する機能とを実行させることを特徴とする無停止通信復旧制御プログラム。
When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch , a failure has occurred in the service system cluster node Control program for controlling the operation of non-stop communication recovery to resume communication when
In the computer constituting the standby cluster node,
A function of extracting a packet related to a connection from a packet communicated between the client and the service-related cluster node through a communication port copied by the switch, and analyzing connection information based on the extracted packet;
A non-stop communication recovery control program for executing a function of restoring a communication state based on a packet related to the connection and the connection information in response to an operation monitoring status of the service cluster node.
前記コンピュータに、
前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する機能を実行させる請求項16に記載の無停止通信復旧制御プログラム。
In the computer,
The non-stop according to claim 16 , wherein connection information that has been communicated in the past in the past is restored from packet header information and data related to the connection, and the communication state is restored based on the restored connection information. Communication recovery control program.
前記コンピュータに、
前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチの通信ポートを割り出し、前記スイッチにリセットを送信することにより通信状態の復元を促す機能を実行させる請求項16に記載の無停止通信復旧制御プログラム。
In the computer,
17. The function according to claim 16 , wherein when the connection information cannot be restored, a function for prompting restoration of a communication state is performed by determining a communication port of the switch from a packet related to the connection and transmitting a reset to the switch. Stop communication recovery control program.
前記コンピュータに、
前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元し、コネクション情報が揃っていない場合に通信状態を切断する指令を前記スイッチに出力する機能を実行させる請求項16に記載の無停止通信復旧制御プログラム。
In the computer,
Analyzing the connection-related packet extracted from the duplicated packet and the connection information analyzed based on the extracted packet, restores the communication state when the connection information is complete, and the connection information is not complete The non-stop communication restoration control program according to claim 16 , wherein a function for outputting a command to disconnect the communication state to the switch is executed.
JP2009091132A 2009-04-03 2009-04-03 Non-stop communication recovery system and method in case of failure Expired - Fee Related JP5287440B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009091132A JP5287440B2 (en) 2009-04-03 2009-04-03 Non-stop communication recovery system and method in case of failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009091132A JP5287440B2 (en) 2009-04-03 2009-04-03 Non-stop communication recovery system and method in case of failure

Publications (2)

Publication Number Publication Date
JP2010245757A JP2010245757A (en) 2010-10-28
JP5287440B2 true JP5287440B2 (en) 2013-09-11

Family

ID=43098310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009091132A Expired - Fee Related JP5287440B2 (en) 2009-04-03 2009-04-03 Non-stop communication recovery system and method in case of failure

Country Status (1)

Country Link
JP (1) JP5287440B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6296612B2 (en) * 2014-08-27 2018-03-20 日本電信電話株式会社 Network system and method for changing version
JP6561492B2 (en) * 2015-02-23 2019-08-21 セイコーエプソン株式会社 Tape printer and tape printing system
CN120892056B (en) * 2025-09-29 2026-01-23 浪潮电子信息产业股份有限公司 Data communication method and electronic equipment

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4516496B2 (en) * 2005-07-27 2010-08-04 株式会社日立製作所 Multicast delivery method and system, content server

Also Published As

Publication number Publication date
JP2010245757A (en) 2010-10-28

Similar Documents

Publication Publication Date Title
CN100369413C (en) Proxy-response device and method for proxy-response device
CN106331098B (en) Server cluster system
JP5804054B2 (en) Communication system, control device, node, processing rule setting method and program
CN100589408C (en) A communication network connection method and device thereof
JP5366177B2 (en) Slot interface access device, method and program thereof, and redundant configuration and alternative method of main device
CN101795222B (en) Multi-stage forward service system and method
CN105681462A (en) Cluster system based on message router, and data communication transfer method
JP2008305394A (en) Intelligent failover in a load-balanced network environment
EP3442163B1 (en) DATA PROCESSING SYSTEM WITH SERVICE CONTINUITY PROTECTION
JP2013030190A (en) Slot interface access device, method and program thereof, and redundancy configuration and alternative method of main device
WO2021185169A1 (en) Switching method and apparatus, and device and storage medium
CN108270593B (en) Dual-computer hot backup method and system
JP5287440B2 (en) Non-stop communication recovery system and method in case of failure
US9294342B2 (en) Network node apparatus system, apparatus, and method
JP4806382B2 (en) Redundant system
JP4133738B2 (en) High-speed network address takeover method, network device, and program
JP2015114952A (en) Network system, monitoring control unit, and software verification method
JP4378205B2 (en) Blade type network relay device
CN102624753B (en) Distributed file transmission method and equipment for enterprise service bus
JP4258482B2 (en) iSCSI storage system and path multiplexing method in the system
JPH11296396A (en) High availability system with switching concealment function
JP4757670B2 (en) System switching method, computer system and program thereof
CN113890817A (en) Communication optimization method and device
JP4573156B2 (en) Data collection system
JP2006120080A (en) Web service request relay system, web service request relay method, relay server and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130520

R150 Certificate of patent or registration of utility model

Ref document number: 5287440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees