JP5287440B2 - Non-stop communication recovery system and method in case of failure - Google Patents
Non-stop communication recovery system and method in case of failure Download PDFInfo
- Publication number
- JP5287440B2 JP5287440B2 JP2009091132A JP2009091132A JP5287440B2 JP 5287440 B2 JP5287440 B2 JP 5287440B2 JP 2009091132 A JP2009091132 A JP 2009091132A JP 2009091132 A JP2009091132 A JP 2009091132A JP 5287440 B2 JP5287440 B2 JP 5287440B2
- Authority
- JP
- Japan
- Prior art keywords
- packet
- connection
- communication
- cluster node
- connection information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004891 communication Methods 0.000 title claims description 168
- 238000011084 recovery Methods 0.000 title claims description 63
- 238000000034 method Methods 0.000 title claims description 30
- 238000012544 monitoring process Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、クラスタ環境のファイルサーバに利用可能な障害時の無停止通信復旧システム及びその方法に関する。 The present invention relates to a non-disruptive communication recovery system and method that can be used for a file server in a cluster environment.
クラスタ環境においては、クラスタ単位でデータの遣り取りによるサービスが行われており、そのサービスが継続されることが要求される。前記クラスタ環境では、サービスが行われている際に通信障害が発生する場合も想定されるため、それに対処する方式が開発されている。 In a cluster environment, data is exchanged on a cluster basis, and it is required that the service be continued. In the cluster environment, a communication failure may occur when a service is being performed. Therefore, a method for dealing with the failure has been developed.
前記通信障害の発生は、前記クラスタ環境の分野に限られるものではなく、通信を応用した分野では想定されるものである。クラスタシステムにおける故障復旧方式が特許文献1に開示されている。また、特許文献2には、コールドスタンバイをベースとしてシステムの停止時間を短縮する中継システムが開示されている。また、特許文献3には、再構築可能な故障に対する耐久性を向上させた多重相互接続ネットワークが開示されている。
しかしながら、特許文献1では、クラスタ環境において通信障害が発生することによりサービスノードが切り替わった際、コネクションの再接続を行うために、待機系側でもセッション状態の情報を全て共有する必要があった。この場合、待機系側のリソースの増大を招きかねないという問題がある。 However, in Patent Document 1, when a service node is switched due to a communication failure in a cluster environment, it is necessary to share all session state information on the standby system side in order to reconnect the connection. In this case, there is a problem that the resources on the standby side may increase.
また、特許文献2においても、二つの端末相互間を中継している中継装置に通信障害が生じた際、この中継装置を別の中継装置に切り替えるために、再開処理に必要なジャーナルとしての全ての情報を確保する必要があり、特許文献1と同様の問題が残されている。
Also in
また、特許文献3は、スイッチによるネットワークを動的に構成するものであり、相互接続された複数のアクティブ論理スイッチで入出力に使用するポートを選択的に接続する構成に関するものであり、クラスタ環境にそのまま適用することはできず、改良する余地が残されている。
また、特許文献4では、実行系制御プロセスと待機系制御プロセスとに対応させて共有メモリ上にネットワーク情報を記憶させておき、この情報を引き継いで通信を継続させるものであり、コネクションの再接続を行うためにセッション状態の情報を全て共有する必要があった。
In
クラスタ環境においては、クラスタ単位でデータの遣り取りによるサービスを継続させるためには、セッションの再開に加えて通信状態を復旧させる必要がある。しかしながら、前記特許文献に開示された方式は、その何れもがコネクションの再接続を行うためにセッション状態の情報を全て確保する必要があり、それらの情報を利用してセッションの再開のみを実現するものであるから、通信状態の復旧を実現するには至っていないのが実情である。 In a cluster environment, in order to continue a service by exchanging data on a cluster basis, it is necessary to restore the communication state in addition to resuming the session. However, all of the methods disclosed in the above-mentioned patent documents need to secure all the session state information in order to reconnect the connection, and only resume the session using the information. Therefore, the situation is that the recovery of the communication state has not been realized.
本発明の目的は、パケット情報から通信状態を復旧させ、コネクションを再接続しなくてもサービスを継続させる、クラスタ環境における障害時の無停止通信復旧システム及び方法を提供することにある。 An object of the present invention is to provide a non-stop communication recovery system and method in the event of a failure in a cluster environment, in which a communication state is recovered from packet information and a service is continued without reconnection.
前記目的を達成するため、本発明に係る障害時の無停止通信復旧システムは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる障害時の無停止通信復旧システムであって、
前記スイッチは、通信ポートを通して前記クライアントと前記サービス系クライアントノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段を有し、
前記待機系クラスタノードは、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有することを特徴とする。
In order to achieve the above object, a non-stop communication recovery system in the event of a failure according to the present invention uses one cluster node in a cluster environment as a service system and another cluster node as a standby system, and the service system cluster node and client through a switch. A non-stop communication recovery system at the time of failure to restart communication when a failure occurs in the service cluster node when operating communication with
The switch includes a packet duplicating unit that duplicates a packet communicated between the client and the service client node through a communication port, and transmits the duplicated packet to the standby cluster node;
The standby cluster node extracts a packet related to a connection from the duplicated packet, and analyzes a connection analysis based on the extracted packet, and corresponds to an operation monitoring status of the service cluster node. And a connection restoration module for restoring a communication state based on the packet related to the connection and the connection information.
以上の説明では、本発明をハードウェア構成による障害時の無停止通信復旧システムとして構築したが、これに限られるものではない。本発明は、前記障害時の無停止通信復旧システムに用いるスイッチ或いは待機系クラスタノードとして構築してもよい。さらには、本発明は、障害時の無停止通信復旧方法、或いは無停止通信復旧制御プログラムとして構築してもよいものである。 In the above description, the present invention is constructed as a non-stop communication recovery system in the event of a failure due to a hardware configuration, but is not limited to this. The present invention may be constructed as a switch or standby cluster node used in the non-stop communication recovery system at the time of failure. Furthermore, the present invention may be constructed as a non-stop communication recovery method at the time of failure or as a non-stop communication recovery control program.
本発明を前記障害時の無停止通信復旧システムに用いるスイッチとして構築した場合、本発明に係る無停止通信復旧システムのスイッチは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系として通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる無停止通信復旧システムに用いるスイッチであって、
前記スイッチは、前記サービス系クラスタノードとクライアントとの間で通信ポートを通してパケットを通信するものであり、前記通信ポートを通して前記クライアントと前記サービス系クライアントノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段を有する構成として構築する。
When the present invention is constructed as a switch for use in the non-disruptive communication recovery system in the event of a failure, the non-disruptive communication recovery system switch according to the present invention waits for one cluster node in the cluster environment and the other cluster node. A switch used for a non-stop communication recovery system that resumes communication when a failure occurs in the service cluster node when operating communication as a system,
The switch communicates a packet through a communication port between the service cluster node and a client, and duplicates a packet communicated between the client and the service client node through the communication port. The duplicated packet is constructed as a configuration having packet duplicating means for transmitting the duplicated packet to the standby cluster node.
本発明を前記障害時の無停止通信復旧システムに用いるスイッチとして構築した場合、本発明に係る障害時の無停止通信復旧システムの待機系クラスタノードは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系として通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる無停止通信復旧システムに用いる待機系クラスタノードであって、
前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有する構成として構築する。
When the present invention is constructed as a switch for use in the non-stop communication recovery system at the time of failure, the standby cluster node of the non-stop communication recovery system at the time of failure according to the present invention is configured such that one cluster node of the cluster environment is a service system, A standby cluster node used for a non-stop communication recovery system that resumes communication when a failure occurs in the service cluster node when operating communication with another cluster node as a standby system,
A packet analysis module that extracts a packet related to a connection from the duplicated packet, analyzes connection information based on the extracted packet, and a packet related to the connection and an operation monitoring status of the service cluster node Based on the connection information, it is constructed as a configuration having a connection restoration module for restoring the communication state.
本発明を障害時の無停止通信復旧方法として構築した場合、本発明に係る障害時の無停止通信復旧方法は、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる障害時の無停止通信復旧方法であって、
前記通信ポートを通して前記クライアントと前記サービス系クライアントノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信し、前記待機系クラスタノード側において、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析し、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する構成として構築する。
When the present invention is constructed as a non-stop communication recovery method at the time of failure, the non-stop communication recovery method at the time of failure according to the present invention is to use one cluster node in a cluster environment as a service system and another cluster node as a standby system. When operating communication between the service-system cluster node and the client through a switch, a non-stop communication recovery method at the time of failure to restart communication when a failure occurs in the service-system cluster node,
A packet communicated between the client and the service client node through the communication port is duplicated, the duplicated packet is transmitted to the standby cluster node, and the duplicated packet is transmitted on the standby cluster node side. A packet related to the connection is extracted from the packet, connection information is analyzed based on the extracted packet, and communication is performed based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node. Build as a configuration to restore the state.
本発明を障害時の無停止通信復旧制御プログラムとして構築した場合、本発明に係る無停止通信復旧制御プログラムは、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系として通信を運用する際に、前記サービス系クラスタノードで障害が発生した際に通信を再開させる無停止通信復旧の動作を制御するための制御プログラムであって、
前記待機系クラスタノードを構成するコンピュータに、
前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析する機能と、前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する機能とを実行させる構成として構築する。
When the present invention is constructed as a non-stop communication recovery control program in the event of a failure, the non-stop communication recovery control program according to the present invention communicates with one cluster node as a service system and another cluster node as a standby system. A control program for controlling the operation of non-stop communication recovery for resuming communication when a failure occurs in the service system cluster node when operating,
In the computer constituting the standby cluster node,
A function for extracting a packet related to a connection from the duplicated packet and analyzing connection information based on the extracted packet, and a packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node Based on the above, it is constructed as a configuration for executing the function of restoring the communication state.
本発明によれば、クラスタ環境のクラスタノードにおいてサービス系クラスタノードで障害が発生しそれまでのサービスを待機系クラスタノードが引き継ぐ際に、予め待機系クラスタノードでサービス系クラスタノードの通信ポートを流れるパケットをバッファリング(ミラー)しておき、通信状態(例えばコネクション開設/切断)の情報をトレースしつつパケット情報から通信状態を復元させ、コネクションを再接続しなくてもサービスを継続することができる。 According to the present invention, when a failure occurs in a service cluster node in a cluster node of a cluster environment and the standby cluster node takes over the previous service, the standby cluster node flows in advance through the communication port of the service cluster node. The packet can be buffered (mirrored), the communication status can be restored from the packet information while tracing the communication status (for example, connection establishment / disconnection), and the service can be continued without reconnecting the connection. .
以下、本発明の実施形態を図に基づいて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
本発明の実施形態に係る障害時の無停止通信復旧システムは図1に示す様に、クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチ1を通して前記サービス系クラスタノード(2)とクライアント6との間で通信を運用する際に、前記サービス系クラスタノード(2)で障害が発生した際に通信を再開させる障害時の無停止通信復旧システムを対象とするものである。
As shown in FIG. 1, a non-stop communication recovery system in the event of a failure according to an embodiment of the present invention uses one cluster node in a cluster environment as a service system and the other cluster node as a standby system. When operating communication between the node (2) and the
そして、本発明の実施形態に係る障害時の無停止通信復旧システムは図1に示す様に、基本的な構成として、前記スイッチ1は、通信ポートを通して前記クライアント6と前記サービス系クライアントノード(2)との間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段10を有している。さらに、前記待機系クラスタノード(3)は、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュール50と、前記サービス系クラスタノード(2)の動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュール30とを有することを特徴としている。
As shown in FIG. 1, the non-stop communication recovery system at the time of failure according to the embodiment of the present invention has a basic configuration in which the switch 1 is connected to the
本発明の実施形態では、前記スイッチ1のパケット複製手段10を用いて前記通信ポートを通して前記クライアント6と前記サービス系クライアントノード(2)との間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノード(3)に送信し、前記待機系クラスタノード(3)側において、パケット解析モジュール50を用いて、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析し、前記コネクション復元モジュール30を用いて、前記サービス系クラスタノード(2)の動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する。
In the embodiment of the present invention, the
次に、本発明の実施形態に係る障害時の無停止通信復旧システムをクラスタ環境のファイルサーバに適用した例に基づいて、さらに詳細に説明する。 Next, a more detailed description will be given based on an example in which the non-stop communication recovery system at the time of failure according to the embodiment of the present invention is applied to a file server in a cluster environment.
本発明の実施形態に係る障害時の無停止通信復旧システムをクラスタ環境のファイルサーバに適用した場合、サービス系クラスタノードには図1に示すサービス系ファイルサーバ2が該当し、待機系クラスタノードには図1に示す待機系ファイルサーバ3が該当する。
When the non-disruptive communication recovery system at the time of failure according to the embodiment of the present invention is applied to a file server in a cluster environment, the service cluster node corresponds to the
クラスタ環境のファイルサーバに適用した本発明の実施形態に係る障害時の無停止復旧システムは図1に示す様に、スイッチ1と、サービス系ファイルサーバ2と、待機系ファイルサーバ3と、クライアント6とを有している。
As shown in FIG. 1, a non-disruptive recovery system for a failure according to an embodiment of the present invention applied to a file server in a cluster environment includes a switch 1, a
前記スイッチ1は、前記サービス系ファイルサーバ2と前記クライアント6との相互間で通信ポートを通してパケットの遣り取りを行うものであり、パケット複製手段10を有している。前記パケット複製手段10は、前記通信ポートを通して遣り取りするパケットを複製し、その複製したパケットを前記通信ポートとは異なる通信ポートに流すものである。なお、前記異なる通信ポートには、後述するように前記待機系ファイルサーバ3が接続され、前記パケット複製手段10は、前記複製したパケットを前記待機系ファイルサーバ3に送信するようになっている。
The switch 1 exchanges packets between the
前記待機系ファイルサーバ3は、前記サービス系サーバ2と同様に前記クライアント6にサービスを提供するものであり、前記サービス系サーバ2を現用のサーバとした場合、前記サービス系サーバ2に障害が生じた際に前記サービス系サーバ2に代わって前記クライアント6にサービスを提供するものである。前記待機系ファイルサーバ3は、コネクション復元モジュール30と、死活監視手段40と、パケット解析モジュール50とを有している。なお、前記死活監視手段40は、前記待機系ファイルサーバ3に装備したが、これに限られるものではなく、前記待機系ファイルサーバ3とは独立させて設けてもよいものである。
The
前記パケット解析モジュール50は、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するものであり、パケット受信手段51と、パケット抽出手段52と、パケット解析手段53と、パケットバッファ54と、コネクション情報記憶部55とを有している。
The
前記パケット受信手段51は、前記パケット複製手段10が選択した通信ポートに接続して、前記パケット複製手段10が複製したパケットを受信し、その受信したパケットを前記パケット抽出手段52に受け渡すものである。
The packet receiving means 51 is connected to the communication port selected by the packet duplicating means 10, receives the packet duplicated by the packet duplicating means 10, and delivers the received packet to the
前記パケット抽出手段52は、受信したパケットからコネクションに関するパケット、具体的は、コネクションの開設/切断、NFS(Network File System)/CIFS(Common Internet File System)のリクエスト/リプライに関わるパケットを抽出し、前記抽出したパケットを前記パケット解析手段53に受け渡すものである。 The packet extraction means 52 extracts a packet related to a connection from the received packet, specifically, a packet related to connection establishment / disconnection, NFS (Network File System) / CIFS (Common Internet File System) request / reply, The extracted packet is transferred to the packet analysis means 53.
前記パケット解析手段53は、前記パケット抽出手段52が抽出したパケットを受け取り、前記抽出されたパケットからコネクション情報を解析し、その解析結果を前記パケットバッファ54と前記コネクション情報記憶部55とに出力するものである。
The
前記パッケトバッファ54は、前記パケット解析手段53からの解析結果を得て、コネクション毎に遣り取りされたコネクションに関するパケット、具体的にはNFS/CIFSのリクエスト/リプライに関するパケットを記憶するものである。なお、前記パケットバッファ54は、前記パケット解析手段53からの登録要求に基づいて前記パケットをFIFO(First−In First−Out)方式で記憶している。ここに、FIFO方式とは、格納したデータを、古く格納した順に取り出すようにする方式であって、一番新しく格納されたデータが一番最後に取り出される方式を意味する。
The
前記コネクション情報記憶部55は、前記パケット解析手段53からの解析結果を得て、前記パケット解析手段53が解析したコネクション情報(例えば、TCP(Transmission Control Protocol)/IP(Internet Protocol)ヘッダ、NFSのファイルハンドラ、SMB(Server Message Block)ヘッダ)をテーブル形式で記憶するものである。前記死活監視手段40は、前記サービス系ファイルサーバ2の動作状況を監視して、前記サービス系ファイルサーバ2で障害が発生したかどうかを監視するものである。
The connection
前記コネクション復元モジュール30は、前記サービス系クラスタノード2の動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するものである。具体的には、前記コネクション復元モジュール30は、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する。そして、前記コネクション復元モジュール30は、前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチの通信ポートを割り出し、前記スイッチにリセットを送信することにより通信状態の復元を促す。また、前記コネクション復元モジュール30は、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元し、コネクション情報が揃っていない場合に通信状態を切断する指令を前記スイッチ1に送信する。
The
さらに具体的に説明すると、前記コネクション復元モジュール30は、コネクション解析手段31と、コネクション復元手段32と、コネクション切断手段33とを有している。
More specifically, the
前記コネクション解析手段31は、前記死活監視手段40による監視結果を得て、前記コネクション記憶部55が記憶している情報と前記パケットバッファ54が記憶している情報とに基づいて通信状態(コネクション状態)を解析するものである。
The
前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する。そして、前記コネクション復元手段32は、前記コネクション解析手段31による解析の結果で前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチ1の通信ポートを割り出し、前記スイッチ1にリセット(RST)を送信することにより通信状態の復元を促す。また、前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元する。
The connection restoring means 32 receives the result analyzed by the connection analyzing means 31, restores the connection information that has been communicated in the past from the header information and data of the packet related to the connection, and converts the connection information into the restored connection information. Based on this, the communication state is restored. Then, the connection restoration means 32 determines the communication port of the switch 1 from the packet related to the connection and resets it to the switch 1 when the connection information cannot be restored as a result of the analysis by the connection analysis means 31 ( RST) is transmitted to prompt the restoration of the communication state. The
前記コネクション切断手段33は、前記コネクション解析手段31が解析した結果を受けて、コネクション情報が揃っていない場合に、前記コネクション解析手段31の指示でリセット(RST)を前記スイッチ1に送信するものである。前記スイッチ1は、前記コネクション切断手段33からの前記リセットを受けてコネクションを切断する。
The
以上の説明では、本発明の実施形態をハードウェア構成による障害時の無停止通信復旧システムとして構築したが、これに限られるものではない。本発明の実施形態における待機系ファイルサーバ3を構築するコネクション復元モジュール30とパケット解析モジュール50とを、CPUにプログラムを実行させることにより、ソフトウェア上で実現するようにしてもよいものである。
In the above description, the embodiment of the present invention is constructed as a non-stop communication recovery system in the event of a failure by a hardware configuration, but is not limited to this. The
次に、本発明の実施形態に係る無停止通信復旧システムを用いて、クラスタ環境における障害時の無停止通信復旧方法を実行する場合を図1及び図2に基づいて説明する。 Next, a case where the non-stop communication recovery method at the time of failure in the cluster environment is executed using the non-stop communication recovery system according to the embodiment of the present invention will be described with reference to FIGS.
以下では、クライアント6がサービス系ファイルサーバ2を利用してファイルアクセスする場合における無停止通信復旧方法について説明する。
Hereinafter, a non-stop communication recovery method when the
クライアント6とサービス系ファイルサーバ2との間において、コネクション開設要求/応答のパケットがスイッチ1の通信ポートを通して送受信されると(図2のステップS1,S2,S3,S4)、スイッチ1のパケット複製手段10は、前記通信ポートを通して送受信された前記パケットを受け取って、前記パケットを複製し、その複製したパケットを、前記通信ポートとは異なる通信ポートを通して待機系ファイルサーバ3のパケット受信手段51に送信する(図2のステップS5)。
When a connection establishment request / response packet is transmitted / received between the
前記パケット受信手段51は、前記パケット複製手段10が複製した前記パケットを受信すると、そのパケットをそのままパケット抽出手段52に送信する。前記パケット抽出手段52は、前記パケット受信手段51から前記パケットを受け取ると、そのパケットのTCPヘッダのフラグに基づいて、コネクション開設要求か、又はコネクション開設要求に対する応答かを判断し、コネクション情報をコネクション情報記憶部55に出力する。前記コネクション情報記憶部55は、前記パケット抽出手段53からの出力に基づいて前記コネクションに関するパケットをFIFO方式で記録する。
When the packet receiving means 51 receives the packet duplicated by the packet duplicating means 10, it transmits the packet as it is to the
次に、前記クライアント6から前記サービス系ファイルサーバ2にファイルアクセス要求/応答のパケットが前記スイッチ1の通信ポートを通して返送されると、同様に前記パケット複製手段10は、前記通信ポートを通して返送された前記パケットを複製し、その複製したパケットを、前記通信ポートとは異なる通信ポートを通して待機系ファイルサーバ3のパケット受信手段51に送信する。
Next, when a file access request / response packet is returned from the
前記パケット受信手段51は、前記パケット複製手段が複製した前記パケットを受信すると、そのパケットをそのままパケット抽出手段52に送信する。
When the packet receiving means 51 receives the packet duplicated by the packet duplicating means, the packet receiving means 51 transmits the packet as it is to the
前記パケット抽出手段52は、前記パケット受信手段51から前記パケットを受け取ると、そのパケットから前記コネクションに関するパケットを抽出し、そのパケットを前記パケット解析手段53に出力する。
When the
前記パケット解析手段53は、前記パケット抽出手段52からの前記パケットを受け取ると、前記コネクション情報記憶部55が記憶しているコネクション情報を読み出し、前記パケット抽出手段52から受け取った前記パケットにおけるTCPヘッダに基づいて、前記クライアント6から前記サービス系ファイルサーバ2への通信が前記コネクション情報記憶部55で記憶されているコネクション情報による通信であるかを判定し、前記コネクション情報による通信である場合に、前記パケットにおけるNFS/CIFSのヘッダに基づいて、ファイルアクセス要求か、或いはそのファイルアクセス要求に対する応答かを判断し、前記パケット抽出手段52から受け取った前記パケットを前記パケットバッファ54に出力する。前記パケットバッファ54は、前記パケット解析手段53から受け取った前記パケットをFIFO方式で記憶する。
When the
ここで、前記クライアント6から前記サービス系ファイルサーバ2に前記スイッチ1の通信ポートを通してコネクション切断要求のパケットが返送された場合には、前記コネクション開設要求時の処理と同様に、前記スイッチ1のパケット複製手段10は、前記通信ポートを通して返送された前記パケットを複製し、その複製したパケットを待機系ファイルサーバ3の前記パケット抽出手段52に向けて送信する。
Here, when a connection disconnection request packet is returned from the
前記パケット解析手段53は、コネクション開設要求時と同様に、前記パケット抽出手段52が抽出したコネクション切断要求のパケットを受け取ると、その受け取った前記パケットのTCPヘッダに基づいて、前記コネクション情報記憶部55が記憶しているコネクション情報に前記コネクション切断要求のコネクション情報が存在している場合に、そのコネクション情報を削除する指令を前記コネクション情報記憶部55に出力する。前記コネクション情報記憶部55は、前記パケット解析手段52からの指令を受けて、記憶しているコネクション情報から、前記コネクション切断要求のコネクション情報に該当するコネクション情報を削除する。
When receiving the connection disconnection request packet extracted by the
次に、前記サービス系ファイルサーバ2で障害が発生した場合について説明する。
Next, a case where a failure occurs in the
前記待機系ファイルサーバ3の死活監視手段40は、前記サービス系ファイルサーバ2の動作状態を監視している。監視している状態で前記サービス系ファイルサーバ3の障害が発生すると、前記死活監視手段40は直ちに前記サービス系ファイルサーバ2に障害が発生したことを前記待機系ファイルサーバ3のコネクション復元モジュール30に通知する。
The alive monitoring means 40 of the
前記コネクション復元モジュール30が前記死活監視手段40から前記サービス系ファイルサーバ2に障害が発生した通知を受け取ると、前記コネクション復元モジュール30のコネクション解析手段31は、前記コネクション情報記憶部55及び前記パケットバッファ54に記憶されている情報を読み出し、その読み出した情報に基づいて通信状態(コネクション状態)を解析し、その解析結果を前記コネクション復元手段32及び前記コネクション切断手段33に出力する。
When the
前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する。そして、前記コネクション復元手段32は、前記コネクション解析手段31による解析の結果で前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチ1の通信ポートを割り出し、前記スイッチ1にリセット(RST)を送信することにより通信状態の復元を促す。また、前記コネクション復元手段32は、前記コネクション解析手段31が解析した結果を受けて、前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元する。
The connection restoring means 32 receives the result analyzed by the connection analyzing means 31, restores the connection information that has been communicated in the past from the header information and data of the packet related to the connection, and converts the connection information into the restored connection information. Based on this, the communication state is restored. Then, the connection restoration means 32 determines the communication port of the switch 1 from the packet related to the connection and resets it to the switch 1 when the connection information cannot be restored as a result of the analysis by the connection analysis means 31 ( RST) is transmitted to prompt the restoration of the communication state. The
さらに、前記コネクション解析手段31がパケットバッファ54に残っている最後のリクエスト/リプライ情報に基づいて、リクエストの受信が最後の受信であると解析した場合、前記コネクション復元手段32は、そのリクエストに対する処理からサービスを再開する旨の指令を前記待機系ファイルサーバ3に出力する。
Further, when the
前記待機系ファイルサーバ3は、上述した前記コネクション復元手段32による復元の結果を得て、前記サービス系ファイルサーバ2に代わって、前記クライアント6に対するサービスを再開する。そして、前記待機系ファイルサーバ3は、前記コネクション復元手段32から前記リクエストに対する処理からサービスを再開する旨の指令を受け取った場合、前記そのリクエストに対する処理からサービスを再開する(図2のステップS6,S7)。
The
また、前記コネクション解析手段31は、前記コネクション情報記憶部55に記憶されているコネクション情報と、前記パケットバッファ54に記憶されている前記コネクションに関するパケットとを読み出し、その読み出したデータに基づいてコネクション状態を解析し、その解析したコネクション情報に結びつくリクエスト/リプライのパケットが前記パケットバッファ54に存在しない場合、切断指令を前記コネクション切断手段33に出力する。
The
前記コネクション切断手段33は、前記コネクション解析手段31が解析した結果を受けて、コネクション情報が揃っていない場合に、前記コネクション解析手段31の指示でリセット(RST)を前記スイッチ1に送信する。前記スイッチ1は、前記コネクション切断手段33からの前記リセットを受けてコネクションを切断する。 The connection disconnecting means 33 receives a result analyzed by the connection analyzing means 31 and transmits a reset (RST) to the switch 1 in accordance with an instruction from the connection analyzing means 31 when the connection information is not complete. The switch 1 receives the reset from the connection disconnecting means 33 and disconnects the connection.
以上のように、本発明の実施形態によれば、クラスタ環境のクラスタノードにおいてサービス系クラスタノードで障害が発生しそれまでのサービスを待機系クラスタノードが引き継ぐ際に、予め待機系クラスタノードでサービス系クラスタノードの通信ポートを流れるパケットをバッファリング(ミラー)しておき、通信状態(例えばコネクション開設/切断)の情報をトレースしつつパケット情報から通信状態を復元させ、コネクションを再接続しなくてもサービスを継続することができる。 As described above, according to the embodiment of the present invention, when a failure occurs in the service cluster node in the cluster node of the cluster environment and the standby cluster node takes over the previous service, the service is previously performed in the standby cluster node. The packet flowing through the communication port of the host cluster node is buffered (mirrored), the communication state is restored from the packet information while tracing the communication state (for example, connection establishment / disconnection), and the connection is not reconnected. Can continue service.
また、本発明の実施形態によれば、サービス系ファイルサーバの障害時にフェイルオーバしてもサービス中だったファイルアクセスのコネクションを維持することができ、再接続処理をせずに通信を継続できる。その理由は、サービス系ファイルサーバで通信していたパケットを待機系ファイルサーバでもミラーし、コネクション状態をトレースしコネクションを再構築できるためである。 Further, according to the embodiment of the present invention, the file access connection that was in service can be maintained even if a service file server fails over, and communication can be continued without reconnection processing. The reason is that the packet communicated with the service file server can be mirrored with the standby file server, the connection state can be traced, and the connection can be reconstructed.
また、待機系ファイルサーバにおけるコネクション復旧のための処理負荷を低く抑えることができる。その理由は、待機時にはミラーとして流れてくるパケットの処理のみを行いコネクションそのものは扱わず、障害発生時に記憶しているコネクション情報とパケットに基づいてコネクションを復旧させるためである。 In addition, the processing load for restoring the connection in the standby file server can be kept low. The reason is that only the packet flowing as a mirror is processed during standby, not the connection itself, but the connection is restored based on the connection information and the packet stored when a failure occurs.
また、コネクション復旧時に良く使われているコネクションほど優先的に復旧させることができる。その理由は、FIFO方式に基づいてパケットバッファに記録を実行し、過去最近に通信したパケット情報が優先して残り、この情報を使ってコネクションを復旧するためである。 In addition, a connection that is frequently used at the time of connection recovery can be recovered with priority. The reason is that recording is performed in the packet buffer based on the FIFO method, packet information communicated in the past in the past is prioritized and the connection is restored using this information.
また、本発明の他の実施形態として、Nノードクラスタ環境に拡張して考えた場合、例えばクラスタノードが10ノードであれば、1Gbpsポート×10と10Gbpsポート×1とをもつスイッチ1を用意し、コネクション復元モジュール30を装備した各ノードを1Gbpsポートに接続し、パケット解析モジュール50を10Gbpsポートに接続してパケットのミラーを行い、障害発生時には障害ノードのIPアドレスに関わるコネクションを稼動している何れかのノードのコネクション復元モジュール30に、記憶しているコネクション情報を転送し、コネクションを復旧することも可能である。
As another embodiment of the present invention, when extended to an N-node cluster environment, for example, if the cluster node is 10 nodes, a switch 1 having 1 Gbps port × 10 and 10 Gbps port × 1 is prepared. Each node equipped with the
また、以上説明した実施形態では、本発明の実施形態に係る障害時の無停止通信復旧システムをクラスタ環境のファイルサーバに適用した例を説明したが、これに限られるものではない。クラスタ環境の一のクラスタノードをサービス系、他のクラスタノードを待機系とし、スイッチを通して前記サービス系クラスタノードとクライアントとの間で通信を運用するシステムであれば、本発明の実施形態に係る無停止通信復旧システムを適用することにより、前記サービス系クラスタノードで障害が発生した際に通信を再開させて、障害時の無停止通信の復旧を行うことができるものである。 In the embodiment described above, the example in which the non-stop communication recovery system at the time of failure according to the embodiment of the present invention is applied to the file server in the cluster environment has been described. However, the present invention is not limited to this. As long as one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and the system operates communication between the service system cluster node and a client through a switch, there is no need for the embodiment of the present invention. By applying the stop communication recovery system, communication can be resumed when a failure occurs in the service cluster node, and the non-stop communication at the time of failure can be recovered.
本発明によれば、例えばクラスタ環境のファイルサーバに利用して、障害時の無停止通信の復旧を実現することに貢献できるものである。 According to the present invention, for example, it can be used for a file server in a cluster environment, and can contribute to realizing non-stop communication recovery in the event of a failure.
1 スイッチ
2 サービス系ファイルサーバ
3 待機系ファイルサーバ
30 コネクション復元モジュール
50 パケット解析モジュール
1
Claims (19)
前記スイッチは、
通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信するパケット複製手段を有し、
前記待機系クラスタノードは、
前記複製したパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有することを特徴とする障害時の無停止通信復旧システム。 When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch, a failure has occurred in the service system cluster node Non-stop communication recovery system at the time of failure to resume communication at the time,
The switch
A packet duplicating means for duplicating a packet communicated between the client and the service cluster node through a communication port, and transmitting the duplicated packet to the standby cluster node;
The standby cluster node is:
A packet analysis module that extracts a packet related to a connection from the duplicated packet and analyzes connection information based on the extracted packet;
Non-disruptive communication recovery at the time of failure characterized by having a connection restoration module for restoring the communication state based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node system.
前記スイッチが複製した、通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析するパケット解析モジュールと、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元するコネクション復元モジュールとを有することを特徴とする障害時の無停止通信復旧システムの待機系クラスタノード。 When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch , a failure has occurred in the service system cluster node A standby cluster node used in a non-stop communication recovery system in the event of a failure to resume communication
A packet analysis module that extracts a packet relating to a connection from a packet that is duplicated by the switch and communicated between the client and the service cluster node through a communication port, and that analyzes connection information based on the extracted packet;
Non-disruptive communication recovery at the time of failure characterized by having a connection restoration module for restoring the communication state based on the packet related to the connection and the connection information corresponding to the operation monitoring status of the service cluster node The standby cluster node of the system.
通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットを複製し、その複製したパケットを前記待機系クラスタノードに送信し、
前記待機系クラスタノード側において、前記複製されたパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析し、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元することを特徴とする障害時の無停止通信復旧方法。 When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch, a failure has occurred in the service system cluster node Non-stop communication recovery method at the time of failure to restart communication when
Duplicating a packet communicated between the client and the service cluster node through a communication port, and sending the duplicated packet to the standby cluster node;
On the standby cluster node side, extract a packet related to the connection from the duplicated packet, analyze connection information based on the extracted packet,
A non-disruptive communication recovery method at the time of failure, wherein the communication state is restored based on the packet related to the connection and the connection information in response to the operation monitoring status of the service cluster node.
前記待機系クラスタノードを構成するコンピュータに、
前記スイッチが複製した、通信ポートを通して前記クライアントと前記サービス系クラスタノードとの間で通信されるパケットからコネクションに関するパケットを抽出し、前記抽出したパケットに基づいてコネクション情報を解析する機能と、
前記サービス系クラスタノードの動作監視状況に対応して、前記コネクションに関するパケットと前記コネクション情報とに基づいて、通信状態を復元する機能とを実行させることを特徴とする無停止通信復旧制御プログラム。 When one cluster node in a cluster environment is a service system and the other cluster node is a standby system, and a communication is operated between the service system cluster node and a client through a switch , a failure has occurred in the service system cluster node Control program for controlling the operation of non-stop communication recovery to resume communication when
In the computer constituting the standby cluster node,
A function of extracting a packet related to a connection from a packet communicated between the client and the service-related cluster node through a communication port copied by the switch, and analyzing connection information based on the extracted packet;
A non-stop communication recovery control program for executing a function of restoring a communication state based on a packet related to the connection and the connection information in response to an operation monitoring status of the service cluster node.
前記コネクションに関するパケットのヘッダ情報とデータとから過去最近に通信していたコネクション情報を復元し、その復元したコネクション情報に基づいて前記通信状態を復元する機能を実行させる請求項16に記載の無停止通信復旧制御プログラム。 In the computer,
The non-stop according to claim 16 , wherein connection information that has been communicated in the past in the past is restored from packet header information and data related to the connection, and the communication state is restored based on the restored connection information. Communication recovery control program.
前記コネクション情報が復元不可能なときに、前記コネクションに関するパケットから前記スイッチの通信ポートを割り出し、前記スイッチにリセットを送信することにより通信状態の復元を促す機能を実行させる請求項16に記載の無停止通信復旧制御プログラム。 In the computer,
17. The function according to claim 16 , wherein when the connection information cannot be restored, a function for prompting restoration of a communication state is performed by determining a communication port of the switch from a packet related to the connection and transmitting a reset to the switch. Stop communication recovery control program.
前記複製されたパケットから抽出したコネクションに関するパケットと、前記抽出したパケットに基づいて解析したコネクション情報とを解析して、コネクション情報が揃っている場合に通信状態を復元し、コネクション情報が揃っていない場合に通信状態を切断する指令を前記スイッチに出力する機能を実行させる請求項16に記載の無停止通信復旧制御プログラム。 In the computer,
Analyzing the connection-related packet extracted from the duplicated packet and the connection information analyzed based on the extracted packet, restores the communication state when the connection information is complete, and the connection information is not complete The non-stop communication restoration control program according to claim 16 , wherein a function for outputting a command to disconnect the communication state to the switch is executed.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009091132A JP5287440B2 (en) | 2009-04-03 | 2009-04-03 | Non-stop communication recovery system and method in case of failure |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009091132A JP5287440B2 (en) | 2009-04-03 | 2009-04-03 | Non-stop communication recovery system and method in case of failure |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010245757A JP2010245757A (en) | 2010-10-28 |
| JP5287440B2 true JP5287440B2 (en) | 2013-09-11 |
Family
ID=43098310
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009091132A Expired - Fee Related JP5287440B2 (en) | 2009-04-03 | 2009-04-03 | Non-stop communication recovery system and method in case of failure |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5287440B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6296612B2 (en) * | 2014-08-27 | 2018-03-20 | 日本電信電話株式会社 | Network system and method for changing version |
| JP6561492B2 (en) * | 2015-02-23 | 2019-08-21 | セイコーエプソン株式会社 | Tape printer and tape printing system |
| CN120892056B (en) * | 2025-09-29 | 2026-01-23 | 浪潮电子信息产业股份有限公司 | Data communication method and electronic equipment |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4516496B2 (en) * | 2005-07-27 | 2010-08-04 | 株式会社日立製作所 | Multicast delivery method and system, content server |
-
2009
- 2009-04-03 JP JP2009091132A patent/JP5287440B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010245757A (en) | 2010-10-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN100369413C (en) | Proxy-response device and method for proxy-response device | |
| CN106331098B (en) | Server cluster system | |
| JP5804054B2 (en) | Communication system, control device, node, processing rule setting method and program | |
| CN100589408C (en) | A communication network connection method and device thereof | |
| JP5366177B2 (en) | Slot interface access device, method and program thereof, and redundant configuration and alternative method of main device | |
| CN101795222B (en) | Multi-stage forward service system and method | |
| CN105681462A (en) | Cluster system based on message router, and data communication transfer method | |
| JP2008305394A (en) | Intelligent failover in a load-balanced network environment | |
| EP3442163B1 (en) | DATA PROCESSING SYSTEM WITH SERVICE CONTINUITY PROTECTION | |
| JP2013030190A (en) | Slot interface access device, method and program thereof, and redundancy configuration and alternative method of main device | |
| WO2021185169A1 (en) | Switching method and apparatus, and device and storage medium | |
| CN108270593B (en) | Dual-computer hot backup method and system | |
| JP5287440B2 (en) | Non-stop communication recovery system and method in case of failure | |
| US9294342B2 (en) | Network node apparatus system, apparatus, and method | |
| JP4806382B2 (en) | Redundant system | |
| JP4133738B2 (en) | High-speed network address takeover method, network device, and program | |
| JP2015114952A (en) | Network system, monitoring control unit, and software verification method | |
| JP4378205B2 (en) | Blade type network relay device | |
| CN102624753B (en) | Distributed file transmission method and equipment for enterprise service bus | |
| JP4258482B2 (en) | iSCSI storage system and path multiplexing method in the system | |
| JPH11296396A (en) | High availability system with switching concealment function | |
| JP4757670B2 (en) | System switching method, computer system and program thereof | |
| CN113890817A (en) | Communication optimization method and device | |
| JP4573156B2 (en) | Data collection system | |
| JP2006120080A (en) | Web service request relay system, web service request relay method, relay server and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130131 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130212 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130415 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130507 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130520 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5287440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |