Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6551111B2 - Information processing apparatus, down determination method, cluster system, and program - Google Patents
[go: Go Back, main page]

JP6551111B2 - Information processing apparatus, down determination method, cluster system, and program - Google Patents

Information processing apparatus, down determination method, cluster system, and program Download PDF

Info

Publication number
JP6551111B2
JP6551111B2 JP2015189314A JP2015189314A JP6551111B2 JP 6551111 B2 JP6551111 B2 JP 6551111B2 JP 2015189314 A JP2015189314 A JP 2015189314A JP 2015189314 A JP2015189314 A JP 2015189314A JP 6551111 B2 JP6551111 B2 JP 6551111B2
Authority
JP
Japan
Prior art keywords
time
transmission
information processing
heartbeat
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015189314A
Other languages
Japanese (ja)
Other versions
JP2017068309A (en
Inventor
昌志 森瀧
昌志 森瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015189314A priority Critical patent/JP6551111B2/en
Publication of JP2017068309A publication Critical patent/JP2017068309A/en
Application granted granted Critical
Publication of JP6551111B2 publication Critical patent/JP6551111B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は情報処理装置、ダウン判定方法、クラスタシステム、及びプログラムに関する。   The present invention relates to an information processing apparatus, a down determination method, a cluster system, and a program.

HA(High Availability:高可用性)クラスタシステムにおいて、各サーバが、互いの死活監視を行う手段として、ネットワーク通信(ハートビート)を使用する方法が知られている。この方法では、各サーバは、送信の動作として、所定の時間間隔でハートビートパケットを送信し、受信の動作として、相手サーバから送信されたハートビートパケットを待ち受ける。そして、サーバは、相手サーバからのハートビートパケットを所定時間内に受信できなかった場合(すなわち、受信がタイムアウトした場合)、相手サーバがダウンしたと判断する。また、ダウンした相手サーバで業務プログラムが稼働していた場合、自サーバで業務プログラムを起動して、業務を継続する。   In an HA (High Availability) cluster system, a method is known in which each server uses network communication (heartbeat) as means for monitoring each other's life and death. In this method, each server transmits a heartbeat packet at a predetermined time interval as a transmission operation, and waits for a heartbeat packet transmitted from the partner server as a reception operation. Then, when the server can not receive the heartbeat packet from the other server within a predetermined time (that is, when the reception times out), it determines that the other server is down. Also, when the business program is running on the other server that has gone down, the business server is started on the own server to continue the business.

また、ネットワーク通信を使用した死活監視については、例えば、特許文献1が知られている。特許文献1では、ヘルスチェックフレームを相手サーバに送信し、これに対する応答により死活監視を行う際、負荷が掛かっているために応答が遅延するようなサーバに対するヘルスチェックフレームの送信間隔を長く設定することが開示されている。   For life and death monitoring using network communication, for example, Patent Document 1 is known. In Patent Document 1, when a health check frame is transmitted to the other server and alive and dead monitoring is performed by a response thereto, the transmission interval of the health check frame to the server whose response is delayed due to the load being applied is set long. It is disclosed.

ところで、近年、仮想マシン上でのHAクラスタシステムの構築が増えている。仮想マシンは、CPU(Central Processing Unit)等のハードウェアをホストOS(Operating System)又はハイパーバイザでエミュレートしているため、ホストOS又はハイパーバイザが高負荷になった場合、仮想マシンにリソースを割り当てられず、時刻のカウント(tick カウント)ですらも動作が安定しないことが多くある。時刻のカウントに遅延が生じると、上述のハートビートパケットの送信間隔を所定の時間間隔で行うことができなくなる。   Incidentally, in recent years, the construction of HA cluster systems on virtual machines has increased. Since a virtual machine emulates hardware such as a CPU (Central Processing Unit) with a host OS (Operating System) or a hypervisor, when the host OS or the hypervisor becomes heavily loaded, resources are allocated to the virtual machine. Even if it is not assigned, even the time count (tick count) is often unstable. If a delay occurs in the time count, the above-described heartbeat packet transmission interval can not be performed at a predetermined time interval.

特開2004−062246号公報JP 2004-062246 A

サーバのシステム遅延によりハートビートパケットの送信間隔を所定の時間間隔で行うことができなくなると、このサーバが実際にはダウンを起こしていないにもかかわらず、ダウンしたと誤判定される恐れがある。そして、サーバのダウンの誤判定が発生すると、両方のサーバで業務が並行して稼働してしまい、HAクラスタシステムが不正な状態となる恐れがある。   If the heartbeat packet transmission interval cannot be performed at a predetermined time interval due to the system delay of the server, it may be erroneously determined that the server has gone down even though this server has not actually gone down. . If an erroneous determination that the server is down occurs, the business runs on both servers in parallel, and the HA cluster system may be in an illegal state.

これに対し、特許文献1では、遅延が発生したサーバに対するヘルスチェックフレームの送信間隔を長くするよう変更することにより、このサーバにかかっている負荷を増大させないようにする技術について開示しているに過ぎない。したがって、サーバのダウンの誤判定を抑制することが依然として求められている。   On the other hand, Patent Document 1 discloses a technique for preventing the load on the server from being increased by changing the transmission interval of the health check frame to the server where the delay occurs. Not too much. Therefore, there is still a demand for suppressing erroneous determination of server down.

本発明の目的は、このような課題を解決するためになされたものであり、ダウンの誤判定を抑制することができる情報処理装置、ダウン判定方法、クラスタシステム、及びプログラムを提供することにある。   An object of the present invention is to solve such a problem, and is to provide an information processing apparatus, a down determination method, a cluster system, and a program that can suppress erroneous determination of down. .

本発明の一態様にかかる情報処理装置は、自装置の時刻をカウントする時刻カウント手段と、送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビート受信手段と、前記ハートビート受信手段により受信された時間的に連続する2つの前記ハートビートパケットについての前記時刻カウント手段による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更手段と、前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを前記ハートビート受信手段が受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定手段とを有する。   An information processing apparatus according to an aspect of the present invention includes time counting means for counting the time of the apparatus itself, and heartbeat receiving means for receiving a heartbeat packet including a transmission time according to the time counted by the apparatus on the transmitting side. The difference between the two reception times by the time counting means for two heartbeat packets consecutive in time received by the heartbeat receiving means is the difference between the two transmission times included in the two heartbeat packets. Timeout time changing means for making the timeout time longer than a predetermined time when it is larger than the reception interval calculated based on the difference, and the heartbeat packet from the transmitting device within the timeout time When the heartbeat receiving means does not receive, the device on the sending side is down Determining and a down determination means.

また、本発明の一態様にかかるダウン判定方法は、送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビートパケット受信ステップと、受信した時間的に連続する2つの前記ハートビートパケットについての、受信側の装置のカウントした時刻による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更ステップと、前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定ステップとを有する方法である。   The down determination method according to one aspect of the present invention includes a heartbeat packet receiving step for receiving a heartbeat packet including a transmission time according to a time counted by a transmission-side apparatus, and two received temporally continuous For the heartbeat packet, the difference between the two reception times depending on the time counted by the receiving device is larger than the reception interval calculated based on the difference between the two transmission times included in the two heartbeat packets. If it is larger, the timeout time changing step for making the timeout time longer than a predetermined time, and if the heartbeat packet from the transmitting device is not received within the timeout time, the transmitting device is downed. And a down determination step for determining that it has occurred.

また、本発明の一態様にかかるクラスタシステムは、複数の情報処理装置を備え、前記複数の情報処理装置は、それぞれ、自装置の時刻をカウントする時刻カウント手段と、設定された送信時間間隔で、前記複数の情報処理装置のうちの他の情報処理装置に、前記時刻カウント手段がカウントした時刻による送信時刻が含まれるハートビートパケットを送信するハートビート送信手段と、前記他の情報処理装置がカウントした時刻による送信時刻が含まれるハートビートパケットを、前記他の情報処理装置から受信するハートビート受信手段と、前記ハートビート受信手段により受信された時間的に連続する2つの前記ハートビートパケットについての前記時刻カウント手段による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更手段と、前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更手段と前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを前記ハートビート受信手段が受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定手段とを有する。   The cluster system according to an aspect of the present invention includes a plurality of information processing devices, and each of the plurality of information processing devices includes a time counting unit that counts the time of the own device, and a set transmission time interval. A heartbeat transmission unit that transmits a heartbeat packet including a transmission time according to a time counted by the time counting unit to another information processing device of the plurality of information processing devices, and the other information processing device. A heartbeat receiving unit that receives a heartbeat packet including a transmission time according to the counted time from the other information processing apparatus, and two heartbeat packets that are received in time by the heartbeat receiving unit. The difference between the two reception times by the time counting means is the two heartbeat packets A time-out period changing unit which makes the time-out period longer than a predetermined time when the time is larger than the reception interval calculated based on the difference between the two transmission times included, and the difference between the two reception times is Transmission time interval changing means for making the transmission time interval shorter than a predetermined time interval if smaller than the calculated reception interval, and the heartbeat packet from the transmitting device within the time-out time And a down determination unit configured to determine that a down has occurred in the apparatus on the transmission side when the beat reception unit does not receive the signal.

また、本発明の一態様にかかるプログラムは、送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビートパケット受信ステップと、受信した時間的に連続する2つの前記ハートビートパケットについての、受信側の装置のカウントした時刻による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更ステップと、前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定ステップとを情報処理装置のコンピュータに実行させるプログラムである。   The program according to one aspect of the present invention includes a heartbeat packet receiving step for receiving a heartbeat packet including a transmission time according to a time counted by a transmission-side device, and two received hearts that are continuous in time. When the difference between two reception times according to the time counted by the receiving device for a beat packet is larger than the reception interval calculated based on the difference between the two transmission times included in the two heartbeat packets In addition, a timeout time changing step for making the timeout time longer than a predetermined time, and if a heartbeat packet from the transmitting device is not received within the timeout time, the transmitting device is down. The down determination step for determining A gram.

本発明によれば、ダウンの誤判定を抑制することができる情報処理装置、ダウン判定方法、クラスタシステム、及びプログラムを提供することができる。   According to the present invention, it is possible to provide an information processing apparatus, a down determination method, a cluster system, and a program capable of suppressing an erroneous determination of down.

実施の形態にかかる情報処理装置の概要を示すブロック図である。It is a block diagram which shows the outline | summary of the information processing apparatus concerning embodiment. 実施の形態にかかる情報処理装置の概要を示すブロック図である。It is a block diagram which shows the outline | summary of the information processing apparatus concerning embodiment. 実施の形態にかかるHAクラスタシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the HA cluster system concerning embodiment. 実施の形態にかかる情報処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the information processing apparatus concerning embodiment. 実際の時刻と、情報処理装置30Aの時刻カウント部による時刻と、情報処理装置30Bの時刻カウント部による時刻とを比較する表であり、遅延が発生し始めた時の一例を示している。It is a table | surface which compares the actual time, the time by the time count part of information processing apparatus 30A, and the time by the time count part of information processing apparatus 30B, and shows an example when a delay begins to generate | occur | produce. 実際の時刻と、情報処理装置30Aの時刻カウント部による時刻と、情報処理装置30Bの時刻カウント部による時刻とを比較する表であり、本格的な遅延状態に陥った際の一例を示している。It is a table comparing the actual time, the time by the time counting unit of the information processing device 30A, and the time by the time counting unit of the information processing device 30B, and shows an example when it is in a serious delay state . 実際の時刻と、情報処理装置30Aの時刻カウント部による時刻と、情報処理装置30Bの時刻カウント部による時刻とを比較する表であり、遅延が解消した時の一例を示している。It is a table | surface which compares actual time, the time by the time count part of information processing apparatus 30A, and the time by the time count part of information processing apparatus 30B, and shows an example when a delay is eliminated. 実施の形態にかかる情報処理装置におけるハートビートパケットの送信処理に関わる動作について示すフローチャートである。6 is a flowchart illustrating an operation related to a transmission process of a heartbeat packet in the information processing apparatus according to the embodiment. 実施の形態にかかる情報処理装置におけるハートビートパケットの受信処理に関わる動作について示すフローチャートである。6 is a flowchart illustrating an operation related to a heartbeat packet reception process in the information processing apparatus according to the embodiment;

<本発明にかかる実施の形態の概要>
実施の形態の説明に先立って、本発明にかかる実施の形態の概要を説明する。以下、本発明にかかる実施の形態の概要の説明として、情報処理装置10(図1参照)及び情報処理装置20(図2参照)を例として挙げる。
<Overview of the embodiment according to the present invention>
Prior to the description of the embodiments, an outline of the embodiments according to the present invention will be described. Hereinafter, the information processing apparatus 10 (see FIG. 1) and the information processing apparatus 20 (see FIG. 2) will be described as an example of the outline of the embodiment according to the present invention.

図1は、実施の形態にかかる情報処理装置の概要を示すブロック図である。情報処理装置10は、例えば、HAクラスタシステムを構成する複数のサーバのうちのいずれかである。情報処理装置10は、一例としては、仮想マシン上に構築されるが、物理環境で構築されてもよい。   FIG. 1 is a block diagram illustrating an outline of the information processing apparatus according to the embodiment. The information processing apparatus 10 is, for example, one of a plurality of servers that constitute the HA cluster system. The information processing apparatus 10 is, for example, built on a virtual machine, but may be built in a physical environment.

情報処理装置10は、HAクラスタシステムを構成する他の情報処理装置との間で、通信を行い、相互に死活監視を行う。より具体的には、情報処理装置10及びHAクラスタシステムを構成する他の情報処理装置は、それぞれ、予め定められた送信時間間隔で、ハートビートパケットを相手装置に対して送信する。また、情報処理装置10及びこの他の情報処理装置は、それぞれ、相手装置からのハートビートパケットを予め定められたタイムアウト時間内に受信できない場合、相手装置がダウンを起こしたと判定する。なお、ここでダウンは、情報処理装置(サーバ)のシステムダウンを指しており、HAクラスタシステム全体のシステムダウンではない。   The information processing apparatus 10 communicates with other information processing apparatuses constituting the HA cluster system, and performs mutual alive monitoring. More specifically, the information processing apparatus 10 and the other information processing apparatuses configuring the HA cluster system each transmit a heartbeat packet to the other apparatus at predetermined transmission time intervals. Further, each of the information processing apparatus 10 and the other information processing apparatus determines that the partner apparatus has gone down when the heartbeat packet from the partner apparatus cannot be received within a predetermined timeout time. Here, down refers to the system down of the information processing apparatus (server), not the system down of the entire HA cluster system.

ここで、情報処理装置10は、図1に示されるように、時刻カウント部11と、ハートビート受信部12と、タイムアウト時間変更部13と、ダウン判定部14とを有する。   Here, as illustrated in FIG. 1, the information processing apparatus 10 includes a time counting unit 11, a heartbeat receiving unit 12, a timeout time changing unit 13, and a down determination unit 14.

時刻カウント部11は、情報処理装置10(自装置)の時刻をカウントする。また、ハートビート受信部12は、相手装置が送信したハートビートパケットを受信する。このハートビートパケットには、送信側の装置である相手装置がカウントした時刻による、当該パケットの送信時刻が含まれている。   The time counting unit 11 counts the time of the information processing apparatus 10 (self apparatus). In addition, the heartbeat receiving unit 12 receives a heartbeat packet transmitted by the counterpart device. The heartbeat packet includes the transmission time of the packet according to the time counted by the counterpart apparatus which is the apparatus on the transmission side.

タイムアウト時間変更部13は、ハートビート受信部12により受信された時間的に連続する2つのハートビートパケットの受信時刻の差が、これら2つのハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くする。ここで、ハートビートパケットの受信時刻とは、ハートビートパケットの受信側である情報処理装置10の時刻カウント部11によりカウントされた時刻をいう。これに対し、2つのハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔は、送信側の時計に基づく送信間隔に対応しており、想定される受信間隔と言える。すなわち、タイムアウト時間変更部13は、前回受信したハートビートパケットと今回受信したハートビートパケットについて、自装置の時計に基づく受信間隔と、想定される受信間隔とを比較する。そして、タイムアウト時間変更部13は、自装置の時計に基づく受信間隔が、想定される受信間隔よりも大きい場合、タイムアウト時間を長くするよう変更する。   The time-out time changing unit 13 determines that the difference between the reception times of two temporally consecutive heartbeat packets received by the heartbeat receiving unit 12 is based on the difference between the two transmission times included in the two heartbeat packets. If the reception interval is larger than the reception interval, the timeout time is made longer than a predetermined time. Here, the reception time of the heartbeat packet means the time counted by the time counting unit 11 of the information processing apparatus 10 that is the reception side of the heartbeat packet. On the other hand, the reception interval calculated based on the difference between the two transmission times included in the two heartbeat packets corresponds to the transmission interval based on the clock on the transmission side, and can be said to be an assumed reception interval. That is, the timeout time changing unit 13 compares the reception interval based on the clock of its own device with the assumed reception interval for the heartbeat packet received last time and the heartbeat packet received this time. Then, when the reception interval based on the clock of the own device is larger than the expected reception interval, the timeout period changing unit 13 changes the timeout period to be longer.

ダウン判定部14は、送信側の装置である相手装置からのハートビートパケットをハートビート受信部12がタイムアウト時間内に受信しない場合、相手装置にダウンが発生したと判定する。   When the heartbeat receiving unit 12 does not receive a heartbeat packet from a partner device that is a transmission-side device within the timeout time, the down determination unit 14 determines that the partner device is down.

ここで、相手装置が高負荷状態に陥り、相手装置における時刻カウントに遅延が生じた状況を想定する。この場合、相手装置は、所定の送信時間間隔T1でハートビートパケットを送信するために、当該装置の時刻カウントで送信時間間隔T1がカウントされる度に、ハートビートパケットを送信する。しかしながら、時刻カウントに遅延が生じているため、実際の送信時間間隔は、T1よりも大きいT2となっている。ただし、送信されるハートビートパケットには、当該装置の時計がカウントした送信時刻が付されているため、ハートビートパケットに付された送信時刻の間隔を見る限り、送信時間間隔はT1である。   Here, it is assumed that the opposite device is in a high load state and a delay occurs in the time count in the opposite device. In this case, in order to transmit the heartbeat packet at the predetermined transmission time interval T1, the partner device transmits the heartbeat packet every time the transmission time interval T1 is counted by the time count of the device. However, since there is a delay in time count, the actual transmission time interval is T2, which is larger than T1. However, since the transmission time counted by the clock of the device is attached to the heartbeat packet to be transmitted, the transmission time interval is T1 as long as the transmission time interval attached to the heartbeat packet is seen.

このとき、情報処理装置10のタイムアウト時間変更部13は、相手装置から送信された時間的に連続する2つのハートビートパケットについて、以下のように判定する。すなわち、タイムアウト時間変更部13は、両ハートビートパケットの自装置の時計に基づく受信間隔はT2であり、ハートビートパケットに付された送信時刻から得られる想定される受信間隔T1よりも大きいと判定する。このため、タイムアウト時間変更部13は、タイムアウト時間を所定の時間よりも長い時間へと変更する。   At this time, the timeout time changing unit 13 of the information processing device 10 determines two temporally consecutive heartbeat packets transmitted from the other device as follows. That is, the timeout time changing unit 13 determines that the reception interval of both heartbeat packets based on the clock of its own device is T2, and is larger than the assumed reception interval T1 obtained from the transmission time attached to the heartbeat packet. To do. For this reason, the timeout time changing unit 13 changes the timeout time to a time longer than a predetermined time.

したがって、情報処理装置10によれば、相手装置に遅延が発生した場合に、タイムアウト時間が長くなるように変更されるので、相手装置がダウンしたとダウン判定部14が判定することを防ぐことができる。すなわち、ダウンが発生していないにもかかわらずダウしていると判定してしまう誤判定を抑制することができる。   Therefore, according to the information processing apparatus 10, when a delay occurs in the counterpart apparatus, the timeout time is changed so as to increase, so that it is possible to prevent the down determination unit 14 from determining that the counterpart apparatus is down. it can. That is, it is possible to suppress an erroneous determination that it is determined that the unit is down although the down has not occurred.

次に、本発明にかかる実施の形態の概要のもう一例について説明する。図2は、実施の形態にかかる情報処理装置の概要を示すブロック図である。情報処理装置20も情報処理装置10と同様、例えば、HAクラスタシステムを構成する複数のサーバのうちのいずれかである。情報処理装置20も、一例としては、仮想マシン上に構築されるが、物理環境で構築されてもよい。   Next, another example of the outline of the embodiment according to the present invention will be described. FIG. 2 is a block diagram illustrating an overview of the information processing apparatus according to the embodiment. Similarly to the information processing apparatus 10, the information processing apparatus 20 is, for example, one of a plurality of servers constituting an HA cluster system. The information processing apparatus 20 is also constructed on a virtual machine as an example, but may be constructed in a physical environment.

情報処理装置20も、HAクラスタシステムを構成する他の情報処理装置との間で、通信を行い、相互に死活監視を行う。なお、具体的な死活監視方法は、上述した通りである。   The information processing device 20 also communicates with other information processing devices that configure the HA cluster system, and performs mutual alive monitoring. The specific life and death monitoring method is as described above.

ここで、情報処理装置20は、図2に示されるように、時刻カウント部21と、ハートビート受信部22と、ハートビート送信部23と、送信時間間隔変更部24とを有する。   Here, as illustrated in FIG. 2, the information processing apparatus 20 includes a time counting unit 21, a heartbeat receiving unit 22, a heartbeat transmitting unit 23, and a transmission time interval changing unit 24.

時刻カウント部21は、情報処理装置20(自装置)の時刻をカウントする。また、ハートビート受信部22は、相手装置が送信したハートビートパケットを受信する。   The time counting unit 21 counts the time of the information processing apparatus 20 (self apparatus). Further, the heartbeat receiving unit 22 receives a heartbeat packet transmitted by the counterpart device.

ハートビート送信部23は、設定された送信時間間隔で、ハートビートパケットを相手装置に対して送信する。ここで、ハートビート送信部23が送信するハートビートパケットには、時刻カウント部21がカウントした時刻による送信時刻が含まれる。なお、ハートビート受信部22が受信するハートビートパケットも同様に、送信側の装置である相手装置がカウントした時刻による、当該パケットの送信時刻を含んでいる。   The heartbeat transmitting unit 23 transmits the heartbeat packet to the other device at the set transmission time interval. Here, the heartbeat packet transmitted by the heartbeat transmitting unit 23 includes the transmission time according to the time counted by the time counting unit 21. Similarly, the heartbeat packet received by the heartbeat receiving unit 22 also includes the transmission time of the packet according to the time counted by the other device which is the transmitting device.

送信時間間隔変更部24は、ハートビート受信部22により受信された時間的に連続する2つのハートビートパケットの受信時刻の差が、これら2つのハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも小さい場合に、自装置が送信するハートビートパケットの送信時間間隔を予め定められた時間間隔よりも短くする。   The transmission time interval changing unit 24 determines that the difference between the reception times of two heartbeat packets that are received in time by the heartbeat receiving unit 22 is the difference between the two transmission times included in the two heartbeat packets. When it is smaller than the reception interval calculated based on the transmission time interval, the transmission time interval of the heartbeat packet transmitted by the device itself is made shorter than a predetermined time interval.

すなわち、送信時間間隔変更部24は、前回受信したハートビートパケットと今回受信したハートビートパケットについて、自装置の時計に基づく受信間隔と、想定される受信間隔とを比較する。そして、送信時間間隔変更部24は、自装置の時計に基づく受信間隔が、想定される受信間隔よりも小さい場合、送信時間間隔を短くするよう変更する。   That is, the transmission time interval changing unit 24 compares the reception interval based on the clock of the own device with the assumed reception interval for the heartbeat packet received last time and the heartbeat packet received this time. And the transmission time interval change part 24 is changed so that a transmission time interval may be shortened, when the reception interval based on the clock of an own apparatus is smaller than the assumed reception interval.

ここで、情報処理装置20が高負荷状態に陥り、時刻カウント部21による時刻カウントに遅延が生じた状況を想定する。ここで、相手装置から受信したハートビートパケットに記載されている送信時刻から算出される送信時間間隔がT1であるとする。しかし、時刻カウント部21の時刻カウントには遅延が生じているため、時刻カウント部21による連続する2つのハートビートパケットの受信間隔は、T1よりも短いT3となってしまう。   Here, it is assumed that the information processing apparatus 20 is in a high load state, and a delay occurs in the time count by the time count unit 21. Here, it is assumed that the transmission time interval calculated from the transmission time described in the heartbeat packet received from the partner apparatus is T1. However, since the time count of the time count unit 21 is delayed, the reception interval between two consecutive heartbeat packets by the time count unit 21 is T3 shorter than T1.

このとき、情報処理装置20の送信時間間隔変更部24は、相手装置から送信された時間的に連続する2つのハートビートパケットについて、以下のように判定する。すなわち、送信時間間隔変更部24は、両ハートビートパケットの自装置の時計に基づく受信間隔はT3であり、ハートビートパケットに付された送信時刻から得られる想定される受信間隔T1よりも小さいと判定する。このため、送信時間間隔変更部24は、送信時間間隔を所定の時間間隔よりも短い時間間隔へと変更する。   At this time, the transmission time interval changing unit 24 of the information processing device 20 determines two temporally consecutive heartbeat packets transmitted from the other device as follows. That is, the transmission time interval changing unit 24 determines that the reception interval based on the clock of the own device of both heartbeat packets is T3, which is smaller than the assumed reception interval T1 obtained from the transmission time attached to the heartbeat packet. judge. Therefore, the transmission time interval changing unit 24 changes the transmission time interval to a time interval shorter than the predetermined time interval.

したがって、情報処理装置20によれば、自装置に遅延が発生した場合に、自装置が送信するハートビートパケットの送信時間間隔が短くなるように変更される。これにより、実際の送信時間間隔が延びることを抑制することができる。したがって、情報処理装置20がダウンしたと相手装置に誤判定されてしまうことを抑制することができる。   Therefore, according to the information processing apparatus 20, when a delay occurs in the own apparatus, the transmission time interval of the heartbeat packet transmitted by the own apparatus is changed to be short. Thereby, it can suppress that an actual transmission time interval extends. Therefore, it is possible to suppress erroneous determination by the counterpart device when the information processing device 20 is down.

<実施の形態の説明>
以下、実施の形態の詳細について説明する。図3は、実施の形態にかかるHAクラスタシステム1の構成を示すブロック図である。図3に示すように、HAクラスタシステム1は、情報処理装置30A、情報処理装置30Bを有する。情報処理装置30A及び情報処理装置30Bは、ネットワーク31を介して、相互に通信可能に接続されている。なお、ネットワーク31は、有線ネットワークでもよいし、無線ネットワークでもよい。以下、情報処理装置30Aと30Bの総称として、情報処理装置30ということがある。
<Description of the embodiment>
The details of the embodiment will be described below. FIG. 3 is a block diagram showing the configuration of the HA cluster system 1 according to the embodiment. As shown in FIG. 3, the HA cluster system 1 includes an information processing device 30A and an information processing device 30B. The information processing device 30A and the information processing device 30B are communicably connected to each other via the network 31. The network 31 may be a wired network or a wireless network. Hereinafter, the information processing device 30 may be referred to as a generic name of the information processing devices 30A and 30B.

HAクラスタシステム1において、情報処理装置30A又は情報処理装置30Bのいずれか一方が、稼働系として動作し、他方が待機系として動作する。例えば、HAクラスタシステム1は、通常時、稼働系として動作している情報処理装置30により所定のサービスを提供し、稼働系として動作している情報処理装置30に異常が発生した際に、フェールオーバーを実施し、待機系であった情報処理装置30が稼働系として動作して所定のサービスを提供する。なお、図3で示した例では、HAクラスタシステム1は、2つの情報処理装置から構成されているが、3つ以上の情報処理装置から構成されてもよい。   In the HA cluster system 1, either one of the information processing device 30A or the information processing device 30B operates as an active system, and the other operates as a standby system. For example, the HA cluster system 1 normally provides a predetermined service by the information processing apparatus 30 operating as an active system, and fails when an abnormality occurs in the information processing apparatus 30 operating as an active system. The information processing apparatus 30 which has been a standby system operates as an operating system to provide a predetermined service. In the example shown in FIG. 3, the HA cluster system 1 is configured of two information processing apparatuses, but may be configured of three or more information processing apparatuses.

情報処理装置30A及び情報処理装置30Bは、HAクラスタシステム1を構成するサーバであり、仮想マシン上に構築されている。したがって、情報処理装置30A及び情報処理装置30Bは、コンピュータとしての機能を備えている。なお、本実施の形態では、情報処理装置30が仮想マシン上に構築されているものとして説明するが、情報処理装置30は物理環境で構築されてもよい。   The information processing device 30A and the information processing device 30B are servers that configure the HA cluster system 1, and are built on a virtual machine. Therefore, the information processing apparatus 30A and the information processing apparatus 30B have a function as a computer. In the present embodiment, the information processing apparatus 30 is described as being constructed on a virtual machine, but the information processing apparatus 30 may be constructed in a physical environment.

情報処理装置30A及び情報処理装置30Bは、通信を行い、相互に死活監視を行う。より具体的には、情報処理装置30Aは、予め定められた送信時間間隔で、ハートビートパケットを情報処理装置30Bに対して送信する。また、情報処理装置30Bも、予め定められた送信時間間隔で、ハートビートパケットを情報処理装置30Aに対して送信する。なお、情報処理装置30Aにおける送信時間間隔と、情報処理装置30Bにおける送信時間間隔は、同じとは限らない。   The information processing device 30A and the information processing device 30B communicate and perform life and death monitoring with each other. More specifically, the information processing device 30A transmits a heartbeat packet to the information processing device 30B at predetermined transmission time intervals. The information processing device 30B also transmits heartbeat packets to the information processing device 30A at predetermined transmission time intervals. Note that the transmission time interval in the information processing apparatus 30A and the transmission time interval in the information processing apparatus 30B are not necessarily the same.

また、情報処理装置30Aは、情報処理装置30Bからのハートビートパケットを予め定められたタイムアウト時間内に受信できない場合、情報処理装置30Bがダウンを起こしたと判定する。同様に、情報処理装置30Bは、情報処理装置30Aからのハートビートパケットを予め定められたタイムアウト時間内に受信できない場合、情報処理装置30Aがダウンを起こしたと判定する。なお、情報処理装置30Aにおけるタイムアウト時間と、情報処理装置30Bにおけるタイムアウト時間は、同じとは限らない。   Further, when the information processing apparatus 30A cannot receive the heartbeat packet from the information processing apparatus 30B within a predetermined timeout period, the information processing apparatus 30A determines that the information processing apparatus 30B has gone down. Similarly, the information processing apparatus 30B determines that the information processing apparatus 30A has gone down when the heartbeat packet from the information processing apparatus 30A cannot be received within a predetermined timeout period. Note that the timeout time in the information processing apparatus 30A and the timeout time in the information processing apparatus 30B are not necessarily the same.

以下、情報処理装置30の具体的構成について説明するが、情報処理装置30Bは情報処理装置30Aと同様の構成を備えるため、以下では、情報処理装置30Aの構成についてのみ説明し、情報処理装置30Bの構成の説明を省略する。図4は、実施の形態にかかる情報処理装置30A(30B)の構成を示すブロック図である。   Hereinafter, the specific configuration of the information processing apparatus 30 will be described. Since the information processing apparatus 30B has the same configuration as the information processing apparatus 30A, only the configuration of the information processing apparatus 30A will be described below, and the information processing apparatus 30B will be described. Description of the configuration of is omitted. FIG. 4 is a block diagram illustrating a configuration of the information processing apparatus 30A (30B) according to the embodiment.

情報処理装置30Aは、設定値情報記憶部300と、時刻カウント部301と、ハートビート送信部302と、ハートビート受信部303と、ダウン判定部304と、タイムアウト時間変更部305と、送信時間間隔変更部306とを有する。   The information processing apparatus 30A includes a set value information storage unit 300, a time count unit 301, a heartbeat transmission unit 302, a heartbeat reception unit 303, a down determination unit 304, a timeout time change unit 305, and a transmission time interval. And a change unit 306.

時刻カウント部301、ハートビート送信部302、ハートビート受信部303、ダウン判定部304、タイムアウト時間変更部305、及び送信時間間隔変更部306は、例えば、CPUの制御によって、プログラムが実行されることによって実現できる。より具体的には、メモリなどの記憶装置に格納されたプログラムを、CPUの制御によって実行して実現する。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。   For example, the time count unit 301, the heartbeat transmission unit 302, the heartbeat reception unit 303, the down determination unit 304, the timeout time change unit 305, and the transmission time interval change unit 306 execute a program under the control of the CPU. Can be realized. More specifically, it is realized by executing a program stored in a storage device such as a memory under the control of the CPU. Further, each component is not limited to being realized by software by a program, and may be realized by any combination of hardware, firmware, and software.

設定値情報記憶部300は、例えばメモリ、ストレージなどの記憶装置であり、上述の送信時間間隔の設定値及び上述のタイムアウト時間の設定値を記憶する。時刻カウント部301は、情報処理装置30Aの時刻をカウントする。ただし、時刻カウント部301による時刻のカウントは、情報処理装置30Aの負荷状況等に応じて、遅延する可能性がある。   The setting value information storage unit 300 is a storage device such as a memory or a storage, for example, and stores the setting value of the transmission time interval and the setting value of the timeout time. The time counting unit 301 counts the time of the information processing apparatus 30A. However, the counting of time by the time counting unit 301 may be delayed according to the load condition of the information processing device 30A and the like.

ハートビート送信部302は、設定値情報記憶部300に記憶された設定値を参照し、設定された送信時間間隔で、ハートビートパケットを情報処理装置30Bに対して送信する。ハートビート送信部302が送信するハートビートパケットには、時刻カウント部301がカウントした時刻による送信時刻が含まれる。   The heartbeat transmission unit 302 refers to the setting value stored in the setting value information storage unit 300 and transmits heartbeat packets to the information processing apparatus 30B at the set transmission time interval. The heartbeat packet transmitted by the heartbeat transmitting unit 302 includes the transmission time according to the time counted by the time counting unit 301.

ハートビート受信部303は、情報処理装置30Bが送信したハートビートパケットを受信する。なお、情報処理装置30Bが送信するハートビートパケットには、情報処理装置30Bの時刻カウント部301がカウントした時刻による送信時刻が含まれている。   The heartbeat receiving unit 303 receives the heartbeat packet transmitted by the information processing apparatus 30B. The heartbeat packet transmitted by the information processing device 30B includes a transmission time based on the time counted by the time counting unit 301 of the information processing device 30B.

ダウン判定部304は、設定値情報記憶部300に記憶された設定値を参照し、設定されたタイムアウト時間内に情報処理装置30Bからのハートビートパケットをハートビート受信部303が受信しない場合、情報処理装置30Bにダウンが発生したと判定する。   The down determination unit 304 refers to the setting value stored in the setting value information storage unit 300, and if the heartbeat reception unit 303 does not receive the heartbeat packet from the information processing device 30B within the set timeout period, It is determined that a down has occurred in the processing device 30B.

タイムアウト時間変更部305は、ハートビート受信部303により受信された時間的に連続する情報処理装置30Bからの2つのハートビートパケットの受信時刻の差が、これら2つのハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長い時間へと変更する。すなわち、タイムアウト時間変更部305は、設定値情報記憶部300に記憶されたタイムアウト時間の設定値を書き換える。   The time-out time changing unit 305 is configured so that the difference between the reception times of the two heartbeat packets received from the heartbeat receiving unit 303 in time from the information processing device 30B is included in the two heartbeat packets. If it is larger than the reception interval calculated based on the difference in transmission time, the timeout time is changed to a time longer than a predetermined time. That is, the timeout time changing unit 305 rewrites the setting value of the timeout time stored in the setting value information storage unit 300.

言い換えると、タイムアウト時間変更部305は、情報処理装置30Bから前回受信したハートビートパケットの時刻カウント部301による受信時刻と情報処理装置30Bから今回受信したハートビートパケットの時刻カウント部301による受信時刻との差が、ハートビートパケットに含まれる送信時刻から算出される想定される受信間隔よりも大きい場合に、タイムアウト時間を変更する。   In other words, the timeout time changing unit 305 receives the heartbeat packet last received from the information processing device 30B by the time counting unit 301 and the heartbeat packet received this time from the information processing device 30B by the time counting unit 301. Changes the timeout time if the difference between the and is larger than the assumed reception interval calculated from the transmission time included in the heartbeat packet.

具体的には、以下の式(1)を満たす場合に、タイムアウト時間変更部305は、タイムアウト時間を所定値よりも長い時間へと変更する。   Specifically, when the following formula (1) is satisfied, the timeout time changing unit 305 changes the timeout time to a time longer than a predetermined value.

−Tn-1>T ・・・(1) T n −T n−1 > T (1)

ここで、Tは今回受信したハートビートパケットの時刻カウント部301による受信時刻を示し、Tn-1は、前回受信したハートビートパケットの時刻カウント部301による受信時刻を示す。Tは、受信した2つのハートビートパケットに基づく、想定される受信間隔であり、例えば、以下の式(2)のように算出される。 Here, T n indicates the reception time of the heartbeat packet received this time by the time counting unit 301, and T n−1 indicates the reception time of the heartbeat packet received last time by the time counting unit 301. T is an assumed reception interval based on the two received heartbeat packets, and is calculated, for example, as the following equation (2).

T=T−Tm-1 ・・・(2) T = T m −T m−1 (2)

ここで、Tは今回受信したハートビートパケットに含まれる送信時刻を示し、Tm-1は、前回受信したハートビートパケッに含まれる送信時刻を示す。 Here, T m indicates the transmission time included in the currently received heartbeat packet, and T m-1 indicates the transmission time included in the previously received heartbeat packet.

このようにタイムアウト時間変更部305は、上記式(1)が満たされる場合、相手装置すなわち情報処理装置30Bに遅延が発生していると判断し、タイムアウト時間を延ばす。   Thus, when the above formula (1) is satisfied, the timeout time changing unit 305 determines that a delay has occurred in the counterpart device, that is, the information processing device 30B, and extends the timeout time.

タイムアウト時間変更部305による変更後のタイムアウト時間は、例えば、予め定められた固定値であってもよいし、変更前のタイムアウト時間に対する固定倍率の時間であってもよい。すなわち、タイムアウト時間変更部305は、上記式(1)が満たされる場合、通常時のタイムアウト時間の例えば2倍の時間に変更してもよい。また、これに限らず、タイムアウト時間変更部305は、時間的に連続する2つのハートビートパケットの時刻カウント部301による受信時刻の差と、想定される受信間隔との乖離の程度に応じた時間だけタイムアウト時間を長くしてもよい。これにより、情報処理装置30Bの遅延の度合いに応じてタイムアウト時間を変更できるため、ダウン誤検知をより減らすことが可能となる。   The timeout time after the change by the timeout time changing unit 305 may be a predetermined fixed value, for example, or may be a fixed magnification time with respect to the timeout time before the change. In other words, the timeout time changing unit 305 may change the time-out time to, for example, twice as long as the normal time-out time when the above expression (1) is satisfied. In addition, the time-out time changing unit 305 is not limited to this, and the time corresponding to the degree of divergence between the difference between the reception time of the two heartbeat packets that are temporally continuous by the time counting unit 301 and the assumed reception interval. You may increase the timeout time only. As a result, since the timeout time can be changed according to the degree of delay of the information processing device 30B, it is possible to further reduce false detection of down.

また、タイムアウト時間変更部305は、タイムアウト時間を所定値よりも長い時間に変更した後、情報処理装置30Bの遅延が解消した際には、タイムアウト時間を所定値に戻すよう再度変更する。すなわち、情報処理装置30Bから前回受信したハートビートパケットの時刻カウント部301による受信時刻と情報処理装置30Bから今回受信したハートビートパケットの時刻カウント部301による受信時刻との差が、ハートビートパケットに含まれる送信時刻から算出される想定される受信間隔に等しくなった場合、タイムアウト時間変更部305は、タイムアウト時間を予め定められた時間へ戻す。さらに言い換えると、タイムアウト時間変更部305は、式(1)を満たした後、T−Tn-1=Tとなると、タイムアウト時間を元に戻す。 In addition, after the timeout time changing unit 305 changes the timeout time to a time longer than the predetermined value, when the delay of the information processing device 30B is eliminated, the timeout time is changed again to the predetermined value. That is, the difference between the reception time of the heartbeat packet previously received from the information processing device 30B by the time counting unit 301 and the reception time of the heartbeat packet currently received from the information processing device 30B by the time counting unit 301 is a heartbeat packet. If it is equal to the assumed reception interval calculated from the included transmission time, the timeout time changing unit 305 returns the timeout time to a predetermined time. In other words, the timeout time changing unit 305 restores the timeout time when T n −T n−1 = T after satisfying the equation (1).

送信時間間隔変更部306は、ハートビート受信部303により受信された時間的に連続する情報処理装置30Bからの2つのハートビートパケットの受信時刻の差が、これら2つのハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも小さい場合に、ハートビートパケットの送信時間間隔を予め定められた時間間隔よりも短くする。すなわち、送信時間間隔変更部306は、設定値情報記憶部300に記憶された送信時間間隔の設定値を書き換える。   The transmission time interval changing unit 306 includes the difference between the reception times of two heartbeat packets received from the heartbeat receiving unit 303 from the information processing device 30B that is temporally continuous. When the reception interval is smaller than the reception interval calculated based on the difference between the two transmission times, the transmission time interval of the heartbeat packet is made shorter than a predetermined time interval. That is, the transmission time interval changing unit 306 rewrites the setting value of the transmission time interval stored in the setting value information storage unit 300.

具体的には、以下の式(3)を満たす場合に、送信時間間隔変更部306は、送信時間間隔を所定値よりも短い時間間隔へと変更する。   Specifically, when the following formula (3) is satisfied, the transmission time interval changing unit 306 changes the transmission time interval to a time interval shorter than a predetermined value.

−Tn-1<T ・・・(3) T n −T n−1 <T (3)

このように送信時間間隔変更部306は、上記式(3)が満たされる場合、自装置すなわち情報処理装置30Aに遅延が発生していると判断し、送信時間間隔の設定値を小さくする。   As described above, when the above equation (3) is satisfied, the transmission time interval changing unit 306 determines that a delay has occurred in the own apparatus, that is, the information processing apparatus 30A, and decreases the setting value of the transmission time interval.

送信時間間隔変更部306による変更後の送信時間間隔は、例えば、予め定められた固定値であってもよいし、変更前の送信時間間隔に対する固定倍率の時間間隔であってもよい。すなわち、送信時間間隔変更部306は、上記式(3)が満たされる場合、通常時の送信時間間隔の例えば1/2倍の時間間隔に変更してもよい。また、これに限らず、送信時間間隔変更部306は、時間的に連続する2つのハートビートパケットの時刻カウント部301による受信時刻の差と、想定される受信間隔との乖離の程度に応じた時間だけ送信時間間隔を短くしてもよい。これにより、自装置の遅延の度合いに応じて送信時間間隔を変更できるため、相手装置にダウン誤検知されることをより減らすことが可能となる。   The transmission time interval after the change by the transmission time interval changing unit 306 may be, for example, a predetermined fixed value, or may be a time interval of a fixed magnification with respect to the transmission time interval before the change. That is, when the above equation (3) is satisfied, the transmission time interval changing unit 306 may change the time interval to, for example, half of the normal transmission time interval. Further, the transmission time interval changing unit 306 is not limited to this, and the transmission time interval changing unit 306 responds to the difference between the reception time difference between the time counting unit 301 of two heartbeat packets that are temporally continuous and the assumed reception interval. The transmission time interval may be shortened by the time. Thereby, since the transmission time interval can be changed according to the degree of delay of the own device, it is possible to further reduce the erroneous detection of down by the counterpart device.

また、送信時間間隔変更部306は、ハートビートパケットの送信時間間隔を短くするよう変更した後、自装置の遅延が解消した際には、送信時間間隔を所定値に戻すよう再度変更する。すなわち、情報処理装置30Bから前回受信したハートビートパケットの時刻カウント部301による受信時刻と情報処理装置30Bから今回受信したハートビートパケットの時刻カウント部301による受信時刻との差が、ハートビートパケットに含まれる送信時刻から算出される想定される受信間隔に等しくなった場合、送信時間間隔変更部306は、送信時間間隔を予め定められた時間間隔へ戻す。さらに言い換えると、送信時間間隔変更部306は、式(3)満たした後、T−Tn-1=Tとなると、送信時間間隔を元に戻す。 Further, the transmission time interval changing unit 306 changes the transmission time interval back to a predetermined value again when the delay of the own device is eliminated after the transmission time interval of the heartbeat packet is shortened. That is, the difference between the reception time of the heartbeat packet previously received from the information processing device 30B by the time counting unit 301 and the reception time of the heartbeat packet currently received from the information processing device 30B by the time counting unit 301 is a heartbeat packet. If it is equal to the assumed reception interval calculated from the included transmission time, the transmission time interval changing unit 306 returns the transmission time interval to a predetermined time interval. Furthermore, in other words, the transmission time interval changing unit 306 restores the transmission time interval when T n −T n−1 = T is satisfied after the equation (3) is satisfied.

ここで、具体例を交えて情報処理装置30の動作について説明する。
(遅延が発生し始めた時の動作例)
まず、遅延の初期段階の動作について説明する。
情報処理装置30A及び情報処理装置30Bのハートビートパケットの送信時間間隔の現在の設定値は、いずれも1であるとする。すなわち、通常時の送信時間間隔が1であるものと仮定する。また、情報処理装置30A及び情報処理装置30Bのタイムアウト時間の現在の設定値は、いずれも3であるとする。すなわち、通常時のタイムアウト時間が3であるものと仮定する。ここで、情報処理装置30Bに遅延が発生したとする。
Here, the operation of the information processing apparatus 30 will be described with a specific example.
(Example of operation when delay starts to occur)
First, the operation at the initial stage of the delay will be described.
It is assumed that the current setting values of the heartbeat packet transmission time intervals of the information processing devices 30A and 30B are both 1. That is, it is assumed that the transmission time interval at the normal time is one. Further, it is assumed that the current set values of the timeout times of the information processing apparatus 30A and the information processing apparatus 30B are both 3. That is, it is assumed that the normal time-out time is 3. Here, it is assumed that a delay occurs in the information processing device 30B.

図5は、実際の時刻と、情報処理装置30Aの時刻カウント部301による時刻と、情報処理装置30Bの時刻カウント部301による時刻とを比較する表であり、遅延が発生し始めた時の一例を示している。   FIG. 5 is a table comparing the actual time, the time by the time counting unit 301 of the information processing device 30A, and the time by the time counting unit 301 of the information processing device 30B, and an example when a delay starts to occur. Is shown.

情報処理装置30Aは遅延が発生していないため、情報処理装置30Aにおける時刻カウント部301による時刻と実際の時刻との間にずれがない。このため、情報処理装置30Aの送信時間間は、実際の時刻を基準として見ても、1である。これに対し、情報処理装置30Bは遅延が発生しているため、情報処理装置30Bにおける時刻カウント部301による時刻は、実際の時刻に比べて遅れている。このため、情報処理装置30Bは、自身の時刻カウント部301の時刻に従って、設定された送信時間間隔でハートビートパケットを送信するが、実際の時刻における時刻1と時刻3での送信となってしまっている。このため、情報処理装置30Bの送信時間間隔は、実際の時刻を基準としてみると、2である。   Since no delay occurs in the information processing device 30A, there is no deviation between the time by the time counting unit 301 in the information processing device 30A and the actual time. For this reason, the transmission time of the information processing apparatus 30A is 1 even when viewed from the actual time. In contrast, since the information processing device 30B has a delay, the time by the time counting unit 301 in the information processing device 30B is delayed compared to the actual time. For this reason, the information processing apparatus 30B transmits the heartbeat packet at the set transmission time interval according to the time of its own time counting unit 301, but the transmission is performed at time 1 and time 3 at the actual time. ing. Therefore, the transmission time interval of the information processing device 30B is 2 when viewed from the actual time.

ここで、情報処理装置30Aは、次のように動作する。情報処理装置30Aが情報処理装置30Bから受信した直近の2つのハートビートパケットに含まれる時刻情報は、1と2である。これに対し、受信時刻(情報処理装置30Aの時刻カウント部301による時刻)は、1と3である。すなわち、T=2、Tm−1=1、T=3、Tn−1=1である。したがって、上記式(1)が満たされるため、情報処理装置30Aのタイムアウト時間変更部305は、タイムアウト時間の設定値を例えば6に変更する。 Here, the information processing device 30A operates as follows. The time information included in the two most recent heartbeat packets received by the information processing apparatus 30A from the information processing apparatus 30B are 1 and 2. On the other hand, the reception time (time by the time counting unit 301 of the information processing device 30A) is 1 and 3. That is, Tm = 2, Tm-1 = 1, Tn = 3, Tn-1 = 1. Therefore, since the above equation (1) is satisfied, the timeout time changing unit 305 of the information processing device 30A changes the setting value of the timeout time to 6, for example.

一方、情報処理装置30Bは、次のように動作する。情報処理装置30Bが情報処理装置30Aから受信した直近の2つのハートビートパケットに含まれる時刻情報は、2と3である。これに対し、受信時刻(情報処理装置30Bの時刻カウント部301による時刻)は、1.5と2である。すなわち、T=3、Tm−1=2、T=2、Tn−1=1.5である。したがって、上記式(3)が満たされるため、情報処理装置30Bの送信時間間隔変更部306は、ハートビートパケットの送信時間間隔の設定値を例えば0.5に変更する。 On the other hand, the information processing device 30B operates as follows. The time information included in the two most recent heartbeat packets received by the information processing apparatus 30B from the information processing apparatus 30A are 2 and 3. On the other hand, the reception time (the time by the time counting unit 301 of the information processing device 30B) is 1.5 and 2. That is, Tm = 3, Tm-1 = 2, Tn = 2, Tn-1 = 1.5. Therefore, since the above equation (3) is satisfied, the transmission time interval changing unit 306 of the information processing device 30B changes the setting value of the transmission time interval of the heartbeat packet to, for example, 0.5.

(遅延が拡大した時の動作例)
次に、情報処理装置30Bにおいて、遅延が拡大した時の動作について説明する。すなわち、情報処理装置30Bが遅延の初期段階の後の本格的な遅延状態に陥った際の動作について説明する。なお、情報処理装置30Aのハートビートパケットの送信時間間隔の現在の設定値は1のままである。これに対し、情報処理装置30Bのハートビートパケットの送信時間間隔の現在の設定値は、0.5に変更されている。また、情報処理装置30Bのタイムアウト時間の現在の設定値は、3のままである。これに対し、情報処理装置30Aのタイムアウト時間の現在の設定値は、6に変更されている。
(Example of operation when delay is expanded)
Next, in the information processing device 30B, an operation when the delay is expanded will be described. That is, an operation when the information processing apparatus 30B falls into a full-scale delay state after the initial stage of delay will be described. The current setting value of the transmission time interval of the heartbeat packet of the information processing device 30A remains at 1. On the other hand, the current setting value of the transmission time interval of the heartbeat packet of the information processing apparatus 30B is changed to 0.5. Further, the current setting value of the timeout time of the information processing device 30B remains at 3. On the other hand, the current setting value of the timeout time of the information processing device 30A is changed to 6.

図6は、実際の時刻と、情報処理装置30Aの時刻カウント部301による時刻と、情報処理装置30Bの時刻カウント部301による時刻とを比較する表であり、本格的な遅延状態に陥った際の一例を示している。なお、図6では、理解を容易にするために、表中に記載の開始時刻は1としている。   FIG. 6 is a table comparing the actual time, the time measured by the time count unit 301 of the information processing apparatus 30A, and the time counted by the time count unit 301 of the information processing apparatus 30B. An example is shown. In FIG. 6, the start time described in the table is set to 1 for easy understanding.

情報処理装置30Aは遅延が発生していないため、情報処理装置30Aの送信時間間隔は、実際の時刻を基準として見ても、1である。これに対し、情報処理装置30Bは遅延が拡大しているため、情報処理装置30Bにおける時刻カウント部301による時刻は、実際の時刻に比べてさらに遅れている。このため、情報処理装置30Bは、自身の時刻カウント部301の時刻に従って、設定された送信時間間隔(0.5)でハートビートパケットを送信するが、実際の時刻における時刻1と時刻6での送信となってしまっている。このため、情報処理装置30Bの送信時間間隔は、実際の時刻を基準としてみると、5である。   Since no delay occurs in the information processing device 30A, the transmission time interval of the information processing device 30A is 1 even when viewed on the basis of the actual time. On the other hand, since the delay of the information processing device 30B is increased, the time by the time counting unit 301 in the information processing device 30B is further delayed than the actual time. For this reason, the information processing device 30B transmits the heartbeat packet at the set transmission time interval (0.5) according to the time of its own time counting unit 301, but at the actual time, the time 1 and the time 6 It has been sent. For this reason, the transmission time interval of the information processing device 30B is 5 with reference to the actual time.

ここで、情報処理装置30Aは、次のように動作する。情報処理装置30Aが情報処理装置30Bから受信した直近の2つのハートビートパケットに含まれる時刻情報は、1と1.5である。これに対し、受信時刻(情報処理装置30Aの時刻カウント部301による時刻)は、1と6である。すなわち、T=1.5、Tm−1=1、T=6、Tn−1=1である。したがって、上記式(1)が満たされるため、情報処理装置30Aのタイムアウト時間変更部305は、タイムアウト時間の設定値を変更値である6のまま維持する。 Here, the information processing device 30A operates as follows. The time information included in the two most recent heartbeat packets received by the information processing apparatus 30A from the information processing apparatus 30B are 1 and 1.5. On the other hand, the reception times (the times by the time counting unit 301 of the information processing device 30A) are 1 and 6, respectively. That is, Tm = 1.5, Tm-1 = 1, Tn = 6, Tn-1 = 1. Therefore, since the above equation (1) is satisfied, the timeout time changing unit 305 of the information processing device 30A maintains the setting value of the timeout time as 6 which is the change value.

ここで、情報処理装置30Aにおけるタイムアウト時間は6に設定されているため、情報処理装置30Bの送信時間間隔が5(=T−Tn−1)であるが、情報処理装置30Aのダウン判定部304は、情報処理装置30Bをダウンしていると検知しない。すなわち、ダウン判定部304は、誤検知しない。 Here, since the timeout time in the information processing device 30A is set to 6, the transmission time interval of the information processing device 30B is 5 (= T n −T n−1 ), but the down determination of the information processing device 30A The unit 304 does not detect that the information processing device 30B is down. That is, the down determination unit 304 does not erroneously detect.

一方、情報処理装置30Bは、次のように動作する。情報処理装置30Bが情報処理装置30Aから受信した直近の2つのハートビートパケットに含まれる時刻情報は、5と6である。これに対し、受信時刻(情報処理装置30Bの時刻カウント部301による時刻)は、1.4と1.5である。すなわち、T=6、Tm−1=5、T=1.5、Tn−1=1.4である。したがって、上記式(3)が満たされるため、情報処理装置30Bの送信時間間隔変更部306は、ハートビートパケットの送信時間間隔の設定値を変更値である0.5のまま維持する。 On the other hand, the information processing apparatus 30B operates as follows. The time information included in the two latest heartbeat packets received by the information processing device 30B from the information processing device 30A is 5 and 6, respectively. On the other hand, the reception time (time by the time counting unit 301 of the information processing device 30B) is 1.4 and 1.5. That is, Tm = 6, Tm-1 = 5, Tn = 1.5, and Tn-1 = 1.4. Therefore, since the above equation (3) is satisfied, the transmission time interval changing unit 306 of the information processing device 30B maintains the setting value of the transmission time interval of the heartbeat packet at the change value of 0.5.

(遅延が解消した時の動作例)
次に、情報処理装置30Bにおいて、遅延が解消した時の動作について説明する。なお、情報処理装置30Aのハートビートパケットの送信時間間隔の現在の設定値は1のままであり、情報処理装置30Bのハートビートパケットの送信時間間隔の現在の設定値は、0.5のままである。また、情報処理装置30Bのタイムアウト時間の現在の設定値は、3のままであり、情報処理装置30Aのタイムアウト時間の現在の設定値は、6のままである。
(Example of operation when delay is eliminated)
Next, an operation when the delay is eliminated in the information processing device 30B will be described. The current setting value of the transmission time interval of the heartbeat packet of the information processing device 30A remains 1, and the current setting value of the transmission time interval of the heartbeat packet of the information processing device 30B remains 0.5. It is. In addition, the current setting value of the timeout time of the information processing device 30B remains at 3, and the current setting value of the timeout time of the information processing device 30A remains at 6.

図7は、実際の時刻と、情報処理装置30Aの時刻カウント部301による時刻と、情報処理装置30Bの時刻カウント部301による時刻とを比較する表であり、遅延が解消した時の一例を示している。なお、図7では、理解を容易にするために、表中に記載の開始時刻は1としている。   FIG. 7 is a table for comparing the actual time, the time by the time counting unit 301 of the information processing device 30A, and the time by the time counting unit 301 of the information processing device 30B, and shows an example when the delay is eliminated. ing. In FIG. 7, the start time described in the table is 1 for easy understanding.

情報処理装置30Aは遅延が発生していないため、情報処理装置30Aの送信時間間隔は、実際の時刻を基準として見ても、1である。情報処理装置30Bは遅延が解消しており、情報処理装置30Bにおける時刻カウント部301による時刻と実際の時刻との間にずれがない。ただし、情報処理装置30Bの送信時間間隔は、0.5に設定されているため、情報処理装置30Bは、実際の時刻を基準として見ても、0.5間隔でハートビートパケットを送信する。   Since no delay occurs in the information processing device 30A, the transmission time interval of the information processing device 30A is 1 even when viewed on the basis of the actual time. The delay is eliminated in the information processing device 30B, and there is no deviation between the time by the time counting unit 301 in the information processing device 30B and the actual time. However, since the transmission time interval of the information processing device 30B is set to 0.5, the information processing device 30B transmits heartbeat packets at intervals of 0.5 even when viewed from the actual time.

ここで、情報処理装置30Aは、次のように動作する。情報処理装置30Aが情報処理装置30Bから受信した直近の2つのハートビートパケットに含まれる時刻情報は、2.5と3である。また、受信時刻(情報処理装置30Aの時刻カウント部301による時刻)も、2.5と3である。すなわち、T=3、Tm−1=2.5、T=3、Tn−1=2.5である。したがって、T−Tn-1=Tとなるため、情報処理装置30Aのタイムアウト時間変更部305は、タイムアウト時間の設定値を元の値である3に戻す。 Here, the information processing device 30A operates as follows. The time information included in the two most recent heartbeat packets received by the information processing apparatus 30A from the information processing apparatus 30B are 2.5 and 3. Further, the reception times (the times by the time counting unit 301 of the information processing device 30A) are also 2.5 and 3, respectively. That is, Tm = 3, Tm-1 = 2.5, Tn = 3, Tn-1 = 2.5. Accordingly, since T n −T n−1 = T, the timeout time changing unit 305 of the information processing device 30A returns the setting value of the timeout time to 3 which is the original value.

一方、情報処理装置30Bは、次のように動作する。情報処理装置30Bが情報処理装置30Aから受信した直近の2つのハートビートパケットに含まれる時刻情報は、2と3である。また、受信時刻(情報処理装置30Bの時刻カウント部301による時刻)も、2と3である。すなわち、T=3、Tm−1=2、T=3、Tn−1=2である。したがって、T−Tn-1=Tとなるため、情報処理装置30Bの送信時間間隔変更部306は、ハートビートパケットの送信時間間隔の設定値を元の値である1に戻す。 On the other hand, the information processing device 30B operates as follows. The time information included in the two most recent heartbeat packets received by the information processing apparatus 30B from the information processing apparatus 30A are 2 and 3. The reception times (the times by the time counting unit 301 of the information processing device 30B) are also 2 and 3. That is, Tm = 3, Tm-1 = 2, Tn = 3, Tn-1 = 2. Accordingly, since the T n -T n-1 = T , the transmission time interval changing portion 306 of the information processing apparatus 30B returns the set value of the transmission time interval of the heartbeat packet to 1 which is the original value.

次に、情報処理装置30におけるハートビートパケットの送信処理及び受信処理に関わる動作についてフローチャートに基づいて説明する。   Next, operations relating to transmission processing and reception processing of heartbeat packets in the information processing apparatus 30 will be described based on a flowchart.

図8は、情報処理装置30におけるハートビートパケットの送信処理に関わる動作について示すフローチャートである。   FIG. 8 is a flowchart illustrating an operation related to a heartbeat packet transmission process in the information processing apparatus 30.

ステップ100(S100)において、ハートビート送信部302は、ハートビートパケットに時刻カウント部301によりカウントされた現在の時刻情報を入れる。   In step 100 (S100), the heartbeat transmitting unit 302 puts the current time information counted by the time counting unit 301 in the heartbeat packet.

ステップ101(S101)において、ハートビート送信部302は、相手サーバにハートビートパケットを送信する。   In step 101 (S101), the heartbeat transmission unit 302 transmits a heartbeat packet to the partner server.

ステップ102(S102)において、ハートビート送信部302は、設定値情報記憶部300を参照し、現在設定されている送信時間間隔だけスリープする。設定されている送信時間間隔が経過すると、再びステップ100〜102の処理を行う。   In step 102 (S102), the heartbeat transmission unit 302 refers to the set value information storage unit 300 and sleeps for the currently set transmission time interval. When the set transmission time interval elapses, the processing of steps 100 to 102 is performed again.

図9は、情報処理装置30におけるハートビートパケットの受信処理に関わる動作について示すフローチャートである。   FIG. 9 is a flowchart illustrating an operation related to a heartbeat packet reception process in the information processing apparatus 30.

ステップ200(S200)において、ハートビート受信部303は、相手サーバから送信されるハートビートパケットを待ち受ける。ハートビート受信部303が設定されているタイムアウト時間内に相手サーバからハートビートパケットを受信できない場合、処理はステップ201へ移行する。これに対し、ハートビート受信部303が設定されているタイムアウト時間内に相手サーバからハートビートパケットを受信した場合、処理はステップ202へ移行する。   In step 200 (S200), the heartbeat receiving unit 303 waits for a heartbeat packet transmitted from the other server. If the heartbeat receiving unit 303 cannot receive a heartbeat packet from the partner server within the set timeout period, the process proceeds to step 201. On the other hand, when a heartbeat packet is received from the other server within the timeout time set by the heartbeat reception unit 303, the process proceeds to step 202.

ステップ201(S201)では、ダウン判定部304が、相手サーバがダウンしていると判定する。   In step 201 (S201), the down determination unit 304 determines that the partner server is down.

一方、ステップ202(S202)では、相手サーバ又は自サーバの遅延が判定される。具体的には、TとTn−1の差分とTとTm−1の差分とが比較され、上記式(1)又は上記式(3)が満たされるか否かが判定される。上記式(3)を満たす場合、自サーバが遅延しているとして、処理はステップ203へ移行する。また、上記式(1)を満たす場合、相手サーバが遅延しているとして、処理はステップ204へ移行する。さらに、上記式(1)も式(3)も満たさない場合、遅延が発生していなものとして、処理はステップ205へ移行する。なお、処理は、ステップ203、204又は205を実施後、再び、ステップ200に戻る。 On the other hand, in step 202 (S202), the delay of the other server or the own server is determined. Specifically, the difference between T n and T n-1 and the difference between T m and T m-1 are compared, and it is determined whether the above equation (1) or the above equation (3) is satisfied. . When the above equation (3) is satisfied, the processing shifts to step 203 on the assumption that the own server is delayed. If the above equation (1) is satisfied, the processing shifts to step 204, assuming that the other server is delayed. Furthermore, when neither the above formula (1) nor the formula (3) is satisfied, it is assumed that no delay has occurred, and the process proceeds to step 205. The process returns to step 200 again after performing step 203, 204 or 205.

ステップ203(S203)では、送信時間間隔変更部306が、ハートビートパケットの送信時間間隔を予め定められた時間間隔よりも短くするよう設定値を変更する。なお、既に、予め定められた時間間隔よりも短い設定値へと変更済みである場合には、送信時間間隔変更部306は、変更された設定値を維持する。   In step 203 (S203), the transmission time interval changing unit 306 changes the setting value so as to make the transmission time interval of the heartbeat packet shorter than a predetermined time interval. If the setting value has already been changed to a setting value shorter than a predetermined time interval, the transmission time interval changing unit 306 maintains the changed setting value.

ステップ204(S204)では、タイムアウト時間変更部305が、タイムアウト時間を予め定められた時間よりも長くするよう設定値を変更する。なお、既に、予め定められた時間よりも長い設定値へと変更済みである場合には、タイムアウト時間変更部305は、変更された設定値を維持する。   In step 204 (S204), the timeout time changing unit 305 changes the setting value so as to make the timeout time longer than a predetermined time. Note that if the setting value has already been changed to a setting value longer than the predetermined time, the timeout time changing unit 305 maintains the changed setting value.

ステップ205(S205)では、送信時間間隔変更部306は、送信時間間隔の設定値を予め定められた時間間隔(通常時の送信時間間隔)へと戻す。なお、既に、設置値が通常時の送信時間間隔である場合には、送信時間間隔変更部306は、現在の設定値を維持する。また、タイムアウト時間変更部305は、タイムアウト時間の設定値を予め定められた時間(通常時のタイムアウト時間)へと戻す。なお、既に、設置値が通常時のタイムアウト時間である場合には、タイムアウト時間変更部305は、現在の設定値を維持する。   In step 205 (S205), the transmission time interval changing unit 306 returns the setting value of the transmission time interval to a predetermined time interval (a transmission time interval at a normal time). If the installation value is already at the normal transmission time interval, the transmission time interval changing unit 306 maintains the current setting value. Also, the timeout time changing unit 305 returns the setting value of the timeout time to a predetermined time (timeout time at normal time). If the set value is already the normal time-out time, the time-out time changing unit 305 maintains the current setting value.

以上、実施の形態について説明した。
ところで、ダウンの誤判定を抑制する方法としては、上記の方法以外に、例えば、以下のような方法も考え得る。
The embodiment has been described above.
By the way, as a method of suppressing an erroneous determination of down, for example, the following method can be considered in addition to the above method.

例えば、タイムアウト時間の設定値を常に長く設定しておくことで、相手サーバに遅延が発生しても、相手サーバをサーバダウンと誤検知しにくくすることができる。しかし、この方法では、タイムアウト時間の設定値が常に長いため、実際にサーバダウンが発生した場合に、それが検知されるまでに常に多くの時間を要してしまうというデメリットがある。サーバダウンを検知するまでに多くの時間を要すると、クラスタシステムにより提供される業務プログラムはその間、停止したままの状態となってしまい好ましくない。   For example, by setting the setting value of the timeout time long at all times, even if a delay occurs in the other server, it is possible to make it difficult for the other server to be erroneously detected as a server down. However, this method has a demerit that since the set value of the timeout time is always long, it takes a lot of time until the server down is actually detected. If it takes a long time to detect a server down, the business program provided by the cluster system remains in a stopped state during that time, which is not preferable.

また、他の方法として、例えば、ハートビートの送信間隔の設定値を常に短く設定しておくことで、自サーバに遅延が発生しても、遅延の影響を受けにくくすることができる。すなわち、相手サーバに、サーバダウンと誤検知されることを防ぐことができる。しかし、この方法の場合、正常時も送信間隔が短いため、余計なネットワーク負荷をかけることになる。   As another method, for example, by setting the setting value of the heartbeat transmission interval to be always short, even if a delay occurs in the own server, it is difficult to be affected by the delay. That is, it is possible to prevent the partner server from erroneously detecting that the server is down. However, in this method, since the transmission interval is short even when normal, an extra network load is applied.

また、例えば、ハートビートの受信がタイムアウトした場合、ネットワーク経由で強制的に相手サーバを電源断することで、誤検知であったとしても強制的にサーバを停止させるという方法も考えられる。これにより、両方のサーバで業務プログラムが並行して稼働してしまうことを防ぐことができる。しかし、強制的にサーバを電源断することはサーバのファイルシステムの破壊を招く可能性があるというデメリットがある。   Also, for example, when heartbeat reception times out, it is conceivable to forcibly shut down the server even if it is a false detection by forcibly powering off the other server via the network. Thereby, it is possible to prevent the business program from operating in parallel on both servers. However, forcibly powering off the server has the disadvantage that the file system of the server may be destroyed.

また、別の方法として、例えば、システム外の第3者(例えば、BMC(Baseboard Management Controller)や、仮想マシンを用いる場合におけるホストOS等から、サーバの電源状態を確認することで、サーバの起動状態を確認することができる。しかし、システム外の第3者等の信頼性は、その第3者等のシステム構成に依存する。また、サーバの電源状態が分かったとしても、その上で動作しているクラスタの状態までは判断できない。さらに、当然ながら、システム外の第3者等が存在していないとこの方法は採用できない。   As another method, for example, a third party outside the system (for example, a BMC (Baseboard Management Controller), a host OS in the case of using a virtual machine, etc., confirming the power state of the server to start the server However, the reliability of the third party outside the system depends on the system configuration of the third party, etc. Even if the power status of the server is known, it operates on it. You can not judge the state of the cluster you are in. Furthermore, of course, this method can not be adopted unless there is a third party outside the system.

これに対し、上記実施の形態にかかるHAクラスタシステム1によれば、上述の欠点を補いつつ、ダウンの誤判定を抑制することができる。これにより複数のサーバで業務が並行して稼働してしまい、HAクラスタシステムが不正な状態となることを防ぐことができる。   On the other hand, according to HA cluster system 1 concerning the above-mentioned embodiment, while compensating for the above-mentioned fault, an erroneous decision of down can be controlled. This makes it possible to prevent the HA cluster system from becoming illicit because the tasks run concurrently on multiple servers.

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記の実施の形態では、算出される受信間隔(T)は、式(2)に示される定義に限らず、予め定められた許容誤差を含んでもよい。この場合、例えば、タイムアウト時間変更部305において用いられる受信間隔Tは、以下の式(4)により表されてもよい。なお、Tは、許容誤差を表す。 Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention. For example, in the above embodiment, the calculated reception interval (T) is not limited to the definition shown in equation (2), but may include a predetermined tolerance. In this case, for example, the reception interval T used in the timeout time changing unit 305 may be expressed by the following equation (4). Here, T E represents an allowable error.

T=T−Tm-1+T ・・・(4) T = T m -T m-1 + T E ··· (4)

また、この場合、例えば、送信時間間隔変更部306において用いられる受信間隔Tは、以下の式(5)により表されてもよい。   Also, in this case, for example, the reception interval T used in the transmission time interval changing unit 306 may be expressed by the following equation (5).

T=T−Tm-1−T ・・・(5) T = T m -T m-1 -T E ··· (5)

また、上記の実施の形態では、情報処理装置30は、タイムアウト時間変更部305及び送信時間間隔変更部306を備えるものとして説明したが、タイムアウト時間変更部305又は送信時間間隔変更部306のいずれか一方を備える構成としてもよい。ただし、情報処理装置30は、タイムアウト時間変更部305及び送信時間間隔変更部306の両方を備えることが好ましい。これは、次のような理由による。   In the above embodiment, the information processing apparatus 30 is described as including the timeout time changing unit 305 and the transmission time interval changing unit 306, but either the timeout time changing unit 305 or the transmission time interval changing unit 306 It is good also as a structure provided with one. However, it is preferable that the information processing apparatus 30 includes both the timeout time changing unit 305 and the transmission time interval changing unit 306. This is due to the following reason.

送信時間間隔変更部306のみの場合、遅延が発生しているサーバ側の状態によっては送信間隔が短過ぎると、設定通りに動作できない可能性がある。特に、ホストOS又はハイパーバイザ側の高負荷によって仮想サーバの遅延が発生している場合、エミュレートされた仮想サーバのNIC(Network Interface Card)及びネットワークも健全に動作できていない可能性がある。また、タイムアウト時間を延ばし過ぎると、本当にサーバが停止した場合に検知が遅くなるため、タイムアウト時間を際限なく長くすることはできない。このため、タイムアウト時間の変更のみに頼るのは好ましくない。したがって、タイムアウト時間変更部305及び送信時間間隔変更部306を併用することで、タイムアウト時間を際限なく長くすることなく、サーバの停止を誤検知することを防ぐことができる。   In the case of only the transmission time interval changing unit 306, depending on the state of the server on which a delay occurs, if the transmission interval is too short, there is a possibility that the operation can not be performed as set. In particular, when the delay of the virtual server is caused by the high load on the host OS or the hypervisor side, the NIC (Network Interface Card) and the network of the emulated virtual server may not operate properly. Also, if the timeout time is extended too much, the detection will be delayed when the server actually stops, so the timeout time can not be extended without limit. For this reason, it is not preferable to rely only on changing the timeout time. Therefore, by using the timeout time changing unit 305 and the transmission time interval changing unit 306 in combination, it is possible to prevent erroneous detection of a server stop without increasing the timeout time indefinitely.

また、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。   The program can be stored using various types of non-transitory computer readable media and supplied to a computer. Non-transitory computer readable media include tangible storage media of various types. Examples of non-transitory computer readable media are magnetic recording media (eg flexible disk, magnetic tape, hard disk drive), magneto-optical recording media (eg magneto-optical disk), CD-ROM (Read Only Memory), CD-R, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)) are included. Also, the programs may be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer readable medium can provide the program to the computer via a wired communication path such as electric wire and optical fiber, or a wireless communication path.

また、例えば、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
自装置の時刻をカウントする時刻カウント手段と、
送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビート受信手段と、
前記ハートビート受信手段により受信された時間的に連続する2つの前記ハートビートパケットについての前記時刻カウント手段による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更手段と、
前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを前記ハートビート受信手段が受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定手段と
を有する情報処理装置。
(付記2)
前記タイムアウト時間変更手段は、前記タイムアウト時間を変更した場合、前記2つの受信時刻の差が、前記算出される受信間隔に等しいとき、前記タイムアウト時間を前記予め定められた時間へ戻す
付記1に記載の情報処理装置。
(付記3)
設定された送信時間間隔で、前記時刻カウント手段がカウントした時刻による送信時刻が含まれるハートビートパケットを送信するハートビート送信手段と、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更手段と
をさらに有する付記1又は2に記載の情報処理装置。
(付記4)
前記送信時間間隔変更手段は、前記送信時間間隔を変更した場合、前記2つの受信時刻の差が、前記算出される受信間隔に等しいとき、前記送信時間時間を前記予め定められた時間間隔へ戻す
付記3に記載の情報処理装置。
(付記5)
前記算出される受信間隔は、予め定められた許容誤差を含む
付記1乃至4のいずれか1項に記載の情報処理装置。
(付記6)
前記タイムアウト時間変更手段は、前記2つの受信時刻の差と前記算出される受信間隔との乖離の程度に応じた時間だけ前記タイムアウト時間を長くする
付記1に記載の情報処理装置。
(付記7)
前記信時間間隔変更手段は、前記2つの受信時刻の差と前記算出される受信間隔との乖離の程度に応じた時間だけ前記送信時間間隔を短くする
付記3に記載の情報処理装置。
(付記8)
送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビートパケット受信ステップと、
受信した時間的に連続する2つの前記ハートビートパケットについての、受信側の装置のカウントした時刻による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更ステップと、
前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定ステップと
を有するダウン判定方法。
(付記9)
設定された送信時間間隔で、ハートビートパケットを送信するハートビートパケット送信ステップと、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更ステップと
をさらに有し、
前記ハートビートパケット送信ステップで送信されるハートビートパケットは、該ハートビートパケットを送信する装置のカウントした時刻による送信時刻を含む
する付記8に記載のダウン判定方法。
(付記10)
複数の情報処理装置を備え、
前記複数の情報処理装置は、それぞれ、
自装置の時刻をカウントする時刻カウント手段と、
設定された送信時間間隔で、前記複数の情報処理装置のうちの他の情報処理装置に、前記時刻カウント手段がカウントした時刻による送信時刻が含まれるハートビートパケットを送信するハートビート送信手段と、
前記他の情報処理装置がカウントした時刻による送信時刻が含まれるハートビートパケットを、前記他の情報処理装置から受信するハートビート受信手段と、
前記ハートビート受信手段により受信された時間的に連続する2つの前記ハートビートパケットについての前記時刻カウント手段による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更手段と、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更手段と
前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを前記ハートビート受信手段が受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定手段と
を有するクラスタシステム。
(付記11)
送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビートパケット受信ステップと、
受信した時間的に連続する2つの前記ハートビートパケットについての、受信側の装置のカウントした時刻による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更ステップと、
前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定ステップと
を情報処理装置のコンピュータに実行させるプログラム。
(付記12)
設定された送信時間間隔で、前記情報処理装置のカウントした時刻による送信時刻が含まれるハートビートパケットを送信するハートビートパケット送信ステップと、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更ステップと
をさらに前記コンピュータに実行させる付記11に記載のプログラム。
Also, for example, part or all of the above-described embodiment may be described as in the following appendices, but is not limited to the following.
(Supplementary Note 1)
Time counting means for counting the time of its own device;
A heartbeat receiving means for receiving a heartbeat packet including a transmission time according to a time counted by a transmission side device;
The difference between the two reception times by the time counting means for the two temporally consecutive heartbeat packets received by the heartbeat reception means is the difference between the two transmission times included in the two heartbeat packets. Timeout time changing means for making the timeout time longer than a predetermined time when it is larger than the reception interval calculated based on the difference;
An information processing apparatus comprising: a down determination unit that determines that a down has occurred in the transmission side device when the heartbeat reception unit does not receive a heartbeat packet from the transmission side device within the timeout period.
(Supplementary Note 2)
The timeout time changing means returns the timeout time to the predetermined time when the difference between the two reception times is equal to the calculated reception interval when the timeout time is changed. Information processing equipment.
(Supplementary Note 3)
A heartbeat transmission means for transmitting a heartbeat packet including a transmission time according to a time counted by the time counting means at a set transmission time interval;
Supplementary note 1 or 2, further comprising: a transmission time interval changing means for making the transmission time interval shorter than a predetermined time interval when the difference between the two reception times is smaller than the calculated reception interval. Information processor as described.
(Supplementary Note 4)
When the transmission time interval is changed, the transmission time interval changing means returns the transmission time time to the predetermined time interval when the difference between the two reception times is equal to the calculated reception interval. The information processing apparatus according to appendix 3.
(Supplementary Note 5)
The information processing apparatus according to any one of supplementary notes 1 to 4, wherein the calculated reception interval includes a predetermined allowable error.
(Supplementary Note 6)
The information processing apparatus according to claim 1, wherein the time-out time changing unit lengthens the time-out time by a time corresponding to a degree of deviation between the difference between the two reception times and the calculated reception interval.
(Appendix 7)
The information processing apparatus according to claim 3, wherein the transmission time interval changing unit shortens the transmission time interval by a time corresponding to a degree of deviation between the difference between the two reception times and the calculated reception interval.
(Supplementary Note 8)
A heartbeat packet receiving step for receiving a heartbeat packet including a transmission time according to a time counted by a transmitting device;
The difference between the two reception times according to the counted time of the device on the receiving side with respect to the two temporally consecutive heartbeat packets received is the difference between the two transmission times included in the two heartbeat packets. A time-out time changing step for making the time-out time longer than a predetermined time when the reception interval is larger than the reception interval calculated based on
A down determination method comprising: a down determination step of determining that a down has occurred in the transmission side device when a heartbeat packet from the transmission side device is not received within the timeout period.
(Appendix 9)
A heartbeat packet transmission step for transmitting heartbeat packets at a set transmission time interval;
A transmission time interval changing step for shortening the transmission time interval below a predetermined time interval when the difference between the two reception times is smaller than the calculated reception interval; and
The down determination method according to appendix 8, wherein the heartbeat packet transmitted in the heartbeat packet transmission step includes a transmission time according to a time counted by a device that transmits the heartbeat packet.
(Supplementary Note 10)
Equipped with multiple information processing devices,
The plurality of information processing devices are each
Time counting means for counting the time of its own device;
A heartbeat transmission means for transmitting a heartbeat packet including a transmission time according to a time counted by the time counting means to another information processing apparatus among the plurality of information processing apparatuses at a set transmission time interval;
A heartbeat receiving means for receiving a heartbeat packet including a transmission time according to a time counted by the other information processing apparatus from the other information processing apparatus;
The difference between the two reception times by the time counting means for the two temporally consecutive heartbeat packets received by the heartbeat reception means is the difference between the two transmission times included in the two heartbeat packets. Timeout time changing means for making the timeout time longer than a predetermined time when it is larger than the reception interval calculated based on the difference;
A transmission time interval changing means for reducing the transmission time interval to be shorter than a predetermined time interval when the difference between the two reception times is smaller than the calculated reception interval; A cluster system comprising: a down determination unit that determines that a down has occurred in the transmission-side device if the heartbeat reception unit does not receive a heartbeat packet from the device;
(Supplementary Note 11)
A heartbeat packet receiving step for receiving a heartbeat packet including a transmission time according to a time counted by a transmitting device;
The difference between the two reception times according to the counted time of the device on the receiving side with respect to the two temporally consecutive heartbeat packets received is the difference between the two transmission times included in the two heartbeat packets. A time-out time changing step for making the time-out time longer than a predetermined time when the reception interval is larger than the reception interval calculated based on
A program for causing a computer of an information processing device to execute a down determination step of determining that a down has occurred in the transmission side device when a heartbeat packet from the transmission side device is not received within the timeout period.
(Supplementary Note 12)
A heartbeat packet transmitting step of transmitting a heartbeat packet including a transmission time according to a time counted by the information processing device at a set transmission time interval;
An additional note that causes the computer to further execute a transmission time interval changing step of making the transmission time interval shorter than a predetermined time interval when a difference between the two reception times is smaller than the calculated reception interval. The program described in 11.

1 HAクラスタシステム
10、20、30A、30B 情報処理装置
11、21、301 時刻カウント部
12、22、303 ハートビート受信部
13、305 タイムアウト時間変更部
14、304 ダウン判定部
23、302 ハートビート送信部
24、306 送信時間間隔変更部
31 ネットワーク
300 設定値情報記憶部
1 HA cluster system 10, 20, 30A, 30B information processing apparatus 11, 21, 301 time counting unit 12, 22, 303 heartbeat receiving unit 13, 305 timeout time changing unit 14, 304 down determination unit 23, 302 heartbeat transmission Unit 24, 306 Transmission time interval changing unit 31 Network 300 Set value information storage unit

Claims (10)

自装置の時刻をカウントする時刻カウント手段と、
送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビート受信手段と、
前記ハートビート受信手段により受信された時間的に連続する2つの前記ハートビートパケットについての前記時刻カウント手段による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更手段と、
前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを前記ハートビート受信手段が受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定手段と
を有する情報処理装置。
Time counting means for counting the time of the own device;
A heartbeat receiving means for receiving a heartbeat packet including a transmission time according to a time counted by a transmission side device;
The difference between the two reception times by the time counting means for the two temporally consecutive heartbeat packets received by the heartbeat reception means is the difference between the two transmission times included in the two heartbeat packets. Timeout time changing means for making the timeout time longer than a predetermined time when it is larger than the reception interval calculated based on the difference;
An information processing apparatus comprising: a down determination unit that determines that a down has occurred in the transmission side device when the heartbeat reception unit does not receive a heartbeat packet from the transmission side device within the timeout period.
前記タイムアウト時間変更手段は、前記タイムアウト時間を変更した場合、前記2つの受信時刻の差が、前記算出される受信間隔に等しいとき、前記タイムアウト時間を前記予め定められた時間へ戻す
請求項1に記載の情報処理装置。
The timeout time changing means, when changing the timeout time, returns the timeout time to the predetermined time when the difference between the two reception times is equal to the calculated reception interval. Information processor as described.
設定された送信時間間隔で、前記時刻カウント手段がカウントした時刻による送信時刻が含まれるハートビートパケットを送信するハートビート送信手段と、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更手段と
をさらに有する請求項1又は2に記載の情報処理装置。
Heartbeat transmission means for transmitting a heartbeat packet including the transmission time according to the time counted by the time counting means at a set transmission time interval;
Transmission time interval changing means for making the transmission time interval shorter than a predetermined time interval when the difference between the two reception times is smaller than the calculated reception interval. The information processing apparatus according to claim 1.
前記算出される受信間隔は、予め定められた許容誤差を含む
請求項1乃至3のいずれか1項に記載の情報処理装置。
The information processing apparatus according to any one of claims 1 to 3, wherein the calculated reception interval includes a predetermined allowable error.
前記タイムアウト時間変更手段は、前記2つの受信時刻の差と前記算出される受信間隔との乖離の程度に応じた時間だけ前記タイムアウト時間を長くする
請求項1に記載の情報処理装置。
The information processing apparatus according to claim 1, wherein the timeout time changing unit lengthens the timeout time by a time according to a degree of difference between the difference between the two reception times and the calculated reception interval.
送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビートパケット受信ステップと、
受信した時間的に連続する2つの前記ハートビートパケットについての、受信側の装置のカウントした時刻による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更ステップと、
前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定ステップと
を有するダウン判定方法。
A heartbeat packet receiving step for receiving a heartbeat packet including a transmission time according to a time counted by a transmitting device;
The difference between the two reception times according to the counted time of the device on the receiving side with respect to the two temporally consecutive heartbeat packets received is the difference between the two transmission times included in the two heartbeat packets. A time-out time changing step for making the time-out time longer than a predetermined time when the reception interval is larger than the reception interval calculated based on
A down determination method comprising: a down determination step of determining that a down has occurred in the transmission side device when a heartbeat packet from the transmission side device is not received within the timeout period.
設定された送信時間間隔で、ハートビートパケットを送信するハートビートパケット送信ステップと、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更ステップと
をさらに有し、
前記ハートビートパケット送信ステップで送信されるハートビートパケットは、該ハートビートパケットを送信する装置のカウントした時刻による送信時刻を含む
請求項6に記載のダウン判定方法。
Heartbeat packet transmission step of transmitting a heartbeat packet at a set transmission time interval;
A transmission time interval changing step of making the transmission time interval shorter than a predetermined time interval if the difference between the two reception times is smaller than the calculated reception interval.
The down determination method according to claim 6, wherein the heartbeat packet transmitted in the heartbeat packet transmission step includes a transmission time based on a counted time of a device that transmits the heartbeat packet.
複数の情報処理装置を備え、
前記複数の情報処理装置は、それぞれ、
自装置の時刻をカウントする時刻カウント手段と、
設定された送信時間間隔で、前記複数の情報処理装置のうちの他の情報処理装置に、前記時刻カウント手段がカウントした時刻による送信時刻が含まれるハートビートパケットを送信するハートビート送信手段と、
前記他の情報処理装置がカウントした時刻による送信時刻が含まれるハートビートパケットを、前記他の情報処理装置から受信するハートビート受信手段と、
前記ハートビート受信手段により受信された時間的に連続する2つの前記ハートビートパケットについての前記時刻カウント手段による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更手段と、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更手段と
前記タイムアウト時間内に送信側の装置からのハートビートパケットを前記ハートビート受信手段が受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定手段と
を有するクラスタシステム。
Equipped with multiple information processing devices,
The plurality of information processing devices are each
Time counting means for counting the time of its own device;
A heartbeat transmission means for transmitting a heartbeat packet including a transmission time according to a time counted by the time counting means to another information processing apparatus among the plurality of information processing apparatuses at a set transmission time interval;
A heartbeat receiving means for receiving a heartbeat packet including a transmission time according to a time counted by the other information processing apparatus from the other information processing apparatus;
The difference between the two reception times by the time counting means for the two temporally consecutive heartbeat packets received by the heartbeat reception means is the difference between the two transmission times included in the two heartbeat packets. Timeout time changing means for making the timeout time longer than a predetermined time when it is larger than the reception interval calculated based on the difference;
When the difference between the two reception times is smaller than the calculated reception interval, transmission time interval changing means for making the transmission time interval shorter than a predetermined time interval; A cluster system comprising: a down determination unit that determines that a down has occurred in the device on the transmitting side when the heartbeat receiving unit does not receive a heartbeat packet from the device.
送信側の装置がカウントした時刻による送信時刻が含まれるハートビートパケットを受信するハートビートパケット受信ステップと、
受信した時間的に連続する2つの前記ハートビートパケットについての、受信側の装置のカウントした時刻による2つの受信時刻の差が、該2つの前記ハートビートパケットに含まれる2つの送信時刻の差に基づいて算出される受信間隔よりも大きい場合に、タイムアウト時間を予め定められた時間よりも長くするタイムアウト時間変更ステップと、
前記タイムアウト時間内に前記送信側の装置からのハートビートパケットを受信しない場合、前記送信側の装置にダウンが発生したと判定するダウン判定ステップと
を情報処理装置のコンピュータに実行させるプログラム。
A heartbeat packet receiving step for receiving a heartbeat packet including a transmission time according to a time counted by a transmitting device;
The difference between the two reception times according to the counted time of the device on the receiving side with respect to the two temporally consecutive heartbeat packets received is the difference between the two transmission times included in the two heartbeat packets. A time-out time changing step for making the time-out time longer than a predetermined time when the reception interval is larger than the reception interval calculated based on
A program for causing a computer of an information processing apparatus to execute a down determination step of determining that a down has occurred in the apparatus on the transmitting side when a heartbeat packet from the apparatus on the transmitting side is not received within the timeout time.
設定された送信時間間隔で、前記情報処理装置のカウントした時刻による送信時刻が含まれるハートビートパケットを送信するハートビートパケット送信ステップと、
前記2つの受信時刻の差が、前記算出される受信間隔よりも小さい場合に、前記送信時間間隔を予め定められた時間間隔よりも短くする送信時間間隔変更ステップと
をさらに前記コンピュータに実行させる請求項9に記載のプログラム。
A heartbeat packet transmission step of transmitting a heartbeat packet including the transmission time according to the time counted by the information processing apparatus at the set transmission time interval;
A transmission time interval changing step of making the transmission time interval shorter than a predetermined time interval if the difference between the two reception times is smaller than the calculated reception interval. The program of item 9.
JP2015189314A 2015-09-28 2015-09-28 Information processing apparatus, down determination method, cluster system, and program Active JP6551111B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015189314A JP6551111B2 (en) 2015-09-28 2015-09-28 Information processing apparatus, down determination method, cluster system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015189314A JP6551111B2 (en) 2015-09-28 2015-09-28 Information processing apparatus, down determination method, cluster system, and program

Publications (2)

Publication Number Publication Date
JP2017068309A JP2017068309A (en) 2017-04-06
JP6551111B2 true JP6551111B2 (en) 2019-07-31

Family

ID=58494767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015189314A Active JP6551111B2 (en) 2015-09-28 2015-09-28 Information processing apparatus, down determination method, cluster system, and program

Country Status (1)

Country Link
JP (1) JP6551111B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991893A (en) * 2017-12-29 2019-07-09 深圳市云海物联科技有限公司 A switch control box
CN114244754B (en) * 2021-11-30 2022-08-19 慧之安信息技术股份有限公司 Equipment online state calculation method and device
CN117294750B (en) * 2023-11-27 2024-03-01 杭州涂鸦信息技术有限公司 Method and device for adjusting MQTT heartbeat frequency

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09293030A (en) * 1996-04-25 1997-11-11 Nec Eng Ltd Response monitoring timer setting system
JP4465905B2 (en) * 2001-04-16 2010-05-26 株式会社デンソー Electronic control unit
WO2008126325A1 (en) * 2007-03-30 2008-10-23 Fujitsu Limited Cluster system, software updating method, service provision node, and program for service provision
JP2009271857A (en) * 2008-05-09 2009-11-19 Toshiba Corp Computer system
JP5979095B2 (en) * 2013-08-06 2016-08-24 富士ゼロックス株式会社 Information processing system, information processing apparatus, and program

Also Published As

Publication number Publication date
JP2017068309A (en) 2017-04-06

Similar Documents

Publication Publication Date Title
CN110825544B (en) Computing node and failure detection method and cloud data processing system thereof
CN103201724B (en) Providing application high availability in highly-available virtual machine environments
CN110740072B (en) Fault detection method, device and related equipment
US9210059B2 (en) Cluster system
US10547499B2 (en) Software defined failure detection of many nodes
CN109921942B (en) Cloud platform switching control method, device, system and electronic equipment
JPWO2019049433A1 (en) Cluster system, cluster system control method, server device, control method, and program
JP6551111B2 (en) Information processing apparatus, down determination method, cluster system, and program
CN110224880A (en) A kind of heartbeat inspecting method and monitoring device
JP6183931B2 (en) Cluster system, server apparatus, cluster system management method, and program
US10868860B2 (en) Information processing device and information processing system
JP2008172592A (en) Cluster system, computer and abnormality detection method thereof
JP5613119B2 (en) Master / slave system, control device, master / slave switching method, and master / slave switching program
US11314573B2 (en) Detection of event storms
JP2011203941A (en) Information processing apparatus, monitoring method and monitoring program
JP6838334B2 (en) Cluster system, server, server operation method, and program
US8917609B2 (en) Line monitoring apparatus and line monitoring method
JP5483784B1 (en) CONTROL DEVICE, COMPUTER RESOURCE MANAGEMENT METHOD, AND COMPUTER RESOURCE MANAGEMENT PROGRAM
JP4863984B2 (en) Monitoring processing program, method and apparatus
KR101883251B1 (en) Apparatus and method for determining failover in virtual system
JP2022054351A (en) Monitoring system and fault monitoring method
JP7708461B1 (en) SERVER, PROCESSING SYSTEM, PROCESSING METHOD, AND PROGRAM
US11150980B2 (en) Node device, recovery operation control method, and non-transitory computer readable medium storing recovery operation control program
CN103873429B (en) Determine method and the node of node state
JP2012093868A (en) Service providing system, service providing server, service providing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190617

R150 Certificate of patent or registration of utility model

Ref document number: 6551111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150