JP7585659B2 - Monitoring system, monitoring method, program, and fault-tolerant server - Google Patents
Monitoring system, monitoring method, program, and fault-tolerant server Download PDFInfo
- Publication number
- JP7585659B2 JP7585659B2 JP2020141150A JP2020141150A JP7585659B2 JP 7585659 B2 JP7585659 B2 JP 7585659B2 JP 2020141150 A JP2020141150 A JP 2020141150A JP 2020141150 A JP2020141150 A JP 2020141150A JP 7585659 B2 JP7585659 B2 JP 7585659B2
- Authority
- JP
- Japan
- Prior art keywords
- subsystems
- storage device
- synchronization
- hard disk
- response time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims description 62
- 238000000034 method Methods 0.000 title claims description 38
- 230000004044 response Effects 0.000 claims description 78
- 230000002159 abnormal effect Effects 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 60
- 230000001360 synchronised effect Effects 0.000 claims description 36
- 238000002405 diagnostic procedure Methods 0.000 claims description 34
- 230000005856 abnormality Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 25
- 238000003745 diagnosis Methods 0.000 claims description 23
- 230000015556 catabolic process Effects 0.000 description 18
- 238000006731 degradation reaction Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 238000005259 measurement Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Description
本開示は、監視システム等に関する。 This disclosure relates to a monitoring system, etc.
RAID(Redundant Arrays of Inexpensive Disks)システムを構成するハードディスクのうち、故障には至っていないが、性能が低下しているハードディスクを特定する方法として、ハードディスクの応答時間を計測する方法がある。この方法では、応答時間が予め定められた閾値以上であるハードディスクは、性能が低下していると判定される。しかし、応答時間の閾値超過は一時的な負荷などの偶発的な要因によって発生した可能性がある。したがって、本当はハードディスクに異常がない場合でも異常判定をしてしまい、無駄なディスク交換につながる。 One method for identifying hard disks that make up a RAID (Redundant Arrays of Inexpensive Disks) system and that have not yet failed but have degraded performance is to measure the response time of the hard disk. With this method, a hard disk whose response time is equal to or exceeds a predetermined threshold is determined to have degraded performance. However, a response time exceeding the threshold may be caused by accidental factors such as temporary load. Therefore, even when there is actually no problem with the hard disk, it may be determined to be abnormal, leading to unnecessary disk replacement.
特許文献1には、ストレージ装置における潜在故障状態の記憶装置の発見のために、ディスク負荷が閾値以下かつレスポンスタイムが閾値以上である記憶装置を検出する方法が開示されている。特許文献1の方法では、ディスク負荷以外の偶発的な要因でレスポンスタイムが閾値超過してしまった場合にも記憶装置が故障している可能性があると判定してしまう。 Patent document 1 discloses a method for detecting storage devices whose disk load is below a threshold and whose response time is above a threshold in order to discover storage devices in a potentially faulty state in a storage device. The method in patent document 1 determines that a storage device may be faulty even if the response time exceeds the threshold due to an accidental factor other than the disk load.
ハードディスクの異常傾向を検出した後、異常状態を確定するためにハードディスクの診断を行うことがある。例えば、同様の計測を複数回実施して、全ての計測において特定のハードディスクのみ性能が低下していることを確認してから、当該ハードディスクに異常があると診断する方法がある。さらに、例えば、平均応答時間の比較を行い、平均応答時間が閾値を超えたハードディスクに異常があると診断する方法がある。 After detecting an abnormal trend in a hard disk, a diagnosis of the hard disk may be performed to confirm the abnormal state. For example, one method is to perform similar measurements multiple times and confirm that the performance of only a specific hard disk has decreased in all measurements, and then diagnose that the hard disk is abnormal. Another method is to compare average response times and diagnose that a hard disk whose average response time exceeds a threshold is abnormal.
特許文献2には、タイムアウト等のディスクエラーが発生した場合、当該ディスクを仮縮退状態にし、4通りのディスク診断処理を行うことが開示されている。 Patent document 2 discloses that when a disk error such as a timeout occurs, the disk is put into a provisionally degraded state and four types of disk diagnostic processing are performed.
ハードディスクの診断処理と業務処理は並行して行うから、ハードディスクを切り離さずにハードディスクの診断処理を行う方法では、システム全体の性能低下を招き、業務処理に支障をきたす可能性がある。さらに、性能が低下している可能性のあるハードディスクに対して、診断のための入出力を繰り返して応答時間を計測することは、システムに更なる負荷をかけることになる。つまり、ハードディスクの診断を詳細に実施するほど、システムに負荷がかかり、業務処理に支障をきたす可能性がある。 Because hard disk diagnostic processing and business processing are performed in parallel, performing hard disk diagnostic processing without disconnecting the hard disk can lead to a decrease in performance of the entire system, which could cause problems with business processing. Furthermore, repeating diagnostic input/output and measuring response time for a hard disk whose performance may be degraded places an additional load on the system. In other words, the more detailed the hard disk diagnosis, the greater the load on the system, which could cause problems with business processing.
特許文献2の診断処理は、ホストコンピュータからの命令に並行して行われるため、同一のディスクアレイ装置上で、業務処理と並行して処理する必要がある。したがって、特許文献2の診断方法は、診断処理により業務処理の性能に影響が出てしまう可能性がある。 The diagnostic process in Patent Document 2 is performed in parallel with commands from the host computer, so it must be performed in parallel with business processing on the same disk array device. Therefore, the diagnostic method in Patent Document 2 may affect the performance of business processing due to the diagnostic process.
本開示の目的の一つは、業務処理への影響を回避する、記憶装置の監視システム等を提供することである。 One of the objectives of this disclosure is to provide a monitoring system for a storage device that avoids impacts on business processing.
本開示に係る監視システムは、同期された第1及び第2のサブシステムがそれぞれ備える記憶装置に対してそれぞれIO(Input Output)要求を発行する処理手段と、前記IO要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する判定手段と、異常傾向が判定されると、前記第1及び第2のサブシステムの同期を解除し、前記第1及び第2のサブシステムが独立して動作可能となるよう制御する同期制御手段と、を備え、前記処理手段は、異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行う。 The monitoring system according to the present disclosure comprises a processing means for issuing an IO (Input Output) request to each of the storage devices included in the first and second synchronized subsystems, a determination means for determining an abnormal tendency of the storage device having a longer response time based on the difference in response times to the IO requests, and a synchronization control means for releasing the synchronization of the first and second subsystems and controlling the first and second subsystems to operate independently when an abnormal tendency is determined, and the processing means performs a diagnostic process for determining whether or not the storage device has an abnormality in the subsystem including the storage device determined to have an abnormal tendency.
本開示に係る監視方法は、同期された第1及び第2のサブシステムがそれぞれ備える記憶装置に対してそれぞれIO(Input Output)要求を発行し、前記IO要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定し、異常傾向が判定されると、前記第1及び第2のサブシステムの同期を解除し、前記第1及び第2のサブシステムが独立して動作可能となるよう制御し、異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行う。 The monitoring method according to the present disclosure issues an IO (Input Output) request to each of the storage devices included in the first and second synchronized subsystems, and determines whether the storage device with the longer response time is prone to an abnormality based on the difference in response time to the IO request. If an abnormality is determined, the synchronization of the first and second subsystems is released, and the first and second subsystems are controlled so that they can operate independently. In the subsystem including the storage device determined to be prone to an abnormality, a diagnostic process is performed to determine whether the storage device has an abnormality.
本開示に係るプログラムは、同期された第1及び第2のサブシステムがそれぞれ備える記憶装置に対してそれぞれIO(Input Output)要求を発行する処理と、前記IO要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する処理と、異常傾向が判定されると、前記第1及び第2のサブシステムの同期を解除し、前記第1及び第2のサブシステムが独立して動作可能となるよう制御する処理と、異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理とをコンピュータに実行させる。 The program disclosed herein causes a computer to execute the following processes: issuing an IO (Input Output) request to each of the storage devices included in the synchronized first and second subsystems; judging an abnormal tendency of the storage device with the longer response time based on the difference in response time to the IO request; when an abnormal tendency is judged, releasing the synchronization of the first and second subsystems and controlling the first and second subsystems so that they can operate independently; and diagnosing the presence or absence of an abnormality in the storage device in the subsystem that includes the storage device judged to have an abnormal tendency.
本開示に係るフォールトトレラントサーバは、第1の記憶装置と、第1のCPUモジュールと、第1のフォールトトレラント(FT)コントローラと有する、第1のサブシステムと、第2の記憶装置と、第2のCPUモジュールと、第2のFTコントローラと有する、第2のサブシステムを備え、前記第1及び第2の記憶装置は、それぞれ、監視システムから発行されたIO(Input Output)要求に対して応答し、前記IO要求に対する応答時間の差に基づいて、前記第1の記憶装置の異常傾向が判定されると、前記第1のFTコントローラは、前記第1及び第2のサブシステムの同期の解除を制御し、前記第1のサブシステムにおいて、前記第1の記憶装置の異常の診断を行い、前記第2のサブシステムにおいて、他の処理を行う。 The fault-tolerant server according to the present disclosure comprises a first subsystem having a first storage device, a first CPU module, and a first fault-tolerant (FT) controller, and a second subsystem having a second storage device, a second CPU module, and a second FT controller, and the first and second storage devices each respond to an IO (Input Output) request issued by a monitoring system, and when a tendency for the first storage device to be abnormal is determined based on the difference in response time to the IO request, the first FT controller controls the desynchronization of the first and second subsystems, diagnoses the abnormality of the first storage device in the first subsystem, and performs other processing in the second subsystem.
本開示によれば、業務処理への影響を回避する、記憶装置の監視システム等を提供することができる。 This disclosure makes it possible to provide a storage device monitoring system that avoids impacts on business processing.
ミッションクリティカルなシステムでは、障害発生時においてもサービスの継続が要求されるため、フォールトトレラント(Fault Tolerant)技術が導入される。フォールトトレラント技術を採用したコンピュータとして、フォールトトレラントサーバ(FTサーバ)が知られている。 In mission-critical systems, the continuity of service is required even when a failure occurs, so fault-tolerant technology is introduced. A fault-tolerant server (FT server) is known as a computer that employs fault-tolerant technology.
FTサーバを構成するハードウェアコンポーネントは二重化されている。一方のハードウェアコンポーネントに故障が発生した場合、故障が発生した部分は論理的に切り離される。正常に動作している部分は処理を続行するため、二重化により耐障害性が向上する。 The hardware components that make up the FT server are duplicated. If a failure occurs in one of the hardware components, the part where the failure occurred is logically isolated. The part that is operating normally continues processing, so duplication improves fault tolerance.
本開示に係る監視システムは、例として、FTサーバのハードディスクの監視に用いることができる。図1は、本開示に係るFTサーバ1の構成を示す図である。本開示に係るFTサーバ1は、2つのサブシステムとして、システム10とシステム20を備える。
The monitoring system according to the present disclosure can be used, for example, to monitor the hard disk of an FT server. FIG. 1 is a diagram showing the configuration of an FT server 1 according to the present disclosure. The FT server 1 according to the present disclosure has two subsystems,
システム10は、CPUモジュール11、FTコントローラ12、IOモジュール13を有する。CPUモジュール11はCPU(Central Processing Unit)、及び、メモリを有する。IOモジュール13は、NIC(Network Interface Card)、及び、ハードディスク14を含む、各IO(Input Output)デバイスを有する。
The
システム20は、CPUモジュール21、FTコントローラ22、IOモジュール23を有する。CPUモジュール21はCPU、メモリを有する。IOモジュール23は、NIC、及び、ハードディスク24を含む、各IOデバイスを有する。
The
CPUモジュール11とCPUモジュール21は、同一クロックで同期動作するように、FTコントローラ12及びFTコントローラ22によって制御される。IOモジュール13及びIOモジュール23の各IOデバイスは、ソフトウェアにより冗長構成を実現する。NICはチーミング技術を利用して冗長構成を実現し、ハードディスクはミラーリング技術を利用して冗長構成を実現する。
The
図2は、同期状態のFTサーバ1を示す図である。図2に示すように、FTサーバ1が同期状態で動作している場合、CPUモジュール11とCPUモジュール21は同一クロックで同期動作するように、FTコントローラ12及びFTコントローラ22によって制御されている。FTサーバ1上では、OS(Operating System)30が実行され、OS30上で業務処理を行う。一方のシステムにハードウェア故障が発生した場合、故障が発生した部分を論理的に切り離し、正常に動作しているシステムが処理を続行することができる。
Figure 2 is a diagram showing FT server 1 in a synchronized state. As shown in Figure 2, when FT server 1 is operating in a synchronized state,
FTサーバ1が、ハードウェアの故障なく同期状態で動作している場合、FTサーバ1の同期を意図的に一時的に解除することで、FTサーバ1をそれぞれ独立して動作する2つのシステムに分割することが可能になる。 If FT Server 1 is operating in a synchronized state without any hardware failure, it is possible to split FT Server 1 into two systems that operate independently by intentionally temporarily disabling the synchronization of FT Server 1.
図3は、同期を解除した状態のFTサーバ1を示す図である。図3に示すように、意図的に同期を解除した状態では、システム10ではCPUモジュール11が動作し、IOモジュール13の各IOデバイスに対応するIO処理が実施される。システム10上では、OS31が実行される。システム20では、CPUモジュール21が動作し、IOモジュール23の各IOデバイスに対応するIO処理が実施される。システム20上では、OS32が実行される。
Figure 3 is a diagram showing the FT server 1 in a state where synchronization is released. As shown in Figure 3, when synchronization is intentionally released, the
[第1実施形態]
[構成]
図4Aは、第1実施形態に係る監視システム50の構成を例示するブロック図である。監視システム50は、例えば、図1に示すFTサーバ1と有線または無線により接続され、FTサーバ1のハードディスク14、及び、ハードディスク24を監視する。監視システム50は、処理部51、記録部(図示せず)、判定部53、同期制御部54を備える。処理部51、判定部53、同期制御部54は、それぞれ、本開示に係る処理手段、判定手段、同期制御手段の一実施形態である。ハードディスク14、及び、ハードディスク24は、それぞれ本開示に係る記憶装置の一実施形態である。
[First embodiment]
[composition]
Fig. 4A is a block diagram illustrating a configuration of a
処理部51は、同期された2つのサブシステムが備える記憶装置に対してそれぞれIO要求を発行する(以下、単にIOを発行する、またはIO発行と記す場合もある)。具体的には、処理部51は、例えば、ハードディスク14と、ハードディスク24とに定期的にIOを発行する。処理部51は、IO要求を送信してからIO要求に対する応答を受信するまでの応答時間を計測するためにIOを発行する。そして、処理部51は、計測した応答時間を記録部に記録させる。また、処理部51は、異常傾向があると判定された記憶装置を備えるサブシステムにおいて、記憶装置の異常の有無を診断する診断処理を行う。
The
記録部は、例えば、RAM(Random Access Memory)等の補助記憶装置である。記録部は、ハードディスク等の記憶装置によって実現されてもよい。 The recording unit is, for example, an auxiliary storage device such as a RAM (Random Access Memory). The recording unit may also be realized by a storage device such as a hard disk.
判定部53は、IO要求に対する応答時間の差に基づいて、応答時間がより長い記憶装置の異常傾向を判定する。具体的には、判定部53は、例えば、記録部に記録された各ハードディスクの応答時間を監視し、応答時間の差が閾値以上になるか否かを判定する。応答時間の差が閾値を超えた場合、判定部53は、どちらのハードディスクに異常傾向があるかの情報と共にFTサーバ1の同期解除が必要な旨の通知を同期制御部54へ送信する。更に判定部53は、ハードディスクの診断処理の結果に基づいて、当該ハードディスクに性能低下の異常があるか否かを確定するための判定を行う。
The
同期制御部54は、一方の記憶装置の異常傾向が判定されると、2つのサブシステムの同期を解除し、システム10及びシステム20が独立して動作可能となるよう制御する。具体的には、同期制御部54は、例えば、判定部53からの通知に基づき、FTサーバ1の同期の制御を行う。同期の解除を行う際、異常傾向のない(応答時間が短い)ハードディスク側のシステムを業務継続側、異常傾向のある(応答時間が長い)ハードディスク側のシステムをハードディスク診断側として同期を解除する。なお、FTサーバ1の同期の制御は、FTコントローラ12、FTコントローラ22を介して行われる。
When the
[動作]
図4Bは、第1実施形態に係る監視システム50の動作の例を示すフローチャートである。まず、処理部51は、同期された2つのサブシステムである、システム10とシステム20がそれぞれ備える記憶装置に対し、それぞれIO要求を発行する(ステップS101)。判定部53は、IO要求に対する応答時間の差に基づいて、応答時間がより長い記憶装置の異常傾向を判定する(ステップS102)。同期制御部54は、記憶装置の異常傾向が判定されると、システム10とシステム20の同期を解除し、2つのサブシステムが独立して動作可能となるよう制御する(ステップS103)。処理部51は、異常傾向があると判定された記憶装置を備えるサブシステムにおいて、記憶装置の異常の有無の診断を行う(ステップS104)。
[Action]
4B is a flowchart showing an example of the operation of the
図5から図7を参照し、第1実施形態に係る処理フローの具体例を説明する。 A specific example of the processing flow according to the first embodiment will be described with reference to Figures 5 to 7.
図5は、第1実施形態に係る異常傾向のあるハードディスクの検出処理(チェックC1)を示すフローチャートである。まず、処理部51は、FTサーバ1が同期状態で動作しているかを確認する。同期状態で動作していない場合(ステップS1;NO)、処理部51は、FTサーバ1が同期状態で動作していない旨のエラーを図示しない表示部に通知する(ステップS2)。同期状態で動作している場合(ステップS1;YES)、処理部51は、定期的にハードディスク14とハードディスク24にIOを発行する(ステップS3)。処理部51は、それぞれの応答時間を計測し、記録部に記録させる(ステップS4)。
Figure 5 is a flowchart showing the process (check C1) for detecting a hard disk with an abnormal tendency according to the first embodiment. First, the
次に判定部53は、応答時間の監視処理を行う。具体的には、判定部53は、各ハードディスクの応答時間の差が閾値を超えているか否かを監視する。ハードディスクの性能低下の異常傾向を監視するために、判定部53は、例えば、各ハードディスクの応答時間の差分を計算し、その差分が閾値(M ms(ms:ミリ秒))を超えているかを監視しても良い。また、判定部53は、例えば、各ハードディスクの応答時間の比率を計算し、その比率が閾値(N倍)(1<N)を超えているか否かを監視しても良い。ハードディスクの性能低下を監視する目的を達し得るのであれば、他の指標が用いられても良い。応答時間の差が閾値を超えている場合、判定部53は、片方のハードディスクに性能低下の異常傾向があることを検出する。
Next, the
応答時間の差が閾値を超えていない場合(ステップS5;NO)、監視システム50は再びFTサーバ1の同期状態の確認を行い、判定部53は次のIO発行を待つ。
If the difference in response time does not exceed the threshold (step S5; NO), the
応答時間の差が閾値を超えていた場合(ステップS5;YES)、判定部53はどちらのハードディスクの応答時間が長いのかの判定を行う。判定部53は、性能低下の異常傾向を検出すると、FTサーバ1の同期解除が必要な旨の通知を、同期制御部54に対して行う。ハードディスク24の応答時間の方が長い場合(ステップS6;YES)、同期制御部54は、システム10を業務継続側、システム20をハードディスク診断側としてFTサーバ1の同期を解除する(ステップS7)。ハードディスク14の応答時間の方が長い場合(ステップS6;NO)、同期制御部54は、システム20を業務継続側、システム10をハードディスク診断側としてFTサーバ1の同期を解除する(ステップS8)。
If the difference in response time exceeds the threshold (step S5; YES), the
図6は、同期を解除する際のシステム10とシステム20の動作を示すフローチャートである。なお、図6では、システム20側のハードディスク24に性能低下の異常傾向が検出された場合を例として説明する。
Figure 6 is a flowchart showing the operation of
まず、FTサーバ1のシステム10とシステム20は同期状態で動作している(ステップS11)。FTコントローラ12は、同期制御部54による制御に基づいて、FTコントローラ22に対し同期解除の指示を行う(ステップS12)。この指示により、FTコントローラ22は同期を解除し(ステップS16)、FTサーバ1はそれぞれ独立して動作するシステム10とシステム20に分割される。システム10は業務を継続し(ステップS13)、システム20では業務を中止する(ステップS17)。この際、システム10側では業務を継続するため、FTサーバ1の同期動作時に使用していたIPアドレスを継続して使用する。システム20側では別のIPアドレスを一時的に割り当てる。
First,
システム20では、異常傾向が検出されたハードディスク24に対して、本当にハードディスクに異常があるか否かを確定させるためのハードディスク診断処理A1が実行される(ステップS18)。ハードディスク診断処理A1の結果、ハードディスク24に異常なしと判定された場合(ステップS19;NO)、システム20はハードディスクの診断処理が終了したことを、ネットワークを介してシステム10へ通知する(ステップS20)。通知をシステム10が受信すると(ステップS14)、FTコントローラ12はFTコントローラ22へ同期の指示を行う(ステップS15)。システム20は同期の指示を受信し、業務処理を継続していたシステム10をベースとして同期を行う(ステップS21)。同期処理が完了すると、FTサーバ1は同期状態に復帰する(ステップS23)。
In the
ハードディスク診断処理A1の結果、ハードディスク24に異常ありと判定された場合(ステップS19;YES)、システム20はハードディスクの交換が必要な旨のエラーを、図示しない表示部に通知する(ステップS22)。
If the result of the hard disk diagnostic process A1 indicates that there is an abnormality in the hard disk 24 (step S19; YES), the
図7は、第1実施形態に係る診断処理(ハードディスク診断処理A1)を示すフローチャートである。ハードディスク診断処理A1は、性能低下の異常傾向があると判定されたハードディスク24に対して、偶発的な要因によって異常傾向が検出されたのか、本当に性能低下の異常が発生しているのかを確認するために行う。
Figure 7 is a flowchart showing the diagnostic process (hard disk diagnostic process A1) according to the first embodiment. The hard disk diagnostic process A1 is performed on a
ハードディスク診断処理A1は、FTサーバ1の同期を解除して、業務継続側のシステムとは独立して行うことが可能なため、業務に影響を与えることなく、詳細な診断を行うことが可能である。第1実施形態において、チェックC1と同様のIOを複数回発行して平均応答時間で判定する診断方法を示すが、診断方法はこの方法には限定されない。例えば、ハードディスクの全面リード、全面ライト試験などより詳細な診断を行うことも可能である。 The hard disk diagnostic process A1 can be performed independently of the system on the business continuation side by releasing the synchronization of the FT server 1, making it possible to perform a detailed diagnosis without affecting business operations. In the first embodiment, a diagnostic method is shown in which an IO similar to check C1 is issued multiple times and judged based on the average response time, but the diagnostic method is not limited to this method. For example, it is also possible to perform a more detailed diagnosis, such as a full read and full write test of the hard disk.
ハードディスク診断処理A1では、まず、処理部51は、ハードディスク24にIOを発行し(ステップS31)、応答時間を計測し記録部に記録させる(ステップS32)。監視システム50は、規定回数(X回)の計測が終わるまでステップS31とステップS32の処理を繰り返す(ステップS33;NO)。監視システム50は、規定回数の計測を終了後に判定部53による判定処理へ移行する(ステップS33;YES)。
In the hard disk diagnostic process A1, first, the
判定部53は、ハードディスク24の規定回数分(X回)の応答時間からハードディスク24の平均応答時間を計算する(ステップS34)。また、判定部53は、記録部に記録されているハードディスク14の直近X回分の応答時間からハードディスク24の平均応答時間を計算する(ステップS35)。
The
判定部53は、ハードディスク14とハードディスク24の平均応答時間を比較する。ハードディスク24の平均応答時間の方が長く、かつ、その差が閾値を超えていた場合(ステップS36;YES)、判定部53は、ハードディスク24を異常ありと判定する(ステップS37)。この条件に当てはまらない場合には(ステップS36;NO)、ハードディスク24を異常なしと判定する。なお、ここで使用する閾値は、チェックC1における閾値と同様の閾値でも良いが、より正確な診断を行うために、チェックC1よりも小さい閾値を使用しても良い。
The
[効果]
第1実施形態の監視システム50によれば、同期された2つのサブシステムがそれぞれ備える記憶装置のうち、一方の記憶装置の性能低下による、業務処理への影響を回避することができる。その理由は、監視システム50において、処理部51が各記憶装置に対するIO要求を発行し、判定部53が、応答時間の差に基づいて記憶装置の異常傾向を判定し、同期制御手段が2つのサブシステムの同期を解除するためである。また、同期が解除されたサブシステムはそれぞれ独立して動作可能となり、処理部51は、異常傾向があると判定された記憶装置を備えるサブシステムにおいて、記憶装置の異常の有無の診断処理を行うためである。
[effect]
According to the
第1実施形態によれば、一方のハードディスクの性能低下によるFTサーバ1全体の性能低下、及び、業務処理への影響を回避することができる。その理由は、監視システム50が各ハードディスクのIO要求の応答時間を計測することで、性能低下の異常傾向を監視し、異常傾向が見られた場合には、FTサーバ1の同期を解除するためである。
According to the first embodiment, it is possible to avoid a performance drop in the entire FT server 1 and the impact on business processing due to a performance drop in one of the hard disks. This is because the
また、第1実施形態によれば、異常傾向が見られたハードディスクの診断を行うことで、本当にハードディスクに異常が発生しているか否かを確認することができ、ハードディスクの無駄な交換を避けることが可能となる。 In addition, according to the first embodiment, by diagnosing a hard disk that shows signs of abnormality, it is possible to confirm whether or not an abnormality has actually occurred in the hard disk, thereby making it possible to avoid unnecessary replacement of the hard disk.
さらに、業務側のシステムは業務に専念することができ、ハードディスク診断側のシステムでは業務に影響を与えることなくハードディスクのより詳細な診断を行うことが可能となる。その理由は、FTサーバ1の同期を解除して、独立して動作するシステム10とシステム20に分割しているためである。
Furthermore, the business system can concentrate on business, and the hard disk diagnostic system can perform more detailed diagnosis of the hard disk without affecting business. This is because FT Server 1 is desynchronized and divided into
[第2実施形態]
第1実施形態において、チェックC1の段階においてハードディスクに性能低下の異常傾向を検出すると、FTサーバ1の同期を解除する場合について説明した。これは、ハードディスクの性能低下が業務処理に支障をきたすことを回避することを優先するためである(性能優先モード)。
[Second embodiment]
In the first embodiment, a case has been described in which, if an abnormal trend of performance degradation in the hard disk is detected at the check C1 stage, synchronization of the FT server 1 is cancelled. This is because priority is given to preventing degradation of hard disk performance from interfering with business processing (performance priority mode).
第2実施形態において、CPU負荷やIO負荷などのシステム10及び20の負荷状況を監視しながら同期を解除する場合について説明する。第2実施形態において、監視システム50は、ハードディスクに性能低下の異常傾向を検出しても、システムの負荷が閾値よりも低く、業務処理に与える影響が軽微な状態であれば、FTサーバ1の同期は解除せずに、ハードディスクの診断を継続する。負荷が閾値を超えた場合にだけFTサーバ1の同期を解除することによって、FTサーバ1の同期状態を維持することを優先できる(同期優先モード)。
In the second embodiment, a case will be described in which synchronization is released while monitoring the load status of
[構成]
図8は、第2実施形態に係る監視システム50の構成を例示するブロック図である。図8において、監視システム50は、同期して動作可能な2つのサブシステムであるシステム10及びシステム20と、有線または無線により接続されている。なお、第2実施形態に係る監視システム50について、第1実施形態に係る監視システム50と同様の構成についてはその説明を省略する。第2実施形態に係る監視システム50は、記録部52を含み、負荷計測部55をさらに備える点で第1実施形態に係る監視システム50と異なる。
[composition]
Fig. 8 is a block diagram illustrating a configuration of a
負荷計測部55は、CPU負荷またはIO負荷などの、システム負荷を計測する。異常傾向が判定された際に、システム負荷が所定の閾値を超えない場合、同期制御部54は、サブシステムの同期を解除せず、処理部51は、同期されたサブシステムにおいて、記憶装置の診断処理を行う。システム負荷が所定の閾値を超えた場合、同期制御部54は、サブシステムの同期を解除する。
The
第2実施形態において、判定部53は、負荷計測部55における負荷状況を監視する。判定部53は、記憶装置に性能低下の異常傾向があり、かつ負荷が閾値を超えた場合に、どちらの記憶装置に異常傾向があるかの情報と共にサブシステムの同期解除が必要な旨の通知を同期制御部54へ送信する。
In the second embodiment, the
[動作]
図9から図11のフローチャート参照し、FTサーバ1を監視する場合の第2実施形態に係る処理フローを説明する。
[Action]
The process flow according to the second embodiment for monitoring the FT server 1 will be described with reference to the flowcharts of FIG. 9 to FIG.
図9は、第2実施形態に係る、性能低下の異常傾向のあるハードディスクを検出するための監視システム50の処理を示すフローチャートである。まず、処理部51は、FTサーバ1が同期状態で動作しているかを確認する。同期状態で動作していない場合(ステップS41;NO)、処理部51は、FTサーバ1が同期状態で動作していない旨のエラーを図示しない表示部に通知する(ステップS42)。同期状態で動作している場合(ステップS41;YES)、処理部51は、定期的にハードディスク14とハードディスク24にIOを発行して(ステップS43)、それぞれの応答時間を計測し記録部52に記録させる(ステップS44)。
Figure 9 is a flowchart showing the processing of the
判定部53は、各ハードディスクの応答時間の差が閾値を超えているか否かを監視する。ハードディスクの性能低下を監視するための閾値としては、第1実施形態と同様で良い。応答時間の差が閾値を超えている場合、判定部53は、片方のハードディスクに性能低下の異常傾向があることを検出する。
The
応答時間の差が閾値を超えていない場合(ステップS45;NO)、ステップS41に戻って同期状態の確認を行い、判定部53は次のIO発行を待つ。
If the difference in response time does not exceed the threshold (step S45; NO), the process returns to step S41 to check the synchronization state, and the
応答時間の差が閾値を超えていた場合(ステップS45;YES)、判定部53は、負荷が閾値を超えているか否かを監視する。監視対象の負荷は、CPU負荷、IO負荷など業務処理への影響度合いを監視するために必要な負荷を業務特性に応じて選択すれば良い。監視対象は1つであっても良いし、必要なものを組み合わせて監視対象としても良い。
If the difference in response time exceeds the threshold (step S45; YES), the
負荷が閾値を超えていた場合(ステップS46;YES)、判定部53はどちらのハードディスクの応答時間が長いのかの判定を行う。ハードディスク24の応答時間の方が長い場合(ステップS47;YES)、同期制御部54は、システム10を業務継続側、システム20をハードディスク診断側としてFTサーバ1の同期を解除する(ステップS48)。ハードディスク14の応答時間の方が長い場合(ステップS47;NO)、同期制御部54は、システム20を業務継続側、システム10をハードディスク診断側としてFTサーバ1の同期を解除する(ステップS49)。
If the load exceeds the threshold (step S46; YES), the
負荷が閾値を超えていない場合(ステップS46;NO)、FTサーバ1は同期状態のままハードディスク診断処理A2を実施する(ステップS50)。ハードディスク診断処理A2の結果、ハードディスクに異常ありと判定された場合(ステップS51;YES)、FTサーバ1は異常ハードディスクをミラーリングから切り離し、ハードディスクの交換が必要な旨のエラーを通知する(ステップS52)。なお、この際、FTサーバ1のCPUモジュールは同期状態を維持して動作している。また、CPUモジュール以外の必要なハードウェアコンポーネントも、同期状態を維持して動作していてもよい。 If the load does not exceed the threshold (step S46; NO), the FT server 1 performs the hard disk diagnostic process A2 while remaining in a synchronized state (step S50). If the result of the hard disk diagnostic process A2 indicates that there is an abnormality in the hard disk (step S51; YES), the FT server 1 separates the abnormal hard disk from the mirroring and notifies an error that the hard disk needs to be replaced (step S52). At this time, the CPU module of the FT server 1 operates while maintaining a synchronized state. Furthermore, necessary hardware components other than the CPU module may also operate while maintaining a synchronized state.
ハードディスク診断処理A2の結果、ハードディスクに異常なしと判定された場合(ステップS51;NO)、ステップS41に戻って同期状態の確認を行ってから、次のIO発行を待つ。 If the result of the hard disk diagnosis process A2 is that the hard disk is determined to be normal (step S51; NO), the process returns to step S41 to check the synchronization state and then waits for the next IO to be issued.
図10は、第2実施形態に係る診断処理(ハードディスク診断処理A2)を示すフローチャートである。ハードディスク診断処理A2は、どちらかのハードディスクに性能低下の異常傾向があると判定された場合に、偶発的な要因によるものなのか、本当に性能低下の異常が発生しているのかを確認するために行う。ハードディスク診断処理A2は、FTサーバ1が同期した状態で実施する。 Figure 10 is a flowchart showing the diagnostic process (hard disk diagnostic process A2) according to the second embodiment. The hard disk diagnostic process A2 is performed when it is determined that one of the hard disks has an abnormal tendency of performance degradation, in order to check whether this is due to accidental factors or whether an abnormality in performance degradation has actually occurred. The hard disk diagnostic process A2 is performed when the FT server 1 is synchronized.
ハードディスク診断処理A2では、まず、ハードディスク14とハードディスク24にIOを発行して応答時間を計測して記録する(ステップS61、S62)。次に、負荷が閾値を超えているか否かを監視する。
In the hard disk diagnostic process A2, first, IO is issued to the
負荷が閾値を超えていた場合(ステップS63;YES)、どちらのハードディスクの応答時間が長いのかの判定を行う。ハードディスク24の応答時間の方が長い場合(ステップS71;YES)、システム10を業務継続側、システム20をハードディスク診断側としてFTサーバ1の同期を解除する(ステップS72)。ハードディスク14の応答時間の方が長い場合(ステップS71;NO)、システム20を業務継続側、システム10をハードディスク診断側としてFTサーバ1の同期を解除する(ステップS73)。
If the load exceeds the threshold (step S63; YES), a determination is made as to which hard disk has a longer response time. If the response time of
負荷が閾値を超えていない場合(ステップS63;NO)、規定回数(X回)の計測が終わるまでこの処理を繰り返し(ステップS64;NO)、規定回数の計測を終了後に判定処理のステップへ移行する(ステップS64;YES)。 If the load does not exceed the threshold (step S63; NO), this process is repeated until the specified number of measurements (X times) is completed (step S64; NO), and after the specified number of measurements is completed, the process proceeds to the judgment process step (step S64; YES).
判定処理では、まず、ハードディスク14とハードディスク24の規定回数分(X回)の平均応答時間を計算する(ステップS65)。ハードディスク14とハードディスク24の平均応答時間を比較し、その差が閾値を超えていない場合(ステップS66;NO)、ハードディスクを異常なしと判定する(ステップS70)。
In the judgment process, first, the average response time of the
ハードディスク14とハードディスク24の平均応答時間を比較し、その差が閾値を超えていた場合(ステップS66;YES)、どちらのハードディスクの平均応答時間が長いかを比較し、ハードディスク14の平均応答時間が長ければ(ステップS67;NO)、ハードディスク14を異常ありと判定する(ステップS68)。ハードディスク24の平均応答時間が長ければ(ステップS67;YES)、ハードディスク24を異常ありと判定する(ステップS69)。
The average response times of
図11は、各ハードディスクの応答時間の差が閾値を超え、かつ、負荷が閾値を超えた場合に、FTサーバ1の同期を解除する際の、システム10とシステム20がそれぞれ実施する動作を示したフローチャートである。なお、ここでは、システム20側のハードディスク24に性能低下の異常傾向が検出された場合を例として説明する。
Figure 11 is a flowchart showing the operations performed by
まず、FTサーバ1のシステム10とシステム20は同期状態で動作している(ステップS81)。ハードディスク24に性能低下の異常傾向が検出され、負荷も閾値を超え、FTサーバ1の同期解除が必要な旨の通知を受信した際、FTコントローラ12からFTコントローラ22へ同期解除の指示を行う(ステップS82)。この指示により、FTサーバ1はそれぞれ独立して動作するシステム10とシステム20に分割される(ステップS86)。システム10は業務を継続し(ステップS83)、システム20では業務を中止する(ステップS87)。この際、システム10側では業務を継続するため、FTサーバ1の同期動作時に使用していたIPアドレスを継続して使用する。システム20側では別のIPアドレスを一時的に割り当てる。
First,
システム20では異常傾向が検出されたハードディスク24に対して、本当にハードディスクに異常があるか否かを確定させるためのハードディスク診断処理A1を実行する。ハードディスク診断処理A1の結果、ハードディスク24が異常なしと判定された場合(ステップS89;NO)、ハードディスクの診断処理が終了したことを、ネットワークを介してシステム10へ通知する(ステップS90)。通知を受信したシステム10は(ステップS84)、FTコントローラ12からFTコントローラ22へ同期の指示を行う(ステップS85)。システム20は同期の指示を受信し、業務処理を継続していたシステム10をベースとして同期を行う(ステップS91)。同期処理が完了すると、FTサーバ1は同期状態に復帰する(ステップS92)。
The
ハードディスク診断処理A1の結果、ハードディスク24に異常ありと判定された場合(ステップS89;YES)、FTサーバ1はハードディスクに異常があるため交換が必要な旨のエラーを通知する(ステップS93)。この際、異常と判定されたハードディスク24は同期不可の状態にして(ステップS94)、ハードディスクの診断処理が終了したことを、ネットワークを介してシステム10へ通知する(ステップS90)。通知を受信したシステム10は(ステップS84)、FTコントローラ12からFTコントローラ22へ同期の指示を行う(ステップS85)。システム20は同期の指示を受信し、業務処理を継続していたシステム10をベースとして同期を行う(ステップS91)。同期処理が完了すると、FTサーバ1のハードディスク以外のハードウェアコンポーネントが同期状態に復帰する。(ステップS92)。
If the result of the hard disk diagnostic process A1 is that the
[効果]
第2実施形態によれば、FTサーバ1の同期状態を優先したい場合にも、本開示を適用することができる。その理由は、FTサーバ1が、負荷が閾値を超えるまではFTサーバ1の同期を維持したままハードディスクの診断を行うためである。ハードディスクに異常ありと判定された場合は、当該ハードディスクだけがミラーリングから切り離される。
[effect]
According to the second embodiment, the present disclosure can also be applied when it is desired to give priority to the synchronization state of the FT server 1. The reason for this is that the FT server 1 performs a hard disk diagnosis while maintaining the synchronization of the FT server 1 until the load exceeds a threshold value. If it is determined that there is an abnormality in a hard disk, only that hard disk is separated from the mirroring.
第2実施形態において、負荷が閾値を超えた場合、FTサーバ1は、FTサーバ1の同期を解除してハードディスクの診断を行う。FTサーバ1は、診断によりハードディスクに異常ありと判定されたハードディスクは同期不可とし、その他のハードウェアコンポーネントを同期状態に復帰をさせる。 In the second embodiment, when the load exceeds a threshold, the FT server 1 cancels synchronization of the FT server 1 and diagnoses the hard disks. The FT server 1 makes the hard disks that are determined to have an abnormality by the diagnosis unsynchronizable, and returns the other hardware components to a synchronized state.
[ハードウェア構成]
上述した各実施形態において、監視システム50の各構成要素は、機能単位のブロックを示している。監視システム50の各構成要素の一部又は全部は、コンピュータ500とプログラムとの任意の組み合わせにより実現されてもよい。図12は、監視システム50のハードウェア構成の例を示すブロック図である。図12を参照すると、コンピュータ500は、例えば、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、プログラム504、記憶装置505、ドライブ装置507、通信インタフェース508、入力装置509、入出力インタフェース511、及び、バス512を含む。
[Hardware configuration]
In each of the above-described embodiments, each component of the
プログラム504は、監視システム50の各機能を実現するための命令(instruction)を含む。プログラム504は、予め、ROM502やRAM503、記憶装置505に格納される。CPU501は、プログラム504に含まれる命令を実行することにより、監視システム50の各機能を実現する。例えば、監視システム50のCPU501がプログラム504に含まれる命令を実行することにより、監視システム50の機能を実現する。また、RAM503は、監視システム50の各機能において処理されるデータを記憶してもよい。例えば、コンピュータ500のRAM503に、IO要求に対する応答時間を記憶してもよい。
The
ドライブ装置507は、記録媒体506の読み書きを行う。通信インタフェース508は、通信ネットワークとのインタフェースを提供する。入力装置509は、例えば、マウスやキーボード等であり、ユーザからの情報の入力を受け付ける。出力装置510は、例えば、ディスプレイであり、ユーザへ情報を出力(表示)する。入出力インタフェース511は、周辺機器とのインタフェースを提供する。バス512は、これらハードウェアの各構成要素を接続する。なお、プログラム504は、通信ネットワークを介してCPU501に供給されてもよいし、予め、記録媒体506に格納され、ドライブ装置507により読み出され、CPU501に供給されてもよい。例えば、コンピュータ500と上述の実施形態におけるサブシステムは、通信ネットワークを介して接続されてもよく、入出力インタフェース511を介して接続されてもよい。
The
なお、図12に示されているハードウェア構成は例示であり、これら以外の構成要素が追加されていてもよく、一部の構成要素を含まなくてもよい。 Note that the hardware configuration shown in FIG. 12 is an example, and other components may be added, or some components may not be included.
[変形例]
監視システム50の実現方法には、様々な変形例がある。監視システム50は、FTサーバ1の資源を用いて実現されてもよい。例えば、監視システム50のプログラムをハードディスク14、24のそれぞれに搭載してもよい。また、例えば、監視システム50は、構成要素毎にそれぞれ異なるコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。また、監視システム50が備える複数の構成要素が、一つのコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。
[Modification]
There are various modified examples of the method of realizing the
また、監視システム50の各構成要素の一部又は全部は、プロセッサ等を含む汎用又は専用の回路(circuitry)や、これらの組み合わせによって実現されてもよい。これらの回路は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。監視システム50の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
Furthermore, some or all of the components of the
また、監視システム50の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。
In addition, when some or all of the components of the
以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本開示のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。
Although the present disclosure has been described above with reference to the embodiments, the present disclosure is not limited to the above embodiments. Various modifications that can be understood by a person skilled in the art can be made to the configuration and details of the present disclosure within the scope of the present disclosure. Furthermore, the configurations in each embodiment can be combined with each other without departing from the scope of the present disclosure.
1 FTサーバ
10、20 サブシステム
11、21 CPUモジュール
12、22 FTコントローラ
13、23 IOモジュール
14、24 ハードディスク
50 監視システム
51 処理部
52 記録部
53 判定部
54 同期制御部
55 負荷計測部
REFERENCE SIGNS LIST 1
Claims (5)
同期して業務処理を行う前記第1及び第2のサブシステムがそれぞれ備える記憶装置に対してそれぞれIO(Input Output)要求を発行する処理手段と、
前記IO要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する判定手段と、
前記第1及び第2のサブシステムの負荷を計測する負荷計測手段と、
前記判定手段により前記異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記第1及び第2のサブシステムの同期を解除し、前記第1及び第2のサブシステムが独立して動作可能となるよう制御する同期制御手段と、を備え、
前記処理手段は、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記異常傾向があると判定された前記記憶装置を備える、同期が解除された第1または第2のいずれかの前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行い、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えない場合、前記第1及び第2のサブシステムが同期された状態で、前記診断処理を行う
監視システム。 A monitoring system for monitoring a fault-tolerant server having a first subsystem and a second subsystem, comprising:
a processing means for issuing an IO (Input Output) request to a storage device included in each of the first and second subsystems which perform business processing in synchronization with each other;
a determination means for determining an abnormal tendency of the storage device having a longer response time based on a difference in the response time to the I/O request;
a load measuring means for measuring a load of the first and second subsystems;
a synchronization control means for releasing the synchronization between the first and second subsystems and controlling the first and second subsystems to be able to operate independently when the load exceeds a predetermined threshold value when the determination means determines that there is an abnormal tendency,
The processing means includes:
When the load exceeds a predetermined threshold value when the abnormal tendency is determined, a diagnosis process is performed on the storage device in either the first or second subsystem, in which synchronization is released , the storage device being determined to have the abnormal tendency , to determine whether or not the storage device has an abnormality;
When the abnormal tendency is determined, if the load does not exceed a predetermined threshold, the first and second subsystems are synchronized and the diagnostic process is performed.
Surveillance system.
前記判定手段は、前記応答時間の差が閾値を超えている場合、前記負荷が所定の閾値を超えるかを判定するThe determining means determines whether the load exceeds a predetermined threshold value when the difference in the response times exceeds a threshold value.
請求項1に記載の監視システム。The monitoring system of claim 1 .
同期して業務処理を行う前記第1及び第2のサブシステムがそれぞれ備える記憶装置に対してそれぞれIO(Input Output)要求を発行し、
前記IO要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定し、
前記第1及び第2のサブシステムの負荷を計測し、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記第1及び第2のサブシステムの同期を解除し、前記第1及び第2のサブシステムが独立して動作可能となるよう制御し、前記異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行い、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えない場合、前記第1及び第2のサブシステムの同期を解除せず、前記第1及び第2のサブシステムが同期された状態で、前記診断処理を行う
監視方法。 1. A method for monitoring a fault-tolerant server having a first subsystem and a second subsystem, comprising:
issuing an IO (Input Output) request to a storage device provided in each of the first and second subsystems which perform business processing in synchronization with each other ;
determining an abnormal tendency of the storage device having a longer response time based on the difference in response time to the IO request;
Measuring loads on the first and second subsystems;
when the load exceeds a predetermined threshold when the abnormal tendency is determined, the synchronization of the first and second subsystems is released, and the first and second subsystems are controlled so as to be able to operate independently, and in the subsystem including the storage device determined to have the abnormal tendency, a diagnosis process is performed to determine whether or not there is an abnormality in the storage device;
When the load does not exceed a predetermined threshold value when the abnormal tendency is determined, the synchronization between the first and second subsystems is not released, and the diagnosis process is performed in a state in which the first and second subsystems are synchronized.
Monitoring methods.
同期して業務処理を行う前記第1及び第2のサブシステムがそれぞれ備える記憶装置に対してそれぞれIO(Input Output)要求を発行する処理と、
前記IO要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する処理と、
前記第1及び第2のサブシステムの負荷を計測する処理と、
異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記第1及び第2のサブシステムの同期を解除し、前記第1及び第2のサブシステムが独立して動作可能となるよう制御する処理と、
前記異常傾向があると判定された前記記憶装置を備える、同期が解除された第1または第2のいずれかの前記サブシステムにおいて、前記記憶装置の異常の有無を診断する診断処理と、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えない場合、前記第1及び第2のサブシステムの同期を解除せず、前記第1及び第2のサブシステムが同期された状態で、前記記憶装置の異常の有無を診断する診断処理と
をコンピュータに実行させるプログラム。 A program for monitoring a fault-tolerant server having a first subsystem and a second subsystem, comprising:
a process of issuing an IO (Input Output) request to a storage device included in each of the first and second subsystems which perform business processing in synchronization with each other;
A process of determining an abnormal tendency of the storage device having a longer response time based on a difference in the response time to the I/O request;
A process of measuring loads of the first and second subsystems;
a process of releasing synchronization between the first and second subsystems and controlling the first and second subsystems to be able to operate independently when the load exceeds a predetermined threshold when an abnormal trend is determined;
a diagnostic process for diagnosing whether or not there is an abnormality in the storage device in either the first or second subsystem in which synchronization has been released, the storage device being determined to have the abnormal tendency ;
a diagnostic process for diagnosing the presence or absence of an abnormality in the storage device while the first and second subsystems are in a synchronized state, without releasing the synchronization between the first and second subsystems if the load does not exceed a predetermined threshold when the abnormality tendency is determined;
A program that causes a computer to execute the following.
第2の記憶装置と、第2のCPUモジュールと、第2のFTコントローラとを有する、第2のサブシステムを備え、
同期して業務処理を行う前記第1及び第2のサブシステムがそれぞれ備える前記第1及び第2の記憶装置は、それぞれ、監視システムから発行されたIO(Input Output)要求に対して応答し、
前記IO要求に対する応答時間の差に基づいて、前記第1の記憶装置の異常傾向が判定され、かつ、前記第1及び第2のサブシステムの負荷が所定の閾値を超えた場合、前記第1のFTコントローラは、前記第1及び第2のサブシステムの同期の解除を制御し、同期が解除された前記第1のサブシステムにおいて、前記第1の記憶装置の異常の診断が行われ、
前記IO要求に対する応答時間の差に基づいて、前記第1の記憶装置の異常傾向が判定され、かつ、前記第1及び第2のサブシステムの負荷が所定の閾値を超えない場合、前記第1及び第2のサブシステムが同期した状態で前記第1の記憶装置の異常の診断が行われる
フォールトトレラントサーバ。 a first subsystem having a first storage device, a first CPU module, and a first FT ( Fault Tolerant ) controller;
a second subsystem having a second storage device, a second CPU module, and a second FT controller;
the first and second storage devices respectively included in the first and second subsystems which perform business processing in synchronization with each other respond to an IO (Input Output) request issued from a monitoring system;
an abnormality tendency of the first storage device is determined based on the difference in response time to the I/O request , and when the load of the first and second subsystems exceeds a predetermined threshold , the first FT controller controls the release of synchronization of the first and second subsystems, and a diagnosis of an abnormality of the first storage device is performed in the first subsystem from which synchronization has been released ;
An abnormal tendency of the first storage device is determined based on the difference in response time to the I/O request, and if the load of the first and second subsystems does not exceed a predetermined threshold, a diagnosis of an abnormality of the first storage device is performed in a state in which the first and second subsystems are synchronized.
Fault-tolerant servers.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020141150A JP7585659B2 (en) | 2020-08-24 | 2020-08-24 | Monitoring system, monitoring method, program, and fault-tolerant server |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020141150A JP7585659B2 (en) | 2020-08-24 | 2020-08-24 | Monitoring system, monitoring method, program, and fault-tolerant server |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022036778A JP2022036778A (en) | 2022-03-08 |
| JP7585659B2 true JP7585659B2 (en) | 2024-11-19 |
Family
ID=80493641
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020141150A Active JP7585659B2 (en) | 2020-08-24 | 2020-08-24 | Monitoring system, monitoring method, program, and fault-tolerant server |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7585659B2 (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013178713A (en) | 2012-02-29 | 2013-09-09 | Toyota Motor Corp | Information processing device, program, and verification method |
| JP2013206052A (en) | 2012-03-28 | 2013-10-07 | Nec Corp | Backup method in fault tolerant server |
| JP2016115239A (en) | 2014-12-17 | 2016-06-23 | 日本電気株式会社 | Fault tolerant system, fault tolerant method, and program |
| JP2017146833A (en) | 2016-02-18 | 2017-08-24 | 日本電気株式会社 | Monitoring device, fault tolerant system, and method |
| JP2017167729A (en) | 2016-03-15 | 2017-09-21 | 日本電気株式会社 | Monitoring device, monitoring method, and monitoring program |
| JP2019053486A (en) | 2017-09-14 | 2019-04-04 | Necプラットフォームズ株式会社 | Malfunction sign detecting device, malfunction sign detecting method, and, malfunction sign detecting program |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3184171B2 (en) * | 1998-02-26 | 2001-07-09 | 日本電気株式会社 | DISK ARRAY DEVICE, ERROR CONTROL METHOD THEREOF, AND RECORDING MEDIUM RECORDING THE CONTROL PROGRAM |
-
2020
- 2020-08-24 JP JP2020141150A patent/JP7585659B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013178713A (en) | 2012-02-29 | 2013-09-09 | Toyota Motor Corp | Information processing device, program, and verification method |
| JP2013206052A (en) | 2012-03-28 | 2013-10-07 | Nec Corp | Backup method in fault tolerant server |
| JP2016115239A (en) | 2014-12-17 | 2016-06-23 | 日本電気株式会社 | Fault tolerant system, fault tolerant method, and program |
| JP2017146833A (en) | 2016-02-18 | 2017-08-24 | 日本電気株式会社 | Monitoring device, fault tolerant system, and method |
| JP2017167729A (en) | 2016-03-15 | 2017-09-21 | 日本電気株式会社 | Monitoring device, monitoring method, and monitoring program |
| JP2019053486A (en) | 2017-09-14 | 2019-04-04 | Necプラットフォームズ株式会社 | Malfunction sign detecting device, malfunction sign detecting method, and, malfunction sign detecting program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022036778A (en) | 2022-03-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4330547B2 (en) | Information processing system control method, information processing system, information processing system control program, and redundant configuration control device | |
| JP6996602B1 (en) | BMC, server system, device stability determination method and program | |
| JP5296878B2 (en) | Method, apparatus, and program for use in a computerized storage system that includes one or more replaceable units to manage testing of one or more replacement units (to manage testing of replacement units) Computerized storage system with replaceable units) | |
| JP2013196274A (en) | Node device for multi-node storage system and processing speed management method | |
| JP2005196490A (en) | System and method for data multiplexing | |
| US20030177224A1 (en) | Clustered/fail-over remote hardware management system | |
| US9116859B2 (en) | Disk array system having a plurality of chassis and path connection method | |
| JP7585659B2 (en) | Monitoring system, monitoring method, program, and fault-tolerant server | |
| JP2001154929A (en) | Management method and system for substituting path system | |
| WO2021043246A1 (en) | Data reading method and apparatus | |
| CN111190781A (en) | Test self-check method of server system | |
| JPH09274575A (en) | Integrated system management method | |
| JP2007299213A (en) | RAID control apparatus and fault monitoring method | |
| JP2023067014A (en) | Determination program, determination method, and information processing apparatus | |
| KR20170133786A (en) | SAS Data converting system having a plurality of RAID controllers | |
| JP7693881B1 (en) | CONTROL DEVICE, INFORMATION PROCESSING ... SYSTEM, AND CONTROL METHOD | |
| JP2007028118A (en) | Node device failure judgment method | |
| JP2872113B2 (en) | Micro diagnostic system for information processing equipment | |
| JP2001175545A (en) | Server system, fault diagnosing method, and recording medium | |
| JP3691316B2 (en) | Apparatus and method for determining operation mode when abnormality is detected | |
| JP2004021608A (en) | Trouble detection system and method for duplex server | |
| KR100604552B1 (en) | System failure response method through sharing state information and control command in cluster system | |
| US7779203B2 (en) | RAID blocking determining method, RAID apparatus, controller module, and recording medium | |
| JP2025125788A (en) | Storage control device, information processing system, control method of storage control device, and program | |
| CN121277764A (en) | Redundancy arbitration architecture of computer system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211019 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230714 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240313 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240409 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240605 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241008 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241021 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7585659 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |