JP4456082B2 - Failure prediction system and failure prediction program - Google Patents
Failure prediction system and failure prediction program Download PDFInfo
- Publication number
- JP4456082B2 JP4456082B2 JP2006017158A JP2006017158A JP4456082B2 JP 4456082 B2 JP4456082 B2 JP 4456082B2 JP 2006017158 A JP2006017158 A JP 2006017158A JP 2006017158 A JP2006017158 A JP 2006017158A JP 4456082 B2 JP4456082 B2 JP 4456082B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- phenomenon
- time
- probability
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は、コンピュータシステムにおける障害の発生を予知することができる障害予知システム及び障害予知プログラムに係り、特に接続するクライアントが多数なコンピュータシステムにおけるサービスシステムの障害発生の確率を効率良く算出し、予防的に障害発生の高確率時刻を担当者/関係者に通知することができる障害予知システム及び障害予知プログラムに関する。 The present invention relates to a failure prediction system and a failure prediction program that can predict the occurrence of a failure in a computer system, and in particular, efficiently calculates the probability of occurrence of a failure in a service system in a computer system with a large number of connected clients, and prevents the failure. In particular, the present invention relates to a failure prediction system and a failure prediction program capable of notifying a person in charge / related person of a high probability of occurrence of a failure.
一般に多数のクライアントと接続し、ASP(Application Service Provider)サービスなどのシステムサービスを提供するコンピュータシステムにおいては、リソースへの負荷の増大/ハードウェア障害/定常・臨時作業時のヒューマンエラーなどにより、予期せぬ障害が発生し、システムサービスが停止することが知られている。従来技術によるコンピュータシステムによる障害対応は、このような障害発生後に、障害が発生した部位に応じて担当部署やベンダを召集することが行われていた。 In general, computer systems that connect to a large number of clients and provide system services such as ASP (Application Service Provider) services are expected due to increased load on resources / hardware failures / human errors during routine / temporary work. It is known that an unexpected failure occurs and the system service stops. In the case of a failure response by a computer system according to the prior art, after such a failure occurs, a responsible department or vendor is summoned according to the part where the failure has occurred.
このような障害発生時の対応のための技術として、従来技術においては、監視システムのSNMP(標準化されたTCP/IPネットワーク環境での管理プロトコル)やICMP(TCP/IPプロトコルにおいて、その機能を補助するために用意された制御用のプロトコル)を用いて稼働状況を常時監視し、ある閾値を越えたとき又はノードの生死監視を行い、ICMPパケットが返って来なかったときに担当者に連絡するなどで対応しているが、この監視方式では、障害部位担当者が対応開始(かけつける)する前に障害が発生してしまう可能性が大きいと言う不具合があった。 As a technology for dealing with such a failure, the conventional technology supports the functions of the monitoring system SNMP (standardized management protocol in TCP / IP network environment) and ICMP (TCP / IP protocol). The operation status is constantly monitored using a control protocol prepared to perform monitoring, and when a certain threshold is exceeded or the node is monitored for life or death, the person in charge is notified when no ICMP packet is returned. In this monitoring method, however, there is a problem that there is a high possibility that a failure will occur before the person in charge of the failure site starts (applies).
また、コンピュータに動作状況に関連した障害を判断する手段と回避方法に基づく動作処理を行う障害回避手段とを設けることにより、障害の発生を未然に検知し、発生しうる障害に対する処置を自動的に行う技術が下記特許文献に記載されている。
前述の従来技術は、CPUやメモリなどのリソース及び動作プロセスを監視し、その推移からクライアントの障害を予知する技術のため、作業時のヒューマンエラーによる障害や、ディスク破壊/ファイル破壊などの予期できない要因の障害の予知ができないと言う不具合があった。 The above-described conventional technology is a technology for monitoring resources and operation processes such as CPU and memory and predicting a client failure based on the transition, so that it is not possible to predict a failure due to a human error during operation or disk / file destruction. There was a problem that the failure of the factor could not be predicted.
本発明の目的は、前述の従来技術による不具合を除去することであり、コンピュータシステムにおける障害発生の高くなる日時を未然に推測し、予防保守や担当者の人員配置などを効率よく行えることができる障害予知システム及びプログラムを提供することである。 An object of the present invention is to eliminate the above-described problems caused by the prior art, and it is possible to estimate the date and time when the occurrence of a failure in a computer system becomes high, and to efficiently perform preventive maintenance, personnel assignment of a person in charge, etc. It is to provide a failure prediction system and program.
前記目的を達成するために本発明は、複数のクライアントに接続されたコンピュータシステムの障害発生の予知を行う障害予知システムであって、
過去に発生した複数の障害毎に、障害による現象を障害現象タイプ別に区分した現象区分と、障害が発生した要因を障害要因タイプ別に区分した要因区分と、該現象区分及び要因区分が区分された障害により発生した不稼働時間とを含む標本データを格納する障害情報データベースと、
該障害情報データベースに格納した現象区分及び要因区分が区分された障害の発生時刻から復旧時刻までの時間である不稼働時間と、現象区分及び要因区分が同一の複数の障害による不稼働時間の総和を総不稼働時間として算出し、該総不稼働時間を用いて同一の現象区分及び要因区分が区分された障害が発生する障害発生確率を算出する障害予知機能部と、
該障害予知機能部が計算を行う際の時間変数kを設定するパラメータ設定ファイルと、
前記障害予知機能部が算出した、同一の現象区分及び要因区分の障害により発生する障害発生確率を含む障害予知データを、格納する障害予知データベースと、
該障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたとき、予め設定された宛先に通知する障害発生高確率通知機能部とを備え、
前記障害予知機能部が、時間変数をk、過去の任意の日時から現在までの時間をX、総不稼動時間をx、線形確率をP’としたとき、線形確率P’を、時間変数kを「k+1」により増加させながら計算式「100×(x+k)/X」により変数kが所定値になるまで算出し、該算出した線形確率P’の変位を関数tanhを用いて障害発生確率の最大値が100%未満になるようにtanh関数適用処理を実行することにより、時間変数kが所定値に達するまでの障害発生確率を算出することを第1の特徴とする。
To achieve the above object, the present invention is a failure prediction system for predicting the occurrence of a failure in a computer system connected to a plurality of clients,
For each of a plurality of failures that occurred in the past, a phenomenon category in which the failure phenomenon is classified by failure phenomenon type, a factor category in which the cause of the failure is classified by failure factor type, and the phenomenon category and factor category are classified. A failure information database that stores sample data including downtime caused by a failure;
Time and downtime is from the time of occurrence of disorder symptoms section and cause division stored in the fault information database is divided up recovery time, the downtime caused by phenomena section and cause indicator same multiple failure calculated sum as the total downtime, and failure prediction function unit for calculating the failure probability of failure same phenomenon classification and cause division are divided to generate using said total downtime,
A parameter setting file in which the failure prediction function unit sets a variable k between the time when performing the calculation,
A failure prediction database for storing failure prediction data calculated by the failure prediction function unit and including failure occurrence probability caused by failures of the same phenomenon category and factor category;
A failure occurrence high probability notification function unit for notifying a preset destination when the failure occurrence probability of the failure prediction data stored in the failure prediction database exceeds a preset threshold;
The failure prediction function unit, k the time variable, the time from the past of any of the date and time up to the current X, 'when it was, linear probability P' the total non-operating time x, the linear probability P, and time change While the number k is increased by “k + 1”, the calculation formula “100 × (x + k) / X” is used until the variable k reaches a predetermined value, and the displacement of the calculated linear probability P ′ is generated using the function tanh. The first feature is to calculate the failure occurrence probability until the time variable k reaches a predetermined value by executing the tanh function application process so that the maximum value of the probability is less than 100%.
また本発明は、前記障害予知システムにおいて、前記障害による現象を障害現象タイプ別に区分した現象区分を格納する現象区分マスタと、前記障害が発生した要因を障害要因タイプ別に区分した要因区分を格納する要因区分マスタとを設け、前記障害予知データベースに、前記現象区分マスタ及び要因区分マスタに格納した全ての現象区分及び要因区分の組み合わせによる総不稼働時間を格納することを第2の特徴とする。 According to the present invention, in the failure prediction system, a phenomenon category master for storing a phenomenon category in which a phenomenon caused by the failure is classified according to a failure phenomenon type, and a factor category in which the cause of the failure is classified according to a failure factor type are stored. It provided the source segment master, the fault prediction database, the second, characterized in that storing the phenomenon classification master and total downtime due to a combination of all phenomena section and cause division stored in the cause division master.
更に本発明は、過去に発生した複数の障害毎に、障害による現象を障害現象タイプ別に区分した現象区分と、障害が発生した要因を障害要因タイプ別に区分した要因区分と、該現象区分及び要因区分が区分された障害により発生した不稼働時間とを含む標本データを格納する障害情報データベースと、
該障害情報データベースに格納した現象区分及び要因区分が区分された障害の発生時刻から復旧時刻までの時間である不稼働時間と、現象区分及び要因区分が同一の複数の障害による不稼働時間の総和を総不稼働時間として算出し、該総不稼働時間を用いて同一の現象区分及び要因区分が区分された障害が発生する障害発生確率を算出する障害予知機能部と、
該障害予知機能部が計算を行う際の時間変数kを設定するパラメータ設定ファイルと、
前記障害予知機能部が算出した、同一の現象区分及び要因区分の障害により発生する障害発生確率を含む障害予知データを、格納する障害予知データベースと、
該障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたとき、予め設定された宛先に通知する障害発生高確率通知機能部とを備え、複数のクライアントに接続されたコンピュータシステムの障害発生の予知を行う障害予知システムの障害予知プログラムであって、
前記障害予知機能部に、時間変数をk、過去の任意の日時から現在までの時間をX、総不稼動時間をx、線形確率をP’としたとき、線形確率P’を、時間変数kを「k+1」により増加させながら計算式「100×(x+k)/X」により変数kが所定値になるまで算出し、該算出した線形確率P’の変位を関数tanhを用いて障害発生確率の最大値が100%未満になるようにtanh関数適用処理を実行することにより、時間変数kが所定値に達するまでの障害発生確率を算出させる機能を実現させることを第3の特徴とする。
Further, the present invention provides a phenomenon classification in which a phenomenon caused by a failure is classified according to a failure phenomenon type for each of a plurality of failures that have occurred in the past, a factor classification in which a cause of the failure is classified according to a failure factor type, the phenomenon classification and the factor A failure information database for storing sample data including the downtime caused by the failure in which the division is classified ;
Time and downtime is from the time of occurrence of disorder symptoms section and cause division stored in the fault information database is divided up recovery time, the downtime caused by phenomena section and cause indicator same multiple failure calculated sum as the total downtime, and failure prediction function unit for calculating the failure probability of failure same phenomenon classification and cause division are divided to generate using said total downtime,
A parameter setting file in which the failure prediction function unit sets a variable k between the time when performing the calculation,
The failure prediction function unit is calculated, the failure prediction database fault prediction data, and stores including failure occurrence probability caused by failure of the same phenomenon classification and factors division,
When the failure occurrence probability of the failure prediction data stored in the failure prediction database exceeds a preset threshold, the failure occurrence high probability notification function unit for notifying a preset destination is provided and connected to a plurality of clients. A failure prediction program for a failure prediction system for predicting the occurrence of a failure in a computer system,
In the failure prediction function unit, when the time variable is k, the time from any past date to the present is X, the total downtime is x, and the linear probability is P ′, the linear probability P ′ is the time variable k. Is increased by “k + 1” and is calculated until the variable k reaches a predetermined value by the calculation formula “100 × (x + k) / X”, and the displacement of the calculated linear probability P ′ is calculated using the function tanh . A third feature is to realize a function of calculating a failure occurrence probability until the time variable k reaches a predetermined value by executing the tanh function application process so that the maximum value is less than 100%.
また本発明は、前記障害予知システムにおいて、前記障害による現象を障害現象タイプ別に区分した現象区分を格納する現象区分マスタと、前記障害が発生した要因を障害要因タイプ別に区分した要因区分を格納する要因区分マスタとを設け、前記障害予知データベースに、前記現象区分マスタ及び要因区分マスタに格納した全ての現象区分及び要因区分の組み合わせによる総不稼働時間を格納することを第4の特徴とする。
According to the present invention, in the failure prediction system, a phenomenon category master for storing a phenomenon category in which a phenomenon caused by the failure is classified according to a failure phenomenon type, and a factor category in which the cause of the failure is classified according to a failure factor type are stored. According to a fourth feature of the present invention, there is provided a factor category master, and the failure prediction database stores a total downtime by a combination of all the phenomenon categories and factor categories stored in the phenomenon category master and the factor category master .
本発明による障害予知システム及び障害予知方法は、障害予知機能部が、障害情報データベースに格納された現象区分と要因区分の組み合わせによる不稼働時間とを基に、前記総不稼働時間を算出し、該現象区分と要因区分の組み合わせと総不稼働時間とを基に線形確率計算を用い、未来における障害が発生する現象区分と要因区分の組み合わせと該組み合わせによる障害が発生する年月日及び障害発生確率を算出する機能を実現させると共に、障害発生高確率通知機能部に、障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたとき、予め設定された宛先に通知する機能を実現させることによって、将来発生する確率が高い障害を予知することができる。特に本発明においては、過去に発生した障害の発生現象と発生要因の組み合わせを基に、該組み合わせに対応した障害による総不稼働時間を算出し、総不稼働時間が大きい前記組み合わせが障害の発生確率が大きいと線形確率計算を行うことによって、将来発生する確率が高い現象及び要因の障害を予知することができる。 In the failure prediction system and the failure prediction method according to the present invention, the failure prediction function unit calculates the total downtime based on the downtime due to the combination of the phenomenon category and the factor category stored in the fault information database, Using linear probability calculation based on the combination of the phenomenon category and the factor category and the total downtime, the combination of the phenomenon category and the factor category where the failure will occur in the future, the date on which the failure occurs due to the combination, and the occurrence of the failure A function for calculating the probability is realized, and the failure occurrence probability of the failure prediction data stored in the failure prediction database is notified to a preset destination when the failure occurrence probability exceeds a preset threshold. By realizing the function, it is possible to predict a failure having a high probability of occurring in the future. In particular, in the present invention, based on a combination of a failure occurrence phenomenon and an occurrence factor that occurred in the past, a total downtime due to a failure corresponding to the combination is calculated, and the combination with a large total downtime is a failure occurrence. If the probability is large, a linear probability calculation can be performed to predict a phenomenon and a failure of a factor that are likely to occur in the future.
以下、本発明による障害予知システム及びプログラムの一実施形態を図面を参照して詳細に説明する。図1は、本発明の第1の実施形態による障害予知プログラムが適用される障害予知システムの構成図、図2は、本実施形態による障害予知機能及び障害発生高確率通知機能の第1の処理動作例を示すフローチャート、図3は、本実施形態によるシステム時刻取得処理の詳細動作を示すフローチャート、図4は、本実施形態による時間数計算処理の詳細動作を示すフローチャート、図5は、本実施形態による現象/要因区分の組み合わせ取得処理の詳細動作を示すフローチャート、図6は、本実施形態による当該現象/要因障害の不稼働時間総和計算処理の概念を示す図、図7は、本実施形態による当該現象/要因障害の不稼働時間総和計算処理の詳細動作を示すフローチャート、図8は、本実施形態による未来Nまでの線形確率計算処理の詳細動作を示すフローチャート、図9は本実施形態によるtanh関数適用処理のtanh関数のグラフ、図10は、本実施形態によるtanh関数適用処理の詳細動作を示すフローチャート、図11は、本実施形態による障害発生高確率通知処理及び通知フラグ=1処理の詳細動作を示すフローチャート、図12は、本実施形態による障害予知データベースの構成及びサンプルデータを示す図、図13は、本実施形態による障害情報データベースの構成及びサンプルデータを示す図、図14は、本実施形態による現象区分マスタの構成及びサンプルデータを示す図、図15は、本実施形態による要因区分マスタの構成及びサンプルデータを示す図、図16は、本実施形態によるパラメータ設定ファイルの構成及びサンプルデータを示す図、図17は、本実施形態によるワークデータベースの構成及びサンプルデータを示す図、図18は、本実施形態によるワークデータベースの構成及びサンプルデータを示す図、図19は、本実施形態による線形確率データの構成及びサンプルデータを示す図である。
<全体構成の説明>
Hereinafter, an embodiment of a failure prediction system and a program according to the present invention will be described in detail with reference to the drawings. FIG. 1 is a configuration diagram of a failure prediction system to which a failure prediction program according to a first embodiment of the present invention is applied. FIG. 2 is a first process of a failure prediction function and a failure occurrence high probability notification function according to this embodiment. FIG. 3 is a flowchart showing the detailed operation of the system time acquisition process according to the present embodiment, FIG. 4 is a flowchart showing the detailed operation of the time number calculation process according to the present embodiment, and FIG. 6 is a flowchart showing the detailed operation of the phenomenon / factor category combination acquisition processing according to the form, FIG. 6 is a diagram showing the concept of the total downtime calculation processing of the phenomenon / factor failure according to the present embodiment, and FIG. 7 is the present embodiment. FIG. 8 is a flow chart showing the detailed operation of the uptime calculation processing for the phenomenon / cause failure according to the present embodiment, and FIG. 8 shows the details of the linear probability calculation processing up to the future N according to this embodiment. FIG. 9 is a graph of the tanh function of the tanh function application process according to this embodiment, FIG. 10 is a flowchart showing the detailed operation of the tanh function application process according to this embodiment, and FIG. 11 is a failure according to this embodiment. FIG. 12 is a diagram showing the configuration and sample data of the failure prediction database according to the present embodiment, and FIG. 13 is a diagram of the failure information database according to the present embodiment. FIG. 14 is a diagram illustrating the configuration and sample data of the phenomenon classification master according to the present embodiment, FIG. 15 is a diagram illustrating the configuration and sample data of the factor classification master according to the present embodiment, and FIG. The figure which shows the structure of a parameter setting file by this embodiment, and
<Description of overall configuration>
本実施形態による障害予知プログラムが適用される障害予知システム101は、図1に示す如く、他のコンピュータシステムからの障害情報を収集した障害情報システム112を介して障害情報を標本データとして格納する障害情報データベース(DB)111から該標本データを入力する障害予知機能部102と、該障害予知機能102によって作成した障害予知情報を格納する障害予知データベース(DB)104と、前記障害予知機能102からの報告を受け、該当の担当者や関係者に障害予知情報を通知する障害発生高確率通知機能部103と、過去に発生した障害の現象を現象区分して格納する現象区分マスタ105と、過去に発生した障害の要因(原因)を発生要因区分して格納する要因区分マスタ106と、前記現象区分マスタ105及び要因区分マスタ106に格納した現象情報及び発生要因情報を解析するための閾値であるパラメータを設定するためのパラメータ設定ファイル107と、後述するワークデータベース(DB)108及びワークデータベース(DB)109と、前記現象区分マスタ105に格納した各種データを参照して障害が発生する確率を算出するための線形確率データを格納するための線形確率データベース(DB)110とから構成される。
The
前記障害情報DB111は、図13に示す如く、過去の障害情報を標本データを格納するものであって、例えば、「障害番号」「影響会員コード」「案件名」「発生日時」「復旧日時」「不稼働時間」「現象区分」「要因区分」「作業区分」「現象詳細」「要因詳細」「対応」「再発防止策」の各項目を、例えば、障害番号「00000001」の障害が、影響会員コード「JPNGX0001」の会員において、案件名「プログラムバク」が2002年08月10日23時30分に発生し、2002年08月11日01時10分に復旧し、この不稼働時間が「1時間」、現象区分が「0001」、要因区分が「0004」、作業区分が「0000021912」、現象詳細が「受注データ件数誤り」、要因詳細が「仕様確認不足」、対応が「元に戻した」、再発防止策が「仕様レビュー」であったことを格納している。
As shown in FIG. 13, the
この様に本実施形態による障害情報DB111は、過去に発生した複数の障害について、障害による現象を障害現象タイプ別に区分した「現象区分」と、障害が発生した要因を障害要因タイプ別に区分した「要因区分」と、障害により発生したシステムの停止時間を「不稼働時間」と、障害の「発生時刻」等をデータベース化して格納するものである。
As described above, the
前記障害予知DB104は、将来予知される障害予知情報を格納するものであって、図12に示す如く、予知された障害が発生する「年月日時分秒」、「現象区分」、「要因区分」、「障害発生確率」の各項目を、例えば、2005年01月01日の00時00分00秒に、現象区分が「0001」且つ要因区分が「0001」の障害が、障害発生確率「10%」で発生するとの障害予知情報を格納する。このように本実施形態における障害予知DB104は、前記障害情報DB111に格納された過去の障害事例に基づき、後述する予測処理を行い、この結果である予知された年月日/現象区分/要因区分/障害発生確率を格納するものである。尚、本実施形態における前記障害発生確率を得るための線形確率とは、統計学における一般化線形モデル(数値変数である反応変数を数値変換或いは因子変量の説明変数の線形結合で予測するモデル)が好ましいが、これに限られるものではない。
The
前記現象区分マスタ105は、発生する障害の現象を「現象区分」と「現象名」とを対応して現象タイプ別に区分したものであって、図14に示す如く、例えば現象区分「0001」は現象名が「システムダウン」、現象区分「0005」は現象名が「ファイル破壊」、現象区分「0008」は現象名が「セキュリティ不備」として格納している。
The
前記要因区分マスタ106は、発生する障害の要因を「要因区分」と「要因名」とを対応して要因タイプ別に区分したものであって、図15に示す如く、例えば要因区分「0001」は要因名が「センタハード障害」、要因区分「0005」は要因名が「外部攻撃による障害」、要因区分「0008」は現象名が「通信回線障害」として格納している。
The
前記パラメータ設定ファイル107は、現象情報及び発生要因情報を解析するためのパラメータ(閾値)及び通知先を設定したものであって、図16に示す如く、処理起動や計算単位の時間を設定する「単位時間」と、標本対象データとなる過去の年数を設定する「過去M年」と、確率計算を行う未来の年数を設定する「未来N年」と、確率計算を行い、通知すべき危険と判断される確率の閾値を設定する「障害確率危険域閾値」と、メールあて先を設定する「通知あて先メールアドレス」の各項目を、例えば、単位時間を「1秒」としたとき、過去10年の標本データを基に未来5年間において、障害確率危険域閾値が60%以上のときにhitachi@dokono.ne.jp他宛にメールを送信することを格納している。
The
前記ワークデータベース108は、図17に示す如く、「現象区分」と「要因区分」の対応付けを格納したものであって、例えば現象区分「0001」に対して複数の要因区分「0001」〜「0003」が対応していることを格納し、前記ワークデータベース109は、図18に示す如く、「障害番号」/「現象区分」/「要因区分」/「不稼働時間」の対応付けを格納したものであって、例えば、障害番号「001928372」の現象区分が「0001」、要因区分が「0004」、不稼働時間が「1」時間であることを格納している。
As shown in FIG. 17, the
前記線形確率データベース110は、「現象区分」と「要因区分」と「経過時間」の組み合わせによる「線形確率」を格納したものであって、図19に示す如く、例えば、現象区分「0001」且つ要因区分が「0001」且つ経過時間が「1」時間の障害に対する線形確率が「2%」である旨、現象区分「0001」且つ要因区分が「0001」且つ経過時間が「8」時間の障害に対する線形確率が「6%」である旨を登録しているものである。
The
前記障害情報システム112は、障害が発生した際、その障害の発生日時/復旧日時/現象区分/要因区分/不稼働時間/その他障害詳細情報/障害対応担当責任者を入力し、過去の障害情報を標本データを障害情報DB111に格納・更新するものである。
When a failure occurs, the
更に前記障害予知機能部102は、毎時間(時間単位[時刻、分、秒]は可変であり、この時間単位はパラメータ設定ファイル107に設定)毎に起動され、前記障害発生日時他の障害情報の標本データの更新を行う機能と、パラメータ設定ファイル107に設定された過去M年分の障害情報DB111に格納された標本データを入力とし、該パラメータ設定ファイル107に設定された未来N年までの毎時間の障害発生確率を、現象区分マスタ105/要因区分マスタ106/ワークDB108/ワークDB109/線形確率データベース110を参照して予想される障害予知情報を計算して障害予知DB104を更新するように動作する機能と、前記計算の途中において、障害予知情報の障害発生確率が、パラメータ設定ファイル107に設定された閾値(例えば60%)を越えた場合、その予知日時/現象区分/要因区分とパラメータ設定ファイル107に設定されたメールアドレス一覧とを障害発生高確率通知機能部103に通知する機能とを有する。
Further, the failure
前記障害発生高確率通知機能部103は、障害予知機能102から受け取った障害予知情報の予知日時/現象区分/要因区分を、メールアドレス一覧の担当者/関係者113宛てに電子メールにて通知する機能を有する。
The failure occurrence high probability
このように本実施形態による障害予知システム101は、過去に発生した障害情報を障害情報システム112から得、その障害情報をパラメータ設定ファイル107に設定したパラメータに従って解析し、現象区分情報及び障害要因区分として区分マスタ105及び106に登録しておき、障害予知機能102が、未来N年までの毎時間の障害発生確率が、パラメータ設定ファイル107に設定された閾値を越えたときに、障害発生高確率通知機能部103が、その予知日時/現象区分/要因区分とを担当者等に通知することによって、予め予想される障害を担当者に通知することができ、従って予防処置等を効率的に行うことができる。
<詳細動作>
As described above, the
<Detailed operation>
<定義等>
次に障害予知機能102及び障害発生高確率通知機能部103の動作を図2を参照して詳細に説明するが、まず、変数等の定義を次のように設定する。
(1)過去M年の障害実績データから未来N年先までのΔt(時、分、秒)単位の障害発生確率を計算する。
(2)現(処理起動)時点の時刻:t(YYYY/MM/DD HH:MM:SSなどΔt単位)。
(3)過去M年〜tまでの時間数:X(Δt)
(4)t〜未来N年までの時間数:Y(Δt)
(5)当該(カレント)現象区分、要因区分の不稼働時間の総和:x(Δt)
(6)当該(カレント)現象区分、要因区分の障害の不稼働時間 τ1,τ2,τ3,・・・τn(Δt)
尚、前提条件として、当該現象/要因の障害が、過去(M年前〜現在)にn回(0≦n<∞)あったとし、障害情報DB104は影響顧客コードまで主キーとなっているため障害番号でグループ化(不稼働時間の最も大きなレコードを採用)する。
(7)当該(カレント)現象区分:PHENOME(I)
(8)当該(カレント)要因区分:FACTOR(J)
(9)障害確率閾値:K(%)
<予知→通知動作概略>
<Definition etc.>
Next, operations of the
(1) The failure occurrence probability in units of Δt (hours, minutes, seconds) from the failure record data in the past M years to the future N years ahead is calculated.
(2) Time at present (processing start-up): t (Yt, YYYY / MM / DD HH: MM: SS, etc., Δt unit).
(3) Number of hours from the past M years to t: X (Δt)
(4) Number of hours from t to N years in the future: Y (Δt)
(5) Sum of downtime of the current (current) phenomenon category and factor category: x (Δt)
(6) Failure time of failure in current (current) phenomenon category and factor category τ1, τ2, τ3, ... τn (Δt)
As a precondition, it is assumed that the failure of the phenomenon / factor has occurred n times (0 ≦ n <∞) in the past (M years ago to present), and the
(7) Applicable (current) phenomenon classification: PHENOME (I)
(8) Applicable (current) factor classification: FACTOR (J)
(9) Failure probability threshold: K (%)
<Forecast → Notification operation outline>
さて、本実施形態による障害予知機能102及び障害発生高確率通知機能部103は、過去の障害実績情報から未来の障害発生確率を計算し、閾値を越えた際に担当者/関係者に通知を行うものであって、この動作を図2他を参照して説明する。
[ステップS201]
The
[Step S201]
本システムは、まず、ステップS201の如く現在のシステム時刻を取得する。このステップS201は、例えばΔtが1秒の場合はt=YYYYMMDDHHMMSSとなり、Δtが1分の場合はYYYYMMDDHHMMとなる。このΔtは、パラメータ設定ファイル107に設定されており、該パラメータ設定ファイル107は、図16に示す如く、単位時間/過去M年/未来N年/障害確率危険域閾値/通知先メールアドレスの各項目が、00001/10年/5年/60%/hitachi@dokono.ne.jpの如く登録されている。前記単位時間が「00001」とは1秒を意味する。
The system first acquires the current system time as in step S201. In this step S201, for example, when Δt is 1 second, t = YYYYMMDDDHHMSS, and when Δt is 1 minute, YYYYMMDDDHHMM. This Δt is set in the
尚、本実施例では、Δtの時間単位を1時間、1分、1秒で示しているが、システムクロックが値を持っていれば、ミリ秒やナノ秒などの単位計算ができ、この設定は後述の図3に示した時刻単位を更に細分岐化することにより可能である。このシステム日時は、システム日時を取得し、その日時を軸に過去M年、未来N年のデータ操作/計算を行うため、可能な限り正確である方が良く、例えばNTPサーバなどを利用し、システム日時の同期を取っておいても良い。
[ステップS202]
In this embodiment, the time unit of Δt is shown as 1 hour, 1 minute, and 1 second. However, if the system clock has a value, units such as milliseconds and nanoseconds can be calculated. Is possible by further subdividing the time unit shown in FIG. The system date / time is obtained as much as possible in order to obtain the system date / time and perform data operations / calculations for the past M years and the future N years around the date / time. For example, using an NTP server, You may keep the system date and time synchronized.
[Step S202]
次に本障害予知機能102及び障害発生高確率通知機能部103は、ステップS202の如く、パラメータ設定ファイル107に予め設定された過去M年から現時点tまでの時間数及びtから未来N年までの時間数を計算する。このステップS202の詳細動作は図4を参照して後述する。
Next, the
この計算は、Δt=1秒の場合、次式のように計算され、
X=M×60×60×24×365
Y=N×60×60×24×365
This calculation is calculated as follows when Δt = 1 second:
X = M × 60 × 60 × 24 × 365
Y = N × 60 × 60 × 24 × 365
Δtが1分の場合、次式のように計算される。
X=M×60×24×365
Y=N×60×24×365
[ステップS203]
When Δt is 1 minute, it is calculated as follows.
X = M × 60 × 24 × 365
Y = N × 60 × 24 × 365
[Step S203]
次いで障害予知機能102等が、ステップS203の如くワークデータベース108の全レコードをクリアする。
[ステップS204]
Next, the
[Step S204]
次に、本システムは、ステップS204の如く、ワークDB108に現象区分マスタ105と要因区分マスタ106の全レコードの組み合わせを登録し、最初のレコードの対を、PHENOME(I)=カレントの現象区分とFACTOR(J)=カレントの要因区分として読み込む。
Next, as shown in step S204, the present system registers a combination of all records of the
本ステップS204は、ワークDB108の全レコードを読込む間ループする。このワークDB108は、現象区分マスタ105と要因区分マスタ106の全てのレコードの組み合わせとなるため、それぞれmレコード、nレコードあったとすると、m×nレコードがワークDB108に保管されることとなる。
This step S204 loops while all records in the
また、2回目以降のループでは本ステップはカレントの現象区分−要因区分の対の次のレコードを読込むこととなる。
このステップS204は後述の図5を参照して詳細を述べる。
[ステップS205]
In the second and subsequent loops, this step reads the next record of the current phenomenon category-factor category pair.
This step S204 will be described in detail with reference to FIG.
[Step S205]
次に本システムは、障害履歴DB111に格納した過去の障害情報から障害現象区分/要因区分/不稼働時間を読み込み、当該現象区分(PHENOME(I))、要因区分(FACTOR(J))の過去M年から現システム時刻までの不稼働時間の総和を不稼働時間総和xとして計算する(x=Σ(r=1)(n) τr)。このステップS205の詳細は図6及び図7参照して後述する。
[ステップS206]
Next, the present system reads the failure phenomenon category / factor category / non-operation time from the past failure information stored in the
[Step S206]
次いで本システムは、ステップS206の如く不稼働時間総和xの値が"0"であるか否かを判定する。この判定の結果、x=0の場合、すなわち、過去に一度も当該現象区分/要因区分の対の障害が起こったことが無い場合は、障害予知DB104の当該現象区分、要因区分の未来N年までのレコードの"障害確率"項目に0をセットするステップS217に進み、x≠0の場合はステップS207に進む。
[ステップS207]
Next, in step S206, the system determines whether the value of the total non-operation time x is “0”. As a result of this determination, if x = 0, that is, if no failure has occurred in the phenomenon / factor category pair in the past, the future N years of the phenomenon / factor category in the
[Step S207]
次にステップS207の如く、当該現象区分(PHENOME(I))、要因区分(FACTOR(J))の未来N年までの線形確率を計算する。t+k(k=1,2,・・・)後の線形障害発生確率P’は、100×(x+k)/Xとなる。このP’を未来N年までの時間毎分計算し、線形確率データベース110に一時保存する。x+kが比例増加するため、この線形障害発生確率P’は100を越えることが想定されるため、本ステップ以降で線形(増加)確率をtanh関数を利用し、実際の障害発生確率に適用する。このステップS207の詳細動作は図8を参照して後述する。
[ステップS208]
Next, as in step S207, linear probabilities of the phenomenon category (PHENOME (I)) and factor category (FACTOR (J)) up to N years in the future are calculated. The linear failure occurrence probability P ′ after t + k (k = 1, 2,...) is 100 × (x + k) / X. This P ′ is calculated every hour until the next N years and temporarily stored in the
[Step S208]
次に本システムは、ステップS208の如く、通知フラグを0にセットする。本通知フラグとは、図1で示したの障害発生高確率通知機能に当該現象や当該要因で閾値を越えた場合に通知したかどうかをフラグ化したものである。 Next, the system sets a notification flag to 0 as in step S208. This notification flag is a flag indicating whether or not the failure occurrence high probability notification function shown in FIG. 1 is notified when the phenomenon or the factor exceeds the threshold.
これを説明すると、障害発生確率は時系列で増加するため、一度当該現象区分や要因区分の障害発生確率が閾値を越えた場合、以降、毎時間の発生確率が閾値を越えることとなり、この閾値を越えた以降、N年分までの毎時間分のアラーム情報全てが、通知されてしまうこととなる。本例の通知フラグは、このことを防ぐためのものであって、一度閾値を超えて通知した当該現象区分や要因区分の2単位時間以降分のアラーム通知は行わないようにするためのものである。
[ステップS209]
Explaining this, the failure occurrence probability increases in time series, so once the failure occurrence probability of the relevant phenomenon category or factor category exceeds the threshold, the occurrence probability of each hour will exceed the threshold thereafter. After exceeding, all alarm information for every hour up to N years will be notified. The notification flag in this example is to prevent this, and to prevent alarm notifications for two or more unit hours of the relevant event category or factor category once notified beyond the threshold. is there.
[Step S209]
次に前記ステップS207で作成した線形確率データベース110のデータを1レコードずつ読込み、線形確率データベース110のデータが最後のレコードであるか否かの判定を行う。この判定の結果、線形確率データベース110のデータが無い、又は最後のレコードの次で読込むレコードが無い場合、次ステップS214へ進み、読込むレコードがあった場合はステップS210へ進む。このステップS209は、線形確率データベース110データの最後までステップSS213との間をループする。
[ステップS210]
Next, the data in the
[Step S210]
次いで本システムは、ステップS210の如く、読込んだレコードにtanh関数を適用して障害発生確率P(P=100×tanh[P’/100])を算出する。このステップS210の詳細は図9及び図10を参照して後述する。
[ステップS211]
Next, as shown in step S210, the present system applies a tanh function to the read record to calculate a failure occurrence probability P (P = 100 × tanh [P ′ / 100]). Details of step S210 will be described later with reference to FIGS.
[Step S211]
次いでステップS211の如く、前記ステップS210で算出した障害発生確率Pがパラメータ設定ファイル107に設定されている閾値以上か否かの判定を行う。この判定の結果、障害発生確率Pが閾値以上の場合、ステップS215に進み、設定された閾値よりも小さければステップS212進む。
[ステップS215]
Next, as in step S211, it is determined whether or not the failure occurrence probability P calculated in step S210 is equal to or greater than a threshold set in the
[Step S215]
次いで本システムはステップS215の如く通知フラグが"1"であるか否かの判定を行う。この判定の結果、通知フラグが1のとき、即ち障害発生確率が閾値を越えていているが、通知済みの場合は、通知処理を行わず、ステップS212に進み、通知フラグが1でない場合、即ち障害発生確率が閾値を越えていて未通知の場合は、次ステップS216の障害発生確率高確率処理に進む。
[ステップS216]
Next, the system determines whether or not the notification flag is “1” as in step S215. As a result of this determination, when the notification flag is 1, that is, the failure occurrence probability exceeds the threshold value, but the notification has been completed, the notification processing is not performed, and the process proceeds to step S212. If the failure occurrence probability exceeds the threshold and is not notified, the process proceeds to the failure occurrence probability high probability process in the next step S216.
[Step S216]
前記ステップS215により通知フラグが"1"でないと判定されたとき、障害発生確率及びその時刻(現在のシステム時刻+経過時間後)と、現象区分と、要因区分の情報を電子メールを用いて被障害予知システムの担当者/関係者に自動的に送付し、通知フラグを"1"にセットする。このステップS216の詳細動作は図11を参照して後述する。
[ステップS212]
When it is determined in step S215 that the notification flag is not "1", the failure occurrence probability and its time (current system time + after the elapsed time), the phenomenon category, and the factor category information are received using e-mail. It is automatically sent to the person in charge / related person of the failure prediction system, and the notification flag is set to “1”. The detailed operation of step S216 will be described later with reference to FIG.
[Step S212]
更に本システムは、前記ステップS211又は215に続き、カレントの障害予知時刻(システム時刻+経過時間)と現象区分と要因区分と障害発生確率Pを、障害予知DB104に更新する。この更新処理の主キーは、障害予知時刻(システム時刻+経過時間)、現象区分、要因区分であり、レコードがあれば更新し、無ければ登録となる。この障害予知DB104は、前述の図12に図示した障害予知情報が格納されている。
[ステップS213]
Further, following the step S211 or 215, the present system updates the current failure prediction time (system time + elapsed time), phenomenon category, factor category, and failure occurrence probability P to the
[Step S213]
次に、線形確率データベース110の次のレコードを読込み、前述のステップS209までループする。
[ステップS214]
本システムは、ステップS214の如く、ワークDB108に現象や要因区分の対レードがあるか否かを判定し、対レコードがあるとき、前述のステップS204−ステップS214間の処理を繰り返し、ワークDB108に格納した全レコードに対するループ処理を終了したときに処理を終了する。
Next, the next record in the
[Step S214]
As in step S214, the system determines whether or not the
この様に本システムは、過去の障害実績情報に含まれる当該現象区分と要因区分の組み合わせと、この組み合わせにより発生した障害の不稼働時間総和xとの関係にから未来の線形障害発生確率P’をステップS207により算出し、この算出した線形障害発生確率Pが所定の閾値を越える際に担当者/関係者に通知を行うことができる。以下、前記各ステップにおける詳細処理動作をステップ毎に説明する。
<システム時刻取得処理ステップS201の説明>
In this way, the present system determines the future linear failure occurrence probability P ′ based on the relationship between the combination of the phenomenon category and the factor category included in the past failure record information and the total failure time x of failures caused by this combination. Can be calculated in step S207, and the person in charge / related parties can be notified when the calculated linear failure occurrence probability P exceeds a predetermined threshold. Hereinafter, the detailed processing operation in each step will be described step by step.
<Description of System Time Acquisition Processing Step S201>
次いで前述のステップS201によるシステム時刻取得処理を図3を参照して説明する。
この処理は、図3に示す如く、まずパラメータ設定ファイル107から予め定義した単位時間(Δtの項目)を取得し、この単位時間における現在(図2の処理起動時)のシステム日時を取得し、Δtが”0001”であるか否かを判定し(ステップS301)、Δtが”0001”の場合、ステップS302に進み、Δtが”0001”でない場合、ステップS303に進む。
Next, the system time acquisition process in step S201 described above will be described with reference to FIG.
In this process, as shown in FIG. 3, first, a predetermined unit time (item of Δt) is acquired from the
ステップS302ではシステム時刻をt(t=time[YYYYMMDDHHMMSS]:time()関数はシステム日時を取得する関数)にセットする。 In step S302, the system time is set to t (t = time [YYYYMMDDHHMMSS]: time () function is a function for acquiring the system date and time).
次いでステップS301において、time(YYYYMMDDHHMMSS)により「秒」までのシステム日時を取得し、time(YYYYMMDDHHMM)により「分」までのシステム日時を取得し、time(YYYYMMDDHH)により「時」までのシステム日時を取得する。 Next, in step S301, the system date and time up to "second" is obtained by time (YYYYMMDDDHMMSS), the system date and time up to "minute" is obtained by time (YYYYMMDDDHHMMM), and the system date and time up to "hour" is obtained by time (YYYYMMDDDHH). get.
ステップS303では、Δtが”0002”の場合、ステップS304に進み、Δtが”0002”でない場合、ステップS305に進む。
ステップS304ではシステム時刻をt[t=time(YYYYMMDDHHMM)]にセットする。
In step S303, if Δt is “0002”, the process proceeds to step S304. If Δt is not “0002”, the process proceeds to step S305.
In step S304, the system time is set to t [t = time (YYYYMMDDDHHMM)].
ステップS305では、Δtが”0003”の場合、ステップS306に進み、Δtが”0003”でない場合、ステップS307に進む。
ステップS306では、システム時刻をt[t=time(YYYYMMDDHH)]にセットする。
ステップS307では、前述のパラメータ設定ファイルのΔtを障害予知システムで認識できないとしてエラー処理を行う。このエラーは、Δtに本システムが認識できない単位時間が設定されていた場合であり、この旨のログ情報を出力する。
In step S305, if Δt is “0003”, the process proceeds to step S306, and if Δt is not “0003”, the process proceeds to step S307.
In step S306, the system time is set to t [t = time (YYYYMMDDDHH)].
In step S307, error processing is performed assuming that Δt in the parameter setting file cannot be recognized by the failure prediction system. This error occurs when a unit time that cannot be recognized by the system is set in Δt, and log information to that effect is output.
この様に本実施形態においては、システム時刻をパラメータ設定ファイル107から予め定義した単位時間(Δtの項目:秒/分/時)単位で取得し、この取得した総時間を算出する。
<時間数計算処理ステップS202の説明>
As described above, in this embodiment, the system time is acquired from the
<Description of Time Count Calculation Processing Step S202>
図4は、前述の図2で説明した時間数計算処理であるステップS202の詳細動作を説明するための図である。 FIG. 4 is a diagram for explaining the detailed operation of step S202, which is the time number calculation process described with reference to FIG.
このステップS202による時間数計算処理は、まずM年前から現在(図2処理による処理起動時)までの時間数及び現在から未来N年までの時間数を取得するものであって、パラメータ設定ファイル107にて定義された単位時間により、取得する項目(時/分/秒まで)が異なる。 The number of hours calculation process in step S202 first obtains the number of hours from M years ago to the present (when the process is started by the process in FIG. 2) and the number of hours from the present to the next N years, and is a parameter setting file. Items to be acquired (up to hours / minutes / seconds) differ depending on the unit time defined in 107.
本処理は、まずパラメータ設定ファイル107からΔtとMとNの項目を取得し、ステップS401によりΔtの値が”0001”か否かを判定し、Δtが”0001”の場合、ステップS402に進み、Δtが”0001”でない場合、ステップS403に進む。
In this process, items Δt, M, and N are first acquired from the
ステップS402では過去M年から現在までの時間をXにセットし、現在から未来N年までの時間をYにセットする。この値は、例えば過去M年、未来N年の場合、X=M×60×60×24×365、Y=N×60×60×24×365の式により算出される。 In step S402, the time from the past M years to the present is set to X, and the time from the present to the future N years is set to Y. For example, in the case of the past M years and the future N years, this value is calculated by the equation of X = M × 60 × 60 × 24 × 365 and Y = N × 60 × 60 × 24 × 365.
次いで本処理は、ステップS403により、Δtの値が”0002”か否かを判定し、Δtが”0002”の場合、ステップS404に進み、Δtが”0002”でない場合、ステップS405に進む。 Next, in step S403, the process determines whether the value of Δt is “0002”. If Δt is “0002”, the process proceeds to step S404. If Δt is not “0002”, the process proceeds to step S405.
ステップS404では過去M年から現在までの時間をXにセットし、現在から未来N年までの時間をYにセットする。この値は、例えば、X=M×60×24×365、Y=N×60×24×365の式により算出される。 In step S404, the time from the past M years to the present is set to X, and the time from the present to the future N years is set to Y. This value is calculated by, for example, an equation of X = M × 60 × 24 × 365 and Y = N × 60 × 24 × 365.
ステップS405では、Δtが”0003”か否かを判定し、Δtが”0003”の場合、ステップS406に進み、Δtが”0003”でない場合、ステップS407)に進む。 In step S405, it is determined whether or not Δt is “0003”. If Δt is “0003”, the process proceeds to step S406. If Δt is not “0003”, the process proceeds to step S407).
ステップS406では過去M年から現在までの時間をXにセットし、現在から未来N年までの時間をYにセットする。この値は、例えば、X=M×24×365、Y=N×24×365の式によって算出される。 In step S406, the time from the past M years to the present is set to X, and the time from the present to the future N years is set to Y. This value is calculated by, for example, an equation of X = M × 24 × 365 and Y = N × 24 × 365.
エラーとしてはパラメータ設定ファイルのΔtに障害予知システムで認識できないとき、ステップS407によってエラー処理を行う。このエラーは、Δtに本システムが認識できない単位時間が設定されていた場合であり、この旨のログ情報を出力する。
この様に本処理においては、過去の標本データの年月日時刻を基に過去の標本対象の時間を算出すると共に、未来の年月日時刻を基に予測を行う時間を算出する。
<現象/要因区分の組み合わせ取得処理ステップS204の説明>
As an error, when the fault prediction system cannot recognize Δt in the parameter setting file, error processing is performed in step S407. This error occurs when a unit time that cannot be recognized by the system is set in Δt, and log information to that effect is output.
In this way, in this process, the time of the past sample object is calculated based on the date of the past sample data, and the time for performing the prediction based on the date of the future is calculated.
<Description of phenomenon / factor category combination acquisition processing step S204>
次いで前述のステップS204による現象/要因区分の組み合わせ取得処理を図5を参照して説明する。 Next, the phenomenon / factor category combination acquisition processing in step S204 described above will be described with reference to FIG.
本ステップS204は、現象区分マスタ105と要因区分マスタ106に格納された全てのレコードの組み合わせの障害発生確率の計算を行うため、現象区分と要因区分の全ての組み合わせでループするよう現象区分と要因区分を取得し、ワークDB108に格納するものである。
In this step S204, in order to calculate the failure occurrence probability of all combinations of records stored in the
この処理について説明すると、現象区分マスタ105のレコード数をm、要因区分マスタ106のレコード数をnとすると、その組み合わせはm×n通りとなる。現象区分→PHENOME(I)、要因区分→FACTOR(J)とし、(PHENOME(I) , FACTOR(J))[但し、I=1,2,・・・m J=1,2,・・・n]のペア(対)でステップS501の如く、現象区分と要因区分の各組み合わせをループ処理することにより、m×n個のレコードをークDB108に登録する。
この様に本処理においては、現象区分及び要因区分の複数の組み合わせによる複数のレコードを作成する。本実施形態において、前記作成した全レコードの数を総レコード数と呼ぶ。
<当該現象/要因障害の不稼働時間総和計算処理ステップS205の説明>
This process will be described. When the number of records in the
In this way, in this processing, a plurality of records are created by a plurality of combinations of phenomenon categories and factor categories. In the present embodiment, the number of all created records is referred to as the total number of records.
<Description of Total Downtime Calculation Processing Step S205 of the Phenomenon / Cause Failure>
前記ステップS205による当該現象/要因障害の不稼働時間総和計算処理は、図6の概念図に示す如く、メイン処理起動時点tを基点として、過去M年から現在(基点t)までに、ある現象区分/要因区分の障害がn回発生したとし、その不稼働時間の総和Στnを求める処理であって、前述した如く、障害履歴DB111に格納した過去の障害情報から障害現象区分/要因区分/不稼働時間を読み込み、当該現象区分の過去M年から現システム時刻までの不稼働時間τnを取得し、この総和を不稼働時間総和xとして計算するものである。尚、本処理は、過去M年の時点で障害中であった場合(復旧日時が過去M年〜現在の場合)、その障害の発生日時に関わらず、当該障害情報の不稼働時間の項目を取得し、総和を取得する。 As shown in the conceptual diagram of FIG. 6, the phenomenon / factor failure failure sum total calculation process in step S205 is a certain phenomenon from the past M years to the present (base point t) starting from the main process start time point t. Assume that the failure of the category / factor category occurs n times, and is a process for obtaining the sum Στ n of the non-operation time. As described above, the failure phenomenon category / factor category / The non-working time is read, the non-working time τ n from the past M years to the current system time of the relevant phenomenon classification is acquired, and this sum is calculated as the non-working time total x. In this process, when there is a failure at the time of the past M years (when the recovery date is from the past M years to the present), regardless of the failure occurrence date and time, the item of the non-operation time of the failure information is set. Get and get the sum.
前記障害情報DB111(図13)から読み出す情報は、障害に関する多数の項目を含み、主キーが障害番号と影響顧客コードとなっており、同じ障害番号が複数ある場合(影響顧客コードがキーのため)、不稼働時間で昇順ソートし、最も不稼働時間の大きい値を採用しグループ化し総和を求めることとする。 The information read from the failure information DB 111 (FIG. 13) includes a number of items related to failures, the primary key is the failure number and the affected customer code, and there are a plurality of the same failure numbers (because the affected customer code is the key). ), Sort in ascending order by non-working time, adopt the value with the largest non-working time and group to obtain the sum.
このステップS205の計算処理の詳細は、図7に示す如く、まずワークDB108に格納した当該現象区分−要因区分の対と、過去M年≦復旧日時≦tの抽出条件とを用いて障害情報DB111から抽出し、ワークDB109に全て登録するステップS701と、パラメータ設定ファイル107に登録したΔtの時間単位でワークDB109に格納した全レコードの”不稼働時間”の総和を計算し、不稼働時間xにセットするステップS702と、ワークDB109の全レコードをクリアするステップS703を順次実行することによって、不稼働時間の総和x(=Στn)を求める。
<線形確率計算処理ステップS207の説明>
As shown in FIG. 7, the details of the calculation processing in step S205 are as follows. First, the
<Description of Linear Probability Calculation Processing Step S207>
次いで未来Nまでの線形確率計算処理を行うステップS207を図8を参照して説明する。この線形確率計算の原理は、前記ステップS205により算出した多数の障害の発生現象と発生要因の組み合わせに対応した障害による総不稼働時間総和xを算出し、総不稼働時間総和xが大きい前記組み合わせが障害の発生確率が大きいことを利用し、線形確率計算によって前記障害発生の確率を算出するものである。この線形確率とは、統計学における一般化線形モデル(数値変数である反応変数を数値変換或いは因子変量の説明変数の線形結合で予測するモデル)が好ましいが、これに限られるものではなく、他の確率計算手法であっても良い。 Next, step S207 for performing linear probability calculation processing up to future N will be described with reference to FIG. The principle of this linear probability calculation is to calculate the total non-operation time total x due to failures corresponding to the combinations of many failure occurrence phenomena and the generation factors calculated in step S205, and the combination with a large total non-operation time total x. However, the probability of failure occurrence is calculated by linear probability calculation using the fact that failure occurrence probability is high. The linear probability is preferably a generalized linear model in statistics (a model that predicts a response variable that is a numerical variable by numerical transformation or linear combination of explanatory variables of factor variables), but is not limited to this. The probability calculation method may be used.
このステップS207による具体的な線形確率計算処理は、まず、変数k[変数kは現在からの経過時間でパラメータ設定ファイル107のΔtによって単位が異なり、1秒か1分か1時間となる]に1をセットするステップS801と、次に線形確率P’をP’=100×(x+k)/Xの計算式で求め、線形確率データベース110に現象区分、要因区分、経過時間(k)、線形確率を出力するステップS802と、次にk=k+1とし、次の時系列とするステップS803と、kがYよりも大きいか否かを判定するステップS804と、該ステップS804においてkがYよりも大きいときに本処理が終了し、k≦Yの場合はステップS802に戻り、ループする様に動作する。即ち、本処理は前述のステップS202で算出した未来N年の時間に達する迄、前記線形確率を繰り返し計算し、出力するものである。
The specific linear probability calculation process in step S207 starts with variable k [variable k is the elapsed time from the current, the unit varies depending on Δt of the
ここで前記ステップS802における数式の分子(x+k)は増加し、分母(X)が一定のため、P’は線形に増加し、100(%)を越えることも想定される。そこで本実施形態においては、100%が漸近線となるように増加する関数tanh(x)を適用するtanh関数適用処理ステップS210を行う。このステップS210を採用することにより、本実施形態による線形確率P’は、図9に示す如く100%が漸近線となり、かつ増加する特性とすることができる。前記tanh(Hyperbolic Tangent)は、双曲線正接と呼ばれる。
<tanh関数適用処理ステップS210の説明>
Here, since the numerator (x + k) of the mathematical formula in step S802 is increased and the denominator (X) is constant, it is assumed that P ′ increases linearly and exceeds 100 (%). Therefore, in the present embodiment, the tanh function application processing step S210 is performed in which the function tanh (x) that increases so that 100% becomes an asymptotic line is applied. By adopting this step S210, the linear probability P ′ according to the present embodiment can have a characteristic in which 100% is an asymptote and increases as shown in FIG. The tanh (Hyperbolic Tangent) is called a hyperbolic tangent.
<Description of Tanh Function Application Processing Step S210>
前記tanh関数適用処理は、図10に示す如く、図9に示したのグラフ波形より、f(x)=100※1×tanh(x/100※2)を演算し、図8で作成された線形確率データベース110の項目及び線形確率P’をxに当てはめるステップS901を実行することよりtanh関数を適用することができる。尚、※1において、100を掛けているのは、f(x)=100(%)を漸近線とするためであり、※2において、100で割っているのは、時系列における時間軸の進捗を※1と調整して遅らせるためである。尚、前記ステップS210によるtanh関数適用処理は、障害予知機能部102又は図示しないtanh関数適用処理部によって実行される。
<障害発生高確率通知処理及び通知フラグ=1処理ステップS210の説明>
As shown in FIG. 10, the tanh function application process is created in FIG. 8 by calculating f (x) = 100 * 1 * tanh (x / 100 * 2 ) from the graph waveform shown in FIG. The tanh function can be applied by executing step S901 in which the items of the
<Failure High Probability Notification Processing and Notification Flag = 1 Description of Processing Step S210>
このステップS210は、図2におけるの障害発生高確率通知処理及び通知フラグを1とする処理であり、図11に示す如く、パラメータ設定ファイル107からメールアドレス群の項目を取得し、その全てのメールアドレス、障害予知時刻、現象区分、要因区分、閾値を電子メールシステムに渡し、電子メールシステムが、全てのメールアドレス宛てにメールを送付するステップS1001と、次いで通知フラグに1をセットするステップS1002を実行することによって行われる。
This step S210 is a failure occurrence high probability notification process in FIG. 2 and a process for setting the notification flag to 1. As shown in FIG. 11, the mail address group items are acquired from the
この様に本実施形態による障害予知システムでは、過去の障害実績から未来の障害発生確率を求めるにあたり、障害の根幹となる現象と要因に着目し、その頻度(障害による総不稼働時間)を標本データ、障害予知対象システムの稼働時間を母集合データとして未来の障害発生確率を現象/要因毎に、時系列で現象と要因の組み合わせ毎に発生した障害による不稼働時間を、時間毎(秒、分、時間など)のタイミングで確率計算し、この計算した障害発生の確率が予め定めた閾値を越えたときに管理者等に通知することによって、将来発生する障害を予知することができる。即ち、過去に発生した障害の現象及び要因の組み合わせ毎に障害による不稼働時間の総和を算出し、この不稼働時間総和が大きい現象及び要因の組み合わせが障害が発生する確率が高く且つ時間的にも近く発生する可能性が大きいと想定することによって、将来発生する障害を予知することができる。本実施形態によれば、過去M年、未来N年、障害発生高確率閾値、及び現象区分、要因区分をマスタDB化し、且つ可変とすることにより汎用性が高く、大まかな予知からきめ細かな予知を行うことができる。 As described above, in the failure prediction system according to the present embodiment, in determining the future failure occurrence probability from the past failure record, paying attention to the phenomenon and the factors underlying the failure, the frequency (total downtime due to failure) is sampled. Data and failure forecasting system uptime as population data, future failure occurrence probability for each phenomenon / factor, time-series failure / non-operation time for each combination of phenomenon and factor, hourly (seconds, Probability is calculated at the timing of minutes, hours, etc., and a failure occurring in the future can be predicted by notifying the administrator or the like when the calculated failure occurrence probability exceeds a predetermined threshold. That is, for each combination of failure phenomenon and factor that occurred in the past, the sum of the non-operation time due to the failure is calculated. In the future, it is possible to predict a failure that will occur in the future. According to the present embodiment, the past M years, the future N years, the failure occurrence high probability threshold, the phenomenon classification, and the factor classification are converted into a master DB and are variable, so that the versatility is high, and rough prediction to detailed prediction. It can be performed.
尚、本発明は、前述の実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本実施例では、ワークDB108、ワークDB109など、リソースを少なからず消費するDBをワークファイルとして設ける構成であっても良い。
In addition, this invention is not limited to the above-mentioned embodiment, In the range which does not deviate from the summary, various changes are possible. For example, in this embodiment, a configuration may be employed in which a DB that consumes a certain amount of resources, such as the
101:障害予知システム、102:障害予知機能部、103:障害発生高確率通知機能部、104:障害予知データベース、105:現象区分マスタ、106:要因区分マスタ、107:パラメータ設定ファイル、108:ワークデータベース、109:ワークデータベース、110:線形確率データベース、111:障害情報データベース、112:障害情報システム。 101: Failure prediction system, 102: Failure prediction function unit, 103: Failure occurrence high probability notification function unit, 104: Failure prediction database, 105: Phenomenon classification master, 106: Factor classification master, 107: Parameter setting file, 108: Work Database: 109: Work database, 110: Linear probability database, 111: Failure information database, 112: Failure information system.
Claims (4)
過去に発生した複数の障害毎に、障害による現象を障害現象タイプ別に区分した現象区分と、障害が発生した要因を障害要因タイプ別に区分した要因区分と、該現象区分及び要因区分が区分された障害により発生した不稼働時間とを含む標本データを格納する障害情報データベースと、
該障害情報データベースに格納した現象区分及び要因区分が区分された障害の発生時刻から復旧時刻までの時間である不稼働時間と、現象区分及び要因区分が同一の複数の障害による不稼働時間の総和を総不稼働時間として算出し、該総不稼働時間を用いて同一の現象区分及び要因区分が区分された障害が発生する障害発生確率を算出する障害予知機能部と、
該障害予知機能部が計算を行う際の時間変数kを設定するパラメータ設定ファイルと、
前記障害予知機能部が算出した、同一の現象区分及び障害区分の障害により発生する障害発生確率を含む障害予知データを、格納する障害予知データベースと、
該障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたとき、予め設定された宛先に通知する障害発生高確率通知機能部とを備え、
前記障害予知機能部が、時間変数をk、過去の任意の日時から現在までの時間をX、総不稼動時間をx、線形確率をP’としたとき、線形確率P’を、時間変数kを「k+1」により増加させながら計算式「100×(x+k)/X」により変数kが所定値になるまで算出し、該算出した線形確率P’の変位を関数tanhを用いて障害発生確率の最大値が100%未満になるようにtanh関数適用処理を実行することにより、時間変数kが所定値に達するまでの障害発生確率を算出することを特徴とする障害予知システム。 A failure prediction system for predicting a failure occurrence of a computer system connected to a plurality of clients,
For each of a plurality of failures that occurred in the past, a phenomenon category in which the failure phenomenon is classified by failure phenomenon type, a factor category in which the cause of the failure is classified by failure factor type, and the phenomenon category and factor category are classified. A failure information database that stores sample data including downtime caused by a failure;
Time and downtime is from the time of occurrence of disorder symptoms section and cause division stored in the fault information database is divided up recovery time, the downtime caused by phenomena section and cause indicator same multiple failure calculated sum as the total downtime, and failure prediction function unit for calculating the failure probability of failure same phenomenon classification and cause division are divided to generate using said total downtime,
A parameter setting file in which the failure prediction function unit sets a variable k between the time when performing the calculation,
The failure prediction function unit is calculated, the failure prediction database fault prediction data, and stores including failure occurrence probability caused by failure of the same phenomenon classification and disorders division,
A failure occurrence high probability notification function unit for notifying a preset destination when the failure occurrence probability of the failure prediction data stored in the failure prediction database exceeds a preset threshold;
The failure prediction function unit, k the time variable, the time from the past of any of the date and time up to the current X, 'when it was, linear probability P' the total non-operating time x, the linear probability P, and time change While the number k is increased by “k + 1”, the calculation formula “100 × (x + k) / X” is used until the variable k reaches a predetermined value, and the displacement of the calculated linear probability P ′ is generated using the function tanh. A failure prediction system that calculates a failure occurrence probability until a time variable k reaches a predetermined value by executing a tanh function application process so that a maximum value of probability is less than 100%.
該障害情報データベースに格納した現象区分及び要因区分が区分された障害の発生時刻から復旧時刻までの時間である不稼働時間と、現象区分及び要因区分が同一の複数の障害による不稼働時間の総和を総不稼働時間として算出し、該総不稼働時間を用いて同一の現象区分及び要因区分が区分された障害が発生する障害発生確率を算出する障害予知機能部と、
該障害予知機能部が計算を行う際の時間変数kを設定するパラメータ設定ファイルと、
前記障害予知機能部が算出した、同一の現象区分及び要因区分の障害により発生する障害発生確率を含む障害予知データを、格納する障害予知データベースと、
該障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたとき、予め設定された宛先に通知する障害発生高確率通知機能部とを備え、複数のクライアントに接続されたコンピュータシステムの障害発生の予知を行う障害予知システムの障害予知プログラムであって、
前記障害予知機能部に、時間変数をk、過去の任意の日時から現在までの時間をX、総不稼動時間をx、線形確率をP’としたとき、線形確率P’を、時間変数kを「k+1」により増加させながら計算式「100×(x+k)/X」により変数kが所定値になるまで算出し、該算出した線形確率P’の変位を関数tanhを用いて障害発生確率の最大値が100%未満になるようにtanh関数適用処理を実行することにより、時間変数kが所定値に達するまでの障害発生確率を算出させる機能を実現させることを特徴とする障害予知プログラム。 For each of a plurality of failures that occurred in the past, a phenomenon category in which the failure phenomenon is classified by failure phenomenon type, a factor category in which the cause of the failure is classified by failure factor type, and the phenomenon category and factor category are classified. A failure information database that stores sample data including downtime caused by a failure;
Time and downtime is from the time of occurrence of disorder symptoms section and cause division stored in the fault information database is divided up recovery time, the downtime caused by phenomena section and cause indicator same multiple failure calculated sum as the total downtime, and failure prediction function unit for calculating the failure probability of failure same phenomenon classification and cause division are divided to generate using the aggregate downtime,
A parameter setting file in which the failure prediction function unit sets a variable k between the time when performing the calculation,
The failure prediction function unit is calculated, the failure prediction database fault prediction data, and stores including failure occurrence probability caused by failure of the same phenomenon classification and factors division,
When the failure occurrence probability of the failure prediction data stored in the failure prediction database exceeds a preset threshold, the failure occurrence high probability notification function unit for notifying a preset destination is provided and connected to a plurality of clients. A failure prediction program for a failure prediction system for predicting the occurrence of a failure in a computer system,
The failure prediction function unit, k the time variable, the time from the past of any of the date and time up to the current X, 'when it was, linear probability P' the total non-operating time x, the linear probability P, and time change While the number k is increased by “k + 1”, the calculation formula “100 × (x + k) / X” is used until the variable k reaches a predetermined value, and the displacement of the calculated linear probability P ′ is generated using the function tanh. A failure prediction program that realizes a function of calculating a failure occurrence probability until the time variable k reaches a predetermined value by executing tanh function application processing so that the maximum value of the probability is less than 100% .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006017158A JP4456082B2 (en) | 2006-01-26 | 2006-01-26 | Failure prediction system and failure prediction program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006017158A JP4456082B2 (en) | 2006-01-26 | 2006-01-26 | Failure prediction system and failure prediction program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007199976A JP2007199976A (en) | 2007-08-09 |
| JP4456082B2 true JP4456082B2 (en) | 2010-04-28 |
Family
ID=38454541
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006017158A Expired - Fee Related JP4456082B2 (en) | 2006-01-26 | 2006-01-26 | Failure prediction system and failure prediction program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4456082B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104834579A (en) * | 2014-02-10 | 2015-08-12 | 富士施乐株式会社 | Failure predictive system and failure predictive apparatus |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009086896A (en) * | 2007-09-28 | 2009-04-23 | Toshiba Corp | Computer failure prediction system and failure prediction method |
| JP2009217770A (en) * | 2008-03-13 | 2009-09-24 | Nec Corp | Failure prediction and report system, failure prediction and report method, failure prediction and report program and program recording medium |
| JP5732767B2 (en) | 2010-07-26 | 2015-06-10 | 富士通株式会社 | PROCESSING DEVICE, PROCESSING METHOD, PROCESSING PROGRAM, COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE PROGRAM |
| JP6136745B2 (en) * | 2013-08-16 | 2017-05-31 | 富士ゼロックス株式会社 | Maintenance judgment device, maintenance judgment system, maintenance judgment program, and maintenance judgment method |
| JP6318674B2 (en) * | 2014-02-13 | 2018-05-09 | 富士ゼロックス株式会社 | Failure prediction system, failure prediction device, and program |
| JP6838568B2 (en) * | 2016-02-05 | 2021-03-03 | コニカミノルタ株式会社 | Information processing system and information processing method |
| CN108459948B (en) * | 2018-03-26 | 2021-03-09 | 华北电力大学(保定) | Determination method of failure data distribution type in system reliability assessment |
| CN112650761A (en) * | 2021-02-23 | 2021-04-13 | 善智互联(北京)网络科技有限公司 | Structured extraction method and system for transformer fault information |
-
2006
- 2006-01-26 JP JP2006017158A patent/JP4456082B2/en not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104834579A (en) * | 2014-02-10 | 2015-08-12 | 富士施乐株式会社 | Failure predictive system and failure predictive apparatus |
| CN104834579B (en) * | 2014-02-10 | 2018-10-02 | 富士施乐株式会社 | Failure prediction system and failure predication equipment |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007199976A (en) | 2007-08-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12058166B2 (en) | System and method for electronic risk analysis and remediation using network monitored sensors and actionable feedback methodologies for operational resilience | |
| EP2460105B1 (en) | Constructing a bayesian network based on received events associated with network entities | |
| US7467067B2 (en) | Self-learning integrity management system and related methods | |
| US20090070463A1 (en) | Preliminary Classification of Events to Facilitate Cause-Based Analysis | |
| US8543689B2 (en) | Apparatus and method for analysing a computer infrastructure | |
| CN105656693B (en) | A kind of method and system of the information security abnormality detection based on recurrence | |
| CN105808368B (en) | A kind of method and system of the information security abnormality detection based on random probability distribution | |
| WO2014208002A1 (en) | System analysis device, system analysis method and system analysis program | |
| JP4456082B2 (en) | Failure prediction system and failure prediction program | |
| JP5768983B2 (en) | Contract violation prediction system, contract violation prediction method, and contract violation prediction program | |
| JP6413537B2 (en) | Predictive failure notification device, predictive notification method, predictive notification program | |
| CN117390069B (en) | A business big data stream processing system, method and medium based on feature analysis | |
| Manocha et al. | Digital twin-assisted fuzzy logic-inspired intelligent approach for flood prediction | |
| WO2012029500A1 (en) | Operations management device, operations management method, and program | |
| WO2022054269A1 (en) | Combination rule construction device, method, and program | |
| CN111078503A (en) | Abnormity monitoring method and system | |
| WO2021059396A1 (en) | Abnormality handling support device, method, and program | |
| JP7626657B2 (en) | Anomaly detection device, anomaly detection method, and anomaly detection program | |
| JP7215574B2 (en) | MONITORING SYSTEM, MONITORING METHOD AND PROGRAM | |
| CN118939552A (en) | Application service detection method, device, electronic device and medium | |
| Burns et al. | Modeling Damage Paths and Repairing Objects in Critical Infrastructure Systems | |
| JP7602181B2 (en) | Alarm analysis device, alarm analysis method, Bayesian network model, and alarm analysis program | |
| US20090144214A1 (en) | Data Processing System And Method | |
| WO2021249629A1 (en) | Device and method for monitoring communication networks | |
| GB2390447A (en) | Fault prediction in logical networks |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081209 |
|
| RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20081208 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090224 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090410 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090827 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100119 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100204 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4456082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140212 Year of fee payment: 4 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |