JP5068864B2 - Logistic regression analysis system and logistic regression analysis program - Google Patents
Logistic regression analysis system and logistic regression analysis program Download PDFInfo
- Publication number
- JP5068864B2 JP5068864B2 JP2011034012A JP2011034012A JP5068864B2 JP 5068864 B2 JP5068864 B2 JP 5068864B2 JP 2011034012 A JP2011034012 A JP 2011034012A JP 2011034012 A JP2011034012 A JP 2011034012A JP 5068864 B2 JP5068864 B2 JP 5068864B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- category
- data
- variable
- logistic regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Description
本発明は、ロジスティック回帰分析システム及びロジスティック回帰分析プログラムに関する。 The present invention relates to a logistic regression analysis system and a logistic regression analysis program.
各種の店舗等においてクレジットカード(以下、カード)による決済が行われる際には、店舗等からカード会社に対して、カード番号等の情報を送信することで与信照会が要求される。この与信照会の要求を受けたカード会社は、カードの与信残高照会に加えて、カードの利用が不正利用である可能性についての判定を行っており、この判定には、スコアリングモデルと呼ばれる分析モデルを使用している。このスコアリングモデルとしては様々なモデルが提案されており、その中の一つに、ロジスティック回帰分析を適用したモデルがある(例えば、特許文献1参照)。 When payment is made with a credit card (hereinafter referred to as a card) at various stores or the like, a credit inquiry is requested by transmitting information such as a card number from the store or the like to the card company. In response to the credit inquiry request, the credit card company makes a judgment on the possibility of unauthorized use of the card, in addition to the credit balance inquiry of the card. You are using a model. Various models have been proposed as the scoring model, and one of them is a model to which logistic regression analysis is applied (for example, see Patent Document 1).
このようなロジスティック回帰分析を適用したスコアリングモデルは、カードの不正利用が発生すると予想される確率(以下、予想不正率)に対応するスコアを算定するためのモデルであり、この予想不正率に影響を与え得る説明変数を複数のデータ項目に基づいて算定し、当該算定した複数の説明変数を所定のロジスティック回帰関数に投入することによりスコアを算定する。 The scoring model to which such logistic regression analysis is applied is a model for calculating the score corresponding to the probability that card misuse is expected to occur (hereinafter, the expected fraud rate). An explanatory variable that can be influenced is calculated based on a plurality of data items, and the score is calculated by inputting the calculated plurality of explanatory variables into a predetermined logistic regression function.
しかしながら、ロジスティック回帰分析に投入することができる説明変数には、一定の制約が存在することが知られていた。例えば、特定のデータ項目におけるデータカテゴリの構成比が小さい場合、このようなデータカテゴリに対応する説明変数の変数カテゴリについては、いわゆる完全分離や準完全分離の問題が発生するため、ロジスティック回帰分析で扱うことができず、このような変数カテゴリをそのままスコアリングモデルに投入することができなかった。 However, it has been known that there are certain constraints on the explanatory variables that can be input to the logistic regression analysis. For example, when the composition ratio of the data category in a specific data item is small, the so-called complete separation and semi-complete separation problems occur for variable categories of explanatory variables corresponding to such data categories. Such variable categories could not be put into the scoring model as they were.
例えば、換金性の高い商品がカードで購入された場合には、換金性の低い商品が購入された場合に比べて、カードの不正利用が行われる可能性が高いことが判っている。従って、換金性の高い商品については、商品コード(各商品の種類を一意に識別するために予め設定されているコードであり、例えば、貴金属、商品券、プリペイドカード等をそれぞれ区別するためのコード)単位でデータカテゴリを細分化して分析を行い、スコアリングモデルの精度を高めることができると考えられる。しかしながら、このような細分化を行った場合には、データ項目(この例では、換金性の高い商品を含む全ての商品の商品コード)における各データカテゴリ(この例では、貴金属の商品コード、商品券の商品コード、プリペイドカードの商品コード等)の構成比が小さくなり、このような構成比の小さい各データカテゴリに対応する説明変数の変数カテゴリをスコアリングモデルにそのまま投入することができないため、結局は、細分化した分析を行うことはできず、スコアリングモデルの精度を高めることができなかった。 For example, it is known that when a highly convertible product is purchased with a card, there is a higher possibility of fraudulent use of the card than when a less convertible product is purchased. Therefore, for highly convertible products, product codes (codes set in advance to uniquely identify the type of each product, for example, codes for distinguishing precious metals, gift certificates, prepaid cards, etc., respectively) ) It is thought that the accuracy of the scoring model can be improved by subdividing the data category in units of analysis. However, when such subdivision is performed, each data category (in this example, product code of precious metals, product in the data item (product code of all products including highly cashable products) in this example) The product ratio of the ticket, the product code of the prepaid card, etc.) will be small, and the variable categories of the explanatory variables corresponding to each data category with such a small composition ratio cannot be input as it is to the scoring model. Eventually, it was not possible to perform a detailed analysis and to improve the accuracy of the scoring model.
本発明は、上記に鑑みてなされたものであって、データ項目における構成比が小さいデータカテゴリに対応する説明変数の変数カテゴリを用いてロジスティック回帰分析を行うことが可能になる、ロジスティック回帰分析システム及びロジスティック回帰分析プログラムを提供することを目的とする。 The present invention has been made in view of the above, and a logistic regression analysis system capable of performing logistic regression analysis using variable categories of explanatory variables corresponding to data categories having a small composition ratio in data items. And it aims at providing a logistic regression analysis program.
請求項1に記載のロジスティック回帰分析システムは、所定の事象が発生する確率に影響を与え得る複数の説明変数の変数カテゴリであって、複数のデータ項目の各々に含まれるデータカテゴリに対応する変数カテゴリを、所定のロジスティック回帰関数に投入することにより前記確率を算定する、ロジスティック回帰分析システムであって、前記変数カテゴリに対応する前記データ項目の前記データカテゴリの構成比を格納する構成比格納手段と、前記データカテゴリを対象として、前記事象が過去に発生した確率を算定するために必要な情報を格納する事象発生確率格納手段と、前記複数の説明変数の全体に対する当該複数の説明変数の各々の有効性を示す数値を格納する有効性格納手段と、前記説明変数の変数カテゴリを前記ロジスティック回帰関数に投入することができるか否かを判定する判定手段であって、前記ロジスティック回帰関数に投入する説明変数を算定するための所定の複数のデータ項目が所定方法で取得された場合に、当該データ項目の前記データカテゴリの構成比を前記構成比格納手段から取得し、当該取得した構成比が所定値未満であるか否かを判定し、当該取得した構成比が所定値未満である場合には、当該データカテゴリの前記データ項目に対応する当該変数カテゴリを前記ロジスティック回帰関数に投入することができない変数カテゴリであると判定する判定手段と、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリに対応する情報を前記事象発生確率格納手段から取得し、当該取得した情報に基づいて、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリを対象として、前記事象が過去に発生した確率を算定する確率算定手段と、前記確率算定手段にて算定された確率を所定倍数で整数化する整数化手段と、前記判定手段にて投入することができないと判定された前記変数カテゴリの説明変数に対応する有効性を示す数値を前記有効性格納手段から取得し、当該取得した有効性を示す数値に基づいて前記整数化手段にて整数化された確率を展開することにより、当該確率の算定の対象となったデータカテゴリに対応する説明変数の変数カテゴリの変換値を生成する展開手段とを備える。
The logistic regression analysis system according to
請求項2に記載のロジスティック回帰分析システムは、請求項1に記載のロジスティック回帰分析システムにおいて、前記構成比格納手段は、前記データ項目に含まれる最小単位のデータカテゴリの構成比を格納し、前記判定手段は、前記データ項目に含まれる最小単位のデータカテゴリの構成比を前記構成比格納手段から取得し、当該取得した構成比が所定値未満であるか否かを判定し、当該取得した構成比が所定値未満である場合には、当該データカテゴリの前記データ項目に対応する当該変数カテゴリを前記ロジスティック回帰関数に投入することができない変数カテゴリであると判定する。
The logistic regression analysis system according to claim 2 is the logistic regression analysis system according to
請求項3に記載のロジスティック回帰分析システムは、請求項1又は2に記載のロジスティック回帰分析システムにおいて、前記確率算定手段は、前記事象が過去に発生した確率を百分率値として算定し、前記整数化手段は、前記確率算定手段にて算定された確率を百倍以上の所定倍数で整数化する。
The logistic regression analysis system according to claim 3 is the logistic regression analysis system according to
請求項4に記載のロジスティック回帰分析システムは、請求項1から3のいずれか一項に記載のロジスティック回帰分析システムにおいて、クレジットカードの不正利用が発生する確率に対応するスコアを、前記ロジスティック回帰関数を適用したスコアリングモデルにて算定するシステムであり、前記展開手段にて生成された説明変数の変数カテゴリの変換値を前記スコアリングモデルに投入することにより、前記スコアを算定するスコア算定手段を備え、前記事象発生確率格納手段は、前記データカテゴリと、前記クレジットカードが当該データカテゴリに対して過去に使用された場合の不正件数と真正件数とを、相互に関連付けて構成された情報を、前記事象が過去に発生した確率を算定するために必要な情報として格納し、前記確率算定手段は、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリに対応する前記不正件数と前記真正件数とを前記事象発生確率格納手段から取得し、当該取得した不正件数と真正件数とに基づいて、前記クレジットカードが当該データカテゴリに対して過去に使用された場合の不正発生率を、前記事象が過去に発生した確率として算定する。
The logistic regression analysis system according to claim 4 is the logistic regression analysis system according to any one of
請求項5に記載のロジスティック回帰分析プログラムは、所定の事象が発生する確率に影響を与え得る複数の説明変数の変数カテゴリであって、複数のデータ項目の各々に含まれるデータカテゴリに対応する変数カテゴリを、所定のロジスティック回帰関数に投入することにより前記確率を算定する、ロジスティック回帰分析プログラムであって、前記変数カテゴリに対応する前記データ項目の前記データカテゴリの構成比を格納する構成比格納手段と、前記データカテゴリを対象として、前記事象が過去に発生した確率を算定するために必要な情報を格納する事象発生確率格納手段と、前記複数の説明変数の全体に対する当該複数の説明変数の各々の有効性を示す数値を格納する有効性格納手段と、を備えるコンピュータを、前記説明変数の変数カテゴリを前記ロジスティック回帰関数に投入することができるか否かを判定する判定手段であって、前記ロジスティック回帰関数に投入する説明変数を算定するための所定の複数のデータ項目が所定方法で取得された場合に、当該データ項目の前記データカテゴリの構成比を前記構成比格納手段から取得し、当該取得した構成比が所定値未満であるか否かを判定し、当該取得した構成比が所定値未満である場合には、当該データカテゴリの前記データ項目に対応する当該変数カテゴリを前記ロジスティック回帰関数に投入することができない変数カテゴリであると判定する判定手段と、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリに対応する情報を前記事象発生確率格納手段から取得し、当該取得した情報に基づいて、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリを対象として、前記事象が過去に発生した確率を算定する確率算定手段と、前記確率算定手段にて算定された確率を所定倍数で整数化する整数化手段と、前記判定手段にて投入することができないと判定された前記変数カテゴリの説明変数に対応する有効性を示す数値を前記有効性格納手段から取得し、当該取得した有効性を示す数値に基づいて前記整数化手段にて整数化された確率を展開することにより、当該確率の算定の対象となったデータカテゴリに対応する説明変数の変数カテゴリの変換値を生成する展開手段として機能させる。
The logistic regression analysis program according to
請求項1に記載のロジスティック回帰分析システム、又は請求項5に記載のロジスティック回帰分析プログラムによれば、データ項目における構成比が小さいデータカテゴリに対応する説明変数の変数カテゴリであるために、従来であればロジスティック回帰分析に投入することができなかった変数カテゴリを、変換値に変換してロジスティック回帰分析に投入することができる。従って、従来よりもデータカテゴリを細分化してロジスティック回帰分析を行うことが可能になり、ロジスティック回帰分析の精度を向上させることが可能になる。
According to the logistic regression analysis system according to
請求項2に記載のロジスティック回帰分析システムによれば、データ項目に含まれる最小単位のデータカテゴリの構成比に基づいて、説明変数の変数カテゴリをロジスティック回帰関数に投入することができるか否かを判定するので、データカテゴリを最小単位に細分化してロジスティック回帰分析を行うことが可能になり、ロジスティック回帰分析の精度を一層向上させることが可能になる。 According to the logistic regression analysis system according to claim 2, whether or not the variable category of the explanatory variable can be input to the logistic regression function based on the composition ratio of the data category of the minimum unit included in the data item. Since the determination is made, it becomes possible to perform logistic regression analysis by subdividing the data category into minimum units, and it is possible to further improve the accuracy of the logistic regression analysis.
請求項3に記載のロジスティック回帰分析システムによれば、百分率値として算定した確率を百倍以上の所定倍数で整数化することにより、確率を整数化することができる。 According to the logistic regression analysis system of the third aspect, the probability can be converted to an integer by converting the probability calculated as a percentage value into an integer with a predetermined multiple of 100 times or more.
請求項4に記載のロジスティック回帰分析システムによれば、クレジットカードの不正利用が発生する確率に対応するスコア算定するスコアリングモデルに関して、データ項目における構成比が小さいデータカテゴリに対応する説明変数の変数カテゴリであって、従来であればスコアリングモデルに投入することができなかった変数カテゴリを、変換値に変換してロジスティック回帰分析に投入することができる。従って、従来よりもデータカテゴリを細分化してスコアリングモデルによるスコアの算定を行うことが可能になり、スコアリングモデルの精度を向上させることが可能になる。この結果、クレジットカードの不正利用が発生する確率を一層精度よく判定することが可能になる。 According to the logistic regression analysis system according to claim 4, regarding the scoring model for calculating the score corresponding to the probability of illegal use of the credit card, the variable of the explanatory variable corresponding to the data category having a small composition ratio in the data item A variable category that is a category and could not be input to the scoring model in the past can be converted into a converted value and input to the logistic regression analysis. Therefore, it is possible to calculate the score using the scoring model by subdividing the data category as compared with the conventional case, and it is possible to improve the accuracy of the scoring model. As a result, it becomes possible to determine the probability of unauthorized use of the credit card with higher accuracy.
以下に添付図面を参照して、この発明に係るロジスティック回帰分析システム及びロジスティック回帰分析プログラムの実施の形態を詳細に説明する。 Exemplary embodiments of a logistic regression analysis system and a logistic regression analysis program according to the present invention will be described below in detail with reference to the accompanying drawings.
ロジスティック回帰分析システム及びロジスティック回帰分析プログラムは、所定の事象が発生する確率を算定するためのロジスティック回帰分析を行うものであるが、算定対象とする事象は任意であり、カードの予想不正率、企業の信用リスク、病気の発生確率等に使用することができる。以下では、カードの予想不正率に使用した例について説明するものとし、「ロジスティック回帰分析システム」を「不正検知システム」、「ロジスティック回帰分析プログラム」を「不正検知プログラム」と称する。 Logistic regression analysis system and logistic regression analysis program perform logistic regression analysis to calculate the probability of occurrence of a predetermined event, but the event to be calculated is arbitrary, the expected fraud rate of the card, the company It can be used for credit risk, disease occurrence probability, etc. In the following, an example used for the expected fraud rate of a card will be described. The “logistic regression analysis system” is referred to as a “fraud detection system”, and the “logistic regression analysis program” is referred to as a “fraud detection program”.
(構成)
まず、不正検知システムの構成を説明する。図1は、本実施の形態に係る不正検知システムを含んで構築された承認システムの電気的構成を機能概念的に示したブロック図である。図1に示すように、承認システム1は、カードの利用の承認(オーソリ)を行うためのシステムであり、不正検知システム10、業務ホスト20、承認ホスト(オーソリホスト)30、不正判定端末40、及びシステム管理端末50を、インターネットの如きネットワーク60を介して相互に通信可能に接続して構成されている。
(Constitution)
First, the configuration of the fraud detection system will be described. FIG. 1 is a block diagram functionally conceptually showing an electrical configuration of an approval system constructed including the fraud detection system according to the present embodiment. As shown in FIG. 1, the
(構成−不正検知システム)
不正検知システム10は、カードの不正利用を検知するためのシステムであり、ネットワークインターフェース(以下、ネットワークIF)11、記憶部12、及び制御部13を備えて構成されている。
(Configuration-fraud detection system)
The
ネットワークIF11は、不正検知システム10の処理に必要な情報の入力を受け付ける入力手段であると共に、不正検知システム10から外部に情報を出力するための出力手段であり、例えば、公知のネットワークボードとして構成されている。
The network IF 11 is an input unit that receives input of information necessary for processing of the
記憶部12は、不正検知システム10の処理に必要な各種の情報を記憶する記憶手段であり、例えばハードディスクやその他の記録媒体によって構成されるもので、会員情報DB(以下、データベースを「DB」と称する)12a、利用履歴情報DB12b、不正判定結果情報DB12c、及びスコアリング情報DB12dを備える。これら各DBの詳細は後述する。
The
制御部13は、不正検知システム10を制御する制御手段であり、具体的には、CPU、当該CPU上で解釈実行される各種のプログラム(OSなどの基本制御プログラムや、OS上で起動され特定機能を実現するアプリケーションプログラムを含む)、及びプログラムや各種のデータを格納するためのRAMの如き内部メモリを備えて構成されるコンピュータである。特に、本実施の形態に係る不正検知プログラムは、コンピュータ読み取り可能な記録媒体に格納され、当該記録媒体から不正検知システム10にインストールされることで、制御部13の各部を実質的に構成する。
The
この制御部13は、機能概念的に、情報蓄積生成部14、回帰分析部15、不正判定部16、及びシステム管理部17を備えている。情報蓄積生成部14は、記憶部12に対する各種の情報の蓄積や、各種の情報の生成を行う情報蓄積生成手段である。回帰分析部15は、ロジスティック回帰分析を適用したスコアリングモデルに基づいてスコアを算定する回帰分析手段である。不正判定部16は、回帰分析部15にて算定されたスコアを用いたクレジットカードの不正利用の判定を行うため、必要な処理を行う不正判定手段である。システム管理部17は、スコアリングモデルの分析や評価に関する処理を行うシステム管理手段である。これら各部の具体的な機能については、後述する。
The
さらに、回帰分析部15は、判定部15a、確率算定部15b、整数化部15c、展開部15d、及びスコア算定部15eを備える。判定部15aは、説明変数の変数カテゴリをロジスティック回帰関数に投入することができるか否かを、当該変数カテゴリに対応するデータ項目のデータカテゴリの構成比に基づいて判定する判定手段である。確率算定部15bは、判定部15aにて投入することができないと判定された変数カテゴリに対応するデータ項目のデータカテゴリを対象として、事象が過去に発生した確率を算定する確率算定手段である。整数化部15cは、確率算定部15bにて算定された確率を所定倍数で整数化する整数化手段である。展開部15dは、整数化部15cにて整数化された確率を、判定部15aにて投入することができないと判定された変数カテゴリの説明変数の有効性に基づいて展開することにより、当該確率の算定の対象となったデータカテゴリに対応する説明変数の変数カテゴリの変換値を生成する展開手段である。スコア算定部15eは、展開部15dにて生成された説明変数の変数カテゴリの変換値をスコアリングモデルに投入することにより、スコアを算定するスコア算定手段である。これら各部の具体的な機能や用語の意味については、後述する。
Furthermore, the
次に、記憶部12の各DBの詳細について説明する。ただし、各DBに格納される情報として以下で説明する情報は、あくまで例示であり、実際には、一部を省略することができ、他の情報を含めることができ、あるいは他の情報で置換することができる。
Next, details of each DB in the
図1の会員情報DB12aは、カードの正当な利用者として登録された者(以下、会員)に関する情報(以下、会員情報)を格納する会員情報格納手段である。この会員情報は、図2の構成例に示すように、項目「利用者会員番号」、項目「カード総供与」、項目「カードキャッシング総供与」、項目「利用者生年月日」、項目「利用者性別」、項目「カード有効期限」、項目「利用者入会年月日」等の各項目と、これら各項目に対応するデータを、相互に対応付けて構成されている。項目「利用者会員番号」に対応する情報は、各会員に一意に付与された会員番号である。項目「カード総供与」に対応する情報は、各会員のカードの総利用可能額である。項目「カードキャッシング総供与」に対応する情報は、各会員のカードによるキャッシングの総利用可能額である。項目「利用者生年月日」に対応する情報は、各会員の生年月日である。項目「利用者性別」に対応する情報は、各会員の性別であり、例えば「0」は男性、「1」は女性を示す。項目「カード有効期限」に対応する情報は、各会員のカードの有効期限である。項目「利用者入会年月日」に対応する情報は、各会員がカードに入会した年月日である。
The
図1の利用履歴情報DB12bは、カードの利用履歴に関する情報(以下、利用履歴情報)を格納する利用履歴情報格納手段である。この利用履歴情報は、本実施の形態では、第1利用履歴情報と第2利用履歴情報を含む。第1利用履歴情報は、承認ホスト30から送信された承認情報(オーソリ情報)を含んで構成されるもので、図3の構成例に示すように、項目「一意キー」、項目「利用者会員番号」、項目「承認受付年月日」、項目「承認受付時刻」、項目「利用金額」等の各項目と、これら各項目に対応するデータを、相互に対応付けて構成されている。項目「一意キー」を除いた各項目に対応する情報は、承認ホスト30から送信された承認情報に含まれる情報である。項目「一意キー」に対応する情報は、制御部13によって自動的に一意に採番された情報であって、第1利用履歴情報の主キーになる情報である。項目「利用者会員番号」に対応する情報は、各会員に一意に付与された会員番号である。項目「承認受付年月日」に対応する情報は、承認が受け付けられた年月日、項目「承認受付時刻」に対応する情報は、承認が受け付けられた時刻、項目「利用金額」に対応する情報は、承認の対象となっている金額である。なお、承認ホスト30から送信された承認情報には、これら各情報以外にも各種の情報(例えば、後述する具体的における商品コード)が含まれるが、本実施の形態においてはその説明を省略する。
The usage
また、第2利用履歴情報は、カードの利用履歴に統計的処理を施して生成された情報を含んで構成されるもので、図4の構成例に示すように、項目「利用者会員番号」、項目「承認受付年月日」、項目「承認受付時刻」、項目「過去1回前からの経過時間」、項目「過去n回前からの経過時間」、項目「過去1回前利用時間」、項目「過去n回前利用時間」、項目「過去1回前利用チャネル」、項目「過去n回前利用チャネル」等の各項目と、これら各項目に対応するデータを、相互に対応付けて構成されている。項目「利用者会員番号」、項目「承認受付年月日」、及び項目「承認受付時刻」に対応する情報は、図3の第1利用履歴情報における同一項目に対応する情報と同じである。項目「過去1回前からの経過時間」に対応する情報は、承認の対象となっている会員が、過去1回前のカード利用を行ってから今回のカード利用を行うまでの経過時間である。項目「過去n回前からの経過時間」に対応する情報は、承認の対象となっている会員が、過去n回前のカード利用を行ってから今回のカード利用を行うまでの経過時間である。なお、「n」は整数であり、図示は省略するが、第2利用履歴情報は、1とnの間の各整数x(=2、3、・・・、n−1)に対応する項目「過去x回前からの経過時間」と、この項目に対応する情報を含んで構成されている(以下、nを用いて表現された他の情報についても同じ)。項目「過去1回前利用時間」に対応する情報は、承認の対象となっている会員が、過去1回前のカード利用を行った時間である。項目「過去n回前利用時間」に対応する情報は、承認の対象となっている会員が、過去n回前のカード利用を行った時間である。項目「過去1回前利用チャネル」に対応する情報は、承認の対象となっている会員が、過去1回前のカード利用を行ったチャネルである。チャネルとは、カードの利用経路であり、例えば、国内又は海外のいずれか一方と対面又は非対面のいずれか一方とを組わせて特定され、「対面国内」、「対面海外」、「非対面国内」、「非対面海外」の4つのチャネルがある。特定される。項目「過去n回前利用チャネル」に対応する情報は、承認の対象となっている会員が、過去n回前のカード利用を行ったチャネルである。 The second usage history information includes information generated by performing statistical processing on the card usage history. As shown in the configuration example of FIG. 4, the item “user member number” is used. , Item “approval reception date”, item “approval reception time”, item “elapsed time since previous 1 time”, item “elapsed time since previous n times”, item “use time before last” , The item “last n times before use time”, the item “past last use channel”, the item “past n times use channel”, and the data corresponding to each item are associated with each other. It is configured. Information corresponding to the item “user member number”, the item “approval reception date”, and the item “approval reception time” is the same as the information corresponding to the same item in the first usage history information of FIG. The information corresponding to the item “elapsed time from the previous past” is the elapsed time from the use of the previous card by the member who is the object of approval to the current use of the card. . The information corresponding to the item “elapsed time from the past n times” is the elapsed time from when the member who is the object of approval uses the card n times before in the past to use this card. . Note that “n” is an integer and is not shown, but the second usage history information is an item corresponding to each integer x (= 2, 3,..., N−1) between 1 and n. “Elapsed time since previous x times” and information corresponding to this item are included (hereinafter, the same applies to other information expressed using n). The information corresponding to the item “last past use time” is the time when the member who is the object of approval has used the card one time before the past. The information corresponding to the item “last n times before use” is the time when the member who is the object of approval has used the card n times before in the past. The information corresponding to the item “past last use channel” is a channel in which a member who has been approved has used a card one time before in the past. A channel is a card usage route, for example, specified by combining either domestic or overseas with either facing or non-facing, "facing domestic", "facing overseas", "non-facing" There are four channels: “Domestic” and “Non-face-to-face overseas”. Identified. The information corresponding to the item “past use channel n times in the past” is a channel in which the member who has been approved has used the card n times in the past in the past.
図1の不正判定結果情報DB12cは、カードの不正判定の結果に関する情報(以下、不正判定結果情報)を格納する不正判定結果情報格納手段である。この不正判定結果情報は、図5の構成例に示すように、項目「利用者会員番号」、項目「承認受付年月日」、項目「承認受付時刻」、項目「ヒットルールID」、項目「スコア」等の各項目と、これら各項目に対応するデータを、相互に対応付けて構成されている。項目「利用者会員番号」、項目「承認受付年月日」、及び項目「承認受付時刻」に対応する情報は、図3の第1利用履歴情報における同一項目に対応する情報と同じである。項目「ヒットルールID」に対応する情報は、カードの不正判定を行うためのルールのうち、各承認の情報に合致したルール(ヒットルール)を一意に特定するためのルール特定情報である。項目「スコア」に対応する情報は、スコアリングモデルを用いて算定されたスコアである。なお、実際には、この不正判定結果情報には、さらに、承認ホスト30から受信した承認情報、会員情報DB12aから取得された会員情報、及び利用履歴情報DB12bから取得された後述する第1分析対象履歴情報及び第2分析対象履歴情報が含められるが、これら各情報は図5では図示の便宜上省略する。
The fraud determination result
図1のスコアリング情報DB12dは、スコアリングモデルを用いた不正判定に関する情報(以下、スコアリング情報)を格納するスコアリング情報格納手段である。このスコアリング情報は、図6の構成例に示すように、項目「利用者会員番号」、項目「承認受付年月日」、項目「承認受付時刻」、項目「説明変数1」、項目「説明変数n」、項目「スコア」等の各項目と、これら各項目に対応するデータを、相互に対応付けて構成されている。項目「利用者会員番号」、項目「承認受付年月日」、及び項目「承認受付時刻」に対応する情報は、図3の第1利用履歴情報における同一項目に対応する情報と同じである。項目「説明変数1」に対応する情報は、スコアリングモデルに投入された1番目の説明変数である。項目「説明変数n」に対応する情報は、スコアリングモデルに投入されたn番目の説明変数である。項目「スコア」に対応する情報は、スコアリングモデルを用いて算定されたスコアである。
The scoring
(構成−業務ホスト)
次に、図1の業務ホスト20について説明する。この業務ホスト20は、会員情報の管理を行うホストコンピュータであり、図2に示した会員情報を格納しており、この会員情報を必要に応じて不正検知システム10に送信する。
(Configuration-Business host)
Next, the
(構成−承認ホスト)
図1の承認ホスト30は、店舗等に設定された図示しないカード端末から照会のために送信された承認情報を受信して処理するホストコンピュータであり、この承認情報等を必要に応じて不正検知システム10に送信する。
(Configuration-Approval host)
The
(構成−不正判定端末)
図1の不正判定端末40は、不正判定業務を担当する担当者の端末であり、例えば、カード会社に設置される端末であって、公知のパーソナルコンピュータと同様に構成されている。
(Configuration-fraud determination terminal)
The
(構成−システム管理端末)
図1のシステム管理端末50は、不正検知システム10の管理を担当する担当者の端末であり、例えば、システム会社に設置される端末であって、公知のパーソナルコンピュータと同様に構成されている。
(Configuration-system management terminal)
A
(処理)
次に、このように構成された承認システム1によって実行される不正検知処理について説明する。図7は、不正検知システム10が実行する不正検知処理のフローチャートである(以下の各処理の説明ではステップを「S」と略記する)。この不正検知処理は、例えば不正検知システム10の起動後に繰り返して起動させるもので、情報蓄積生成処理(SA1)、回帰分析処理(SA2)、不正判定処理(SA3)、及びシステム管理処理(SA4)を順次実行する。以下、これら各処理について順次説明する。
(processing)
Next, a fraud detection process executed by the
(処理−情報蓄積生成処理)
最初に、情報蓄積生成処理について説明する。この処理は、各種の情報の蓄積と生成を行う処理であり、情報蓄積生成部14によって実行される。図8は、情報蓄積生成処理のフローチャートである。業務ホスト20に対する会員情報の新規登録や更新が公知の手段で行われると、業務ホスト20はこの会員情報を不正検知システム10に送信する。不正検知システム10の情報蓄積生成部14は、会員情報を業務ホスト20から受信すると(SB1、Yes)、新規登録された会員情報を会員情報DB12aに追加し、あるいは更新された会員情報を会員情報DB12aに反映させる(SB2)。
(Processing-Information accumulation generation processing)
First, the information accumulation generation process will be described. This process is a process for storing and generating various types of information, and is executed by the information
また、カードが店舗等で利用されると、店舗等に設置された図示しないカード端末は、承認ホスト30に対して、承認情報と共に、与信残高と不正利用の照会要求を送信する。この照会要求を受けた承認ホスト30は、承認情報を不正検知システム10に送信する。不正検知システム10の情報蓄積生成部14は、承認情報を承認ホスト30から受信すると(SB3、Yes)、この承認情報に含まれる利用者会員番号に対応する会員情報を会員情報DB12aから取得する(SB4)。
When the card is used in a store or the like, a card terminal (not shown) installed in the store or the like transmits a credit balance and an unauthorized use inquiry request to the
次いで、情報蓄積生成部14は、承認情報に基づいて、利用履歴情報DB12bの第1利用履歴情報を蓄積する(SB5)。例えば、所定方法で一意キーを採番し、この一意キーを主キーとして承認情報に付加することによって第1利用履歴情報を生成し、この第1利用履歴情報を利用履歴情報DB12bに追加する。
Next, the information
また、情報蓄積生成部14は、承認情報に含まれる利用者会員番号に対応する全ての第1利用履歴情報を利用履歴情報DB12bから取得した後、この第1利用履歴情報に基づいて、不正利用のスコアリングに使用する履歴情報(以下、第1分析対象履歴情報)を生成する(SB6)。第1分析対象履歴情報は、例えば、直近5分以内の利用回数、直近30分以内の利用回数、直近5分以内の利用合計金額、直近30分以内の利用合計金額、直近5分以内の利用金額平均、直近30分以内の利用金額平均等を含んで構成されるもので、4つのチャネル毎に生成される。
In addition, after acquiring all the first usage history information corresponding to the user member number included in the approval information from the usage
また、情報蓄積生成部14は、承認情報に含まれる利用者会員番号を主キーとし、承認情報に含まれる承認受付年月日及び承認受付時刻を含む第2利用履歴情報を生成し、この第2利用履歴情報を利用履歴情報DB12bに蓄積する(SB7)。この際、第2利用履歴情報の他の情報(過去1回前からの経過時間等)は、利用履歴情報DB12bにそれまでに蓄積された第1利用履歴情報であって、承認情報に含まれる利用者会員番号に対応する第1利用履歴情報を参照することによって生成される。これにて情報蓄積生成処理を終了する。
The information accumulation and
(処理−回帰分析処理)
次に、図7の回帰分析処理について説明する。この処理は、ロジスティック回帰分析を適用して構成されたスコアリングモデルを用いてスコアを算定する処理であり、回帰分析部15及びその各部によって実行される。図9は、回帰分析処理のフローチャートである。回帰分析部15は、図8のSB3で受信した承認情報、SB4で取得した会員情報、及びSB6で生成した第1分析対象履歴情報、及びSB7で生成した第2利用履歴情報の中から、スコアリングモデルに投入する説明変数を算定するための所定の複数のデータ項目を取得する(SC1)。例えば、データ項目としては、承認受付時刻、利用金額、商品コード等がある。
(Processing-regression analysis processing)
Next, the regression analysis process of FIG. 7 will be described. This process is a process of calculating a score using a scoring model configured by applying logistic regression analysis, and is executed by the
そして、回帰分析部15の判定部15aは、説明変数の変数カテゴリをロジスティック回帰関数に投入することができるか否かを、当該変数カテゴリに対応するデータ項目のデータカテゴリの構成比に基づいて判定する(SC2)。「データカテゴリ」とは、データ項目に含まれる情報であり、データ項目の内部における配置順序に意味を持たない情報であって、主としてセット型のデータである。例えば、データカテゴリとしては、データ項目である「カード番号(クレジットカードを一意に特定するための番号)」に含まれる各カード番号、データ項目である「加盟店コード(クレジットカードが使用された店舗等を一意に特定するためのコード)」に含まれる各加盟店コード、データ項目である「業種コード(クレジットカードが使用された店舗等の業種を一意に特定するためのコード)」に含まれる各業種コード、データ項目である「商品コード(クレジットカードを使用して購入等された商品を一意に特定するためのコード)」に含まれる各商品コードが該当する。また、「構成比」とは、各データカテゴリが属するデータ項目に含まれる全てのデータカテゴリに対して、当該各データカテゴリが占める比率である。例えば、この構成比は、過去の履歴に基づいて予め特定し、不正判定端末40を介して記憶部12に予め記憶させておくことができる。説明変数の変数カテゴリをロジスティック回帰関数に投入することができるか否かは、例えば、各データカテゴリの構成比が、記憶部12に予め設定された所定値未満(一例として、1%未満)である場合に(各データカテゴリの構成比が小さい場合に)、投入することができないと判定する。特に、ここでは、判定部15aは、データ項目に含まれる最小単位のデータカテゴリ別に、判定を行う。ここで、「最小単位でのデータカテゴリ」とは、それ以上細分化することができないデータカテゴリであり、図10の例では、各商品コードが、最小単位でのデータカテゴリに該当する。そして、判定部15aは、ロジスティック回帰関数に投入することができないと判定した変数カテゴリがある場合には、当該変数カテゴリに対応するデータ項目のデータカテゴリを対象として、説明変数変換処理を起動する(SC3)。
Then, the
図10には、データ項目に含まれるデータカテゴリに対応する各種の情報を示す。この図10の例では、データ項目が「商品コード」であり、データカテゴリ(最小単位のデータカテゴリ)が各商品コードである場合を示す。この例では、データカテゴリである商品コード=1001の構成比は35.01%、データカテゴリである商品コード=1002の構成比は0.18%であり、データカテゴリである商品コードの全ての構成比の合計値は100%である。そして、上記所定値を1%とする場合、図10の例では、データカテゴリである商品コード=1002〜1005、3009の構成比が当該所定値未満であるため、これらデータカテゴリである商品コード=1002〜1005、3009に対応する変数カテゴリが、ロジスティック回帰関数にそのまま投入することができない変数カテゴリであると判定されることになる。そして、このような変数カテゴリが存在する場合には、当該変数カテゴリに対応するデータカテゴリを対象として、説明変数変換処理を起動する。 FIG. 10 shows various types of information corresponding to the data category included in the data item. In the example of FIG. 10, the data item is “product code” and the data category (minimum unit data category) is each product code. In this example, the composition ratio of the product code = 1001 as the data category is 35.01%, the composition ratio of the product code = 1002 as the data category is 0.18%, and all the composition of the commodity codes as the data category The total ratio is 100%. When the predetermined value is 1%, in the example of FIG. 10, since the composition ratio of the product codes = 1002 to 1005, 3009 as the data category is less than the predetermined value, the product code = the data category = It is determined that the variable categories corresponding to 1002 to 1005 and 3009 are variable categories that cannot be directly input to the logistic regression function. If such a variable category exists, the explanatory variable conversion process is started for the data category corresponding to the variable category.
図11は、説明変数変換処理のフローチャートである。回帰分析部15の確率算定部15bは、判定部15aにて投入することができないと判定された変数カテゴリに対応するデータ項目のデータカテゴリを対象として、事象が過去に発生した確率を算定する(SD1)。「事象が過去に発生した確率」とは、スコアリングモデルに適用したロジスティック回帰分析が算定する確率であり、本実施の形態においては、過去に不正が発生した確率(以下、不正発生率)である。この確率は、各DBに記憶されている情報に基づいて算定する。図10の例では、データカテゴリである商品コード=1001に対する過去の承認件数が、不正件数=100であり、真正件数=100,000であるため、不正発生率=(100/(100+100,000))×100=0.10%が算定される(なお、図10の例では、小数点第3桁以降を四捨五入した例を示すが、端数処理は任意に変更可能である)。
FIG. 11 is a flowchart of the explanatory variable conversion process. The probability calculation unit 15b of the
次いで、回帰分析部15の整数化部15cは、このように算出した確率を所定数倍することで整数化する(SD2)。「所定数倍」とは、任意に設定することができるが、百分率値である確率を整数化する観点からは少なくとも100倍以上であることが好ましく、さらに、小さい確率を有効化するためには、さらに大きな倍数(例えば、1000倍や10000倍)することが好ましい。例えば、この倍率は、不正判定端末40を介して記憶部12に予め記憶させておくことができる。図10の例では、このように整数化した値を「整数比」として例示する。この図10では、所定数倍=1000とした例を示しており、上記商品コードの不正発生率=0.10%は、0.10%=(1/1000)×1000=1として整数化されている(なお、図10の例では、小数点第1桁以降を切り捨てた例を示すが、端数処理は任意に変更可能である)。
Next, the
そして、回帰分析部15の展開部15dは、整数化した確率を展開して変換値を生成する(SD3)。「展開する」とは、確率を拡大することを意味する。この展開は、1)判定部15aにて投入することができないと判定された変数カテゴリの説明変数の有効性であって、複数の説明変数の全体に対する当該説明変数の有効性に基づいて、かつ、2)尺度を維持するように行われる。「有効性」とは、所定の事象が発生する確率に対して、各説明変数がどの程度影響しているのかを表す度合(百分率値)であり、全ての説明変数の有効性の合計値が100%となるように設定された数値である。図12には、説明変数の有効性の設定例を例示する。この有効性は、例えば、不正検知システム10の管理者が過去の不正利用履歴等を参照して任意の方法で決定し、不正判定端末40を介して記憶部12に予め記憶させておくことができる。「尺度」とは、整数化した確率の数値の相対的な大きさであり、上記の例ではデータカテゴリである商品コードの不正発生率の相対的な大きさである。このような条件を満たすため、例えば、整数化した確率に対して、当該確率に対応する説明変数の有効性に対応する数値を乗算することにより、上記展開を行う。例えば、図12の例では、データ項目である商品コードに対応する説明変数の有効性=12%であるため、展開比率=1.2に設定する。従って、図10に「変換値」として例示するように、整数化した不正発生率=1、10、32、833に対応する変換値が、それぞれ1(=1×1.2)、12(=10×1.2)、38(=32×1.2)、999(=833×1.2)と算定される(なお、図10の例では、小数点第1桁以降を切り捨てた例を示すが、端数処理は任意に変更可能である)。また、この展開の際には、数値範囲が所定範囲を超えないように、整数化した確率の最小値と最大値を求めてその数値範囲を特定し、最小値や最大値が所定値を超えないように、展開比率を決定する。図10の例では、整数化した不正発生率の最小値=0、最大値=833であることから、数値範囲=0〜833となり、最大値=833が所定値である999を超えないように、展開を行っている。このような処理を行うことで、例えば、不正率=0.01%を変換値=1に展開し、この変換値をそのままスコアリングモデルに投入することが可能になる。これにて図11の説明変数変換処理を終了し、図9の回帰分析処理に戻る。
Then, the
なお、このように生成した変換値に対して、必要に応じて、展開部15dが、数値型データに対する公知の説明変数加工プロセスをさらに適用して、変換値の再変換を行うことで再変換値を算定し、この再変換値をスコアリングモデルに投入してもよい。このような公知のプロセスとしては、丸め処理やセット型データへの再変換処理等を挙げることができる。丸め処理とは、数値を、一定の丸め幅の整数倍の数値に置換する処理である。また、セット型データへの再変換処理とは、数値データをセット型データに置換する処理である。このような処理を行って得られた再変換値を、図10に例示する。この例では、丸め処理とセット型データへの再変換処理の両方を適用して得られた再変換値を示しており、変換値の0と1を、0又は1のいずれかに丸めた上で、セット型データである再変換値Aに置換している。同様に、変換値12、39、46を、それぞれセット型データである再変換値B、C、Dに置換している。
Note that the
このように説明変数変換処理が終了した後、図9の回帰分析処理において、回帰分析部15のスコア算定部15eは、説明変数変換処理の対象にならなかった変数カテゴリ(構成比が小さくないデータカテゴリに対応する変数カテゴリ)と、説明変数変換処理によって生成された変換値や再変換値(構成比が小さいデータカテゴリに対応する変数カテゴリに対応する変換値や再変換値)とを、ロジスティック回帰分析を適用して構築された所定のスコアリングモデルに投入することにより、予想不正率(スコア)を算定する(SC4)。ただし、スコアリングモデルとしては公知のモデルを使用することができるので、その詳細な説明は省略する。これにて回帰分析処理を終了する。
After the explanatory variable conversion process is completed in this way, in the regression analysis process of FIG. 9, the
(処理−不正判定処理)
次に、図7の不正判定処理について説明する。この処理は、スコアリングモデルを用いて算定されたスコア等を参照し、承認要求が行われたカードの利用が不正利用であるか否かを判定する処理であり、不正判定部16によって実行される。図13は、不正判定処理のフローチャートである。
(Processing-fraud determination processing)
Next, the fraud determination process in FIG. 7 will be described. This process refers to a score calculated using a scoring model and determines whether or not the use of the card for which the approval request has been made is an unauthorized use, and is executed by the
不正判定部16は、図8のSB3で受信した承認情報、SB4で取得した会員情報、SB6で生成した第1分析対象履歴情報及び第2分析対象履歴情報、及び図9のSC3で算定したスコアが、所定のルールに合致するか否かを判定する(SE1)。「ルール」とは、不正利用の可能性が高いパターンを示す判定基準であり、例えば、不正検知システム10の担当者によって複数のルールが設定されて予め記憶部12に記憶されている。一例としては、「スコア=600点以上、利用金額=10万円以上、過去1回前利用金額=10万円以上、かつ、過去1回前からの経過時間=5分以内」というルールが設定されており、不正判定部16は、上記取得した各情報に照らして当該ルールに含まれる全ての条件が満たされるか否かを判定し、満たされる場合には、当該ルールに合致すると判定される(このように合致すると判定されたルールを、ヒットルールと称する)。
The
そして、所定の複数のルールのうち、いずれか一つ以上のルールに合致すると判定された場合(SE2、Yes)、不正判定部16は、照会要求が行われている承認を保留する旨を、承認ホスト30に送信する(SE3)。次いで、不正判定部16は、図8のSB3で受信した承認情報、SB4で取得した会員情報、SB6で生成した第1分析対象履歴情報、及びSB7で生成した第2利用履歴情報、及び図9のSC4で算定したスコアと、SE1で判定されたヒットルールを一意に識別するヒットルールIDとを含む情報であって、承認情報の利用者会員番号を主キーとする不正判定結果情報を生成して不正判定結果情報DB12cに蓄積する(SE4)。
When it is determined that any one or more of the plurality of predetermined rules are matched (SE2, Yes), the
次いで、不正判定部16は、上記生成した不正判定結果情報を不正判定端末40に送信する(SE5)。この結果、不正判定端末40に設けたモニタに不正判定結果情報が出力されるので、業務担当者は、この不正判定結果情報を参照することで、照会が要求されているカードの利用が不正利用であるか否かを最終的に判断し、この不正判定結果を不正判定端末40を介して不正検知システム10に送信する。不正判定部16は、不正判定結果を受信すると(SE6、Yes)、この不正判定結果を承認ホスト30に送信して(SE7)、不正判定処理を終了する。
Next, the
(処理−システム管理処理)
最後に、図7のシステム管理処理について説明する。この処理は、スコアリングモデルの精度の分析や評価を行い、必要に応じてスコアリングモデルの更新を行う処理であり、システム管理部17によって実行される。図14は、システム管理処理のフローチャートである。
(Processing-System management processing)
Finally, the system management process of FIG. 7 will be described. This process is a process of analyzing and evaluating the accuracy of the scoring model and updating the scoring model as necessary, and is executed by the
システム管理部17は、図8のSB3で受信した承認情報、図9のSC3でスコアリングモデルに投入された説明変数、及び図9のSC4で算定したスコアを含む情報であって、承認情報の利用者会員番号を主キーとするスコアリング情報を生成してスコアリング情報DB12dに蓄積する(SF1)。そして、システム管理部17は、システム管理端末50からの要求に応じて(SF2、Yes)、このスコアリング情報をスコアリング情報DB12dから取得してシステム管理端末50に送信する(SF3)。この結果、システム管理端末50に設けたモニタにスコアリング情報が出力されるので、システム管理担当者は、このスコアリング情報を参照することで、スコアリングモデルの精度を所定方法で解析する。そして、システム管理担当者は、この精度のレポート作成を定期的に行うと共に、スコアリングモデルが劣化している場合には、システム管理端末50から不正検知システム10に更新データを送信することで、スコアリングモデルの各パラメータを変更し、スコアリングモデルの精度の維持及び向上を図る。例えば、図11のSD2における整数化の倍率を見直したり、図12に例示した各説明変数の有効性を見直す。システム管理部17は、システム管理端末50から送信された更新データに基づいて、スコアリングモデルの更新等を行う(SF5)。これにてシステム管理処理を終了する。
The
(実施の形態に対する変形例)
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した各発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
(Modification to the embodiment)
Although the embodiments of the present invention have been described above, the specific configuration and means of the present invention can be arbitrarily modified and improved within the scope of the technical idea of each invention described in the claims. Can do. Hereinafter, such a modification will be described.
(変形例−分散や統合について)
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成できる。例えば、不正検知システム10の機能の一部を承認ホスト30や不正判定端末40に持たせてもよく、あるいは、不正検知システム10の機能を複数台のコンピュータに分散して持たせてもよい。また、回帰分析処理の一部として説明した処理を、他の処理で行う等、各処理の一部を相互に入れ替えてもよい。
(Modification-About distribution and integration)
Further, each of the electrical components described above is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each part is not limited to the one shown in the figure, and all or a part thereof may be functionally or physically distributed / integrated in arbitrary units according to various loads and usage conditions. Can be configured. For example, a part of the functions of the
(説明変数変換処理について)
上記実施の形態では、最小単位のデータカテゴリの構成比に基づいて判定を行っているが、この構成比は、細分化したい単位に応じたデータカテゴリの構成比であればよい。例えば、最小単位のデータカテゴリではなくても、従来よりも細分化されたデータカテゴリであって、従来よりも分析精度を向上させることができる程度に細分化されたデータカテゴリの構成比を採用することができる。また、データ項目毎に細分化すべき単位を予め設定しておき、この単位を参照して、各データ項目毎に異なる単位で判定を行ってもよい。
(Explanation variable conversion process)
In the above embodiment, the determination is made based on the composition ratio of the data category in the minimum unit, but this composition ratio may be the composition ratio of the data category corresponding to the unit to be subdivided. For example, even if the data category is not the smallest unit, it is a data category that is subdivided compared to the conventional one, and the composition ratio of the data category that is subdivided to such an extent that the analysis accuracy can be improved than the conventional one is adopted. be able to. In addition, a unit to be subdivided for each data item may be set in advance, and the determination may be performed in a different unit for each data item with reference to this unit.
1 承認システム
10 不正検知システム
11 ネットワークIF
12 記憶部
12a 会員情報DB
12b 利用履歴情報DB
12c 不正判定結果情報DB
12d スコアリング情報DB
13 制御部
14 情報蓄積生成部
15 回帰分析部
15a 変換対象判定部
15b 確率算定部
15c 整数化部
15d 展開部
15e スコア算定部
16 不正判定部
17 システム管理部
20 業務ホスト
30 承認ホスト
40 不正判定端末
50 システム管理端末
60 ネットワーク
1
12
12b Usage history information DB
12c Fraud determination result information DB
12d Scoring information DB
DESCRIPTION OF
Claims (5)
前記変数カテゴリに対応する前記データ項目の前記データカテゴリの構成比を格納する構成比格納手段と、
前記データカテゴリを対象として、前記事象が過去に発生した確率を算定するために必要な情報を格納する事象発生確率格納手段と、
前記複数の説明変数の全体に対する当該複数の説明変数の各々の有効性を示す数値を格納する有効性格納手段と、
前記説明変数の変数カテゴリを前記ロジスティック回帰関数に投入することができるか否かを判定する判定手段であって、前記ロジスティック回帰関数に投入する説明変数を算定するための所定の複数のデータ項目が所定方法で取得された場合に、当該データ項目の前記データカテゴリの構成比を前記構成比格納手段から取得し、当該取得した構成比が所定値未満であるか否かを判定し、当該取得した構成比が所定値未満である場合には、当該データカテゴリの前記データ項目に対応する当該変数カテゴリを前記ロジスティック回帰関数に投入することができない変数カテゴリであると判定する判定手段と、
前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリに対応する情報を前記事象発生確率格納手段から取得し、当該取得した情報に基づいて、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリを対象として、前記事象が過去に発生した確率を算定する確率算定手段と、
前記確率算定手段にて算定された確率を所定倍数で整数化する整数化手段と、
前記判定手段にて投入することができないと判定された前記変数カテゴリの説明変数に対応する有効性を示す数値を前記有効性格納手段から取得し、当該取得した有効性を示す数値に基づいて前記整数化手段にて整数化された確率を展開することにより、当該確率の算定の対象となったデータカテゴリに対応する説明変数の変数カテゴリの変換値を生成する展開手段と、
を備えるロジスティック回帰分析システム。 A variable category corresponding to a data category included in each of a plurality of data items, which can affect the probability of occurrence of a predetermined event, is input to a predetermined logistic regression function. A logistic regression analysis system for calculating the probability by
A component ratio storage means for storing a component ratio of the data category of the data item corresponding to the variable category;
For the data category, event occurrence probability storage means for storing information necessary for calculating the probability that the event has occurred in the past;
Effectiveness storage means for storing a numerical value indicating the effectiveness of each of the plurality of explanatory variables with respect to the whole of the plurality of explanatory variables;
A determination means for determining whether or not a variable category of the explanatory variable can be input to the logistic regression function, wherein a plurality of predetermined data items for calculating the explanatory variable to be input to the logistic regression function are When obtained by a predetermined method, the composition ratio of the data category of the data item is obtained from the composition ratio storage means, and it is determined whether or not the obtained composition ratio is less than a predetermined value. When the composition ratio is less than a predetermined value, a determination unit that determines that the variable category corresponding to the data item of the data category is a variable category that cannot be input to the logistic regression function ;
The information corresponding to the data category of the data item corresponding to the variable category determined to be unable to be input by the determination unit is acquired from the event occurrence probability storage unit, and based on the acquired information The probability calculation means for calculating the probability that the event has occurred in the past for the data category of the data item corresponding to the variable category determined not to be input by the determination means;
An integerization means for converting the probability calculated by the probability calculation means into an integer by a predetermined multiple;
The numerical value indicating the validity corresponding to the explanatory variable of the variable category determined to be unable to be input by the determination means is acquired from the validity storage means, and based on the acquired numerical value indicating the validity Expansion means for generating a converted value of the variable category of the explanatory variable corresponding to the data category for which the probability is calculated by expanding the probability converted into an integer by the integer conversion means ;
Logistic regression analysis system with
前記判定手段は、前記データ項目に含まれる最小単位のデータカテゴリの構成比を前記構成比格納手段から取得し、当該取得した構成比が所定値未満であるか否かを判定し、当該取得した構成比が所定値未満である場合には、当該データカテゴリの前記データ項目に対応する当該変数カテゴリを前記ロジスティック回帰関数に投入することができない変数カテゴリであると判定する、
請求項1に記載のロジスティック回帰分析システム。 The component ratio storage means stores a component ratio of a data category of a minimum unit included in the data item,
The determination means acquires the composition ratio of the data category of the minimum unit included in the data item from the composition ratio storage means, determines whether the acquired composition ratio is less than a predetermined value, and acquires the When the composition ratio is less than a predetermined value, the variable category corresponding to the data item of the data category is determined as a variable category that cannot be input to the logistic regression function .
The logistic regression analysis system according to claim 1.
前記整数化手段は、前記確率算定手段にて算定された確率を百倍以上の所定倍数で整数化する、
請求項1又は2に記載のロジスティック回帰分析システム。 The probability calculating means calculates the probability that the event has occurred in the past as a percentage value,
The integer converting means converts the probability calculated by the probability calculating means into an integer with a predetermined multiple of 100 times,
The logistic regression analysis system according to claim 1 or 2.
前記展開手段にて生成された説明変数の変数カテゴリの変換値を前記スコアリングモデルに投入することにより、前記スコアを算定するスコア算定手段を備え、
前記事象発生確率格納手段は、前記データカテゴリと、前記クレジットカードが当該データカテゴリに対して過去に使用された場合の不正件数と真正件数とを、相互に関連付けて構成された情報を、前記事象が過去に発生した確率を算定するために必要な情報として格納し、
前記確率算定手段は、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリに対応する前記不正件数と前記真正件数とを前記事象発生確率格納手段から取得し、当該取得した不正件数と真正件数とに基づいて、前記クレジットカードが当該データカテゴリに対して過去に使用された場合の不正発生率を、前記事象が過去に発生した確率として算定する、
請求項1から3のいずれか一項に記載のロジスティック回帰分析システム。 A system that calculates a score corresponding to the probability of unauthorized use of a credit card by a scoring model to which the logistic regression function is applied,
A score calculation unit that calculates the score by inputting a converted value of the variable category of the explanatory variable generated by the expansion unit into the scoring model ;
The event occurrence probability storage means includes information obtained by associating the data category with the number of fraud cases and the number of genuine cases when the credit card has been used for the data category in the past. Store as information necessary to calculate the probability that the event occurred in the past,
The probability calculating means calculates the event occurrence probability by calculating the number of frauds and the number of genuine cases corresponding to the data category of the data item corresponding to the variable category determined to be unimportable by the determination means. Based on the number of frauds and authenticity obtained from the storage means, the probability of fraud when the credit card has been used in the past for the data category, and the probability that the event has occurred in the past Calculate as
The logistic regression analysis system according to any one of claims 1 to 3.
前記変数カテゴリに対応する前記データ項目の前記データカテゴリの構成比を格納する構成比格納手段と、
前記データカテゴリを対象として、前記事象が過去に発生した確率を算定するために必要な情報を格納する事象発生確率格納手段と、
前記複数の説明変数の全体に対する当該複数の説明変数の各々の有効性を示す数値を格納する有効性格納手段と、
を備えるコンピュータを、
前記説明変数の変数カテゴリを前記ロジスティック回帰関数に投入することができるか否かを判定する判定手段であって、前記ロジスティック回帰関数に投入する説明変数を算定するための所定の複数のデータ項目が所定方法で取得された場合に、当該データ項目の前記データカテゴリの構成比を前記構成比格納手段から取得し、当該取得した構成比が所定値未満であるか否かを判定し、当該取得した構成比が所定値未満である場合には、当該データカテゴリの前記データ項目に対応する当該変数カテゴリを前記ロジスティック回帰関数に投入することができない変数カテゴリであると判定する判定手段と、
前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリに対応する情報を前記事象発生確率格納手段から取得し、当該取得した情報に基づいて、前記判定手段にて投入することができないと判定された前記変数カテゴリに対応する前記データ項目の前記データカテゴリを対象として、前記事象が過去に発生した確率を算定する確率算定手段と、
前記確率算定手段にて算定された確率を所定倍数で整数化する整数化手段と、
前記判定手段にて投入することができないと判定された前記変数カテゴリの説明変数に対応する有効性を示す数値を前記有効性格納手段から取得し、当該取得した有効性を示す数値に基づいて前記整数化手段にて整数化された確率を展開することにより、当該確率の算定の対象となったデータカテゴリに対応する説明変数の変数カテゴリの変換値を生成する展開手段と、
として機能させるロジスティック回帰分析プログラム。 A variable category corresponding to a data category included in each of a plurality of data items, which can affect the probability of occurrence of a predetermined event, is input to a predetermined logistic regression function. A logistic regression analysis program for calculating the probability by
A component ratio storage means for storing a component ratio of the data category of the data item corresponding to the variable category;
For the data category, event occurrence probability storage means for storing information necessary for calculating the probability that the event has occurred in the past;
Effectiveness storage means for storing a numerical value indicating the effectiveness of each of the plurality of explanatory variables with respect to the whole of the plurality of explanatory variables;
A computer comprising
A determination means for determining whether or not a variable category of the explanatory variable can be input to the logistic regression function, wherein a plurality of predetermined data items for calculating the explanatory variable to be input to the logistic regression function are When obtained by a predetermined method, the composition ratio of the data category of the data item is obtained from the composition ratio storage means, and it is determined whether or not the obtained composition ratio is less than a predetermined value. When the composition ratio is less than a predetermined value, a determination unit that determines that the variable category corresponding to the data item of the data category is a variable category that cannot be input to the logistic regression function ;
The information corresponding to the data category of the data item corresponding to the variable category determined to be unable to be input by the determination unit is acquired from the event occurrence probability storage unit, and based on the acquired information The probability calculation means for calculating the probability that the event has occurred in the past for the data category of the data item corresponding to the variable category determined not to be input by the determination means;
An integerization means for converting the probability calculated by the probability calculation means into an integer by a predetermined multiple;
The numerical value indicating the validity corresponding to the explanatory variable of the variable category determined to be unable to be input by the determination means is acquired from the validity storage means, and based on the acquired numerical value indicating the validity Expansion means for generating a converted value of the variable category of the explanatory variable corresponding to the data category for which the probability is calculated by expanding the probability converted into an integer by the integer conversion means ;
Logistic regression analysis program to function as.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011034012A JP5068864B2 (en) | 2011-02-18 | 2011-02-18 | Logistic regression analysis system and logistic regression analysis program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011034012A JP5068864B2 (en) | 2011-02-18 | 2011-02-18 | Logistic regression analysis system and logistic regression analysis program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012173899A JP2012173899A (en) | 2012-09-10 |
| JP5068864B2 true JP5068864B2 (en) | 2012-11-07 |
Family
ID=46976770
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011034012A Expired - Fee Related JP5068864B2 (en) | 2011-02-18 | 2011-02-18 | Logistic regression analysis system and logistic regression analysis program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5068864B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112115955B (en) * | 2019-06-20 | 2024-11-15 | 中科聚信信息技术(北京)有限公司 | Data processing method, data processing device and electronic equipment |
| CN111750822B (en) * | 2019-10-31 | 2022-04-26 | 河南理工大学 | Coal mining induced overlying strata and surface subsidence collaborative dynamic prediction method |
| CN115169749A (en) * | 2022-08-24 | 2022-10-11 | 华润数字科技有限公司 | A kind of defect rate prediction method and related device of aluminum material automobile trim strip |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003216804A (en) * | 2002-01-24 | 2003-07-31 | Teikoku Databank Ltd | Bankruptcy prediction system using qualitative data |
| JP4421971B2 (en) * | 2004-08-05 | 2010-02-24 | 日本電気株式会社 | Analysis engine exchange system and data analysis program |
| JP4755911B2 (en) * | 2006-02-02 | 2011-08-24 | 株式会社インテリジェントウェイブ | Scoring system and scoring method for calculating fraud score using credit card |
-
2011
- 2011-02-18 JP JP2011034012A patent/JP5068864B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012173899A (en) | 2012-09-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5295418B1 (en) | Fraud detection system and fraud detection program | |
| Pierro et al. | Are the gas prices oracle reliable? a case study using the ethgasstation | |
| Chen | US fiscal sustainability and the causality relationship between government expenditures and revenues: a new approach based on quantile cointegration | |
| KR102133886B1 (en) | Method and system for predicting cryptographic price using artificial intelligence | |
| JP7032366B2 (en) | Operations support system and method | |
| JP2005174313A (en) | Method and apparatus for calculating economic value of patent or technology | |
| WO2014062802A1 (en) | Aggregate merchant monitoring | |
| JP5068864B2 (en) | Logistic regression analysis system and logistic regression analysis program | |
| EP2851851A1 (en) | A computer implemented tool and method for automating the forecasting process | |
| WO2020039602A1 (en) | Electronic currency issuing system, electronic currency issuing method, and storage medium | |
| JP2017084229A (en) | Investment simulation device and method | |
| Krishnan et al. | Dynamic From-Between Chart: a new tool for solving dynamic facility layout problems | |
| JP2021002129A (en) | Quality management support method, quality management support system, and quality management support device | |
| Takhar et al. | Blockchain application in supply chain chemical substance reporting | |
| JP2022060512A (en) | Operations support system and method | |
| JP4755911B2 (en) | Scoring system and scoring method for calculating fraud score using credit card | |
| JP5254402B2 (en) | Attention evaluation object extraction apparatus and program | |
| JP2009140178A (en) | Pattern extraction apparatus, pattern extraction program, and pattern extraction method | |
| JP6526356B1 (en) | Banking support system, banking support method and banking support program | |
| CN121909476A (en) | Method for monitoring environmental impact of chemical products | |
| Sholihah et al. | Determinants of QRIS adoption intention for MSMEs: Identification during COVID-19 | |
| JPWO2015162889A1 (en) | Design support apparatus, method, and program | |
| CN120112914A (en) | Method, system, and computer program product for providing a framework to improve identification of graph features by graph neural networks | |
| JP7491191B2 (en) | Demand forecasting program, demand forecasting device, and demand forecasting method | |
| CN119096260A (en) | Method for providing financial services through family relationship proof based on decentralized identifier (DID), and device for implementing the method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120718 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120815 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150824 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5068864 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |