Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7675431B2 - Database generation device, database generation method, and database generation program - Google Patents
[go: Go Back, main page]

JP7675431B2 - Database generation device, database generation method, and database generation program - Google Patents

Database generation device, database generation method, and database generation program Download PDF

Info

Publication number
JP7675431B2
JP7675431B2 JP2021139603A JP2021139603A JP7675431B2 JP 7675431 B2 JP7675431 B2 JP 7675431B2 JP 2021139603 A JP2021139603 A JP 2021139603A JP 2021139603 A JP2021139603 A JP 2021139603A JP 7675431 B2 JP7675431 B2 JP 7675431B2
Authority
JP
Japan
Prior art keywords
database
accuracy
integrated
data
integrated database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021139603A
Other languages
Japanese (ja)
Other versions
JP2023033737A (en
Inventor
知大 山形
永和 富野
隆史 河合
芳啓 伴地
Original Assignee
株式会社Find
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Find filed Critical 株式会社Find
Priority to JP2021139603A priority Critical patent/JP7675431B2/en
Publication of JP2023033737A publication Critical patent/JP2023033737A/en
Priority to JP2023198850A priority patent/JP2024009227A/en
Application granted granted Critical
Publication of JP7675431B2 publication Critical patent/JP7675431B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベース生成装置及びデータベース生成方法並びにデータベース生成用プログラムの技術分野に属する。より詳細には、複数の異なるデータベースを統合して統合データベースを生成するデータベース生成装置及びデータベース生成方法、並びに当該データベース生成装置用のプログラムの技術分野に属する。 The present invention belongs to the technical fields of a database generation device, a database generation method, and a program for generating a database. More specifically, the present invention belongs to the technical fields of a database generation device and a database generation method that integrate multiple different databases to generate an integrated database, and a program for the database generation device.

一般に、様々な会社は、それぞれの顧客や一般の消費者に関する情報をデータとしてそれぞれに含む顧客データベースや消費者データベースを一又は複数管理している。これらの顧客データベースや消費者データベースは、それらの目的等に合わせて、それらに蓄積されているサンプルの数やデータベースとしての項目(指標)も多岐に渡っている。 Generally, various companies manage one or more customer databases and consumer databases, each of which contains information about their customers and general consumers. These customer and consumer databases vary widely in the number of samples stored and the items (indicators) used as databases, depending on their purposes, etc.

また、自社で管理している顧客データベースや消費者データベースに対して、その属性や項目が異なる外部のデータベースを統合し、よりサンプル数等が多い顧客データベースを新たに生成することが必要となる場合がある。このようなデータベースの統合に関する従来技術を開示した先行技術文献としては、例えば下記特許文献1が挙げられる。 In addition, there are cases where a company needs to integrate an external database with different attributes or items into its in-house managed customer database or consumer database to generate a new customer database with a larger number of samples, etc. An example of a prior art document disclosing conventional technology related to such database integration is the following Patent Document 1.

この特許文献1に開示されている従来技術では、「より高速に結合処理を実行することができるデータベース統合装置などを提供する」ことを課題として、「データベース統合装置の受付部はクライアントから複数の結合対象のデータを結合する要求を受け付け、データベース統合装置の決定部は、当該要求により指定された結合対象のデータをそれぞれ格納したデータベースを備えるデータベースシステムの組み合わせのそれぞれが、組み合わせ相手のデータベースシステムから結合対象のデータを読み込んで結合処理を行うことができるか否か、及び組み合わせ相手のデータベースシステムに結合対象のデータを読み込ませることができるか否かを表す結合可否情報に基づいて、結合処理を実行するデータベースシステムを決定し、データベース統合装置の生成部は結合処理を実行させる実行計画を生成し、データベース統合装置の実行部は実行計画に基づいて上記要求をデータベースシステムに送信する」構成とされている。 The prior art disclosed in Patent Document 1 aims to "provide a database integration device or the like that can execute join processing at higher speeds," and is configured as follows: "The reception unit of the database integration device receives a request from a client to merge multiple pieces of data to be joined, and the determination unit of the database integration device determines the database system that will execute the join processing based on join feasibility information that indicates whether each combination of database systems including databases that respectively store the join target data specified by the request can read the join target data from the combined database system and execute the join processing, and whether the combined database system can read the join target data, the generation unit of the database integration device generates an execution plan for executing the join processing, and the execution unit of the database integration device transmits the request to the database system based on the execution plan."

特許第6181250号公報Patent No. 6181250

しかしながら一般に、複数の顧客データベースや消費者データベースを統合する際に、一の顧客データベースや一の消費者データベースにそのデータが含まれている顧客IDや消費者IDと他の顧客データベースや他の消費者データベースにそのデータが含まれている顧客IDや消費者IDとが一致しない場合がある。このような顧客データベースや消費者データベースを統合しようとする場合、従来では、複数の顧客データベースと消費者データベースに共通の顧客IDや消費者IDについてのデータを統合するしか方法がなかった。このため、当該統合の結果として得られた統合データベース(当該共通の顧客ID又は消費者IDについてのデータのみを含む統合データベース)では、そのサンプル数も少なく、データベースとしての項目や指標も限定的なものになってしまい、結果として、統合データベースとしての用に供し得ないものしか生成されないという問題点があった。この問題点は、多くの顧客データベース・消費者データベースを統合しようとすればするほど各顧客データベース・消費者データベースに共通の顧客や消費者が少なくなり、統合データベースとして役に立たないものとなってしまうという問題点に繋がる。 However, in general, when integrating multiple customer databases or consumer databases, there are cases where the customer ID or consumer ID whose data is included in one customer database or one consumer database does not match the customer ID or consumer ID whose data is included in another customer database or another consumer database. When integrating such customer databases or consumer databases, the only way to do so in the past was to integrate data on customer IDs or consumer IDs common to multiple customer databases and consumer databases. For this reason, the integrated database obtained as a result of the integration (an integrated database containing only data on the common customer ID or consumer ID) has a small number of samples and the items and indicators as a database are limited, resulting in a problem that only databases that cannot be used as an integrated database are generated. This problem leads to the problem that the more customer databases and consumer databases are integrated, the fewer customers and consumers are common to each customer database and consumer database, making the integrated database useless.

そこで本発明は、上記の各問題点に鑑みて為されたもので、その課題の一例は、複数のデータベースを統合する場合においても、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡る統合データベースを自動的に生成することが可能なデータベース生成装置及びデータベース生成方法、並びに当該データベース生成装置用のプログラムを提供することにある。 The present invention has been made in consideration of the above problems, and one example of the objective of the present invention is to provide a database generation device and a database generation method, as well as a program for the database generation device, that can automatically generate an integrated database with a large number of samples and a wide range of database items (indicators), even when integrating multiple databases.

上記の課題を解決するために、請求項に記載の発明は、商品の購入に関する被統合データベースに対する統合用データベースを用いた統合及び拡張により得られた統合データベースであり且つ商品の購入に関する統合データベースに対して、データベースとしてのサンプル数又は項目の少なくともいずれか一方が当該統合データベースと異なる他のデータベースを更に統合するデータベース生成装置であって、統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目又は指標を含み且つ所定数のサンプルを含む汎用の接続用データベースを前記統合データベースに統合して第2統合データベースを生成する統合手段と、前記生成された第2統合データベースの正解率に基づいた精度である第精度が前記統合データベースの正解率に基づいた精度である第精度以上であるとき、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する抽出手段と、前記生成された抽出第2統合データベースの正解率に基づいた精度である第精度が前記第精度以上であるとき、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成手段と、前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する生成手段と、を備える。
上記の課題を解決するために、請求項7に記載の発明は、商品の購入に関する被統合データベースに対する統合用データベースを用いた統合及び拡張により得られた統合データベースであり且つ商品の購入に関する統合データベースに対して、データベースとしてのサンプル数又は項目の少なくともいずれか一方が当該統合データベースと異なる他のデータベースを更に統合するデータベース生成装置であり、統合手段と、抽出手段と、データ生成手段と、生成手段と、を備えるデータベース生成装置において実行されるデータベース生成方法であって、統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目又は指標を含み且つ所定数のサンプルを含む汎用の接続用データベースを、前記統合手段により前記統合データベースに統合して第2統合データベースを生成する統合工程と、前記生成された第2統合データベースの正解率に基づいた精度である第2精度が前記統合データベースの正解率に基づいた精度である第1精度以上であるとき、前記抽出手段により、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する抽出工程と、前記生成された抽出第2統合データベースの正解率に基づいた精度である第3精度が前記第2精度以上であるとき、前記データ生成手段により、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成工程と、前記生成手段により、前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する生成工程と、を含む。
上記の課題を解決するために、請求項8に記載の発明は、商品の購入に関する被統合データベースに対する統合用データベースを用いた統合及び拡張により得られた統合データベースであり且つ商品の購入に関する統合データベースに対して、データベースとしてのサンプル数又は項目の少なくともいずれか一方が当該統合データベースと異なる他のデータベースを更に統合するデータベース生成装置に含まれるコンピュータを、統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目又は指標を含み且つ所定数のサンプルを含む汎用の接続用データベースを前記統合データベースに統合して第2統合データベースを生成する統合手段、前記生成された第2統合データベースの正解率に基づいた精度である第2精度が前記統合データベースの正解率に基づいた精度である第1精度以上であるとき、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する抽出手段、前記生成された抽出第2統合データベースの正解率に基づいた精度である第3精度が前記第2精度以上であるとき、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成手段、及び、前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する生成手段、として機能させる。
In order to solve the above problem, the invention described in claim 1 is a database generation device that further integrates another database, which is an integrated database obtained by integrating and expanding an integrated database related to product purchases using an integrating database, into the integrated database related to product purchases, and which is a database in which at least one of the number of samples or items as a database is different from that of the integrated database, and which is a database in which accuracy can be expected to be improved from that of the original database by integrating, an integration means for integrating a general-purpose connection database including various items or indicators and a predetermined number of samples into the integrated database to generate a second integrated database, and an accuracy based on the accuracy of the generated second integrated database. The system comprises an extraction means for extracting data of valid items actually used in integration with the integrated database from the second integrated database to generate an extracted second integrated database when the second accuracy is equal to or higher than a first accuracy, which is an accuracy based on a rate of accuracy of the integrated database; a data generation means for generating data so as to increase the number of samples in the extracted second integrated database to match the number of samples in the integrated database when a third accuracy , which is an accuracy based on a rate of accuracy of the generated extracted second integrated database, is equal to or higher than the second accuracy; and a generation means for approximating data of the extracted second integrated database including the generated data to data of a market statistics database including statistical information of real market, to generate an extracted second integrated database with an increased number of samples.
In order to solve the above-mentioned problems, the invention described in claim 7 is a database generating device that further integrates another database, which is an integrated database obtained by integrating and expanding an integrated database related to product purchases using an integrating database, and which differs from the integrated database related to product purchases in at least one of the number of samples or items as a database, into the integrated database related to product purchases, and the database generating method is executed in the database generating device having an integrating means, an extracting means, a data generating means, and a generating means, and includes an integrating step of integrating a general-purpose connection database, which is a database whose accuracy may be expected to be improved from that of the original database by integrating it, into the integrated database by the integrating means to generate a second integrated database, and an extracting step of extracting the second integrated database by extracting the second integrated database from the general-purpose connection database, which is a database whose accuracy may be improved from that of the original database by integrating it, and which includes a general-purpose connection database which includes various items or indicators and a predetermined number of samples, the data generating means for generating data so as to increase the number of samples in the extracted second integrated database to match the number of samples in the integrated database when a second accuracy, which is an accuracy based on a rate of accuracy of the integrated database, is equal to or higher than a first accuracy, which is an accuracy based on a rate of accuracy of the integrated database; the data generating means for generating data so as to increase the number of samples in the extracted second integrated database to match the number of samples in the integrated database when a third accuracy, which is an accuracy based on a rate of accuracy of the generated extracted second integrated database, is equal to or higher than the second accuracy; and the data generating means for approximating data of the extracted second integrated database including the generated data to data of a market statistics database including statistical information of a real market, to generate an extracted second integrated database with an increased number of samples.
In order to solve the above problem, the invention described in claim 8 provides a database generating device that further integrates another database, which is an integrated database obtained by integrating and expanding an integrated database related to product purchases using an integrating database, into the integrated database related to product purchases, and which is different from the integrated database in at least one of the number of samples or items as a database, and which is a database where improvement in accuracy from the accuracy of the original database may be expected by integrating, and which integrates a general-purpose connection database including various items or indicators and a predetermined number of samples into the integrated database to generate a second integrated database, and a processing unit that generates a second integrated database based on the accuracy of the generated second integrated database, the processing unit including ... When a second accuracy is equal to or higher than a first accuracy, which is an accuracy based on the accuracy rate of the integrated database, the device functions as an extraction means for extracting data of valid items actually used in integration with the integrated database from the second integrated database to generate an extracted second integrated database; when a third accuracy, which is an accuracy based on the accuracy rate of the generated extracted second integrated database, is equal to or higher than the second accuracy, the device functions as a data generation means for generating data to increase the number of samples in the extracted second integrated database to match the number of samples in the integrated database; and a generation means for approximating data of the extracted second integrated database including the generated data to data of a market statistics database including statistical information of real market, to generate an extracted second integrated database with an increased number of samples.

請求項1、請求項7又は請求項8のいずれか一項に記載の発明によれば、第2統合データベースの第精度が統合データベースの第精度以上であるとき抽出第2統合データベースを生成し、その抽出第2統合データベースの第精度が第精度以上であるとき、抽出第2統合データベースにおけるサンプル数を増やして統合データベースのサンプル数と整合させた後に市場統計データベースのデータに近似させてサンプル数増大抽出第2統合データベースを生成する。よって、統合データベースに対応したサンプル数及び項目を有し且つ現実市場にも対応した統合データベースをサンプル数増大抽出第2統合データベースとして自動的に生成することができる。 According to the invention of any one of claims 1, 7 and 8 , when the second precision of the second integrated database is equal to or greater than the first precision of the integrated database, an extracted second integrated database is generated, and when the third precision of the extracted second integrated database is equal to or greater than the second precision, the number of samples in the extracted second integrated database is increased to match the number of samples in the integrated database, and then the number of samples is approximated to the data in the market statistics database to generate an extracted second integrated database with an increased number of samples. Thus, an integrated database having the number of samples and items corresponding to the integrated database and also corresponding to the real market can be automatically generated as the extracted second integrated database with an increased number of samples.

上記の課題を解決するために、請求項に記載の発明は、請求項に記載のデータベース生成装置において、前記第精度が前記第精度未満であるとき、又は前記第精度が前記第精度未満であるとき、前記有効項目のデータを前記接続用データベースから抽出して前記統合に供させる第抽出手段を更に備える。 In order to solve the above problem, the invention described in claim 2 provides a database generation device described in claim 1 , further comprising a second extraction means for extracting data of the valid items from the connection database and providing the data for the integration when the second precision is less than the first precision or when the third precision is less than the second precision.

請求項に記載の発明によれば、請求項に記載の発明の作用に加えて、第精度が第精度未満であるとき、又は第精度が第精度未満であるとき、統合データベースとの統合に実際に用いられる有効項目のデータを接続用データベースから抽出して当該統合に供させるので、より高精度のサンプル数増大抽出第2統合データベースを自動的に生成することができる。 According to the invention described in claim 2 , in addition to the effect of the invention described in claim 1 , when the second precision is less than the first precision, or when the third precision is less than the second precision, data of valid items actually used in the integration with the integrated database is extracted from the connection database and used for the integration, so that a more accurate second integrated database with an increased number of samples can be automatically generated.

上記の課題を解決するために、請求項に記載の発明は、請求項又は請求項に記載のデータベース生成装置において、前記生成されたサンプル数増大抽出第2統合データベースの正解率に基づいた精度である第精度が前記第精度未満であるとき、前記データ生成手段は、前記抽出第2統合データベースにおけるサンプル数を増やすための前記データを再生成するように構成される。 In order to solve the above problem, the invention described in claim 3 is a database generation device described in claim 1 or claim 2 , wherein when a fourth accuracy, which is an accuracy based on the accuracy rate of the generated sample number-increasing extracted second integrated database, is less than the third accuracy, the data generation means is configured to regenerate the data to increase the number of samples in the extracted second integrated database.

請求項に記載の発明によれば、請求項又は請求項に記載の発明の作用に加えて、サンプル数増大抽出第2統合データベースの第精度が第精度未満であるとき、抽出第2統合データベースにおけるサンプル数を増やすためのデータが再生成されるので、更に高精度のサンプル数増大抽出第2統合データベースを自動的に生成することができる。 According to the invention described in claim 3 , in addition to the effects of the invention described in claim 1 or claim 2 , when the fourth precision of the extracted second integrated database with an increased number of samples is less than the third precision, data for increasing the number of samples in the extracted second integrated database is regenerated, so that an extracted second integrated database with an increased number of samples with even higher precision can be automatically generated.

上記の課題を解決するために、請求項に記載の発明は、請求項1から請求項のいずれか一項に記載のデータベース生成装置において、前記有効項目のデータの抽出は、主成分分析法、変数重要度法又はSHAP(SHapley Additive exPlanations)ライブラリを用いた方法の少なくともいずれか一つを用いて実行されるように構成される。 In order to solve the above problem, the invention described in claim 4 is a database generation device described in any one of claims 1 to 3 , wherein the extraction of data of the effective items is performed using at least one of a principal component analysis method, a variable importance method, or a method using a SHAP (SHapley Additive exPlanations) library.

請求項に記載の発明によれば、請求項1から請求項のいずれか一項に記載の発明の作用に加えて、主成分分析法、変数重要度法又はSHAPライブラリを用いた方法の少なくともいずれか一つを用いて有効項目のデータが抽出されるので、より実用性の高い有効項目のデータを抽出することができる。 According to the invention described in claim 4 , in addition to the action of the invention described in any one of claims 1 to 3 , data on effective items is extracted using at least one of the principal component analysis method, the variable importance method, or a method using the SHAP library, so that data on effective items with higher practicality can be extracted.

上記の課題を解決するために、請求項に記載の発明は、請求項から請求項のいずれか一項に記載のデータベース生成装置において、前記生成されたサンプル数増大抽出第2統合データベースに含まれるデータと前記接続用データベースに含まれるデータとの合致度を評価する合致度評価手段と、前記評価された合致度を示す合致度情報を報知する報知手段と、を更に備える。 In order to solve the above problem, the invention described in claim 5 , in the database generation device described in any one of claims 1 to 3 , further comprises a match evaluation means for evaluating the match between the data contained in the generated sample number increased extraction second integrated database and the data contained in the connection database, and a notification means for notifying the match information indicating the evaluated match.

請求項に記載の発明によれば、請求項から請求項のいずれか一項に記載の発明の作用に加えて、生成されたサンプル数増大抽出第2統合データベースに含まれるデータと接続用データベースに含まれるデータとの合致度を評価し、その評価された合致度を示す合致度情報を報知するので、最終的に生成されたサンプル数増大抽出第2統合データベースの、元の接続用データベースに対する合致度を容易に認識することができる。 According to the invention described in claim 5 , in addition to the effect of the invention described in any one of claims 1 to 3 , the degree of match between the data contained in the generated sample number increased extraction second integrated database and the data contained in the connection database is evaluated, and matching degree information indicating the evaluated degree of match is notified, so that the degree of match between the finally generated sample number increased extraction second integrated database and the original connection database can be easily recognized.

上記の課題を解決するために、請求項に記載の発明は、請求項に記載のデータベース生成装置において、前記合致度評価手段は、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S(Signal)/N(Noise)法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて前記合致度の評価を行うように構成される。 In order to solve the above problem, the invention described in claim 6 provides a database generation device described in claim 5 , wherein the match evaluation means is configured to evaluate the match using at least one of the mean/variance method, the histogram method, the statistical distribution utilization method of aggregated data, the S (Signal)/N (Noise) method, or an evaluation method using Cronbach's alpha coefficient.

請求項に記載の発明によれば、請求項に記載の発明の作用に加えて、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S/N法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて合致度の評価を行うので、より正確に当該合致度を認識することができる。 According to the invention described in claim 6 , in addition to the function of the invention described in claim 5 , the degree of match is evaluated using at least one of the mean/variance method, the histogram method, the statistical distribution utilization method of aggregated data, the S/N method, or an evaluation method using Cronbach's alpha coefficient, so that the degree of match can be recognized more accurately.

以上説明したように、本発明によれば、第2統合データベースの第2精度が統合データベースの第1精度以上であるとき抽出第2統合データベースを生成し、その抽出第2統合データベースの第3精度が第2精度以上であるとき、抽出第2統合データベースにおけるサンプル数を増やして統合データベースのサンプル数と整合させた後に市場統計データベースのデータに近似させてサンプル数増大抽出第2統合データベースを生成する。 As described above, according to the present invention, when the second accuracy of the second integrated database is equal to or greater than the first accuracy of the integrated database, an extracted second integrated database is generated, and when the third accuracy of the extracted second integrated database is equal to or greater than the second accuracy, the number of samples in the extracted second integrated database is increased to match the number of samples in the integrated database, and then the number of samples is approximated to the data in the market statistics database to generate an extracted second integrated database with an increased number of samples .

従って、統合データベースに対応したサンプル数及び項目を有し且つ現実市場にも対応した統合データベースをサンプル数増大抽出第2統合データベースとして自動的に生成することができる。 Therefore, an integrated database having the number of samples and items corresponding to the integrated database and also corresponding to the real market can be automatically generated as a second integrated database with an increased number of samples .

第1実施形態のデータベース生成装置の概要構成を示すブロック図である。1 is a block diagram showing a schematic configuration of a database generating device according to a first embodiment; 第1実施形態のデータベース生成装置を構成する抽出部の概要構成を示すブロック図である。2 is a block diagram showing a schematic configuration of an extraction unit constituting the database generating device of the first embodiment; FIG. 第1実施形態のデータベース生成処理を示すフローチャートである。5 is a flowchart showing a database generation process according to the first embodiment. 第1実施形態のデータベース生成処理を実行する前のデータベースの内容を例示する図である。FIG. 4 is a diagram illustrating an example of the contents of a database before a database generation process according to the first embodiment is executed. 第1実施形態のデータベース生成処理を実行した後のデータベースの内容を例示する図である。FIG. 4 is a diagram illustrating an example of the contents of a database after a database generation process according to the first embodiment is executed. 第2実施形態のデータベース生成処理を示すフローチャートである。13 is a flowchart showing a database generation process according to the second embodiment.

次に、本発明を実施するための形態について、図面に基づいて説明する。なお、以下に説明する各実施形態は、複数の異なるデータベースのデータを統合して新たな統合データベースを生成するデータベース生成装置に対して本発明を適用した場合の実施の形態である。 Next, the embodiments for implementing the present invention will be described with reference to the drawings. Note that each embodiment described below is an embodiment in which the present invention is applied to a database generation device that integrates data from multiple different databases to generate a new integrated database.

(I)第1実施形態
初めに、本発明の第1実施形態について、図1乃至図5を用いて説明する。なお、図1は第1実施形態のデータベース生成装置の概要構成を示すブロック図であり、図2は当該データベース生成装置を構成する抽出部の概要構成を示すブロック図であり、図3は第1実施形態のデータベース生成処理を示すフローチャートである。また、図4は当該データベース生成処理を実行する前のデータベースの内容を例示する図であり、図5は当該データベース生成処理を実行した後のデータベースの内容を例示する図である。なお図1及び図3においては、「データベース」を適宜「DB」と表している。
(I) First embodiment
First, a first embodiment of the present invention will be described with reference to Figures 1 to 5. Figure 1 is a block diagram showing the general configuration of a database generating device of the first embodiment, Figure 2 is a block diagram showing the general configuration of an extraction unit constituting the database generating device, and Figure 3 is a flowchart showing a database generating process of the first embodiment. Figure 4 is a diagram showing an example of the contents of the database before the database generating process is executed, and Figure 5 is a diagram showing an example of the contents of the database after the database generating process is executed. In Figures 1 and 3, "database" is appropriately represented as "DB."

図1に示すように、第1実施形態のデータベース生成装置Sは、具体的には例えばパーソナルコンピュータ等により実現されるものであり、CPU等からなる処理部1と、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等からなる記録部2と、キーボード及びマウス等からなる操作部3と、液晶ディスプレイ等からなるディスプレイ4と、により構成されている。 As shown in FIG. 1, the database generating device S of the first embodiment is specifically realized by, for example, a personal computer, and is composed of a processing unit 1 consisting of a CPU or the like, a recording unit 2 consisting of a HDD (Hard Disk Drive) or SSD (Solid State Drive) or the like, an operation unit 3 consisting of a keyboard, a mouse, or the like, and a display 4 consisting of a liquid crystal display or the like.

また処理部1は、評価部10と、抽出部11と、生成部12と、統合部13と、により構成されている。更に抽出部11は、図2に示すように、主成分分析抽出部110と、変数重要度抽出部111と、SHAP抽出部112と、により構成されている。 The processing unit 1 is composed of an evaluation unit 10, an extraction unit 11, a generation unit 12, and an integration unit 13. As shown in FIG. 2, the extraction unit 11 is composed of a principal component analysis extraction unit 110, a variable importance extraction unit 111, and a SHAP extraction unit 112.

このとき、評価部10、抽出部11、生成部12及び統合部13は、処理部1を構成するCPU等を含むハードウェアロジック回路により実現されてもよいし、後述する第1実施形態のデータベース生成処理に相当するプログラムを上記CPU等が読み込んで実行することにより、ソフトウェア的に実現されてもよい。また、主成分分析抽出部110、変数重要度抽出部111及びSHAP抽出部112も同様に、抽出部11を構成するCPU等を含むハードウェアロジック回路により実現されてもよいし、上記データベース生成処理に相当するプログラムを上記CPU等が読み込んで実行することにより、ソフトウェア的に実現されてもよい。なお上記の各プログラムは、記録部2に予め記録されているものを上記CPU等が読み込んでもよいし、図示しない外部のサーバ装置に記録されている当該プログラムをインターネット等のネットワークを介して上記CPU等が取得して用いるように構成してもよい。 At this time, the evaluation unit 10, the extraction unit 11, the generation unit 12, and the integration unit 13 may be realized by a hardware logic circuit including a CPU constituting the processing unit 1, or may be realized in software by the CPU reading and executing a program corresponding to the database generation process of the first embodiment described later. Similarly, the principal component analysis extraction unit 110, the variable importance extraction unit 111, and the SHAP extraction unit 112 may be realized by a hardware logic circuit including a CPU constituting the extraction unit 11, or may be realized in software by the CPU reading and executing a program corresponding to the database generation process. Note that each of the above programs may be pre-recorded in the recording unit 2 and read by the CPU, or may be configured so that the CPU obtains and uses the program recorded in an external server device (not shown) via a network such as the Internet.

このとき、評価部10が本発明の「第1評価手段」の一例、「第2評価手段」の一例、「第3評価手段」の一例、「第4評価手段」の一例、「第5評価手段」の一例、「第6評価手段」の一例、「第7評価手段」の一例及び「第8評価手段」の一例にそれぞれ相当し、抽出部11が本発明の「抽出手段」の一例及び「第2抽出手段」の一例にそれぞれ相当する。また、生成部12が本発明の「生成手段」の一例、「データ生成手段」の一例及び「第2生成手段」の一例にそれぞれ相当し、統合部13が本発明の「統合手段」の一例及び「第2統合手段」の一例にそれぞれ相当する。更に、処理部1が本発明の「合致度評価手段」の一例に相当し、ディスプレイ4が本発明の「報知手段」の一例に相当する。 At this time, the evaluation unit 10 corresponds to an example of the "first evaluation means" of the present invention, an example of the "second evaluation means", an example of the "third evaluation means", an example of the "fourth evaluation means", an example of the "fifth evaluation means", an example of the "sixth evaluation means", an example of the "seventh evaluation means" and an example of the "eighth evaluation means", and the extraction unit 11 corresponds to an example of the "extraction means" and an example of the "second extraction means" of the present invention, respectively. Furthermore, the generation unit 12 corresponds to an example of the "generation means" of the present invention, an example of the "data generation means" and an example of the "second generation means", respectively, and the integration unit 13 corresponds to an example of the "integration means" and an example of the "second integration means" of the present invention, respectively. Furthermore, the processing unit 1 corresponds to an example of the "matching degree evaluation means" of the present invention, and the display 4 corresponds to an example of the "notification means" of the present invention.

以上の構成において、データベース生成装置Sは、図1に示す本体データベース100のデータとドナーデータベース101のデータとを統合して統合データベース102を生成するデータベース生成装置である。このとき、統合される本体データベース100及びドナーデータベース101それぞれのデータは、記録部2に予め記録されているものであってもよいし、第1実施形態のデータベース生成処理が実行される度に図示しない外部のサーバ装置等からインターネット等のネットワークを介して取得されるものであってもよい。 In the above configuration, the database generating device S is a database generating device that generates an integrated database 102 by integrating data of the main database 100 and data of the donor database 101 shown in FIG. 1. At this time, the data of the main database 100 and the donor database 101 to be integrated may be pre-recorded in the recording unit 2, or may be obtained via a network such as the Internet from an external server device (not shown) each time the database generating process of the first embodiment is executed.

ここで、第1実施形態の本体データベース100は、例えば、その商品が属する商品ブランドに関する販売業務や開発業務等で企業が日常的に使用している顧客のデータベースや一般の消費者のデータベースであり、その企業や担当部署に属するデータベースである。このような本体データベース100は、基本的にサンプル数が多く(例えば数万サンプル以上)、且つその商品ブランドに関連する項目(指標)を多く含むデータベースであり、その商品の現実の顧客に関するデータも含まれている。これに対し、本体データベース100としては、その商品ブランドに直接的には関連しない項目(指標)については、そのデータ(サンプル数)は、多くは含まれていない。 Here, the main database 100 in the first embodiment is, for example, a database of customers or general consumers that is used daily by a company in sales and development work related to the product brand to which the product belongs, and is a database that belongs to the company or the relevant department. Such a main database 100 is a database that basically has a large number of samples (for example, more than tens of thousands of samples) and contains many items (indicators) related to the product brand, and also contains data on actual customers of the product. In contrast, the main database 100 does not contain much data (number of samples) for items (indicators) that are not directly related to the product brand.

上記のような本体データベース100に対し、第1実施形態のドナーデータベース101は、上記企業には属さない、例えば外部の調査会社や自社の上記担当部署以外の部署等が作成したデータベースである。このようなドナーデータベース101は、本体データベース100のような特定の商品又は商品ブランドに関する項目(指標)は少ないし、またサンプル数もそれほど多くはない場合が多い(例えば0乃至1,000サンプル程度)。しかしながらドナーデータベース101は、上記商品ブランドに直接的には関連しない項目(指標)、例えば、購買者一般(上記商品以外の商品の購買者を含めた購買者一般)についてのライフスタイルに関する項目(指標)や、一般的な価値観に関する項目(指標)を多く含むデータベースである。 In contrast to the main database 100 described above, the donor database 101 of the first embodiment is a database that does not belong to the company, for example, created by an external research company or a department other than the above-mentioned responsible department within the company. Such a donor database 101 has few items (indicators) related to specific products or product brands like the main database 100, and often does not have a large number of samples (for example, about 0 to 1,000 samples). However, the donor database 101 is a database that contains many items (indicators) that are not directly related to the product brand, such as items (indicators) related to the lifestyle of general purchasers (general purchasers including purchasers of products other than the above-mentioned products) and items (indicators) related to general values.

そして、データベース生成装置Sでは、上記のような属性を有する本体データベース100のデータに対して上記ドナーデータベース101のデータを統合し、項目(指標)を多岐に渡らせることで、上記企業に対して有効となる統合データベース102を生成する。 Then, the database generation device S integrates the data of the main database 100 having the attributes described above with the data of the donor database 101, and diversifies the items (indicators) to generate an integrated database 102 that is useful for the company.

より具体的に、先ずデータベース生成装置Sの記録部2は、第1実施形態のデータベース生成処理において生成される、後述する厳選ドナーデータベース103及びサンプル生成厳選ドナーデータベース104それぞれのデータを一時的に記録すると共に、当該データベース生成処理に必要なその他のデータを記録し、必要に応じて処理部1に出力する。 More specifically, the recording unit 2 of the database generation device S first temporarily records the data of the carefully selected donor database 103 and the sample generation carefully selected donor database 104 (described later) generated in the database generation process of the first embodiment, and also records other data necessary for the database generation process, and outputs it to the processing unit 1 as necessary.

一方、処理部1の評価部10は、上記本体データベース100等の各データベースの精度を、その正解率の観点から、例えばいわゆる混合行列(Confusion Matrix)を用いた従来の交差検証法(Cross Validation Method)を用いた評価方法により評価する。ここで、当該正解率について、例えば購入予測商品のデータが一のサンプルとしてそのデータベースに蓄積されている購買者が、その購入予測商品を実際に購入した場合、そのサンプルを含むそのデータベースとしては、正解率が向上することになる。 Meanwhile, the evaluation unit 10 of the processing unit 1 evaluates the accuracy of each database such as the main database 100 from the viewpoint of its accuracy rate, for example, by an evaluation method using a conventional cross validation method using a so-called confusion matrix. Here, regarding the accuracy rate, for example, if a purchaser whose data on a predicted purchase item is stored in the database as a sample actually purchases the predicted purchase item, the accuracy rate of the database including the sample will improve.

次に、抽出部11は、ドナーデータベース101の項目(指標)の中から、統合データベース102の生成に当たって有効となる有効指標を抽出する。 Next, the extraction unit 11 extracts effective indicators from the items (indicators) of the donor database 101 that will be effective in generating the integrated database 102.

ここで、第1実施形態の抽出部11における上記有効指標の抽出方法について、特に図2を用いて説明する。 Here, the method for extracting the above-mentioned effective indicators in the extraction unit 11 of the first embodiment will be explained, particularly with reference to FIG. 2.

当該抽出部11による有効指標の抽出は、図2に示す主成分分析抽出部110、変数重要度抽出部111又はSHAP抽出部112の少なくともいずれか一つにより行われる。このとき主成分分析抽出部110は、従来と同様の主成分分析法により有効指標を抽出する。より具体的に主成分分析抽出部110は、累積寄与率が予め変更可能に設定された累積寄与率閾値(例えば70%)以上となる主成分の項目(指標)であって、且つ主成分負荷量の絶対値が予め変更可能に設定された主成分負荷量閾値(例えば0.01)以上の項目(指標)を有効指標として抽出する。 The extraction of effective indicators by the extraction unit 11 is performed by at least one of the principal component analysis extraction unit 110, the variable importance extraction unit 111, and the SHAP extraction unit 112 shown in FIG. 2. At this time, the principal component analysis extraction unit 110 extracts effective indicators by a principal component analysis method similar to that used in the past. More specifically, the principal component analysis extraction unit 110 extracts as effective indicators items (indicators) of principal components whose cumulative contribution rate is equal to or greater than a cumulative contribution rate threshold value (e.g., 70%) that is previously set in a changeable manner, and whose absolute value of the principal component loading amount is equal to or greater than a principal component loading amount threshold value (e.g., 0.01) that is previously set in a changeable manner.

一方変数重要度抽出部111は、従来と同様の変数重要度法により有効指標を抽出する。より具体的に変数重要度抽出部111は、変数重要度が予め変更可能に設定された変数重要度閾値(例えば0.002)以上となる項目(指標)を有効指標として抽出する。またSHAP抽出部112は、従来と同様のSHAP法により有効指標を抽出する。より具体的にSHAP抽出部112は、目的変数に対して予め設定されたSHAP閾値(例えば上位20位)に入る項目(指標)を有効指標として抽出する。このときSHAP抽出部112は、目的変数となる項目(例えば商品ブランド等)が複数存在する場合は、それらを和統合(OR統合)により有効指標に追加する。なお、主成分分析抽出部110、変数重要度抽出部111又はSHAP抽出部112のいずれかの抽出結果を抽出部11の抽出結果として用いるかについては、例えば、本体データベース100の属性や生成すべき統合データベース102の属性等に応じて予め設定されているのが好適である。 On the other hand, the variable importance extraction unit 111 extracts effective indices using the same variable importance method as in the past. More specifically, the variable importance extraction unit 111 extracts items (indices) whose variable importance is equal to or greater than a variable importance threshold (e.g., 0.002) that is previously set so as to be changeable, as effective indices. The SHAP extraction unit 112 also extracts effective indices using the same SHAP method as in the past. More specifically, the SHAP extraction unit 112 extracts items (indices) that fall within a SHAP threshold (e.g., the top 20) previously set for the objective variable, as effective indices. At this time, if there are multiple items (e.g., product brands, etc.) that are objective variables, the SHAP extraction unit 112 adds them to the effective indices by sum integration (OR integration). In addition, whether the extraction result of the principal component analysis extraction unit 110, the variable importance extraction unit 111, or the SHAP extraction unit 112 is used as the extraction result of the extraction unit 11 is preferably set in advance according to, for example, the attributes of the main database 100 and the attributes of the integrated database 102 to be generated.

そして、主成分分析抽出部110、変数重要度抽出部111又はSHAP抽出部112の少なくともいずれか一つから出力された有効指標は、和統合(OR統合)により、抽出部11による抽出結果として出力される。そして、当該抽出結果としての有効指標のデータは、上記厳選ドナーデータベース103として記録部2に一時的に記録される。 Then, the effective indexes output from at least one of the principal component analysis extraction unit 110, the variable importance extraction unit 111, or the SHAP extraction unit 112 are output as the extraction result by the extraction unit 11 through sum integration (OR integration). Then, the data of the effective indexes as the extraction result is temporarily recorded in the recording unit 2 as the carefully selected donor database 103.

次に、図1に戻って、処理部1の生成部12は、厳選ドナーデータベース103のサンプル数を本体データベース100のサンプル数に整合させる(例えば、厳選ドナーデータベース103のサンプル数と本体データベース100のサンプル数とを同数とする)べく、本発明の発明者らにより特許出願中(特願2020-085546号)の技術の他、従来の例えばウエイトバック法やGAN((Generative Adversarial Networks(敵対的生成ネットワーク)技術等のAI技術を用いたサンプルの新規生成方法を用いて、厳選ドナーデータベース103としてのデータ(サンプル)を新たに生成し、これを厳選ドナーデータベース103に追加してサンプル生成厳選ドナーデータベース104を生成し、記録部2に一時的に記録する。 Returning to FIG. 1, the generation unit 12 of the processing unit 1 generates new data (samples) for the carefully selected donor database 103 using a new sample generation method using AI technology such as the weight-back method or GAN (generative adversarial networks) technology, in addition to the technology for which a patent application is pending (Patent Application No. 2020-085546) by the inventors of the present invention, in order to match the number of samples in the carefully selected donor database 103 with the number of samples in the main database 100 (for example, to make the number of samples in the carefully selected donor database 103 the same as the number of samples in the main database 100), and adds this to the carefully selected donor database 103 to generate the sample generation carefully selected donor database 104, which is temporarily recorded in the recording unit 2.

これらにより、統合部13は、上記記録されているサンプル生成厳選ドナーデータベース104のデータと元の本体データベース100のデータを従来と同様の方法で統合し、第1実施形態の統合データベース102を生成する。このような統合データベース102においては、ドナーデータベース101の特徴点(長所)が本体データベース100に適用されることで、本体データベース100としての短所が補われることとなる。この結果、本体データベース100が属する上記企業の企業活動等にとって極めて有効な統合データベース(すなわち、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡る統合データベース)102が自動的に得られることになる。 As a result, the integration unit 13 integrates the data of the recorded sample generation carefully selected donor database 104 and the data of the original main database 100 in the same manner as in the past, generating the integrated database 102 of the first embodiment. In such an integrated database 102, the characteristics (advantages) of the donor database 101 are applied to the main database 100, thereby compensating for the shortcomings of the main database 100. As a result, an integrated database 102 that is extremely useful for the business activities of the company to which the main database 100 belongs (i.e., an integrated database with a large number of samples and a wide range of database items (indicators)) is automatically obtained.

なお、上述してきた各機能を実行するに当たって必要な操作は操作部3において実行され、当該操作に対応する操作信号が処理部1に出力される。これにより処理部1は、当該操作信号に基づき、上述してきた一連の機能を実行する。また、当該機能の実行に当たって必要な情報は、例えばディスプレイ4に表示され、データベース生成装置Sの操作者等に提示される。 The operations required to execute each of the functions described above are executed by the operation unit 3, and an operation signal corresponding to the operation is output to the processing unit 1. The processing unit 1 then executes the series of functions described above based on the operation signal. Information required to execute the function is displayed, for example, on the display 4 and presented to the operator of the database generation device S.

次に、第1実施形態のデータベース生成装置Sにおいて実行されるデータベース生成処理について、具体的に図2乃至図5を用いて説明する。 Next, the database generation process executed by the database generation device S of the first embodiment will be specifically described with reference to Figures 2 to 5.

上述した機能を有するデータベース生成装置Sにより実行される第1実施形態のデータベース生成処理は、例えばデータベース生成装置Sの図示しない電源スイッチがオンとされたタイミングから開始される。 The database generation process of the first embodiment, which is executed by the database generation device S having the above-mentioned functions, starts, for example, when a power switch (not shown) of the database generation device S is turned on.

当該データベース生成処理が開始されると、先ず、本体データベース100のデータ及びドナーデータベース101のデータがそれぞれデータベース生成処理Sにおいて取得される。次に、処理部1の評価部10は、取得した本体データベース100のデータに基づき、上述した評価方法により本体データベース100の精度を評価し、その評価結果を「評価A」として記録部2に一時的に記録する(ステップS1)。 When the database generation process is started, first, data from the main database 100 and data from the donor database 101 are acquired in the database generation process S. Next, the evaluation unit 10 of the processing unit 1 evaluates the accuracy of the main database 100 using the evaluation method described above based on the acquired data from the main database 100, and temporarily records the evaluation result in the recording unit 2 as "Evaluation A" (step S1).

次に評価部10は、上記ステップS1と並行して、取得したドナーデータベース101のデータに基づき、上述した評価方法によりドナーデータベース101の精度を評価し、その評価結果を「評価B」として記録部2に一時的に記録する(ステップS2)。次に、処理部1の抽出部11は、上述した抽出方法により、ドナーデータベース101のデータから有効指標に相当するデータを抽出し、その抽出したデータを用いて上記厳選ドナーデータベース103を生成して記録部2に一時的に記録する(ステップS3)。その後評価部10は、生成された厳選ドナーデータベース103のデータに基づき、上述した評価方法により厳選ドナーデータベース103の精度を評価し、その評価結果を「評価C」として記録部2に一時的に記録する(ステップS4)。 Next, in parallel with step S1, the evaluation unit 10 evaluates the accuracy of the donor database 101 using the above-mentioned evaluation method based on the acquired data of the donor database 101, and temporarily records the evaluation result in the recording unit 2 as "evaluation B" (step S2). Next, the extraction unit 11 of the processing unit 1 extracts data corresponding to the effective index from the data of the donor database 101 using the above-mentioned extraction method, generates the above-mentioned carefully selected donor database 103 using the extracted data, and temporarily records it in the recording unit 2 (step S3). After that, the evaluation unit 10 evaluates the accuracy of the carefully selected donor database 103 using the above-mentioned evaluation method based on the generated data of the carefully selected donor database 103, and temporarily records the evaluation result in the recording unit 2 as "evaluation C" (step S4).

次に処理部1は、記録部2に記録されている上記評価Cが上記評価B以上であるか否かを判定する(ステップS5)。ステップS5の判定において、評価Cが評価B未満である場合(ステップS5:NO)、ステップS3における有効指標の抽出が不十分であったとして再度ステップS3に戻り、上記抽出部11は有効指標の再抽出を行う。一方、ステップS5の判定において、評価Cが評価B以上である場合(ステップS5:YES)、次に処理部1の生成部12は、上述した生成方法を用いて厳選ドナーデータベース103についてのサンプル生成(データ生成)を行い、サンプル生成厳選ドナーデータベース104を生成して記録部2に一時的に記録する(ステップS6)。 Next, the processing unit 1 judges whether the evaluation C recorded in the recording unit 2 is equal to or greater than the evaluation B (step S5). If the judgment in step S5 is that the evaluation C is less than the evaluation B (step S5: NO), the extraction of the effective index in step S3 is deemed insufficient, and the process returns to step S3 again, and the extraction unit 11 re-extracts the effective index. On the other hand, if the judgment in step S5 is that the evaluation C is equal to or greater than the evaluation B (step S5: YES), the generation unit 12 of the processing unit 1 then performs sample generation (data generation) for the carefully selected donor database 103 using the above-mentioned generation method, generates the sample generated carefully selected donor database 104, and temporarily records it in the recording unit 2 (step S6).

そして、処理部1の統合部13は、記録されているサンプル生成厳選ドナーデータベース104のデータと元の本体データベース100のデータとを従来と同様の方法で統合し、統合データベース102を生成して記録部2に一時的に記録する(ステップS7)。このとき、統合データベース102は、図示しない外部のサーバ装置等に蓄積されてもよい。次に評価部10は、記録されている統合データベース102のデータに基づき、上述した評価方法により統合データベース102の精度を評価し、その評価結果を「評価D」として記録部2に一時的に記録する(ステップS8)。 Then, the integration unit 13 of the processing unit 1 integrates the recorded data of the sample generation carefully selected donor database 104 and the data of the original main body database 100 in a conventional manner to generate an integrated database 102, which is temporarily recorded in the recording unit 2 (step S7). At this time, the integrated database 102 may be stored in an external server device (not shown). Next, the evaluation unit 10 evaluates the accuracy of the integrated database 102 using the evaluation method described above based on the recorded data of the integrated database 102, and temporarily records the evaluation result as "Evaluation D" in the recording unit 2 (step S8).

次に処理部1は、記録部2に記録されている上記評価Dが上記評価A(上記ステップS1参照)以上であるか否かを判定する(ステップS9)。ステップS9の判定において、評価Dが評価A未満である場合(ステップS9:NO)、現在の統合データベース102の生成過程に含まれていた上記ステップS3における有効指標の抽出が不十分であったとして、再度ステップS3に戻り、抽出部11は有効指標の更なる抽出を行う。一方、ステップS9の判定において、評価Dが評価A以上である場合(ステップS9:YES)、次に処理部1は、その時点での統合データベース102のデータとドナーデータベース101のデータとの合致度を評価する(ステップS10)。 Next, the processing unit 1 judges whether the evaluation D recorded in the recording unit 2 is equal to or greater than the evaluation A (see step S1 above) (step S9). If the judgment in step S9 is that the evaluation D is less than evaluation A (step S9: NO), the extraction of the effective indicators in step S3 included in the generation process of the current integrated database 102 was insufficient, and the process returns to step S3 again, where the extraction unit 11 further extracts effective indicators. On the other hand, if the judgment in step S9 is that the evaluation D is equal to or greater than evaluation A (step S9: YES), the processing unit 1 then evaluates the degree of match between the data in the integrated database 102 and the data in the donor database 101 at that time (step S10).

ここで、ステップS10として行われる合致度の評価は、企業独自の本体データベース100に対して、一般化されたドナーデータベース101を統合した結果としての統合データベース102のデータが、ドナーデータベース101のデータにどの程度一致しているか、つまり、より汎用性の高いデータベースとなっているか、を評価するものである。このステップS10における評価方法として具体的には、従来と同様の、例えば、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S/N法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つが用いられる。このとき、例えば平均/分散法を用いて合致度を判定した場合は、平均値と分散範囲が一致するほど、合致度としては高くなることになる。そして、当該合致の評価結果は、例えばディスプレイ4を用いて表示(出力)されるか、又は、本体データベース100が属する企業の担当者等に対して、記録部2に記録されている統合データベース102のデータと共に提供される(ステップS11)。なお、ステップS10における合致度の評価結果に基づき、例えば合致度を上げて統合データベース102の属性をドナーデータベース101の属性により近付けて汎用性を高めたい場合には、例えば、ドナーデータベース101のデータとの関係における真偽判定の基準をより厳格にしてデータベース生成処理を行うのが好適である。これに対し、上記合致度よりも評価部10における評価値としての精度をより高めたい場合は、例えば、各データベースにおける目的変数判定の基準をより厳格にするのが好適である。 Here, the evaluation of the degree of match performed in step S10 is to evaluate the degree to which the data of the integrated database 102, which is the result of integrating the generalized donor database 101 with the company's own main database 100, matches the data of the donor database 101, that is, whether the database is more versatile. Specifically, the evaluation method in step S10 is the same as in the past, for example, at least one of the following evaluation methods is used: the mean/variance method, the histogram method, the statistical distribution utilization method of aggregated data, the S/N method, or the Cronbach's alpha coefficient. In this case, for example, when the degree of match is determined using the mean/variance method, the degree of match is higher as the average value and the variance range match. The evaluation result of the match is then displayed (output) using, for example, the display 4, or is provided to the person in charge of the company to which the main database 100 belongs, together with the data of the integrated database 102 recorded in the recording unit 2 (step S11). If it is desired to increase versatility by, for example, increasing the degree of matching based on the evaluation result of the degree of matching in step S10 to bring the attributes of the integrated database 102 closer to the attributes of the donor database 101, it is preferable to perform the database generation process with stricter standards for determining whether the data is true or false in relation to the data in the donor database 101. On the other hand, if it is desired to increase the accuracy of the evaluation value in the evaluation unit 10 rather than the degree of matching, it is preferable to, for example, make the standards for determining the objective variables in each database stricter.

その後処理部1は、例えば操作部3による終了操作等により第1実施形態のデータベース生成処理を終了するか否かを判定する(ステップS12)。ステップS12の判定において、当該データベース生成処理を終了する場合(ステップS12:YES)、処理部1は、そのまま当該データベース生成処理を終了する。一方、ステップS12の判定において、例えば他の本体データベース100又は他のドナーデータベース101を対象として当該データベース生成処理を継続する場合(ステップS12:NO)、処理部1は、上記ステップS1及びステップS2に戻り、上記他の本体データベース100又は上記他のドナーデータベース101を対象として上述してきた処理を継続する。 Then, the processing unit 1 judges whether or not to end the database generation process of the first embodiment, for example, by an end operation by the operation unit 3 (step S12). If the judgment in step S12 is that the database generation process is to be ended (step S12: YES), the processing unit 1 ends the database generation process as is. On the other hand, if the judgment in step S12 is that the database generation process is to be continued, for example, for another main database 100 or another donor database 101 (step S12: NO), the processing unit 1 returns to the above steps S1 and S2 and continues the above-described processing for the other main database 100 or the other donor database 101.

次に、第1実施形態のデータベース生成処理が実行された結果としての本体データベース100と統合データベース102の比較について、具体的に図4及び図5を用いて説明する。なお、図4及び図5は、一の企業だけでなく複数の企業の本体データベース100について、第1実施形態のデータベース生成処理を実行した結果を纏めて示すものである。 Next, a comparison between the main database 100 and the integrated database 102 as a result of executing the database generation process of the first embodiment will be specifically described with reference to Figures 4 and 5. Note that Figures 4 and 5 show the results of executing the database generation process of the first embodiment for the main databases 100 of not only one company but multiple companies.

先ず図4に例示するように、ある企業A社に属する本体データベース100では、各顧客等をしめすIDに関連付けて、その属性やA社が実施したキャンペーンへの参加の有無のデータ等が記録(蓄積)されているとする。この場合、特にキャンペーンへの参加の有無は、A社独自のデータではあるが、顧客の一般的な移動履歴等のデータは含まれていない(図4ハッチング部参照)。 First, as shown in the example of Figure 4, the main database 100 belonging to a certain company A records (accumulates) data such as attributes and whether or not the customer participated in a campaign implemented by company A in association with an ID indicating each customer. In this case, the participation in a campaign is data unique to company A, but data such as the customer's general movement history is not included (see the hatched area in Figure 4).

一方、上述してきた第1実施形態のデータベース生成処理では、このようなA社の本体データベース100に対して、第1実施形態のドナーデータベース101が適用される。このときのドナーデータベース101としては、上記移動履歴やサービス利用履歴等の一般的なライフスタイル又は価値観を示すデータがサンプルとして含まれているものが用いられる。そして、このようなドナーデータベース101を用いた第1実施形態のデータベース生成処理が本体データベース100に対して実行されると、その結果として得られる統合データベース102は、図5に例示するように、A社の企業活動には関連性が低いとしてデータ(サンプル)が得られていなかった上記移動履歴等のデータがサンプルとして含まれ得ることになる。この結果、A社の企業活動等にとって極めて有効な統合データベース102が自動的に得られたことになる。 On the other hand, in the database generation process of the first embodiment described above, the donor database 101 of the first embodiment is applied to the main database 100 of Company A. The donor database 101 used in this case contains data indicating general lifestyles or values, such as the movement history and service usage history, as samples. When the database generation process of the first embodiment using such a donor database 101 is executed on the main database 100, the resulting integrated database 102 may contain, as exemplified in FIG. 5, samples of data such as the movement history, for which data (samples) were not obtained because they were considered to be of low relevance to the business activities of Company A. As a result, an integrated database 102 that is extremely useful for the business activities of Company A is automatically obtained.

以上説明したように、第1実施形態のデータベース生成装置Sによるデータベース生成処理によれば、ドナーデータベース101の精度を評価Bとし、厳選ドナーデータベース103の精度を評価Cとし、評価C≧評価Bであるとき、サンプル生成厳選ドナーデータベース104を生成し、本体データベース100に統合して統合データベース102を生成する(図3ステップS1乃至ステップS7参照)。よって、ドナーデータベース101の精度及び厳選ドナーデータベース103の精度の評価結果に基づいて生成したサンプル生成厳選ドナーデータベース104を本体データベース100に統合して統合データベース102を生成するので、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡る統合データベース102を自動的に生成することができる。 As described above, according to the database generation process by the database generation device S of the first embodiment, the accuracy of the donor database 101 is rated B, the accuracy of the carefully selected donor database 103 is rated C, and when rating C≧rating B, the sample generation carefully selected donor database 104 is generated and integrated with the main database 100 to generate the integrated database 102 (see steps S1 to S7 in FIG. 3). Therefore, the sample generation carefully selected donor database 104 generated based on the evaluation results of the accuracy of the donor database 101 and the accuracy of the carefully selected donor database 103 is integrated with the main database 100 to generate the integrated database 102, so that the integrated database 102 with a large number of samples and a wide range of items (indicators) as a database can be automatically generated.

なお、本発明の発明者等によるシミュレーションによれば、万単位の数のサンプルを含み且つ商品ブランドに関連する本体データベース100(評価Aとしての正解率が50%未満)に対して、千単位の数のサンプルを含み、変数の数が本体データベース100より多く且つ一般価値観に関するドナーデータベース101(評価Bとしての正解率が80%後半の値以上)を第1実施形態のデータベース生成処理を用いて統合して得られた統合データベース102(本体データベースのサンプル数と同数のサンプルを含み、変数の数が本体データベース100の変数の数とドナーデータベース101の変数の数を合計した数となる)の評価Dとしての正解率は、元の本体データベース100の正解率より高く、ドナーデータベース101の正解率に迫る正解率であることが確認できている。これらにより、第1実施形態のデータベース生成処理によれば、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡るだけでなく、元の本体データベース100に対して精度(正解率)が飛躍的に向上した統合データベース102を自動的に生成することが可能となることが判る。 According to a simulation by the inventors of the present invention, the integrated database 102 (containing the same number of samples as the samples in the main database, and the number of variables is the sum of the number of variables in the main database 100 and the number of variables in the donor database 101) obtained by integrating the main database 100 (with a correct answer rate for evaluation B of 80% or more) related to general values and containing thousands of samples, with a main database 100 related to product brands (with a correct answer rate for evaluation A of less than 50%) using the database generation process of the first embodiment, has a higher correct answer rate for evaluation D than the original main database 100 and is close to the correct answer rate of the donor database 101. From these, it can be seen that the database generation process of the first embodiment makes it possible to automatically generate an integrated database 102 that not only contains a large number of samples and a wide variety of items (indicators) as a database, but also has a dramatically improved accuracy (correct answer rate) compared to the original main database 100.

また、評価C<評価Bであるとき、有効指標のデータの再抽出及び厳選ドナーデータベース103の再生成を行い、再生成された厳選ドナーデータベース103の精度を再評価するので、より高精度の統合データベース102を自動的に生成することができる。 In addition, when evaluation C is smaller than evaluation B, the data of the validity indicators is re-extracted and the carefully selected donor database 103 is re-generated, and the accuracy of the re-generated carefully selected donor database 103 is re-evaluated, so that a more accurate integrated database 102 can be automatically generated.

更に、生成された統合データベース102の精度(評価D)が元の本体データベース100の精度(評価A)未満であるとき、有効指標のデータの再抽出及び厳選ドナーデータベース103の再生成を行い、再生成された厳選ドナーデータベース103の精度を再評価するので(図3ステップS8、ステップS9参照)、更に高精度の統合データベース102を自動的に生成することができる。 Furthermore, when the accuracy (rating D) of the generated integrated database 102 is less than the accuracy (rating A) of the original main database 100, the data of the valid indicators is re-extracted and the carefully selected donor database 103 is re-generated, and the accuracy of the re-generated carefully selected donor database 103 is re-evaluated (see steps S8 and S9 in Figure 3), so that an even more accurate integrated database 102 can be automatically generated.

また、上記評価Dが上記評価Aより高い場合に、第1実施形態のデータベース生成処理を終了して統合データベース102の内容を確定するので(図3ステップS9:YES参照)、本体データベース100よりもより高精度の統合データベース102を自動的に生成することができる。 In addition, if the evaluation D is higher than the evaluation A, the database generation process of the first embodiment is terminated and the contents of the integrated database 102 are confirmed (see step S9 in FIG. 3: YES), so that an integrated database 102 with higher accuracy than the main database 100 can be automatically generated.

更に、評価部10による各評価が、混合行列を用いた交差検証法を用いてそれぞれ行われるので、各データベースの精度の評価を正確に行うことができる。 Furthermore, each evaluation by the evaluation unit 10 is performed using a cross-validation method that uses a confusion matrix, so that the accuracy of each database can be accurately evaluated.

更にまた、抽出部11による有効指標の抽出が、主成分分析法、変数重要度法又はSHAPライブラリを用いた方法の少なくともいずれか一つを用いて行われるので、より実用性の高い有効指標のデータを抽出することができる。 Furthermore, since the extraction unit 11 extracts effective indicators using at least one of the principal component analysis method, the variable importance method, or a method using the SHAP library, it is possible to extract data on effective indicators that are more practical.

また、生成された統合データベース102に含まれるデータとドナーデータベース101に含まれるデータとの合致度を評価し、その評価された合致度を出力するので(図3ステップS10及びステップS11参照)、最終的に生成された統合データベース102の、元のドナーデータベース101に対する合致度を容易に認識することができる。 In addition, the degree of match between the data contained in the generated integrated database 102 and the data contained in the donor database 101 is evaluated and the evaluated degree of match is output (see steps S10 and S11 in Figure 3), so that the degree of match between the finally generated integrated database 102 and the original donor database 101 can be easily recognized.

更に、ステップS10における合致度の評価が、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S/N法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて行われるので、より正確に当該合致度を認識することができる。
(II)第2実施形態
Furthermore, since the evaluation of the degree of match in step S10 is performed using at least one of the mean/variance method, the histogram method, the statistical distribution method of aggregated data, the S/N method, or an evaluation method using Cronbach's alpha coefficient, the degree of match can be recognized more accurately.
(II) Second embodiment

次に、本発明の他の実施形態である第2実施形態について、図6を用いて説明する。なお、図6は第2実施形態のデータベース生成処理を示すフローチャートである。 Next, a second embodiment, which is another embodiment of the present invention, will be described with reference to FIG. 6. FIG. 6 is a flowchart showing the database generation process of the second embodiment.

上述した第1実施形態のデータベース生成処理では、本体データベース100とドナーデータベース101とを統合し、統合データベース102を生成した。これに対し、以下に説明する第2実施形態のデータベース生成処理では、上記生成された統合データベース102を第1実施形態のデータベース生成処理と同様の方法にて更に拡充し、様々な市場(インターネット上の、いわゆる仮想市場を含む)に適用可能なデータベースを生成する。 In the database generation process of the first embodiment described above, the main database 100 and the donor database 101 are integrated to generate the integrated database 102. In contrast, in the database generation process of the second embodiment described below, the integrated database 102 generated above is further expanded in a manner similar to the database generation process of the first embodiment, to generate a database that can be applied to various markets (including so-called virtual markets on the Internet).

なお、第2実施形態のデータベース生成処理のハードウェア的な構成は、基本的には第1実施形態のデータベース生成装置Sのハードウェア的な構成と同一であるので、以下の説明では、当該データベース生成装置Sと同様の部材については同一の部材番号を付して細部の説明は省略する。また、第2実施形態のデータベース生成処理のうち、上述した第1実施形態のデータベース生成処理と同一の処理については、同一のステップ番号を付して細部の説明は両略する。 The hardware configuration of the database generation process of the second embodiment is basically the same as the hardware configuration of the database generation device S of the first embodiment, so in the following explanation, the same components as those of the database generation device S are given the same component numbers and detailed explanations are omitted. Furthermore, among the database generation process of the second embodiment, the same processes as those of the database generation process of the first embodiment described above are given the same step numbers and detailed explanations are omitted.

図6に示すように、第2実施形態のデータベース生成装置において実行される第2実施形態のデータベース生成処理は、第1実施形態のデータベース生成処理と同様に、例えば第2実施形態のデータベース生成装置の電源スイッチがオンとされたタイミングから開始される。 As shown in FIG. 6, the database generation process of the second embodiment executed by the database generation device of the second embodiment is started, for example, when the power switch of the database generation device of the second embodiment is turned on, similar to the database generation process of the first embodiment.

当該データベース生成処理が開始されると、先ず、第1実施形態のデータベース生成処理により生成された統合データベース102のデータが取得される。このとき、第2実施形態のデータベース生成処理に供される統合データベース102は、第1実施形態のデータベース生成処理により一の本体データベース100と一のドナーデータベース101とを統合したものであってもよいし、第1実施形態のデータベース生成処理を連続して複数回繰り返すことにより、一又は複数の本体データベース100と、一又は複数のドナーデータベース101とを統合して生成された統合データベースであってもよい。 When the database generation process is started, first, data of the integrated database 102 generated by the database generation process of the first embodiment is obtained. At this time, the integrated database 102 provided to the database generation process of the second embodiment may be one in which one main database 100 and one donor database 101 are integrated by the database generation process of the first embodiment, or it may be an integrated database generated by integrating one or more main databases 100 and one or more donor databases 101 by repeating the database generation process of the first embodiment multiple times in succession.

次に、第2実施形態の処理部1の評価部10は、取得した統合データベース102のデータに基づき、第1実施形態のデータベース生成処理と同様の評価方法により統合データベース102の精度を評価し、その評価結果を「評価a」として第2実施形態の記録部2に一時的に記録する(ステップS20)。 Next, the evaluation unit 10 of the processing unit 1 of the second embodiment evaluates the accuracy of the integrated database 102 based on the acquired data of the integrated database 102 using an evaluation method similar to that of the database generation process of the first embodiment, and temporarily records the evaluation result as "evaluation a" in the recording unit 2 of the second embodiment (step S20).

次に第2実施形態の処理部1の統合部13は、統合データベース102のデータと第2実施形態の接続用データベース124のデータを従来と同様の方法で統合し、高精度統合データベース120を生成して記録部2に一時的に記録する(ステップS21)。 Next, the integration unit 13 of the processing unit 1 of the second embodiment integrates the data of the integrated database 102 and the data of the connection database 124 of the second embodiment in a manner similar to that of the conventional method, generates a high-precision integrated database 120, and temporarily records it in the recording unit 2 (step S21).

ここで、上記接続用データベース124とは、二つのデータベースを接続して統合するためのいわば「糊代」として機能する場合や、その接続データベースを用いて統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目(指標)を含み且つ所定数のサンプルを含む、汎用性の高いデータベースである。 The connection database 124 is a highly versatile database that may function as a sort of "glue" for connecting and integrating two databases, or that may be expected to improve the accuracy of the original database by integrating using the connection database, and that includes various items (indicators) and a predetermined number of samples.

次に評価部10は、生成されて記録されている高精度統合データベース120のデータに基づき、上述した評価方法により高精度統合データベース120の精度を評価し、その評価結果を「評価b」として記録部2に一時的に記録する(ステップS22)。 Next, the evaluation unit 10 evaluates the accuracy of the high-precision integrated database 120 using the evaluation method described above based on the generated and recorded data of the high-precision integrated database 120, and temporarily records the evaluation result in the recording unit 2 as "evaluation b" (step S22).

次に処理部1は、記録部2に記録されている上記評価cが上記評価b以上であるか否かを判定する(ステップS23)。ステップS23の判定において、評価cが評価b未満である場合(ステップS23:NO)、接続用データベース124の精度を向上させるべく、処理部1の抽出部11は、上述した抽出方法により、その時点での接続用データベース124のデータから有効指標に相当するデータを抽出し、その抽出されたデータを用いて新たな(項目(指標)が厳選された)接続用データベース124を生成して記録部2に一時的に記録する(ステップS27)。この新たな接続用データベース124は、その後の上記ステップS21の処理に供される。 Next, the processing unit 1 judges whether the evaluation c recorded in the recording unit 2 is equal to or greater than the evaluation b (step S23). If the judgment in step S23 is that the evaluation c is less than the evaluation b (step S23: NO), in order to improve the accuracy of the connection database 124, the extraction unit 11 of the processing unit 1 extracts data corresponding to effective indicators from the data in the connection database 124 at that time using the extraction method described above, and generates a new connection database 124 (with carefully selected items (indicators)) using the extracted data and temporarily records it in the recording unit 2 (step S27). This new connection database 124 is then used for the processing in the above step S21.

一方、ステップS23の判定において、評価cが評価b以上である場合(ステップS23:YES)、次に抽出部11は、高精度統合データベース120の精度を向上させるべく、上述した抽出方法により、記録されている高精度統合データベース120のデータから有効指標に相当するデータを抽出し、その抽出したデータを用いて厳選高精度統合データベース121を生成して記録部2に一時的に記録する(ステップS24)。ここで、当該厳選高精度統合データベース121の生成(ステップS24)には、統合データベース102と属性又は特性が類似している所定の仮想市場に対応する項目(指標)及びそれに対応したモデルの生成が含まれている。その後評価部10は、生成された厳選高精度統合データベース121のデータに基づき、上述した評価方法により厳選高精度統合データベース121の精度を評価し、その評価結果を「評価c」として記録部2に一時的に記録する(ステップS25)。 On the other hand, if the judgment in step S23 indicates that the evaluation c is equal to or higher than the evaluation b (step S23: YES), then the extraction unit 11 extracts data corresponding to the effective indicators from the recorded data of the high-precision integrated database 120 by the above-mentioned extraction method in order to improve the accuracy of the high-precision integrated database 120, generates the carefully selected high-precision integrated database 121 using the extracted data, and temporarily records it in the recording unit 2 (step S24). Here, the generation of the carefully selected high-precision integrated database 121 (step S24) includes the generation of items (indicators) corresponding to a predetermined virtual market whose attributes or characteristics are similar to those of the integrated database 102, and the generation of a model corresponding to the items (indicators). After that, the evaluation unit 10 evaluates the accuracy of the carefully selected high-precision integrated database 121 by the above-mentioned evaluation method based on the data of the generated carefully selected high-precision integrated database 121, and temporarily records the evaluation result as "evaluation c" in the recording unit 2 (step S25).

次に処理部1は、記録部2に記録されている上記評価cが上記評価b(上記ステップS22参照)以上であるか否かを判定する(ステップS26)。ステップS26の判定において、評価cが評価b未満である場合(ステップS26:NO)、上記ステップS27の接続用データベース124における有効指標の抽出が不十分であったとして、再度ステップS27に戻り、抽出部11は有効指標の更なる抽出を行い、その後の上記ステップS21に供させる。一方、ステップS26の判定において、評価cが評価b以上である場合(ステップS26:YES)、次に処理部1の生成部12は、上述した生成方法を用いて厳選高精度統合データベース121についてのサンプル生成(データ生成)を行う(ステップS28)。 Next, the processing unit 1 judges whether the evaluation c recorded in the recording unit 2 is equal to or greater than the evaluation b (see step S22 above) (step S26). If the judgment in step S26 finds that the evaluation c is less than the evaluation b (step S26: NO), the extraction of the effective indicators in the connection database 124 in step S27 above is insufficient, and the process returns to step S27 again, where the extraction unit 11 further extracts effective indicators and then provides them to step S21. On the other hand, if the judgment in step S26 finds that the evaluation c is equal to or greater than the evaluation b (step S26: YES), the generation unit 12 of the processing unit 1 then generates samples (data) for the carefully selected high-precision integrated database 121 using the generation method described above (step S28).

次に処理部1は、現実(仮想でない)の市場における統計情報を含む市場統計データベースであって、例えば統合データベース102と属性又は特性が類似している所定の市場統計データベース122を用いて、上記サンプル生成後の厳選高精度統合データベース121のデータを当該市場統計データベース122のデータに近似させ(ステップS29)、近似させたデータを用いてサンプル生成厳選高精度統合データベース123を生成して記録部2に一時的に記録する(ステップS30)。 Then, the processing unit 1 uses a predetermined market statistics database 122, which is a market statistics database containing statistical information in a real (non-virtual) market and has attributes or characteristics similar to those of the integrated database 102, to approximate the data of the carefully selected, high-precision integrated database 121 after the sample generation to the data of the market statistics database 122 (step S29), and generates a sample generation carefully selected, high-precision integrated database 123 using the approximated data and temporarily records it in the recording unit 2 (step S30).

その後評価部10は、生成されたサンプル生成厳選高精度統合データベース123のデータに基づき、上述した評価方法によりサンプル生成厳選高精度統合データベース123の精度を評価し、その評価結果を「評価d」として記録部2に一時的に記録する(ステップS31)。 Then, the evaluation unit 10 evaluates the accuracy of the sample generation, carefully selected, high-precision integrated database 123 using the evaluation method described above based on the data of the generated sample generation, carefully selected, high-precision integrated database 123, and temporarily records the evaluation result in the recording unit 2 as "evaluation d" (step S31).

次に処理部1は、記録部2に記録されている上記評価dが上記評価c(上記ステップS25参照)以上であるか否かを判定する(ステップS32)。ステップS32の判定において、評価dが評価c未満である場合(ステップS32:NO)、上記ステップS28乃至上記ステップS30におけるサンプル生成及び市場統計データベース122のデータへの近似等の処理における精度が不十分であったとして、処理部1は、再度ステップS28に戻ってそれ以降の処理を繰り返す。 Next, the processing unit 1 judges whether the evaluation d recorded in the recording unit 2 is equal to or greater than the evaluation c (see step S25 above) (step S32). If the judgment in step S32 is that the evaluation d is less than the evaluation c (step S32: NO), the processing unit 1 returns to step S28 again and repeats the subsequent steps, assuming that the accuracy of the processes such as sample generation and approximation to the data in the market statistics database 122 in steps S28 to S30 was insufficient.

一方、ステップS32の判定において、評価dが評価c以上である場合(ステップS32:YES)、次に処理部1は、その時点でのサンプル生成厳選高精度統合データベース123のデータと接続用データベース124のデータとの合致度の評価及びその出力を、第1実施形態のデータベース生成処理におけるステップS10及びステップS11と同様の方法により行う。 On the other hand, if it is determined in step S32 that evaluation d is equal to or greater than evaluation c (step S32: YES), then the processing unit 1 evaluates the degree of match between the data in the sample generation carefully selected high-precision integrated database 123 at that time and the data in the connection database 124 and outputs the evaluation result in the same manner as in steps S10 and S11 in the database generation process of the first embodiment.

その後処理部1は、例えば操作部3による終了操作等により第2実施形態のデータベース生成処理を終了するか否かを判定する(ステップS33)。ステップS33の判定において、当該データベース生成処理を終了する場合(ステップS33:YES)、処理部1は、そのまま当該データベース生成処理を終了する。一方、ステップS33の判定において、例えば他の統合データベース102を対象として当該データベース生成処理を継続する場合(ステップS33:NO)、処理部1は、上記ステップS20に戻り、上記他の統合データベース102を対象として上述してきた処理を継続する。 Then, the processing unit 1 judges whether or not to end the database generation process of the second embodiment, for example, by an end operation by the operation unit 3 (step S33). If the judgment in step S33 is that the database generation process is to be ended (step S33: YES), the processing unit 1 ends the database generation process as is. On the other hand, if the judgment in step S33 is that the database generation process is to be continued, for example, with another integrated database 102 as the target (step S33: NO), the processing unit 1 returns to the above step S20 and continues the above-described process with the other integrated database 102 as the target.

以上説明した第2実施形態のデータベース生成処理によっても、第1実施形態のデータベース生成処理と同様の効果を得ることができる。 The database generation process of the second embodiment described above can achieve the same effect as the database generation process of the first embodiment.

すなわち、統合データベース102の精度を評価aとし、高精度統合データベース120の精度を評価bとし、評価b≧評価aであるとき厳選高精度統合データベース121を生成し、その厳選高精度統合データベース121の精度を評価cと、評価c≧評価bであるとき、市場統計データベース122のデータに近似させてサンプル生成厳選高精度統合データベース123を生成する(図6ステップS20乃至ステップS30参照)。よって、統合データベース102に対応したサンプル数及び項目を有し且つ現実市場にも対応したサンプル生成厳選高精度統合データベース123を自動的に生成することができる。 That is, the accuracy of the integrated database 102 is rated a, the accuracy of the high-precision integrated database 120 is rated b, and when rated b ≧ rated a, a carefully selected high-precision integrated database 121 is generated, and when rated c ≧ rated b, the accuracy of the carefully selected high-precision integrated database 121 is rated c, and when rated c ≧ rated b, a sample generated carefully selected high-precision integrated database 123 is generated by approximating it to the data of the market statistics database 122 (see steps S20 to S30 in FIG. 6). Thus, a sample generated carefully selected high-precision integrated database 123 that has the number of samples and items corresponding to the integrated database 102 and also corresponds to the real market can be automatically generated.

また、評価b<評価aであるとき(図6ステップS23:NO参照)、又は評価c<評価bであるとき(図6ステップS26:NO参照)、有効項目のデータを接続用データベース124から抽出して統合データベース102との統合に供させるので(図6ステップS27参照)、より高精度のサンプル生成厳選高精度統合データベース123を自動的に生成することができる。 In addition, when evaluation b<evaluation a (see step S23 in FIG. 6: NO) or when evaluation c<evaluation b (see step S26 in FIG. 6: NO), data on valid items is extracted from the connection database 124 and is made available for integration with the integrated database 102 (see step S27 in FIG. 6), so that a more highly accurate sample generation carefully selected high-precision integrated database 123 can be automatically generated.

更に、サンプル生成厳選高精度統合データベース123の精度の評価dが評価c未満であるとき(図3ステップS32:NO参照)、ステップS28としてのサンプル生成(データ生成)が再度実行されるので、更に高精度のサンプル生成厳選高精度統合データベース123を自動的に生成することができる。 Furthermore, when the accuracy evaluation d of the sample generation carefully selected high-precision integrated database 123 is less than the evaluation c (see step S32 in FIG. 3: NO), sample generation (data generation) is executed again as step S28, so that a sample generation carefully selected high-precision integrated database 123 with even higher accuracy can be automatically generated.

更にまた、生成されたサンプル生成厳選高精度統合データベース123に含まれるデータと接続用データベース124に含まれるデータとの合致度を評価し(図6ステップS10参照)、その評価された合致度を示す合致度情報を報知する(図6ステップS11参照)ので、最終的に生成されたサンプル生成厳選高精度統合データベース123の、元の接続用データベース124に対する合致度を容易に認識することができる。 Furthermore, the degree of match between the data contained in the generated sample generation carefully selected high-precision integrated database 123 and the data contained in the connection database 124 is evaluated (see step S10 in FIG. 6), and matching information indicating the evaluated degree of match is notified (see step S11 in FIG. 6), so that the degree of match between the finally generated sample generation carefully selected high-precision integrated database 123 and the original connection database 124 can be easily recognized.

以上それぞれ説明したように、本発明はデータベースの統合の分野に利用することが可能であり、特にサンプル数及び/又は項目(指標)数が異なるデータベース同士の統合の分野に適用すれば特に顕著な効果が得られる。 As explained above, the present invention can be used in the field of database integration, and particularly when applied to the field of integrating databases with different numbers of samples and/or items (indicators), it can produce particularly remarkable effects.

1 処理部
2 記録部
3 操作部
4 ディスプレイ
10 評価部
11 抽出部
110 主成分分析抽出部
111 変数重要度抽出部
112 SHAP抽出部
12 生成部
13 統合部
100 本体データベース
101 ドナーデータベース
102 統合データベース
103 厳選ドナーデータベース
104 サンプル生成厳選ドナーデータベース
120 高精度統合データベース
121 厳選高精度統合データベース
122 市場統計データベース
123 サンプル生成厳選高精度統合データベース
124 接続用データベース
S データベース生成装置
REFERENCE SIGNS LIST 1 Processing unit 2 Recording unit 3 Operation unit 4 Display 10 Evaluation unit 11 Extraction unit 110 Principal component analysis extraction unit 111 Variable importance extraction unit 112 SHAP extraction unit 12 Generation unit 13 Integration unit 100 Main database 101 Donor database 102 Integrated database 103 Carefully selected donor database 104 Sample generation carefully selected donor database 120 High-precision integrated database 121 Carefully selected high-precision integrated database 122 Market statistics database 123 Sample generation carefully selected high-precision integrated database 124 Connection database S Database generation device

Claims (8)

商品の購入に関する被統合データベースに対する統合用データベースを用いた統合及び拡張により得られた統合データベースであり且つ商品の購入に関する統合データベースに対して、データベースとしてのサンプル数又は項目の少なくともいずれか一方が当該統合データベースと異なる他のデータベースを更に統合するデータベース生成装置であって、
統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目又は指標を含み且つ所定数のサンプルを含む汎用の接続用データベースを前記統合データベースに統合して第2統合データベースを生成する統合手段と、
前記生成された第2統合データベースの正解率に基づいた精度である第2精度が前記統合データベースの正解率に基づいた精度である第1精度以上であるとき、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する抽出手段と、
前記生成された抽出第2統合データベースの正解率に基づいた精度である第3精度が前記第2精度以上であるとき、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成手段と、
前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する生成手段と、
を備えることを特徴とするデータベース生成装置。
A database generating device which further integrates another database, which is an integrated database obtained by integrating and expanding an integrated database related to product purchases using an integrating database, and which is different from the integrated database related to product purchases in at least one of the number of samples or items as a database , comprising:
an integration means for integrating a general-purpose connection database, which is a database that may be expected to improve accuracy from the accuracy of the original database by integration, and which includes various items or indicators and a predetermined number of samples, into the integrated database to generate a second integrated database;
an extraction means for extracting data of effective items actually used for integration with the integrated database from the second integrated database to generate an extracted second integrated database when a second accuracy based on the accuracy of the generated second integrated database is equal to or greater than a first accuracy based on the accuracy of the integrated database;
a data generating means for generating data so as to increase the number of samples in the extracted second integrated database to match the number of samples in the integrated database when a third accuracy, which is an accuracy based on a rate of correct answers of the generated extracted second integrated database, is equal to or greater than the second accuracy;
a generating means for approximating data of the extracted second integrated database including the generated data to data of a market statistics database including statistical information of a real market, thereby generating an extracted second integrated database with an increased number of samples;
A database generating device comprising:
請求項1に記載のデータベース生成装置において、
前記第2精度が前記第1精度未満であるとき、又は前記第3精度が前記第2精度未満であるとき、前記有効項目のデータを前記接続用データベースから抽出して前記統合に供させる第2抽出手段を更に備えることを特徴とするデータベース生成装置。
2. The database generating device according to claim 1,
A database generation device further comprising a second extraction means for extracting data of the valid items from the connection database and providing it for the integration when the second accuracy is less than the first accuracy or when the third accuracy is less than the second accuracy .
請求項1又は請求項2に記載のデータベース生成装置において、
前記生成されたサンプル数増大抽出第2統合データベースの正解率に基づいた精度である第4精度が前記第3精度未満であるとき、前記データ生成手段は、前記抽出第2統合データベースにおけるサンプル数を増やすための前記データを再生成することを特徴とするデータベース生成装置。
3. The database generating device according to claim 1,
A database generation device characterized in that when a fourth accuracy, which is an accuracy based on the accuracy rate of the generated sample number-increasing extracted second integrated database, is less than the third accuracy, the data generation means regenerates the data to increase the number of samples in the extracted second integrated database .
請求項1から請求項3のいずれか一項に記載のデータベース生成装置において、
前記有効項目のデータの抽出は、主成分分析法、変数重要度法又はSHAP(SHapley Additive exPlanations)ライブラリを用いた方法の少なくともいずれか一つを用いて実行されることを特徴とするデータベース生成装置。
4. The database generating device according to claim 1 ,
A database generating device , characterized in that the extraction of data on the effective items is performed using at least one of a principal component analysis method, a variable importance method, and a method using a SHAP (SHapley Additive exPlanations) library .
請求項1から請求項3のいずれか一項に記載のデータベース生成装置において、
前記生成されたサンプル数増大抽出第2統合データベースに含まれるデータと前記接続用データベースに含まれるデータとの合致度を評価する合致度評価手段と、
前記評価された合致度を示す合致度情報を報知する報知手段と、
を更に備えることを特徴とするデータベース生成装置。
4. The database generating device according to claim 1 ,
a matching degree evaluation means for evaluating a matching degree between the data included in the generated sample number-increased extraction second integrated database and the data included in the connection database;
a notification means for notifying a match degree information indicating the evaluated match degree;
The database generating device further comprises:
請求項5に記載のデータベース生成装置において、
前記合致度評価手段は、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S(Signal)/N(Noise)法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて前記合致度の評価を行うことを特徴とするデータベース生成装置。
6. The database generating device according to claim 5 ,
The database generation device is characterized in that the matching evaluation means evaluates the matching degree using at least one of the mean/variance method, the histogram method, the statistical distribution utilization method of aggregated data, the S (Signal)/N (Noise) method, or an evaluation method using Cronbach's alpha coefficient .
商品の購入に関する被統合データベースに対する統合用データベースを用いた統合及び拡張により得られた統合データベースであり且つ商品の購入に関する統合データベースに対して、データベースとしてのサンプル数又は項目の少なくともいずれか一方が当該統合データベースと異なる他のデータベースを更に統合するデータベース生成装置であり、統合手段と、抽出手段と、データ生成手段と、生成手段と、を備えるデータベース生成装置において実行されるデータベース生成方法であって、
統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目又は指標を含み且つ所定数のサンプルを含む汎用の接続用データベースを、前記統合手段により前記統合データベースに統合して第2統合データベースを生成する統合工程と、
前記生成された第2統合データベースの正解率に基づいた精度である第2精度が前記統合データベースの正解率に基づいた精度である第1精度以上であるとき、前記抽出手段により、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する抽出工程と、
前記生成された抽出第2統合データベースの正解率に基づいた精度である第3精度が前記第2精度以上であるとき、前記データ生成手段により、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成工程と、
前記生成手段により、前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する生成工程と、
を含むことを特徴とするデータベース生成方法
A database generating device further integrates another database, which is an integrated database obtained by integrating and expanding an integrated database related to product purchases using an integrating database, and which is different from the integrated database related to product purchases in at least one of the number of samples or items as a database, and which is executed in the database generating device comprising an integrating means, an extracting means, a data generating means, and a generating means,
an integration step of integrating a general-purpose connection database, which is a database that may be expected to improve accuracy from the accuracy of the original database by integration, and which includes various items or indicators and a predetermined number of samples, into the integrated database by the integration means to generate a second integrated database;
an extraction step of extracting, by the extraction means, data of effective items actually used for integration with the integrated database from the second integrated database to generate an extracted second integrated database when a second accuracy based on the accuracy of the generated second integrated database is equal to or greater than a first accuracy based on the accuracy of the integrated database;
a data generating step of generating data by the data generating means so as to increase the number of samples in the extracted second integrated database to match the number of samples in the integrated database when a third accuracy, which is an accuracy based on a correct answer rate of the generated extracted second integrated database, is equal to or greater than the second accuracy;
a generating step of approximating data of the extracted second integrated database including the generated data by the generating means to data of a market statistics database including statistical information of a real market, thereby generating an extracted second integrated database with an increased sample number;
A database generating method comprising :
商品の購入に関する被統合データベースに対する統合用データベースを用いた統合及び拡張により得られた統合データベースであり且つ商品の購入に関する統合データベースに対して、データベースとしてのサンプル数又は項目の少なくともいずれか一方が当該統合データベースと異なる他のデータベースを更に統合するデータベース生成装置に含まれるコンピュータを、
統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目又は指標を含み且つ所定数のサンプルを含む汎用の接続用データベースを前記統合データベースに統合して第2統合データベースを生成する統合手段、
前記生成された第2統合データベースの正解率に基づいた精度である第2精度が前記統合データベースの正解率に基づいた精度である第1精度以上であるとき、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する抽出手段、
前記生成された抽出第2統合データベースの正解率に基づいた精度である第3精度が前記第2精度以上であるとき、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成手段、及び、
前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する生成手段、
として機能させることを特徴とするデータベース生成用プログラム
A computer included in a database generating device which further integrates another database, which is an integrated database obtained by integrating and expanding an integrated database related to product purchases using an integrating database, and which is different from the integrated database related to product purchases in at least one of the number of samples or items as a database,
an integration means for integrating a general-purpose connection database including various items or indicators and a predetermined number of samples into the integrated database, the general-purpose connection database being a database that may be expected to improve accuracy from the accuracy of the original database through integration, to generate a second integrated database;
an extraction means for extracting data of effective items actually used for integration with the integrated database from the second integrated database to generate an extracted second integrated database when a second accuracy, which is an accuracy based on a correct answer rate of the generated second integrated database, is equal to or higher than a first accuracy, which is an accuracy based on a correct answer rate of the integrated database;
a data generating means for generating data so as to increase the number of samples in the extracted second integrated database to match the number of samples in the integrated database when a third accuracy, which is an accuracy based on a correct answer rate of the generated extracted second integrated database, is equal to or greater than the second accuracy; and
a generating means for approximating data of the extracted second integrated database including the generated data to data of a market statistics database including statistical information of a real market, thereby generating an extracted second integrated database with an increased number of samples;
A database generating program that functions as a database generating program .
JP2021139603A 2021-08-30 2021-08-30 Database generation device, database generation method, and database generation program Active JP7675431B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021139603A JP7675431B2 (en) 2021-08-30 2021-08-30 Database generation device, database generation method, and database generation program
JP2023198850A JP2024009227A (en) 2021-08-30 2023-11-24 Database generation device, database generation method, and database generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021139603A JP7675431B2 (en) 2021-08-30 2021-08-30 Database generation device, database generation method, and database generation program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023198850A Division JP2024009227A (en) 2021-08-30 2023-11-24 Database generation device, database generation method, and database generation program

Publications (2)

Publication Number Publication Date
JP2023033737A JP2023033737A (en) 2023-03-13
JP7675431B2 true JP7675431B2 (en) 2025-05-13

Family

ID=85504925

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021139603A Active JP7675431B2 (en) 2021-08-30 2021-08-30 Database generation device, database generation method, and database generation program
JP2023198850A Withdrawn JP2024009227A (en) 2021-08-30 2023-11-24 Database generation device, database generation method, and database generation program

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023198850A Withdrawn JP2024009227A (en) 2021-08-30 2023-11-24 Database generation device, database generation method, and database generation program

Country Status (1)

Country Link
JP (2) JP7675431B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154540A (en) 2010-01-27 2011-08-11 Fujitsu Ltd Similarity calculation program and similarity calculation device
JP2019159837A (en) 2018-03-13 2019-09-19 日本電気株式会社 Database binding apparatus, database binding method, and database binding program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5241370B2 (en) * 2008-08-01 2013-07-17 三菱電機株式会社 Table classification apparatus, table classification method, and table classification program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154540A (en) 2010-01-27 2011-08-11 Fujitsu Ltd Similarity calculation program and similarity calculation device
JP2019159837A (en) 2018-03-13 2019-09-19 日本電気株式会社 Database binding apparatus, database binding method, and database binding program

Also Published As

Publication number Publication date
JP2024009227A (en) 2024-01-19
JP2023033737A (en) 2023-03-13

Similar Documents

Publication Publication Date Title
JP4925143B2 (en) Stream data processing system, stream data processing method, and stream data processing program
JP5368665B2 (en) Expert database forwarded back to link weighted association rules
CN104965886B (en) Data dimension processing method
CN111861605B (en) Business Object Recommendation Method
JP6586184B2 (en) Data analysis support device and data analysis support method
US10915563B2 (en) Analysis server device, data analysis system, and data analysis method
US10762551B2 (en) Intelligent recommendation system
US10672016B1 (en) Pathing and attribution in marketing analytics
Goar et al. Business decision making by big data analytics
Yang et al. Discovery of online shopping patterns across websites
CN114936873A (en) Intelligent guiding analysis method and device for e-commerce drainage transformation, storage medium and electronic equipment
CN105303447A (en) Method and device for carrying out credit rating through network information
WO2020201830A1 (en) Systems and methods for generating, monitoring, and analyzing event networks from event data
JP7675431B2 (en) Database generation device, database generation method, and database generation program
KR101214649B1 (en) System and method for supporting of multipack product development by using sales results
CN113065944A (en) A method and system for intelligent analysis and evaluation of credit risk for credit conditions
CN112862327A (en) Service label generation method, device and medium
CN115391421B (en) Feature extraction method, device, equipment and storage medium
CN114706852B (en) Data storage and analysis method, device, terminal and storage medium
CN110852778A (en) Data processing method and device for business object
JP2015146131A (en) information processing method, program, and information processing apparatus
JP4258360B2 (en) Information system investment effect evaluation method and apparatus
JP2024075439A (en) Query execution method and query execution program
CN119759912A (en) Marketing data acquisition method and device based on cascade input and computer equipment
US10489860B1 (en) Systems and methods for developing convertible term products

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221012

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230522

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250421

R150 Certificate of patent or registration of utility model

Ref document number: 7675431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150