JP7645462B2 - Model generation device, model generation method and program - Google Patents
Model generation device, model generation method and program Download PDFInfo
- Publication number
- JP7645462B2 JP7645462B2 JP2021091915A JP2021091915A JP7645462B2 JP 7645462 B2 JP7645462 B2 JP 7645462B2 JP 2021091915 A JP2021091915 A JP 2021091915A JP 2021091915 A JP2021091915 A JP 2021091915A JP 7645462 B2 JP7645462 B2 JP 7645462B2
- Authority
- JP
- Japan
- Prior art keywords
- variables
- variable
- stratification
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- General Factory Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本開示は、データ間の関係を示すモデルを生成するモデル生成装置などに関する。 The present disclosure relates to a model generation device that generates a model that shows relationships between data.
データを推定するためのモデルを生成するモデル生成装置が提案されている。例えば、モデル生成装置は、複数の変数のそれぞれのデータを含むデータセットから、目的変数と説明変数とを選択し、それらの変数の間の相関係数、またはそれらの変数を用いた回帰モデルを導出することによって、モデルを生成する。データセットは、例えば製造に関する複数の製造データを含む。目的変数は、例えば、製造される製品の品質特性をデータとして示し、説明変数は、製造プロセスに用いられるパラメータのデータを示す。したがって、生成されるモデルを用いれば、製造プロセスから製品の品質特性を推定することができる。 A model generation device has been proposed that generates a model for estimating data. For example, the model generation device generates a model by selecting a response variable and an explanatory variable from a data set including data for each of a plurality of variables, and deriving a correlation coefficient between those variables or a regression model using those variables. The data set includes, for example, a plurality of manufacturing data related to manufacturing. The response variable indicates, for example, the quality characteristics of a manufactured product as data, and the explanatory variables indicate data on parameters used in the manufacturing process. Therefore, by using the generated model, it is possible to estimate the quality characteristics of a product from the manufacturing process.
また、局所品質モデルを作成する関連解析装置が提案されている(例えば、特許文献1参照)。この関連解析装置は、局所品質モデルを上述のモデルとして作成するためモデル生成装置と言える。また、この関連解析装置は、説明変数に相当する操業因子の空間を複数の局所領域に分割し、その各局所領域に対して局所品質モデルを作成する。 Also, a related analysis device that creates a local quality model has been proposed (see, for example, Patent Document 1). This related analysis device can be said to be a model generation device because it creates a local quality model as the above-mentioned model. In addition, this related analysis device divides the space of operational factors corresponding to explanatory variables into multiple local regions, and creates a local quality model for each of the local regions.
しかしながら、上記特許文献1の関連解析装置であるモデル生成装置では、モデルの精度向上を図ることが難しいという課題がある。
However, the model generation device, which is the related analysis device in
そこで、本開示は、モデルの精度向上を容易に図ることができるモデル生成装置などを提供する。 Therefore, the present disclosure provides a model generation device that can easily improve the accuracy of a model.
本開示の一態様に係るモデル生成装置は、1または複数の目的変数と1または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、3以上の変数を含むデータセットを受信する受信手段と、前記データセットから、1以上の目的変数と、1以上の説明変数とを特定し、前記データセットに含まれる前記3以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、1または複数の変数を層別変数として特定する変数特定手段と、前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、前記複数の層毎に、前記モデルを生成する生成手段と、を備える。 A model generation device according to one aspect of the present disclosure is a model generation device that generates a model showing a relationship between one or more objective variables and one or more explanatory variables, and includes a receiving means for receiving a dataset including three or more variables, a variable identification means for identifying one or more objective variables and one or more explanatory variables from the dataset, and identifying one or more variables as stratification variables from among the three or more variables included in the dataset other than the identified objective variables and explanatory variables, a stratification means for classifying the dataset into a plurality of strata based on the tendency of the relationship between the stratification variables and the objective variables, and a generation means for generating the model for each of the plurality of strata.
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。また、記録媒体は、非一時的な記録媒体であってもよい。 These comprehensive or specific aspects may be realized by a system, a method, an integrated circuit, a computer program, or a recording medium such as a computer-readable CD-ROM, or may be realized by any combination of a system, a method, an integrated circuit, a computer program, and a recording medium. The recording medium may also be a non-transitory recording medium.
本開示のモデル生成装置は、モデルの精度向上を容易に図ることができる。 The model generation device disclosed herein can easily improve the accuracy of the model.
本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施の形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。 Further advantages and benefits of certain aspects of the present disclosure will become apparent from the specification and drawings. Such advantages and/or benefits may be provided by some of the embodiments and features described in the specification and drawings, respectively, but not necessarily all of them need be provided to obtain one or more identical features.
(本開示の基礎となった知見)
本発明者は、「背景技術」の欄において記載した特許文献1のモデル生成装置に関し、以下の問題が生じることを見い出した。
(Findings that formed the basis of this disclosure)
The present inventors have found that the model generating device of
上記特許文献1では、説明変数に相当する操業因子の空間を複数の局所領域に分割し、その各局所領域に対して局所品質モデルを構築する。したがって、データセットから複数のモデルが生成される。しかし、それらのモデルの構築には、データセットに含まれる目的変数と説明変数のみが用いられ、目的変数および説明変数以外の変数が用いられていない。具体的には、データセットに含まれる説明変数が示すデータの分布のみに基づいてデータセットが複数の局所領域に分割され、それらの局所領域に対してモデルが生成される。つまり、上記特許文献1では、説明変数および目的変数以外の変数が、説明変数と目的変数との間の相関関係に与える影響が不明なため、その説明変数および目的変数以外の変数は、モデルの構築には用いられていない。したがって、その説明変数および目的変数以外の変数のデータが、説明変数と目的変数との間の相関関係に影響を与えるような場合には、高い精度のモデルを生成することが難しい。
In the
そこで、本開示の一態様に係るモデル生成装置は、1または複数の目的変数と1または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、3以上の変数を含むデータセットを受信する受信手段と、前記データセットから、1以上の目的変数と、1以上の説明変数とを特定し、前記データセットに含まれる前記3以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、1または複数の変数を層別変数として特定する変数特定手段と、前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、前記複数の層毎に、前記モデルを生成する生成手段と、を備える。例えば、前記層別手段は、前記層別変数ごとに、当該層別変数のデータの同一性または類似性に基づいて、当該層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、前記データセットを分類してもよい。 In this regard, a model generation device according to one aspect of the present disclosure is a model generation device that generates a model showing a relationship between one or more objective variables and one or more explanatory variables, and includes a receiving means for receiving a dataset including three or more variables, a variable identification means for identifying one or more objective variables and one or more explanatory variables from the dataset, and identifying one or more variables as stratification variables from among the three or more variables included in the dataset other than the identified objective variables and the explanatory variables, a stratification means for classifying the dataset into a plurality of strata based on the tendency of the relationship between the stratification variables and the objective variables, and a generation means for generating the model for each of the plurality of strata. For example, the stratification means may classify data of the stratification variables into a plurality of groups for each of the stratification variables based on the identity or similarity of the data of the stratification variables, and classify the dataset for each combination of the plurality of groups.
これにより、目的変数および説明変数以外の変数である層別変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。つまり、その層別変数の各データが、それらのデータ間の共通性または類似性に応じて、複数のグループに分類される。そして、データセットは、それらのグループに対応する層に層別分類される。この層別分類によって、各層には、同一のグループに属する層別変数のデータをそれぞれ有する1つ以上のレコードが含まれる。なお、グループは、共通性または類似性を有するデータの集合であって、このグループには、共通のデータの集合であるカテゴリと、類似する数値データの集合であるクラスタとがある。また、層別変数は、モデルに含まれる変数として採用されていないが、そのモデルの生成には用いられる非活用変数である。このように、本開示の一態様に係るモデル生成装置では、データセットに含まれる変数のうち、説明変数および目的変数以外の変数である非活用変数によって、データセットに対する層別分類が行われるため、その非活用変数が説明変数と目的変数との間の相関関係に影響を与えるような場合であっても、その非活用変数に基づいた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。 As a result, stratification is performed according to the stratification variables, which are variables other than the objective variable and the explanatory variable, and a model is generated for each of the multiple strata. That is, each data of the stratification variables is classified into multiple groups according to the commonality or similarity between the data. Then, the dataset is stratified into strata corresponding to those groups. By this stratification, each strata includes one or more records each having data of the stratification variables belonging to the same group. Note that a group is a collection of data having commonality or similarity, and this group includes a category, which is a collection of common data, and a cluster, which is a collection of similar numerical data. In addition, the stratification variables are non-utilized variables that are not adopted as variables included in the model, but are used in generating the model. In this way, in the model generating device according to one aspect of the present disclosure, stratification is performed on the dataset by non-utilized variables, which are variables other than the explanatory variable and the objective variable, among the variables included in the dataset, so that even if the non-utilized variables affect the correlation between the explanatory variable and the objective variable, a highly accurate model based on the non-utilized variables can be generated. In other words, the accuracy of the model can be easily improved.
例えば、それぞれ非活用変数である第1層別変数および第2層別変数が特定される。そして、第1層別変数の2つ以上のデータが例えば第1グループおよび第2グループに分類され、第2層別変数の2つ以上のデータが例えば第3グループおよび第4グループに分類される。なお、これらのグループに含まれる全てのデータは、共通性または高い類似性を有する。この場合、複数の層として、例えば第1層、第2層、第3層および第4層が決定される。第1層は、第1層別変数の第1グループと、第2層別変数の第3グループとの組み合わせに対応する。第2層は、第1層別変数の第1グループと、第2層別変数の第4グループとの組み合わせに対応する。第3層は、第1層別変数の第2グループと、第2層別変数の第3グループとの組み合わせに対応する。第4層は、第1層別変数の第2グループと、第2層別変数の第4グループとの組み合わせに対応する。このように、N個の層別変数のそれぞれのグループの組み合わせに応じて複数の層が決定される。したがって、層別分類では、第1層別変数の第1グループに属するデータと、第2層別変数の第3グループに属するデータとを含むレコードは、第1層に分類される。第1層別変数の第1グループに属するデータと、第2層別変数の第4グループに属するデータとを含むレコードは、第2層に分類される。第1層別変数の第2グループに属するデータと、第2層別変数の第3グループに属するデータとを含むレコードは、第3層に分類される。第1層別変数の第2グループに属するデータと、第2層別変数の第4グループに属するデータとを含むレコードは、第4層に分類される。 For example, a first stratification variable and a second stratification variable, each of which is an unexploited variable, are identified. Then, two or more data of the first stratification variable are classified, for example, into a first group and a second group, and two or more data of the second stratification variable are classified, for example, into a third group and a fourth group. All data included in these groups have commonality or high similarity. In this case, for example, a first layer, a second layer, a third layer, and a fourth layer are determined as the multiple layers. The first layer corresponds to a combination of the first group of the first stratification variable and the third group of the second stratification variable. The second layer corresponds to a combination of the first group of the first stratification variable and the fourth group of the second stratification variable. The third layer corresponds to a combination of the second group of the first stratification variable and the third group of the second stratification variable. The fourth layer corresponds to a combination of the second group of the first stratification variable and the fourth group of the second stratification variable. In this way, multiple layers are determined according to the combination of the groups of the N stratification variables. Thus, in stratified classification, a record containing data belonging to the first group of the first stratification variable and data belonging to the third group of the second stratification variable is classified into the first stratum. A record containing data belonging to the first group of the first stratification variable and data belonging to the fourth group of the second stratification variable is classified into the second stratum. A record containing data belonging to the second group of the first stratification variable and data belonging to the third group of the second stratification variable is classified into the third stratum. A record containing data belonging to the second group of the first stratification variable and data belonging to the fourth group of the second stratification variable is classified into the fourth stratum.
このように、層別変数が2つ以上であっても、データセットに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちN個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。 In this way, even if there are two or more stratification variables, optimal stratification classification can be performed for the dataset, and a highly accurate model can be generated for each of the multiple strata according to the data for those stratification variables, i.e., the N non-utilized variables.
また、前記データセットは、文字を含むデータを示す質的変数と、数字からなるデータを示す量的変数とを含んでもよい。 The data set may also include qualitative variables that represent data that includes characters and quantitative variables that represent data that includes numbers.
これにより、質的変数および量的変数のうちの一方だけでなく両方を含む複数の層別変数を特定することができ、特定される層別変数の変数型の自由度を高めることができる。 This allows the identification of multiple stratification variables that include not just one of qualitative and quantitative variables, but both, and increases the degree of freedom in the variable types of the identified stratification variables.
また、前記データセットに含まれる前記3以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数について、前記目的変数に対する影響度をそれぞれ算出する影響度算出手段をさらに備え、前記変数特定手段は、前記影響度に基づいて、前記層別変数を特定してもよい。 The data set may further include an influence calculation means for calculating the influence of each of the three or more variables included in the data set, other than the identified objective variable and explanatory variables, on the objective variable, and the variable identification means may identify the stratification variables based on the influence.
これにより、目的変数のデータに対する影響度が大きい層別変数を特定することができる。その結果、その層別変数を用いることによって、データセットに対するより最適な層別分類を行うことができる。その結果、複数の層のそれぞれに対して、より精度の高いモデルを生成することができる。 This makes it possible to identify stratification variables that have a large influence on the target variable data. As a result, by using these stratification variables, more optimal stratification classification can be performed for the dataset. As a result, a more accurate model can be generated for each of the multiple strata.
また、前記データセットに含まれる前記3以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数について、前記目的変数に対する影響度をそれぞれ算出する影響度算出手段をさらに備え、前記受信手段は、前記質的変数または前記量的変数のどちらを優先するかを示す優先情報を受信し、前記変数特定手段は、前記影響度および前記優先情報に基づいて、前記層別変数を特定してもよい。 The system may further include an influence calculation means for calculating the influence of each of the three or more variables included in the dataset other than the identified objective variable and explanatory variables on the objective variable, the receiving means receiving priority information indicating whether the qualitative variable or the quantitative variable is to be prioritized, and the variable identification means identifying the stratification variable based on the influence and the priority information.
これにより、例えばユーザの入力操作に応じてその優先情報が受信手段に受信されれば、質的変数と量的変数の優先順位を、そのユーザの意図どおりに任意に設定することができ、その優先順位が上位の変数を層別変数として多く特定することができる。その結果、データセットを質的に分析するか、量的に分析するかに応じて、適切な層別分類を行うことができ、それらの分析態様に応じたモデルを生成することができる。 Thereby, for example, if the priority information is received by the receiving means in response to a user's input operation, the priority of the qualitative and quantitative variables can be set arbitrarily according to the user's intention, and many of the variables with higher priorities can be identified as stratification variables. As a result, appropriate stratification classification can be performed depending on whether the data set is analyzed qualitatively or quantitatively, and a model can be generated according to the analysis mode.
また、前記影響度算出手段は、ランダムフォレストまたは勾配ブースティング決定木を用いて、前記質的変数の前記影響度を算出してもよい。 The influence calculation means may also calculate the influence of the qualitative variables using a random forest or a gradient boosting decision tree.
これにより、例えばランダムフォレストのジニ係数に応じた値を影響度として算出することによって、質的変数の適切な影響度を算出することができる。 This makes it possible to calculate the appropriate influence of a qualitative variable, for example by calculating a value corresponding to the Gini coefficient of a random forest as the influence.
また、前記影響度算出手段は、混合ガウスモデルまたはk-means法を用いて、前記データセットに含まれる前記量的変数の2つ以上のデータに対するクラスタリングを行い、前記クラスタリングによって得られる各クラスタと前記目的変数との単回帰分析によって、前記量的変数の前記影響度を算出してもよい。 The influence calculation means may also use a Gaussian mixture model or a k-means method to perform clustering on two or more pieces of data of the quantitative variables included in the dataset, and calculate the influence of the quantitative variables by a simple regression analysis between each cluster obtained by the clustering and the objective variable.
これにより、1つ以上の量的変数のそれぞれについて、例えばクラスタごとの影響度を単回帰分析によって算出することができ、そのクラスタごとの影響度から、その量的変数の影響度を適切に算出することができる。 This allows the influence of one or more quantitative variables, for example for each cluster, to be calculated by simple regression analysis, and the influence of the quantitative variable can be appropriately calculated from the influence for each cluster.
また、前記生成手段は、さらに、生成された複数の前記モデルのそれぞれについて、当該モデルの確からしさを示す指数を算出し、前記モデル生成装置は、さらに、複数の前記モデルのそれぞれに対して算出された前記指数を出力する結果出力手段を備えてもよい。 The generating means may further calculate an index indicating the likelihood of each of the multiple models generated, and the model generating device may further include a result output means for outputting the calculated index for each of the multiple models.
これにより、例えば、複数のモデルのそれぞれの自由度調整済み決定係数が、そのモデルの確からしさを示す指数として算出されて出力される。したがって、ユーザは、生成されたモデルを使用するか否かを、その指数にしたがって容易に判断することができる。 As a result, for example, the coefficient of determination adjusted for the degrees of freedom for each of multiple models is calculated and output as an index indicating the reliability of the model. Therefore, the user can easily decide whether or not to use the generated model based on the index.
また、前記生成手段は、2つ以上の前記説明変数のそれぞれのデータと前記目的変数のデータとの関係を示す前記モデルを、重回帰式として生成してもよい。 The generating means may generate the model showing the relationship between the data of each of the two or more explanatory variables and the data of the objective variable as a multiple regression equation.
これにより、説明変数の数に関わらず適切なモデルを生成することができる。 This allows us to generate an appropriate model regardless of the number of explanatory variables.
以下、実施の形態について、図面を参照しながら具体的に説明する。 The following describes the embodiment in detail with reference to the drawings.
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。 The embodiments described below are all comprehensive or specific examples. The numerical values, shapes, materials, components, component placement and connection forms, steps, and order of steps shown in the following embodiments are merely examples and are not intended to limit the present disclosure. Furthermore, among the components in the following embodiments, components that are not described in an independent claim that indicates a superordinate concept are described as optional components.
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。 The figures are schematic diagrams and are not necessarily precise illustrations. In each figure, the same components are given the same reference numerals.
(実施の形態1)
[ハードウェア構成]
図1は、本実施の形態におけるモデル生成システムの一例を示す図である。
(Embodiment 1)
[Hardware configuration]
FIG. 1 is a diagram showing an example of a model generation system according to the present embodiment.
本実施の形態におけるモデル生成システム1は、モデル生成装置100と、製造管理装置500とを含む。
The
製造管理装置500は、例えば製造工場に設置され、製品を製造する製造システムを管理する装置である。この製造管理装置500は、その製造システムで得られるデータセットDsを、例えばインターネットなどのネットワークを介してモデル生成装置100に送信する。なお、データセットDsの詳細については、図3A~図5を用いて後述する。
The
モデル生成装置100は、パーソナルコンピュータなどから構成され、上述の製造管理装置500からデータセットDsを受信する。そして、本実施の形態におけるモデル生成装置100は、そのデータセットDsに基づいて、説明変数のデータと目的変数のデータとの関係を示す複数のモデルを生成する。
The
図2は、本実施の形態におけるモデル生成装置100の構成を示す図である。
Figure 2 shows the configuration of the
モデル生成装置100は、入力部101、演算回路102、メモリ103、出力部104、記憶部105、データベース106、および通信部107を備える。
The
通信部107は、モデル生成装置100の外部にある機器と通信する。その通信は、無線通信であっても、有線通信であってもよい。無線通信の方式は、Wi-Fi(登録商標)、Bluetooth(登録商標)、またはZigBee(登録商標)であってもよく、その他の方式であってもよい。例えば、通信部107は、製造管理装置500と通信し、その製造管理装置500からデータセットDsを受信する。
The
入力部101は、ユーザによる入力操作を受け付けるHMI(Human Machine Interface)としての機能を有し、例えばキーボード、マウス、タッチセンサ、タッチパッドなどを備える。
The
出力部104は、画像または文字などを表示するディスプレイを有し、そのディスプレイは、例えば液晶ディスプレイ、プラズマディスプレイ、有機EL(Electro-Luminescence)ディスプレイなどである。なお、出力部104は、画像または文字などを印刷するプリンタを有していてもよく、演算回路102から出力されるデータをファイル形式で記憶部105に格納する機能を有していてもよい。
The
記憶部105は、演算回路102への各命令が記述されたプログラム(すなわちコンピュータプログラム)105aを格納している。また、記憶部105には、その演算回路102の処理によって一時的に生成される各テンポラリーデータ105bが格納されてもよい。なお、このような記憶部105は、不揮発性の記録媒体であって、例えば、ハードディスクなどの磁気記憶装置、光ディスク、半導体メモリなどである。なお、プログラム105aは、例えば、リムーバブルメディアまたはネットワークを介して、モデル生成装置100に提供され、記憶部105に格納される。リムーバブルメディアは、例えばCD-ROM(Compact Disc Read Only Memory)、フラッシュメモリなどである。このため、通信部107は、リムーバブルメディアのプログラム105aを読み込むインターフェースを備えていてもよい。
The
メモリ103には、演算回路102によって読み出されて展開されたプログラム105aが一時的に保存される。このようなメモリ103は、例えば揮発性のRAM(Random Access Memory)である。
The
演算回路102は、メモリ103に展開されたプログラム105aを実行する回路であって、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などである。演算回路102は、プログラム105aを実行するときには、記憶部105に格納されている各テンポラリーデータ105bを用いてもよい。
The
データベース106は、記憶部105と同様に、不揮発性の記録媒体であって、例えば、ハードディスクなどの磁気記憶装置、光ディスク、半導体メモリなどである。例えば、演算回路102は、製造管理装置500からネットワークおよび通信部107を介してデータセットDsを取得して、そのデータセットDsをデータベース106に格納する。
Like the
なお、本実施の形態では、記憶部105とデータベース106とは互に異なる記録媒体であるが、記憶部105およびデータベース106は、それらを含む1つの記録媒体として構成されていてもよい。
In this embodiment, the
[データセット]
図3Aは、本実施の形態におけるデータセットDsの一例を示す図である。また、図3Bは、そのデータセットDsの先頭の行と2番目の行とを示す図である。
[Dataset]
Fig. 3A is a diagram showing an example of a data set Ds in this embodiment, and Fig. 3B is a diagram showing the first row and the second row of the data set Ds.
データセットDsは、製造管理装置500から送信される生のデータセットであって、例えば、上述の製造システムにおける製造プロセス、および、その製造プロセスによって製造された製品の品質を示す、複数の製造データからなる構造化されたデータセットである。このようなデータセットDsは、図3Aに示すように、複数の変数のそれぞれの変数名と、それらの変数のデータとを示す。なお、データは、文字および数字のうちの少なくとも一方を示すものであれば、どのようなものであってもよい。データセットDsの先頭の行には、複数の変数のそれぞれの変数名が配置され、データセットDsの2行目以降の各行には、複数の変数のそれぞれのデータが配置されている。このような2行目以降の各行は、複数の変数のそれぞれのデータを含むレコードとして扱われる。また、データセットDsの左端の列は、紐付け情報列であって、それらのレコードを識別するための識別情報であるIDが示されている。IDは、レコードに含まれる各変数のデータを紐付けている。
The data set Ds is a raw data set transmitted from the
具体的には、図3Bに示すように、データセットDsの先頭の行には、それぞれの変数名である、「電圧」、「速度」、「抵抗値」、「作業者」、「設備号機」、「材料配合」、「材料温度差」、「補助電圧」、および「治具温度」が配置されている。そして、2行目のレコードには、それらの変数名によって識別される変数のデータd1~d9が含まれている。データd1は、変数名「電圧」によって識別される変数のデータであって、例えば「5.488135」である。データd2は、変数名「速度」によって識別される変数のデータであって、例えば「7.151894」である。データd3は、変数名「抵抗値」によって識別される変数のデータであって、例えば「44.69831」である。データd4は、変数名「作業者」によって識別される変数のデータであって、例えば「スズキ」である。データd5は、変数名「設備号機」によって識別される変数のデータであって、例えば「C号機」である。データd6は、変数名「材料配合」によって識別される変数のデータであって、例えば「0」である。データd7は、変数名「材料温度差」によって識別される変数のデータであって、例えば「8.815673」である。データd8は、変数名「補助電圧」によって識別される変数のデータであって、例えば「3」である。データd9は、変数名「治具温度」によって識別される変数のデータであって、例えば「9.298481」である。これらの各変数のデータd1~d9を含むレコードは、ID「ID200901」によって識別される。つまり、ID「ID200901」は、そのIDによって識別されるレコードに含まれるデータd1~d9を紐付けている。 Specifically, as shown in FIG. 3B, the first row of the data set Ds contains the variable names "Voltage," "Speed," "Resistance," "Worker," "Facility No.," "Material Mix," "Material Temperature Difference," "Auxiliary Voltage," and "Jig Temperature." The second row of records contains data d1 to d9 of variables identified by those variable names. Data d1 is data of a variable identified by the variable name "Voltage," for example, "5.488135." Data d2 is data of a variable identified by the variable name "Speed," for example, "7.151894." Data d3 is data of a variable identified by the variable name "Resistance," for example, "44.69831." Data d4 is data of a variable identified by the variable name "Worker," for example, "Suzuki." Data d5 is data of a variable identified by the variable name "Facility No.," for example, "Unit C." Data d6 is data for a variable identified by the variable name "material composition", for example "0". Data d7 is data for a variable identified by the variable name "material temperature difference", for example "8.815673". Data d8 is data for a variable identified by the variable name "auxiliary voltage", for example "3". Data d9 is data for a variable identified by the variable name "jig temperature", for example "9.298481". The record containing data d1 to d9 for each of these variables is identified by the ID "ID200901". In other words, the ID "ID200901" links the data d1 to d9 contained in the record identified by that ID.
データセットDsは、図3Aに示すように、このようなレコードを複数含む。例えば、データセットDsは、上述のID「ID200901」によって識別されるレコードと、ID「ID200902」によって識別されるレコードと、ID「ID200903」によって識別されるレコードとを含む。このように、本実施の形態におけるデータセットDsは、複数の変数のそれぞれのデータを有するレコードを2つ以上含む。 As shown in FIG. 3A, the dataset Ds includes a plurality of such records. For example, the dataset Ds includes a record identified by the above-mentioned ID "ID200901", a record identified by the ID "ID200902", and a record identified by the ID "ID200903". In this way, the dataset Ds in this embodiment includes two or more records having data for each of a plurality of variables.
また、図3Aに示すように、データセットDsの左から2番目の列は、変数名「電圧」によって識別される変数のレコードごとのデータを示す。例えば、それらのデータは、「5.488135」、「6.027634」、および「4.236548」などである。同様に、データセットDsの左から3番目の列は、変数名「速度」によって識別される変数のレコードごとのデータを示す。データセットDsの左から4番目の列は、変数名「抵抗値」によって識別される変数のレコードごとのデータを示す。データセットDsの左から5番目の列は、変数名「作業者」によって識別される変数のレコードごとのデータを示す。データセットDsの左から6番目の列は、変数名「設備号機」によって識別される変数のレコードごとのデータを示す。データセットDsの左から7番目の列は、変数名「材料配合」によって識別される変数のレコードごとのデータを示す。データセットDsの左から8番目の列は、変数名「材料温度差」によって識別される変数のレコードごとのデータを示す。データセットDsの左から9番目の列は、変数名「補助電圧」によって識別される変数のレコードごとのデータを示す。データセットDsの左から10番目の列は、変数名「治具温度」によって識別される変数のレコードごとのデータを示す。 Also, as shown in FIG. 3A, the second column from the left of the data set Ds shows data for each record of the variable identified by the variable name "Voltage". For example, the data are "5.488135", "6.027634", and "4.236548". Similarly, the third column from the left of the data set Ds shows data for each record of the variable identified by the variable name "Speed". The fourth column from the left of the data set Ds shows data for each record of the variable identified by the variable name "Resistance". The fifth column from the left of the data set Ds shows data for each record of the variable identified by the variable name "Worker". The sixth column from the left of the data set Ds shows data for each record of the variable identified by the variable name "Equipment Number". The seventh column from the left of the data set Ds shows data for each record of the variable identified by the variable name "Material Mixture". The eighth column from the left of the data set Ds shows data for each record of the variable identified by the variable name "Material Temperature Difference". The ninth column from the left of the data set Ds shows data for each record of the variable identified by the variable name "auxiliary voltage". The tenth column from the left of the data set Ds shows data for each record of the variable identified by the variable name "jig temperature".
ここで、変数の型には、量的変数と質的変数とがある。量的変数の各データは、数字のみで表されるデータであって、質的変数の各データは、文字を含んで表されるデータである。図3Aおよび図3Bの例では、変数名「作業者」および変数名「設備号機」のそれぞれによって識別される変数が、質的変数である。例えば、図3Bに示すように、変数名「作業者」によって識別される変数のデータd4は「スズキ」であって、文字を含んでいる。したがって、変数名「作業者」によって識別される変数は、質的変数である。また、図3Aおよび図3Bの例では、変数名「材料配合」、変数名「材料温度差」、変数名「補助電圧」、および変数名「治具温度」のそれぞれによって識別される変数が、量的変数である。例えば、図3Bに示すように、変数名「材料配合」によって識別される変数のデータd6は「0」であって、数字のみで表されている。したがって、変数名「材料配合」によって識別される変数は、量的変数である。 Here, there are quantitative and qualitative variables as types of variables. Each data of a quantitative variable is data expressed only by numbers, and each data of a qualitative variable is data expressed including characters. In the example of FIG. 3A and FIG. 3B, the variables identified by the variable names "worker" and "equipment number" are qualitative variables. For example, as shown in FIG. 3B, data d4 of the variable identified by the variable name "worker" is "Suzuki", which includes characters. Therefore, the variable identified by the variable name "worker" is a qualitative variable. Also, in the example of FIG. 3A and FIG. 3B, the variables identified by the variable names "material composition", "material temperature difference", "auxiliary voltage", and "jig temperature" are quantitative variables. For example, as shown in FIG. 3B, data d6 of the variable identified by the variable name "material composition" is "0", which is expressed only by numbers. Therefore, the variable identified by the variable name "material composition" is a quantitative variable.
なお、変数は、図3Aおよび図3Bに示す例に限定されるものではなく、どのような変数であってもよい。変数は、例えば、人に関わる変数、材料に関わる変数、設備に係る変数などである。人に関わる変数は、「作業者」または「作業班」などの変数であってもよい。材料に関わる変数は、「源泉材料Lot」または「途中工程材料Lot」などの変数であってもよい。設備に係る変数は、「生産設備種類、世代」、「生産設備号機」、「設備内レーン別、スピンドル別」、「金型」、「治具」、「金型温度」、「乾燥温度」、「設備メンテナンス前後」などの変数であってもよい。また、変数は、「雰囲気温度」、「雰囲気湿度」、「生産時期、時間」などの変数であってもよい。また、変数は、製品の「品種、品番」または「製品サイズ」などの変数であってもよい。 The variables are not limited to the examples shown in FIG. 3A and FIG. 3B, and may be any variables. The variables may be, for example, variables related to people, variables related to materials, variables related to equipment, etc. The variables related to people may be variables such as "worker" or "work crew". The variables related to materials may be variables such as "source material lot" or "intermediate process material lot". The variables related to equipment may be variables such as "production equipment type, generation", "production equipment number", "by lane in equipment, by spindle", "mold", "jig", "mold temperature", "drying temperature", "before and after equipment maintenance", etc. The variables may also be variables such as "ambient temperature", "ambient humidity", "production period, time", etc. The variables may also be variables such as "production type, part number" or "product size" of the product.
図3Cは、データセットDsから選択される目的変数および説明変数を示す図である。 Figure 3C shows the objective variables and explanatory variables selected from the dataset Ds.
データセットDsに示される各変数は、ユーザによる入力操作に応じて、活用変数と非活用変数に分類され、各活用変数は、説明変数と目的変数に分類される。活用変数は、モデルに採用される変数であって、非活用変数は、モデルに採用されない変数である。なお、非活用変数は、従来、データセットに含まれる目的変数以外の全ての変数を説明変数として採用せずに、目的変数に対する寄与度が大きな変数のみを説明変数として採用するために、モデルには採用されなかった変数である。さらに、活用変数には、説明変数と目的変数とがある。図3Cに示す例では、ユーザは、変数名「抵抗値」の変数を目的変数として選択し、変数名「電圧」の変数と、変数名「速度」の変数とをそれぞれ説明変数として選択する。これにより、変数名「作業者」、変数名「設備号機」、変数名「材料配合」、変数名「材料温度差」、変数名「補助電圧」、および変数名「治具温度」のそれぞれの変数が、非活用変数として決定される。また、これらの非活用変数には、上述の質的変数および量的変数が含まれる。したがって、本実施の形態では、データセットDsに示されるM個の非活用変数は、それぞれ文字を含むデータを示す1つ以上の質的変数と、それぞれ数字からなるデータを示す1つ以上の量的変数とを含む。なお、そのM個は、データセットDsに含まれる非活用変数の個数であって、上述の例では6個である。 Each variable shown in the data set Ds is classified into an utilized variable and a non-utilized variable according to the input operation by the user, and each utilized variable is classified into an explanatory variable and a target variable. The utilized variable is a variable adopted in the model, and the non-utilized variable is a variable not adopted in the model. In addition, the non-utilized variable is a variable that was not adopted in the model because, conventionally, all variables other than the target variable included in the data set are not adopted as explanatory variables, and only variables that contribute greatly to the target variable are adopted as explanatory variables. Furthermore, the utilized variables include explanatory variables and target variables. In the example shown in FIG. 3C, the user selects the variable with the variable name "resistance value" as the target variable, and selects the variable with the variable name "voltage" and the variable with the variable name "speed" as the explanatory variables. As a result, the variables with the variable names "operator", "equipment number", "material composition", "material temperature difference", "auxiliary voltage", and "jig temperature" are determined as non-utilized variables. These non-utilized variables include the above-mentioned qualitative and quantitative variables. Therefore, in this embodiment, the M non-utilized variables shown in the data set Ds include one or more qualitative variables each indicating data containing characters, and one or more quantitative variables each indicating data consisting of numbers. Note that M is the number of non-utilized variables included in the data set Ds, which is six in the above example.
図4は、本実施の形態におけるデータセットDsの他の例を示す図である。 Figure 4 shows another example of the data set Ds in this embodiment.
演算回路102は、データセットDsに含まれる質的変数をダミー変数に置き換える。つまり、演算回路102は、One Hot Encodingを行うことによって、図3A~図3Cに示す変数名「作業者」の質的変数のデータを、変数名「作業者スズキ」、変数名「作業者サトウ」、および変数名「作業者タカハシ」の3つの変数のデータからなるフラグ列に変換する。例えば、図3Aに示す変数名「作業者」の変数のデータ「スズキ」は、変数名「作業者スズキ」の変数のデータ「1」と、変数名「作業者サトウ」の変数のデータ「0」と、変数名「作業者タカハシ」の変数のデータ「0」とからなるフラグ列に変換される。また、図3Aに示す変数名「作業者」の変数のデータ「サトウ」は、変数名「作業者スズキ」の変数のデータ「0」と、変数名「作業者サトウ」の変数のデータ「1」と、変数名「作業者タカハシ」の変数のデータ「0」とからなるフラグ列に変換される。同様に、演算回路102は、図3A~図3Cに示す変数名「設備号機」の質的変数のデータを、変数名「設備号機C」、変数名「設備号機D」、および変数名「設備号機E」の3つの変数のデータからなるフラグ列に変換する。例えば、図3Aに示す変数名「設備号機」の変数のデータ「C号機」は、変数名「設備号機C」の変数のデータ「1」と、変数名「設備号機D」の変数のデータ「0」と、変数名「設備号機E」の変数のデータ「0」とからなるフラグ列に変換される。また、図3Aに示す変数名「設備号機」の変数のデータ「D号機」は、変数名「設備号機C」の変数のデータ「0」と、変数名「設備号機D」の変数のデータ「1」と、変数名「設備号機E」の変数のデータ「0」とからなるフラグ列に変換される。演算回路102は、後述のランダムフォレストなどの機械学習において質的変数を扱う場合には、その質的変数をダミー変数に置き換える。
The
図5は、本実施の形態におけるデータセットDsの変数名などを簡略化して示す図である。 Figure 5 shows a simplified view of the variable names of the data set Ds in this embodiment.
以下、説明を分かり易くするため、図3A~図3Cに示すデータセットDsの変数名「電圧」、「速度」、「抵抗値」、「作業者」、「設備号機」、「材料配合」、「材料温度差」、「補助電圧」および「治具温度」を、図5に示すように、変数名「X0」、「X1」、「Y」、「Z0」「Z1」、「D1」、「D2」、「D3」および「D4」に置き換える。また、変数名「作業者」によって識別される変数のデータ「スズキ」および「サトウ」を、「A」および「B」に置き換え、変数名「設備号機」によって識別される変数のデータ「C号機」および「D号機」を、「C」および「D」に置き換える。 For ease of understanding, the variable names "Voltage", "Speed", "Resistance", "Worker", "Facility No.", "Material Mixture", "Material Temperature Difference", "Auxiliary Voltage", and "Jig Temperature" of the data set Ds shown in Figures 3A to 3C are replaced with the variable names "X0", "X1", "Y", "Z0", "Z1", "D1", "D2", "D3", and "D4" as shown in Figure 5. In addition, the variable data "Suzuki" and "Sato" identified by the variable name "Worker" are replaced with "A" and "B", and the variable data "Unit C" and "Unit D" identified by the variable name "Facility No." are replaced with "C" and "D".
なお、以下、各変数を識別する必要がある場合には、変数X1のように、変数の後に変数名を付けることによって、その変数を識別する。また、図5に示す例では、変数X0、変数X1、および変数Yはそれぞれ、量的変数である。また、変数Z0および変数Z1はそれぞれ、質的変数であり、変数D1、変数D2、変数D3、および変数D4はそれぞれ、量的変数である。 In the following, when it is necessary to identify each variable, the variable is identified by adding the variable name after the variable, such as variable X1. In the example shown in FIG. 5, variables X0, X1, and Y are quantitative variables. Variables Z0 and Z1 are qualitative variables, and variables D1, D2, D3, and D4 are quantitative variables.
[機能構成]
図6は、演算回路102の機能構成を示すブロック図である。
[Functional configuration]
FIG. 6 is a block diagram showing the functional configuration of the
演算回路102は、プログラム105aを実行することによって、モデルを生成するための複数の機能を実現する。具体的には、演算回路102は、受信部(受信手段)130、第1変数特定部(変数特定手段)121、層別条件設定部122、非活用変数抽出部123、変数型判定部124、影響度算出部(影響度算出手段)125、第2変数特定部(変数特定手段)126、層別部(層別手段)127、生成部(生成手段)128、および結果出力部(結果出力手段)129を備える。また、影響度算出部125は、質的影響度算出部125aおよび量的影響度算出部125bを備える。これらの構成要素は、演算回路102によるプログラム105aの実行によって実現される。
The
受信部130は、3以上の変数を含むデータセットDsを受信する。例えば、受信部130は、データベース106からデータセットDsを読み出すことによって、そのデータセットDsを取得する。そして、ユーザは、入力部101に対して入力操作を行うことによって、図5に示すデータセットDsの複数の変数の中から説明変数と目的変数を選択する。第1変数特定部121は、入力部101によって受け付けられたユーザのその入力操作に応じて、図5に示すデータセットDsの複数の変数の中から、例えば変数X0および変数X1をそれぞれ説明変数として特定する。さらに、第1変数特定部121は、その複数の変数の中から、例えば変数Yを目的変数として特定する。これにより、2つの変数が説明変数として設定され、1つの変数が目的変数として設定される。
The receiving
このように、本実施の形態における第1変数特定部121は、データセットDsから、1以上の目的変数と、1以上の説明変数とを特定する。なお、本実施の形態では、2つの説明変数が設定され、1つの目的変数が設定されるが、その説明変数および目的変数のそれぞれの数は、これらの例に限らず、任意の数であってもよい。例えば、第1変数特定部121は、データセットDsの複数の変数のうちの1つの変数を説明変数に設定してもよく、3つ以上の変数のそれぞれを説明変数に設定してもよい。また、第1変数特定部121は、データセットDsの複数の変数のうちの2つ以上の変数のそれぞれを目的変数として特定してもよい。
In this manner, the first
また、第1変数特定部121は、説明変数として設定された変数が変数X0および変数X1であり、目的変数として設定された変数が変数Yであることを示す第1設定情報を、メモリ103または記憶部105に格納する。第1設定情報が記憶部105に格納される場合には、その第1設定情報は、テンポラリーデータ105bとして格納されてもよい。また、第1変数特定部121は、その第1設定情報を非活用変数抽出部123に出力してもよい。
The first
層別条件設定部122は、入力部101によって受け付けられたユーザの入力操作に応じて、データセットDsの層別に用いられる非活用変数の総数をN個(Nは2以上の整数)に設定する。なお、N個は、層別に用いられる非活用変数の総数であるが、本実施の形態では、その総数Nが2以上である例を挙げて説明する。また、その総数Nは、本実施の形態のように2以上に限定されることなく、1であってもよい。また、本実施の形態では、具体的な例として、総数NはN=2に設定される。なお、その層別に用いられる非活用変数は、以下、層別変数とも呼ばれる。つまり、本実施の形態における層別条件設定部122は、ユーザによる入力操作に応じて、層別変数の総数を設定する。なお、データセットDsに含まれる層別変数の各データは、上記層別のためには、それらのデータ間の共通性または類似性に応じて1つのグループだけではなく、複数のグループに分類される必要がある。
The stratification
さらに、層別条件設定部122は、入力部101によって受け付けられたユーザの入力操作に応じて、質的変数と量的変数のそれぞれに対して、層別変数に設定される優先順位を決定する。例えば、層別条件設定部122は、質的変数、量的変数の順に、それらの優先順位を決定する。この場合、質的変数の方が量的変数よりも優先順位は先である。このように、本実施の形態における層別条件設定部122は、ユーザによる入力操作に応じて、質的変数と量的変数の優先順位を設定する。言い換えれば、層別条件設定部122は、入力部101によって受け付けられたユーザの入力操作に応じて、質的変数または量的変数のどちらを優先するかを示す優先情報を受信する。本実施の形態では、層別条件設定部122が優先情報を受信するが、受信部130がその優先情報を受信してもよい。以下、質的変数および量的変数のうち、優先順位が先の変数は、上位変数とも呼ばれ、優先順位が後の変数は、下位変数とも呼ばれる。層別条件設定部122は、層別変数の総数であるN個と優先順位を示す第2設定情報を、メモリ103または記憶部105に格納する。第2設定情報が記憶部105に格納される場合には、その第2設定情報は、テンポラリーデータ105bとして格納されてもよい。また、層別条件設定部122は、第2設定情報を第2変数特定部126に出力してもよい。
Furthermore, the stratification
非活用変数抽出部123は、第1変数特定部121によって読み出された図5に示すデータセットDsの複数の変数の中から、M個の非活用変数を抽出する。具体的には、非活用変数抽出部123は、第1変数特定部121、メモリ103または記憶部105から第1設定情報を取得する。そして、非活用変数抽出部123は、その複数の変数から、第1設定情報によって示される説明変数および目的変数以外の全ての変数を非活用変数として抽出する。例えば、非活用変数抽出部123は、データセットDsの複数の変数の中から、変数Z0、変数Z1、変数D1、変数D2、変数D3、および変数D4をそれぞれ非活用変数として抽出する。その結果、本実施の形態では、データセットDsによって示される複数の変数から、M個の非活用変数が抽出される。そして、非活用変数抽出部123は、抽出されたM個の非活用変数を示す抽出情報を、メモリ103または記憶部105に格納する。抽出情報が記憶部105に格納される場合には、その抽出情報は、テンポラリーデータ105bとして格納されてもよい。また、非活用変数抽出部123は、抽出情報を変数型判定部124に出力してもよい。
The non-utilized
変数型判定部124は、非活用変数抽出部123、メモリ103または記憶部105から抽出情報を取得し、その抽出情報によって示されるM個の非活用変数のそれぞれの変数型を順に判定する。変数型には、上述の質的変数の型と、量的変数の型とがある。つまり、変数型判定部124は、非活用変数のデータに基づいて、その非活用変数が質的変数であるか、量的変数であるかを判定する。具体的には、変数型判定部124は、非活用変数のデータに文字が含まれていれば、その非活用変数が質的変数であると判定する。一方、変数型判定部124は、非活用変数のデータに文字が含まれず数字のみが含まれていれば、その非活用変数が量的変数であると判定する。これにより、M個の非活用変数のそれぞれが、質的変数と量的変数とに分類される。例えば、本実施の形態では、変数型判定部124は、非活用変数Z0および非活用変数Z1のそれぞれが質的変数であると判定し、非活用変数D1、非活用変数D2、非活用変数D3、および非活用変数D4のそれぞれが量的変数であると判定する。そして、変数型判定部124は、M個の非活用変数のそれぞれについて、その非活用変数の変数型を示す変数型情報をメモリ103または記憶部105に格納する。変数型情報が記憶部105に格納される場合には、その変数型情報は、テンポラリーデータ105bとして格納されてもよい。また、変数型判定部124は、変数型情報を影響度算出部125に出力してもよい。
The variable
影響度算出部125は、データセットDsに含まれる3以上の変数のうち、特定された目的変数および説明変数以外の変数について、その目的変数に対する影響度をそれぞれ算出する。言い換えれば、影響度算出部125は、M個の非活用変数のそれぞれの影響度を算出する。つまり、影響度算出部125は、データセットDsの3以上の変数に含まれる、特定された目的変数および説明変数以外のM個の非活用変数のそれぞれの影響度であって、その非活用変数のデータの目的変数のデータに対する影響度を算出する。その影響度は、非活用変数のデータが目的変数のデータに与える影響の大きさを示す数値であって、その影響が大きいほど、大きい値を示す。
The
具体的には、影響度算出部125は、上述のように、質的影響度算出部125aと、量的影響度算出部125bとを備えている。質的影響度算出部125aは、質的変数である非活用変数の影響度を算出し、量的影響度算出部125bは、量的変数である非活用変数の影響度を算出する。より具体的には、質的影響度算出部125aは、変数型判定部124、メモリ103または記憶部105から変数型情報を取得し、その変数型情報に示されている非活用変数の変数型を特定する。そして、その非活用変数の変数型が質的変数であれば、質的影響度算出部125aは、質的変数に対応する影響度算出処理によって、その非活用変数の影響度を算出する。一方、量的影響度算出部125bは、その変数型情報に示されている非活用変数の変数型を特定する。そして、その非活用変数の変数型が量的変数であれば、量的影響度算出部125bは、量的変数に対応する影響度算出処理によって、その非活用変数の影響度を算出する。
Specifically, the
そして、影響度算出部125は、M個の非活用変数のそれぞれについて、その非活用変数に対して算出された影響度を示す影響度情報を、メモリ103または記憶部105に格納する。影響度情報が記憶部105に格納される場合には、その影響度情報は、テンポラリーデータ105bとして格納されてもよい。また、影響度算出部125は、影響度情報を第2変数特定部126に出力してもよい。
Then, the
第2変数特定部126は、影響度算出部125、メモリ103または記憶部105から、M個の非活用変数のそれぞれの影響度情報を取得する。さらに、第2変数特定部126は、層別条件設定部122、メモリ103または記憶部105から第2設定情報を取得する。そして、第2変数特定部126は、それらの影響度情報および第2設定情報を用いて、データセットDsによって示されるM個の非活用変数の中から、N個の非活用変数をそれぞれ層別変数として特定する。層別変数は、データセットDsのレコードの層別に用いられる変数である。例えば、第2変数特定部126は、データセットDs内の全ての上位変数から、影響度の大きい順にN個の上位変数を特定しようとする。N個の上位変数が特定されれば、第2変数特定部126は、そのN個の上位変数をN個の層別変数として扱う。一方、データセットDs内の全ての上位変数の個数がN個未満であって、N個の上位変数を特定することができなければ、第2変数特定部126は、データセットDs内の全ての下位変数から、影響度の大きい順に残りの個数の下位変数を特定する。これにより、N個未満の上位変数と、残りの個数の下位変数とを合わせたN個の層別変数が特定される。
The second
このように、本実施の形態における第2変数特定部126は、目的変数および説明変数とは異なる変数であって、モデルに活用されない非活用変数を、レコードの層別に用いられる層別変数として、複数の変数から特定する。つまり、第2変数特定部126は、データセットDsに含まれる3以上の変数のうち、特定された目的変数および説明変数以外の変数から、1または複数の変数を層別変数として特定する。本実施の形態では、第2変数特定部126は、複数の変数からN個(Nは2以上の整数)の層別変数を特定する。つまり、第2変数特定部126は、層別条件設定部122によって設定された総数であるN個だけ層別変数を特定する。このとき、第2変数特定部126は、影響度に基づいて、層別変数を特定する。具体的には、第2変数特定部126は、影響度算出部125によって算出された、M個の非活用変数のそれぞれの影響度に基づいて、M個の非活用変数からN個の層別変数を特定する。より具体的には、第2変数特定部126は、影響度および優先情報に基づいて、層別変数を特定する。つまり、第2変数特定部126は、質的変数および量的変数のうち、優先順位が上位の変数を上位変数として扱い、優先順位が下位の変数を下位変数として扱う。そして、第2変数特定部126は、M個の非活用変数から、全ての上位変数がK個(KはN未満の整数)特定されるまで、または、N個の上位変数が特定されるまで、影響度が大きい順に上位変数を層別変数として特定する。そして、第2変数特定部126は、特定された上位変数の個数がK個の場合には、M個の非活用変数から、影響度が大きい順に下位変数を層別変数として(N-K)個特定する。
In this manner, the second
そして、第2変数特定部126は、その特定されたN個の層別変数を示す層別変数情報を、メモリ103または記憶部105に格納する。層別変数情報が記憶部105に格納される場合には、その層別変数情報は、テンポラリーデータ105bとして格納されてもよい。また、第2変数特定部126は、層別変数情報を層別部127に出力してもよい。
Then, the second
層別部127は、データセットDsに含まれる層別変数の2つ以上のデータ間の共通性または類似性に基づいて層別分類を行う。この層別分類では、層別部127は、データセットDsに含まれる2つ以上のレコードを複数の層に分類することによって、複数の層のそれぞれに1つ以上のレコードを含める処理である層別分類を実行する。つまり、層別部127は、層別変数と目的変数との関係の傾向に基づいて、データセットDsを複数の層に分類する。具体的には、層別部127は、層別変数ごとに、その層別変数のデータの同一性または類似性に基づいて、その層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、データセットDsを分類する。ここで、その層別変数は、上述の層別変数情報によって示されている。したがって、層別部127は、第2変数特定部126、メモリ103または記憶部105から、層別変数情報を取得する。そして、層別部127は、その層別変数情報に基づいて、データセットDsに対する層別分類を行う。
The
具体的には、層別部127は、層別変数情報によって示されるN個の層別変数のそれぞれについて、その層別変数の2つ以上のデータ間の共通性または類似性に基づいて、データセットDsに含まれるその層別変数の2つ以上のデータを複数のグループに分類する。そして、層別部127は、そのN個の層別変数のそれぞれのグループの組み合わせに応じて複数の層を決定し、データセットDsに含まれる2つ以上のレコードを、決定された複数の層に分類する。これによって、複数の層のそれぞれに、1つ以上のレコードからなる層別データセットが生成される。複数の層のそれぞれの層別データセットは、データセットDsから分類された1つ以上のレコードを含む。その1つ以上のレコードのそれぞれは、N個の層別変数のそれぞれの同一グループに属するデータを含む。さらに、その1つ以上のレコードのそれぞれは、目的変数および説明変数のそれぞれのデータを含む。この層別データセットの詳細については、図7を用いて後述する。
Specifically, for each of the N stratification variables indicated by the stratification variable information, the
生成部128は、複数の層毎に、1または複数の目的変数と1または複数の説明変数との関係を示すモデルを生成する。つまり、生成部128は、複数の層のそれぞれについて、その層に含まれる1つ以上のレコード、すなわち層別データセットを用いて、説明変数のデータと目的変数のデータとの関係を示すモデルを生成する。ここで、上述の例では、変数X0および変数X1がそれぞれ説明変数であるが、説明変数は1つでもよく、2つ以上であってもよい。したがって、この場合には、生成部128は、2つ以上の説明変数のそれぞれのデータと目的変数のデータとの関係を示すモデルを、重回帰式として生成する。例えば、生成部128は、説明変数X0および説明変数X1と目的変数Yとに対する重回帰分析を行うことによって、説明変数X0および説明変数X1のそれぞれのデータと目的変数Yのデータとの関係を示すモデルを生成する。
The
結果出力部129は、生成された複数のモデルを出力する。つまり、結果出力部129は、生成部128によって層ごとに生成されたモデルを、その生成部128から取得して出力部104に出力する。
The
[層別データセット]
図7は、本実施の形態における層別データセットの一例を示す図である。
[Stratified Dataset]
FIG. 7 is a diagram showing an example of a stratified data set in this embodiment.
例えば、第2変数特定部126は、それぞれ質的変数である非活用変数Z0および非活用変数Z1を層別変数として特定する。図5に示すデータセットDsの各レコードに含まれる層別変数Z0のデータは、「A」または「B」を示す。また、そのデータセットDsの各レコードに含まれる層別変数Z1のデータは、「C」または「D」を示す。そこで、層別部127は、図7の(a)に示すように、層別変数Z0のデータ「A」と、層別変数Z1のデータ「C」とを含む各レコードを、第1層に分類する。これにより、層別データセットDs1が生成される。層別データセットDs1は、ID「ID200901」によって識別されるレコードと、ID「ID200902」によって識別されるレコードと、ID「ID200903」によって識別されるレコードとからなる。
For example, the second
同様に、層別部127は、図7の(b)に示すように、層別変数Z0のデータ「B」と、層別変数Z1のデータ「C」とを含む各レコードを、第2層に分類する。これにより、層別データセットDs2が生成される。層別データセットDs2は、ID「ID200904」によって識別されるレコードと、ID「ID200905」によって識別されるレコードと、ID「ID200906」によって識別されるレコードとからなる。
Similarly, as shown in FIG. 7B, the
同様に、層別部127は、図7の(c)に示すように、層別変数Z0のデータ「A」と、層別変数Z1のデータ「D」とを含む各レコードを、第3層に分類する。これにより、層別データセットDs3が生成される。層別データセットDs3は、ID「ID200907」によって識別されるレコードと、ID「ID200908」によって識別されるレコードと、ID「ID200909」によって識別されるレコードとからなる。
Similarly, as shown in FIG. 7C, the
同様に、層別部127は、図7の(d)に示すように、層別変数Z0のデータ「B」と、層別変数Z1のデータ「D」とを含む各レコードを、第4層に分類する。これにより、層別データセットDs4が生成される。層別データセットDs4は、ID「ID200910」によって識別されるレコードと、ID「ID200911」によって識別されるレコードと、ID「ID200912」によって識別されるレコードとからなる。
Similarly, as shown in (d) of FIG. 7, the
言い換えれば、層別変数Z0の2つ以上のデータがグループ「A」およびグループ「B」に分類され、層別変数Z1の2つ以上のデータがグループ「C」およびグループ「D」に分類される。第1層は、層別変数Z0のグループ「A」と、層別変数Z1のグループ「C」との組み合わせに対応する。第2層は、層別変数Z0のグループ「B」と、層別変数Z1のグループ「C」との組み合わせに対応する。第3層は、層別変数Z0のグループ「A」と、層別変数Z1のグループ「D」との組み合わせに対応する。第4層は、層別変数Z0のグループ「B」と、層別変数Z1のグループ「D」との組み合わせに対応する。このように、層別変数Z0および層別変数Z1のそれぞれのグループの組み合わせに応じて複数の層が決定される。したがって、層別分類では、層別変数Z0のグループ「A」に属するデータと、層別変数Z1のグループ「C」に属するデータとを含むレコードは、第1層に分類される。層別変数Z0のグループ「B」に属するデータと、層別変数Z1のグループ「C」に属するデータとを含むレコードは、第2層に分類される。層別変数Z0のグループ「A」に属するデータと、層別変数Z1のグループ「D」に属するデータとを含むレコードは、第3層に分類される。層別変数Z0のグループ「B」に属するデータと、層別変数Z1のグループ「D」に属するデータとを含むレコードは、第4層に分類される。 In other words, two or more data of the stratification variable Z0 are classified into groups "A" and "B", and two or more data of the stratification variable Z1 are classified into groups "C" and "D". The first layer corresponds to the combination of group "A" of the stratification variable Z0 and group "C" of the stratification variable Z1. The second layer corresponds to the combination of group "B" of the stratification variable Z0 and group "C" of the stratification variable Z1. The third layer corresponds to the combination of group "A" of the stratification variable Z0 and group "D" of the stratification variable Z1. The fourth layer corresponds to the combination of group "B" of the stratification variable Z0 and group "D" of the stratification variable Z1. In this way, multiple layers are determined according to the combination of the groups of the stratification variables Z0 and Z1. Therefore, in the stratification classification, a record including data belonging to group "A" of the stratification variable Z0 and data belonging to group "C" of the stratification variable Z1 is classified into the first layer. Records that contain data belonging to group "B" of stratification variable Z0 and data belonging to group "C" of stratification variable Z1 are classified into the second tier. Records that contain data belonging to group "A" of stratification variable Z0 and data belonging to group "D" of stratification variable Z1 are classified into the third tier. Records that contain data belonging to group "B" of stratification variable Z0 and data belonging to group "D" of stratification variable Z1 are classified into the fourth tier.
なお、各層に分類されるレコードには、層別変数以外の他の非活用変数のデータが含まれていてもよく、図7に示す例のように、活用変数および層別変数のそれぞれのデータのみが含まれていてもよい。 Note that records classified into each stratum may contain data on non-utilized variables other than the stratification variables, or may contain only data on the utilization variables and the stratification variables, as in the example shown in Figure 7.
図8は、層別データセットDs1~Ds4のそれぞれについて、その層別データセットに含まれる各レコードによって示される座標点の分布を示す図である。 Figure 8 shows the distribution of coordinate points indicated by each record contained in each stratified dataset Ds1 to Ds4.
層別データセットDs1~Ds4のそれぞれは、複数のレコードを含む。そして、その複数のレコードのそれぞれは、説明変数X0のデータと、説明変数X1のデータと、目的変数Yのデータとを含み、座標点(X0,X1,Y)として示される。つまり、レコードは、説明変数X0、説明変数X1および目的変数Yからなる三次元座標系における座標点として示される。 Each of the stratified data sets Ds1 to Ds4 includes multiple records. Each of the multiple records includes data for explanatory variable X0, explanatory variable X1, and objective variable Y, and is shown as a coordinate point (X0, X1, Y). In other words, a record is shown as a coordinate point in a three-dimensional coordinate system consisting of explanatory variable X0, explanatory variable X1, and objective variable Y.
データセットDsに含まれる全てのレコードの座標点からは、それらのレコード間の相関性を見出すことが難しい。しかし、図8に示すように、層別データセットDs1~Ds4のそれぞれでは、その層別データセットに含まれる複数のレコードの座標点は、互に相関性を有する。したがって、層別データセットDs1~Ds4のそれぞれでは、その層別データセットに含まれる全てのレコードの座標点から、それらのレコード間の相関性を見出すことができる。 It is difficult to find correlations between records from the coordinate points of all the records contained in dataset Ds. However, as shown in FIG. 8, in each of stratified datasets Ds1 to Ds4, the coordinate points of multiple records contained in that stratified dataset are mutually correlated. Therefore, in each of stratified datasets Ds1 to Ds4, it is possible to find correlations between those records from the coordinate points of all the records contained in that stratified dataset.
生成部128は、これらの層別データセットDs1~D4のそれぞれで、その層別データセットに含まれる1つ以上のレコードを用いて、説明変数X0および説明変数X1のそれぞれのデータと目的変数Yのデータとの関係を示すモデルを生成する。
For each of these stratified data sets Ds1 to D4, the
このように、本実施の形態では、層別変数が非活用変数であって、その非活用変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。したがって、説明変数以外の変数である非活用変数によって、データセットDsに対する層別分類を最適に行うことができる。その結果、非活用変数に応じて説明変数と目的変数との間の相関関係が変化するような場合であっても、その非活用変数のグループに応じた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。また、本実施の形態では、層別変数が2つ以上であっても、データセットDsに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちN個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。 In this way, in this embodiment, the stratification variables are non-utilized variables, and stratification is performed according to the non-utilized variables, and a model is generated for each of the multiple layers. Therefore, the non-utilized variables, which are variables other than the explanatory variables, can be used to optimally perform stratification for the data set Ds. As a result, even if the correlation between the explanatory variables and the objective variable changes according to the non-utilized variables, a highly accurate model can be generated according to the group of the non-utilized variables. In other words, the accuracy of the model can be easily improved. Furthermore, in this embodiment, even if there are two or more stratification variables, optimal stratification can be performed for the data set Ds, and a highly accurate model can be generated for each of the multiple layers according to the data of the stratification variables, i.e., the N non-utilized variables.
[処理動作]
図9は、本実施の形態におけるモデル生成装置100の全体的な処理動作の一例を示すフローチャートである。
[Processing Operation]
FIG. 9 is a flowchart showing an example of the overall processing operation of the
まず、モデル生成装置100の受信部130は、データ受信処理を行う(ステップS1)。このデータ受信処理では、第1変数特定部121は、データベース106からデータセットDsを読み出すことによって、そのデータセットDsを受信する。そして、第1変数特定部121は、そのデータセットDsによって示される複数の変数から、説明変数および目的変数を特定する(ステップS2)。これにより、説明変数および目的変数が設定される。例えば、上述のように、変数X0および変数X1がそれぞれ説明変数に設定され、変数Yが目的変数に設定される。
First, the receiving
次に、層別条件設定部122は、ユーザの入力操作に応じて、層別変数の総数Nを設定する(ステップS3)。例えば、総数NはN=2に設定される。そして、層別条件設定部122は、層別変数の変数型の優先順位を決定する(ステップS4)。つまり、質的変数と量的変数の優先順位が決定される。例えば、質的変数、量的変数の順にそれらの変数の優先順位が決定される。
Next, the stratification
次に、非活用変数抽出部123は、データセットDsの複数の変数から、説明変数および目的変数以外の変数を、非活用変数として抽出する(ステップS5)。
Next, the non-utilized
その後、モデル生成装置100は、ステップS6~S9を含む第1ループ処理を、ステップS5で抽出された全ての非活用変数のそれぞれに対して順に実行する。すなわち、データセットDsに示されるM個の非活用変数のそれぞれに対して第1ループ処理が順に実行される。
Then, the
具体的には、まず、変数型判定部124は、処理対象の非活用変数の変数型を判定する(ステップS6)。そして、変数型判定部124は、その変数型が質的変数の型であるか否かを判定する(ステップS7)。つまり、変数型判定部124は、処理対象の非活用変数が質的変数であるか否かを判定する。そして、その処理対象の非活用変数が質的変数であると変数型判定部124によって判定されると(ステップS7のYes)、質的影響度算出部125aは、その質的変数である非活用変数の目的変数に対する影響度を算出する(ステップS8)。つまり、質的影響度算出部125aは、質的変数の影響度算出処理によって、その非活用変数の目的変数に対する影響度を算出する。一方、その処理対象の非活用変数が質的変数ではないと変数型判定部124によって判定されると(ステップS7のNo)、量的影響度算出部125bは、その量的変数である非活用変数の目的変数に対する影響度を算出する(ステップS9)。つまり、量的影響度算出部125bは、量的変数の影響度算出処理によって、その非活用変数の目的変数に対する影響度を算出する。
Specifically, first, the variable
このようなステップS6~S9を含む第1ループ処理が、全ての非活用変数のそれぞれに対して順に実行されることによって、その全ての非活用変数のそれぞれの影響度が算出される。 The first loop process including steps S6 to S9 is executed for each of the non-utilized variables in turn, thereby calculating the degree of influence of each of the non-utilized variables.
そして、第2変数特定部126は、全ての非活用変数のそれぞれの影響度に基づいて、変数型ごとに、その変数型に属する全ての非活用変数を影響度順にソートする(ステップS10)。つまり、第2変数特定部126は、抽出された全ての質的変数を、それらの影響度順に並べ替える。具体的には、第2変数特定部126は、質的変数の影響度が大きいほどその質的変数が前に配置されるように、それらの質的変数を並べ替える。同様に、第2変数特定部126は、抽出された全ての量的変数を、それらの影響度順に並べ替える。具体的には、第2変数特定部126は、量的変数の影響度が大きいほどその量的変数が前に配置されるように、それらの量的変数を並べ替える。
Then, the second
次に、第2変数特定部126は、ステップS3で設定された層別変数の総数Nと、ステップS4で決定された優先順位とに基づいて、ソートされたM個の非活用変数からN個の非活用変数を層別変数として特定する(ステップS11)。質的変数の方が量的変数よりも優先順位が上位であれば、第2変数特定部126は、ソートされた複数の質的変数から、影響度が大きい順に質的変数をN個まで特定しようとする。そして、その抽出された質的変数がN個未満であれば、第2変数特定部126は、ソートされた複数の量的変数から、影響度が大きい順に量的変数を特定する。このときに特定される量的変数の個数は、先に特定された質的変数の個数をN個から減算することによって得られる個数である。これにより、合計N個の層別変数が特定される。上述の例では、N=2であって、質的変数の方が量的変数よりも優先順位が上位である。したがって、この場合には、質的変数Z0および質的変数Z1がそれぞれ層別変数として特定される。
Next, the second
次に、層別部127は、その特定されたN個の層別変数を用いてデータセットDsに対する層別分類を行うことによって、複数の層別データセットを生成する。例えば、図7に示すように、層別データセットDs1~Ds4が生成される。そして、生成部128は、層別データセットごとに、説明変数および目的変数に対する重回帰分析を行うことによって重回帰式を算出する(ステップS12)。これにより、層別データセットごとに、重回帰式からなるモデルが生成される。
Next, the
生成部128は、さらに、複数の層別データセットのそれぞれで算出された重回帰式に対して、説明変数の自由度調整済み決定係数を算出する(ステップS13)。
The
結果出力部129は、ステップS12で算出された各重回帰式と、ステップS13で算出された各決定係数とを出力部104に出力する。これにより、出力部104は、各重回帰式と各決定係数とをディスプレイに表示したり、紙に印刷したり、それらを示すファイルを記憶部105に格納する(ステップS14)。
The
図10は、図9のステップS8における質的変数の影響度算出処理の具体的な一例を示すフローチャートである。なお、この影響度算出処理で扱われる処理対象の非活用変数は、質的変数である。 Figure 10 is a flowchart showing a specific example of the process of calculating the influence of qualitative variables in step S8 of Figure 9. Note that the non-utilized variables to be processed in this influence calculation process are qualitative variables.
質的影響度算出部125aは、処理対象の非活用変数のカテゴリ数が第1閾値以下であるか否かを判定する(ステップS81)。そのカテゴリ数の第1閾値は、例えば20である。カテゴリ数は、データセットDsに含まれる、その処理対象の非活用変数によって示される複数の同一データからなるグループ数である。例えば、図5に示すデータセットDsにおいて、質的変数である非活用変数Z0によって示される複数のデータには、「A」を示すデータと、「B」を示すデータとが含まれている。したがって、その非活用変数Z0のカテゴリ数は2である。同様に、図5に示すデータセットDsにおいて、質的変数である非活用変数Z1によって示される複数のデータには、「C」を示すデータと、「D」を示すデータとが含まれている。したがって、その非活用変数Z1のカテゴリ数は2である。
The quality
次に、質的影響度算出部125aは、処理対象の非活用変数のカテゴリ数が第1閾値以下ではないと判定すると(ステップS81のNo)、その非活用変数を影響度の算出対象から除外する(ステップS82)。例えば、カテゴリ数が比較的多い非活用変数を層別変数に用いれば、多くの層別データセットが生成される。その結果、多くのモデルが生成されることによって、各モデルの精度の向上と、それらのモデルの使い易さの向上とを、期待することが難しいと想定される。したがって、ステップS82では、そのようなカテゴリ数が多い非活用変数を影響度の算出対象から除外することによって、その非活用変数が層別変数に用いられることを抑制することができる。
Next, when the qualitative
一方、質的影響度算出部125aは、処理対象の非活用変数のカテゴリ数が第1閾値以下であると判定すると(ステップS81のYes)、その処理対象の非活用変数の影響度を教師あり機械学習によって算出する(ステップS83)。その教師あり機械学習は、例えばランダムフォレストを用いた学習である。ランダムフォレストは、複数の決定木を用いる手法である。例えば、質的影響度算出部125aは、データセットDsに含まれる目的変数の各データと、データセットDsに含まれる処理対象の非活用変数の各データとを、それぞれ教師データとして用いたランダムフォレストの機械学習を実行する。このランダムフォレストは、例えば目的変数のデータから処理対象の非活用変数のデータを推定するための学習モデルである。より具体的には、処理対象の非活用変数は、非活用変数Z0である。この場合、質的影響度算出部125aは、目的変数のデータをランダムフォレストに入力することによって、その目的変数のデータに対応する非活用変数Z0のデータがそのランダムフォレストから出力されるように、機械学習を実行する。このときランダムフォレストから出力される非活用変数Z0のデータは、「A」または「B」である。
On the other hand, when the quality
質的影響度算出部125aは、ランダムフォレストに含まれる複数の決定木の不純度を表す指標であるジニ係数Gに基づいて、その処理対象の非活用変数の影響度を算出する。ジニ係数Gは、決定木のノードごとに、式(1)で定義される。
The qualitative
ここで、式(1)において、Cはカテゴリ数である。また、Piは、カテゴリiに属するデータ数を、全データ数で割ったものである。つまり、Piは、そのジニ係数Gに対応するノードにおいて分類されたカテゴリiのデータの数を、そのノードにおいて分類されたデータの総数で除算することによって得られる商である。例えば、「A」を示す2つのデータと、「B」を示す1つのデータとがそのノードにおいて分類された場合、G=1-(2/3)2-(1/3)2である。 Here, in formula (1), C is the number of categories. Furthermore, Pi is the number of data belonging to category i divided by the total number of data. In other words, Pi is the quotient obtained by dividing the number of data of category i classified in the node corresponding to the Gini coefficient G by the total number of data classified in the node. For example, when two data indicating "A" and one data indicating "B" are classified in the node, G=1-(2/3) 2 -(1/3) 2 .
質的影響度算出部125aは、決定木におけるジニ係数ができるだけ小さくなるように学習を行う。そして、質的影響度算出部125aは、ランダムフォレストに用いられた複数の決定木の全てのジニ係数の平均値が小さいほど大きい値を示す影響度を算出する。例えば、質的影響度算出部125aは、その平均値の逆数を影響度として算出する。
The quality
このように、本実施の形態における質的影響度算出部125aは、ランダムフォレストを用いて、1つ以上の質的変数のそれぞれの影響度を算出する。したがって、非活用変数が質的変数である場合でも、その非活用変数の目的変数に対する影響度を適切に算出することができる。
In this manner, the qualitative
図11は、図9のステップS9における量的変数の影響度算出処理の具体的な一例を示すフローチャートである。なお、この影響度算出処理で扱われる処理対象の非活用変数は、量的変数である。 Figure 11 is a flowchart showing a specific example of the process of calculating the impact of quantitative variables in step S9 of Figure 9. Note that the non-utilized variables to be processed in this impact calculation process are quantitative variables.
量的影響度算出部125bは、データセットDsに含まれる処理対象の非活用変数の各データに対するクラスタリングを、教師なし機械学習によって行う(ステップS91)。その教師なし機械学習は、例えば混合ガウスモデル(GMM:Gaussian Mixture Model)である。
The quantitative
混合ガウスモデルは、ある確率分布が与えられたとき、その確率分布を複数のガウス関数(すなわち正規分布)の線形結合で近似する手法である。線形結合では、複数のガウス関数のそれぞれは、重みπkを用いて結合される。重みπkは、k番目のガウス関数の重みであって、混合係数とも呼ばれる。(a,b)の2次元で考えた場合、k番目のガウス関数は、aの平均値μa_kと、bの平均値μb_kと、aの分散Σa_kと、bの分散Σb_kと、aとbの共分散Σab_kとを有する。各正規分布の大きさは、簡易的にΣb_k+Σa_kで扱うことができる。なお、本実施の形態では、(a,b)は、(目的変数,量的変数である非活用変数)である。 The Gaussian mixture model is a method for approximating a given probability distribution with a linear combination of multiple Gaussian functions (i.e., normal distributions). In linear combination, multiple Gaussian functions are combined using a weight πk. The weight πk is the weight of the kth Gaussian function and is also called a mixing coefficient. When considered in two dimensions of (a, b), the kth Gaussian function has the mean value μa_k of a, the mean value μb_k of b, the variance Σa_k of a, the variance Σb_k of b, and the covariance Σab_k of a and b. The magnitude of each normal distribution can be simply handled as Σb_k + Σa_k. In this embodiment, (a, b) are (objective variables, non-utilized variables that are quantitative variables).
量的影響度算出部125bは、混合ガウスモデルでのハイパーパラメータであるクラスタ数を変更しながらその混合ガウスモデルを解析する。そして、量的影響度算出部125bは、例えば赤池情報量基準(AIC:Akaike’s Information Criterion)またはベイズ情報量基準(BIC:Bayesian Information Criterion)が最小となるクラスタ数を採用する。これにより、そのクラスタ数だけクラスタが生成される。なお、クラスタ数は、1つ以上である。また、クラスタは、上述のカテゴリまたはグループに相当する。
The quantitative
その後、量的影響度算出部125bは、ステップS92~S94を含む第2ループ処理を、ステップS91で生成された全てのクラスタのそれぞれに対して順に実行する。
Then, the quantitative
具体的には、まず、量的影響度算出部125bは、処理対象のクラスタ内のデータ数が第2閾値以上であるか否かを判定する(ステップS92)。ここで、量的影響度算出部125bは、データ数が第2閾値以上であると判定すると(ステップS92のYes)、そのクラスタ内のデータが目的変数のデータに与える影響度を、クラスタ影響度として算出する(ステップS93)。このとき、量的影響度算出部125bは、そのクラスタを算出処理済みのクラスタとして採用する。例えば、量的影響度算出部125bは、処理対象のクラスタと目的変数とに対する単回帰分析を行うことによって、単回帰式の回帰係数をクラスタ影響度として算出する。一方、量的影響度算出部125bは、データ数が第2閾値未満であると判定すると(ステップS92のNo)、そのクラスタをクラスタ影響度の算出対象から除外する(ステップS94)。これにより、処理対象の非活用変数の影響度が、信頼性の低いクラスタを用いて算出されることを抑制することができる。
Specifically, the quantitative
このようなステップS92~S94を含む第2ループ処理が、ステップ91で生成された全てのクラスタのそれぞれに対して順に実行される。これにより、その全てのクラスタのうち、ステップS94で除外されたクラスタ以外の、残りの各クラスタのクラスタ影響度が算出される。 The second loop process including steps S92 to S94 is executed in order for each of all the clusters generated in step 91. As a result, the cluster influence of each of the remaining clusters, other than the cluster excluded in step S94, is calculated.
そして、量的影響度算出部125bは、ステップS93でクラスタ影響度が算出されたクラスタの数、すなわち算出処理済みのクラスタ数が、2つ以上であるか否かを判定する(ステップS95)。ここで、量的影響度算出部125bは、そのクラスタ数が2つ以上であると判定すると(ステップS95のYes)、第2ループ処理で算出され2つ以上の影響度のうちの最大の影響度を選択する(ステップS97)。すなわち、量的影響度算出部125bは、目的変数に対する処理対象の非活用変数の影響度として、その最大の影響度を選択する。一方、量的影響度算出部125bは、算出処理済みのクラスタ数が2つ以上ないと判定すると(ステップS95のNo)、その非活用変数を影響度の算出対象から除外する(ステップS96)。これにより、目的変数との相関性が低い非活用変数が層別変数として特定されることを抑制することができる。
Then, the quantitative
このように、本実施の形態における量的影響度算出部125bは、1つ以上の量的変数のそれぞれについて、混合ガウスモデルを用いて、データセットDsに含まれるその量的変数の2つ以上のデータに対するクラスタリングを行い、クラスタリングによって得られる各クラスタと目的変数との単回帰分析によって、その量的変数の影響度を算出する。したがって、非活用変数が量的変数である場合でも、その非活用変数の目的変数に対する影響度を適切に算出することができる。
In this manner, the quantitative
また、上述のように、本実施の形態では、層別変数が質的変数である場合には、同一のデータがグループ化され、層別変数が量的変数である場合は、同一または類似のデータがグループ化される。 As described above, in this embodiment, when the stratification variables are qualitative variables, identical data are grouped together, and when the stratification variables are quantitative variables, identical or similar data are grouped together.
本実施の形態における層別部127は、層別変数ごとに、その層別変数のデータの同一性または類似性に基づいて、その層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、データセットDsを分類する。ここで、層別変数が量的変数である場合において、その量的変数のデータが類似しているとは、量的変数の目的変数に対する影響の傾向が類似していることを意味する。したがって、層別部127は、層別変数と目的変数との関係の傾向に基づいて、データセットDsを複数の層に分類していると言える。
In this embodiment, the
また、混合ガウスモデルでは、1つ1つのデータは、各グループに属する確率を有し、複数のグループのうち最も確率の高いグループに属する。混合ガウスモデルの代わりに後述のk-means法が用いられる場合には、1つ1つのデータは、各グループの重心との間に距離を有し、複数のグループのうち最も距離が近いグループに属する。したがって、具体的に、量的変数のデータが類似しているとは、そのデータに対応する確率が一定値以上であること、又は、グループの重心から、そのデータに対応する位置までの距離が一定値以下であることである。 In addition, in a Gaussian mixture model, each piece of data has a probability of belonging to each group, and of the multiple groups, the data belongs to the group with the highest probability. When the k-means method described below is used instead of a Gaussian mixture model, each piece of data has a distance from the center of gravity of each group, and belongs to the group with the closest distance among the multiple groups. Therefore, specifically, data of a quantitative variable is said to be similar when the probability corresponding to that data is equal to or greater than a certain value, or when the distance from the center of gravity of the group to the position corresponding to that data is equal to or less than a certain value.
[モデルの例]
以上のように、本実施の形態では、データセットDsに対して層別分類が行われる。例えば、非活用変数Z0および非活用変数Z1がそれぞれ層別変数として特定された場合には、図7に示すように、4つの層別データセットDs1~Ds4が生成される。そして、4つの層別データセットDs1~Ds4のそれぞれからモデルが生成される。これにより、モデルの精度向上を図ることができる。
[Model example]
As described above, in this embodiment, stratified classification is performed on the data set Ds. For example, when the non-utilized variable Z0 and the non-utilized variable Z1 are each identified as a stratification variable, four stratified data sets Ds1 to Ds4 are generated as shown in FIG. 7. Then, a model is generated from each of the four stratified data sets Ds1 to Ds4. This makes it possible to improve the accuracy of the model.
具体的には、層別分類が行われない場合、データセットDsから生成されるモデルは、以下の式(2)のように示される。なお、式(2)では、x0およびx1が、上述の説明変数X0および説明変数X1にそれぞれ相当し、fが上述の目的変数Yに相当する。 Specifically, when stratified classification is not performed, the model generated from the data set Ds is expressed as shown in the following formula (2). In formula (2), x0 and x1 correspond to the explanatory variables X0 and X1, respectively, and f corresponds to the objective variable Y.
一方、本実施の形態では、上述のように層別分類が行われるため、以下の式(3)~式(6)に示される4つのモデルがそれぞれ重回帰式として生成される。なお、式(3)~式(6)では、x0およびx1が、上述の説明変数X0および説明変数X1にそれぞれ相当し、f00、f01、f10、およびf11のそれぞれが上述の目的変数Yに相当する。具体的には、式(3)は、図7の(d)および図8に示す層別データセットDs4から生成されたモデルであって、その層別データセットDs4は、層別変数Z0のデータ「B」と、層別変数Z1のデータ「D」とを含む各レコードを含む。式(3)のf00は、この層別データセットDs4の目的変数Yに相当する。式(4)は、図7の(c)および図8に示す層別データセットDs3から生成されたモデルであって、その層別データセットDs3は、層別変数Z0のデータ「A」と、層別変数Z1のデータ「D」とを含む各レコードを含む。式(4)のf01は、この層別データセットDs3の目的変数Yに相当する。式(5)は、図7の(b)および図8に示す層別データセットDs2から生成されたモデルであって、その層別データセットDs2は、層別変数Z0のデータ「B」と、層別変数Z1のデータ「C」とを含む各レコードを含む。式(5)のf10は、この層別データセットDs2の目的変数Yに相当する。式(6)は、図7の(a)および図8に示す層別データセットDs1から生成されたモデルであって、その層別データセットDs1は、層別変数Z0のデータ「A」と、層別変数Z1のデータ「C」とを含む各レコードを含む。式(6)のf11は、この層別データセットDs1の目的変数Yに相当する。 On the other hand, in this embodiment, since stratified classification is performed as described above, four models shown in the following formulas (3) to (6) are generated as multiple regression equations. In formulas (3) to (6), x 0 and x 1 correspond to the explanatory variables X0 and X1, respectively, and f 00 , f 01 , f 10 , and f 11 correspond to the objective variable Y. Specifically, formula (3) is a model generated from the stratified data set Ds4 shown in FIG. 7(d) and FIG. 8, and the stratified data set Ds4 includes records including the data "B" of the stratified variable Z0 and the data "D" of the stratified variable Z1. f 00 in formula (3) corresponds to the objective variable Y of this stratified data set Ds4. Equation (4) is a model generated from the stratified data set Ds3 shown in FIG. 7(c) and FIG. 8, and the stratified data set Ds3 includes each record including the data "A" of the stratified variable Z0 and the data "D" of the stratified variable Z1. f 01 in Equation (4) corresponds to the objective variable Y of the stratified data set Ds3. Equation (5) is a model generated from the stratified data set Ds2 shown in FIG. 7(b) and FIG. 8, and the stratified data set Ds2 includes each record including the data "B" of the stratified variable Z0 and the data "C" of the stratified variable Z1. f 10 in Equation (5) corresponds to the objective variable Y of the stratified data set Ds2. Equation (6) is a model generated from the stratified data set Ds1 shown in FIG. 7(a) and FIG. 8, and the stratified data set Ds1 includes each record including the data "A" of the stratified variable Z0 and the data "C" of the stratified variable Z1. f 11 in equation (6) corresponds to the objective variable Y of this stratified data set Ds1.
なお、本実施の形態では、2つの層別変数Z0および層別変数Z1が特定され、層別変数Z0の各データが2つのグループに分類され、層別変数Z1の各データが2つのグループに分類される。したがって、グループの組み合わせ数が4であって、4つのモデルが生成される。ここで、3つの層別変数が特定され、それらの層別変数の各データが2つのグループに分類される場合には、グループの組み合わせ数は8であって、8つのモデルが生成される。また、2つの層別変数が特定され、それらの層別変数の各データが3つのグループに分類される場合には、グループの組み合わせ数は9であって、9つのモデルが生成される。 In this embodiment, two stratification variables Z0 and Z1 are specified, and each data of the stratification variable Z0 is classified into two groups, and each data of the stratification variable Z1 is classified into two groups. Therefore, the number of group combinations is four, and four models are generated. Here, if three stratification variables are specified and each data of these stratification variables is classified into two groups, the number of group combinations is eight, and eight models are generated. Also, if two stratification variables are specified and each data of these stratification variables is classified into three groups, the number of group combinations is nine, and nine models are generated.
ここで、R2*は自由度調整済み決定係数である。この自由度調整済み決定係数は、モデルの確からしさを示す指数である。本実施の形態では、上述の式(2)~式(6)に示すとおり、自由度調整済み決定係数を、0.273から、0.503~0.969の範囲まで増加させることができ、モデルの精度向上を図ることができる。そして、このような各モデルと各自由度調整済み決定係数とが、結果出力部129によって出力される。
Here, R2 * is the coefficient of determination after the degrees of freedom adjustment. This coefficient of determination after the degrees of freedom adjustment is an index indicating the reliability of the model. In this embodiment, as shown in the above formulas (2) to (6), the coefficient of determination after the degrees of freedom adjustment can be increased from 0.273 to a range of 0.503 to 0.969, thereby improving the accuracy of the model. Then, each model and each coefficient of determination after the degrees of freedom adjustment are output by the
このように、本実施の形態における生成部128は、生成された複数のモデルのそれぞれについて、そのモデルの確からしさを示す指数を算出する。そして、結果出力部129は、複数のモデルのそれぞれに対して算出されたその指数を出力する。したがって、ユーザは、生成されたモデルを使用するか否かを、その指数にしたがって容易に判断することができる。
In this manner, the
[効果など]
以上のように、本実施の形態では、目的変数および説明変数以外の変数である層別変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。また、層別変数は、モデルに含まれる変数として採用されていないが、そのモデルの生成には用いられる非活用変数である。したがって、その非活用変数によって、データセットDsに対する層別分類を最適に行うことができる。その結果、非活用変数に応じて説明変数と目的変数との間の相関関係が変化するような場合であっても、その非活用変数のデータに応じた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。
[Effects, etc.]
As described above, in this embodiment, stratification is performed according to the stratification variables, which are variables other than the objective variable and the explanatory variables, and a model is generated for each of the multiple strata. In addition, the stratification variables are non-utilized variables that are not adopted as variables included in the model but are used to generate the model. Therefore, the non-utilized variables can optimally perform stratification for the data set Ds. As a result, even if the correlation between the explanatory variable and the objective variable changes depending on the non-utilized variables, a highly accurate model can be generated according to the data of the non-utilized variables. In other words, the accuracy of the model can be easily improved.
また、本実施の形態では、データセットDsのM個の非活用変数の中から、有効な変数が層別変数として自動的に特定される。したがって、例えば工場の有識者などのユーザが活用変数(すなわち目的変数および説明変数)を選択した意図を活かすことができ、ユーザの理解し易いモデルの生成と、そのモデルの精度向上とを両立することができる。 In addition, in this embodiment, from among the M non-utilized variables in the data set Ds, effective variables are automatically identified as stratification variables. Therefore, it is possible to utilize the intention of a user, such as a factory expert, when selecting the utilized variables (i.e., the objective variable and explanatory variables), and it is possible to generate a model that is easy for the user to understand and to improve the accuracy of the model.
また、本実施の形態では、第2変数特定部126が、複数の変数からN個(Nは2以上の整数)の層別変数を特定する。そして、層別部127が、そのN個の層別変数のそれぞれについて、その層別変数の2つ以上のデータ間の共通性または類似性に基づいて、データセットDsに含まれるその層別変数の2つ以上のデータを複数のグループに分類する。さらに、層別部127が、N個の層別変数のそれぞれのグループの組み合わせに応じて複数の層を決定し、データセットDsに含まれる2つ以上のレコードを、決定された複数の層に分類する。グループは、層別変数が質的変数の場合には、上述のカテゴリに相当し、層別変数が量的変数の場合には、上述のクラスタに相当する。
In addition, in this embodiment, the second
これにより、層別変数が2つ以上であっても、データセットDsに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちN個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。 As a result, even if there are two or more stratification variables, optimal stratification classification can be performed for the dataset Ds, and a highly accurate model can be generated for each of the multiple strata according to the data for those stratification variables, i.e., the N non-utilized variables.
また、本実施の形態では、影響度算出部125が、各非活用変数のそれぞれの影響度を算出し、第2変数特定部126が、各非活用変数のそれぞれの影響度に基づいて、それらの非活用変数からN個の層別変数を特定する。
In addition, in this embodiment, the
これにより、目的変数のデータに対する影響度が大きいN個の層別変数を特定することができる。その結果、それらの層別変数を用いることによって、データセットDsに対するより最適な層別分類を行うことができる。その結果、複数の層のそれぞれに対して、より精度の高いモデルを生成することができる。 This makes it possible to identify N stratification variables that have a large influence on the target variable data. As a result, by using these stratification variables, more optimal stratification classification can be performed for the data set Ds. As a result, a more accurate model can be generated for each of the multiple strata.
また、本実施の形態では、層別条件設定部122が、ユーザによる入力操作に応じて、層別変数の総数を設定し、第2変数特定部126が、その設定された総数であるN個だけ層別変数を特定する。
In addition, in this embodiment, the stratification
これにより、特定される層別変数の総数を、ユーザの意図どおりに任意に設定することができ、生成されるモデルの数または精度を調整することができる。 This allows the total number of stratification variables to be identified to be set as desired by the user, allowing the number or accuracy of models to be generated to be adjusted.
また、本実施の形態では、M個の非活用変数は、それぞれ文字を含むデータを示す1つ以上の質的変数と、それぞれ数字からなるデータを示す1つ以上の量的変数とを含む。 In addition, in this embodiment, the M non-utilized variables include one or more qualitative variables each representing data that includes characters, and one or more quantitative variables each representing data that consists of numbers.
これにより、質的変数および量的変数のうちの一方だけでなく両方を含むN個の層別変数を特定することができ、特定される層別変数の変数型の自由度を高めることができる。 This allows us to identify N stratification variables that include not just one of qualitative variables and quantitative variables, but both, and increases the degree of freedom in the variable types of the identified stratification variables.
また、本実施の形態では、層別条件設定部122が、ユーザによる入力操作に応じて、質的変数と量的変数の優先順位を設定する。また、第2変数特定部126が、M個の非活用変数から、全ての上位変数がK個(KはN未満の整数)特定されるまで、または、N個の上位変数が特定されるまで、影響度が大きい順に上位変数を層別変数として特定する。そして、特定された上位変数の個数がK個の場合には、M個の非活用変数から、影響度が大きい順に下位変数が層別変数として(N-K)個特定される。
In this embodiment, the stratification
これにより、質的変数と量的変数の優先順位を、ユーザの意図どおりに任意に設定することができ、その優先順位が上位の変数を層別変数として多く特定することができる。その結果、データセットDsを質的に分析するか、量的に分析するかに応じて、適切な層別分類を行うことができ、それらの分析態様に応じたモデルを生成することができる。 This allows the user to arbitrarily set the priority of qualitative and quantitative variables as intended, and many of the variables with higher priorities can be identified as stratification variables. As a result, appropriate stratification can be performed depending on whether the data set Ds is analyzed qualitatively or quantitatively, and a model can be generated according to the analysis mode.
(変形例など)
以上、本開示の一態様に係るモデル生成装置について、上記実施の形態に基づいて説明したが、本開示は、その実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記実施の形態に施したものも本開示に含まれてもよい。
(Variations, etc.)
Although the model generating device according to one aspect of the present disclosure has been described based on the above embodiment, the present disclosure is not limited to the embodiment. As long as it does not deviate from the spirit of the present disclosure, various modifications conceivable by a person skilled in the art to the above embodiment may also be included in the present disclosure.
例えば、本実施の形態では、質的変数の影響度算出処理に、教師あり機械学習の一例としてランダムフォレストが用いられているが、その教師あり機械学習はランダムフォレストに限定されるものではなく、他の教師あり機械学習が用いられてもよい。例えば、ランダムフォレストの代わりに、勾配ブースティング決定木(GBDT:Gradient Boosting Decision Tree)が用いられてもよい。この勾配ブースティング決定木が用いられる場合には、誤差または損失係数が小さくなるように機械学習が行われる。そして、質的影響度算出部125aは、その誤差または損失係数が小さいほど大きい値を示す影響度を算出する。また、ランダムフォレストと勾配ブースティング決定木とを組み合わせてもよい。例えば、質的変数である第1非活用変数の影響度を、ランダムフォレストを用いて算出し、質的変数である第2非活用変数の影響度を、勾配ブースティング決定木を用いて算出してもよい。このとき、互に異なる2つの機械学習によって算出される影響度を正規化することによって、それらの影響度を比較可能にしてもよい。
For example, in the present embodiment, a random forest is used as an example of supervised machine learning in the influence calculation process of the qualitative variables, but the supervised machine learning is not limited to a random forest, and other supervised machine learning may be used. For example, a gradient boosting decision tree (GBDT) may be used instead of a random forest. When the gradient boosting decision tree is used, machine learning is performed so that the error or loss coefficient is small. Then, the qualitative
また、本実施の形態では、量的変数の影響度算出処理に、教師なし機械学習の一例として混合ガウスモデルが用いられているが、その教師なし機械学習は混合ガウスモデルに限定されるものではなく、他の教師なし機械学習が用いられてもよい。例えば、混合ガウスモデルの代わりに、k-means法が用いられてもよい。この場合には、処理対象の非活用変数によって示される各データは、k-means法によってクラスタリングされる。また、混合ガウスモデルとk-means法とを組み合わせてもよい。例えば、量的変数である第1非活用変数のクラスタリングを、混合ガウスモデルを用いて行い、量的変数である第2非活用変数のクラスタリングを、k-means法を用いて行ってもよい。 In addition, in this embodiment, a Gaussian mixture model is used as an example of unsupervised machine learning in the process of calculating the influence of quantitative variables, but the unsupervised machine learning is not limited to the Gaussian mixture model, and other unsupervised machine learning may be used. For example, a k-means method may be used instead of a Gaussian mixture model. In this case, each data represented by the non-utilized variable to be processed is clustered by the k-means method. The Gaussian mixture model and the k-means method may be combined. For example, the clustering of the first non-utilized variable, which is a quantitative variable, may be performed using a Gaussian mixture model, and the clustering of the second non-utilized variable, which is a quantitative variable, may be performed using the k-means method.
また、本実施の形態では、重回帰式をモデルとして生成したが、単回帰式をモデルとして生成してもよく、回帰式以外のモデルを生成してもよい。例えば、ニューラルネットワークをモデルとして生成してもよい。 In addition, in this embodiment, a multiple regression equation is generated as the model, but a simple regression equation may be generated as the model, or a model other than a regression equation may be generated. For example, a neural network may be generated as the model.
また、本実施の形態におけるデータセットDsは、製造関連の変数およびその変数のデータを示すが、その製造関連に限定されることなく、製造関連とは異なる他の分野の変数およびその変数のデータを示していてもよい。 In addition, the data set Ds in this embodiment shows manufacturing-related variables and data on those variables, but is not limited to manufacturing-related variables and may show variables and data on those variables in fields other than manufacturing-related fields.
また、本実施の形態におけるデータセットDsに含まれるデータは、操業データと品質データとに分別されていてもよい。例えば、操業データは、製造プロセスに関するデータであって、図5に示す、変数X0、変数X1、変数Z0、変数Z1、変数D1、変数D2、変数D3、および変数D4のそれぞれのデータであってもよい。また、例えば、品質データは、製品の品質に関するデータであって、図5に示す変数Yであってもよい。 The data included in the data set Ds in this embodiment may be separated into operation data and quality data. For example, the operation data is data related to the manufacturing process, and may be data for each of the variables X0, X1, Z0, Z1, D1, D2, D3, and D4 shown in FIG. 5. For example, the quality data is data related to the quality of the product, and may be variable Y shown in FIG. 5.
また、本実施の形態では、層別変数の総数Nと、変数型の優先順位とが設定されるが、それらと異なる項目が設定されてもよい。例えば、質的変数の総数と、量的変数の総数とをそれぞれ個別に設定してもよい。また、本実施の形態では、総数Nは、2以上の整数であるが、1であってもよい。 In addition, in this embodiment, the total number N of stratification variables and the priority of the variable types are set, but items other than these may be set. For example, the total number of qualitative variables and the total number of quantitative variables may be set separately. In this embodiment, the total number N is an integer of 2 or more, but it may also be 1.
また、本実施の形態では、データセットDsは、2つの変数型のそれぞれに属する変数のデータを含んでいるが、その変数型の数は2つに限らず、1つだけであってもよく、3つ以上であってもよい。 In addition, in this embodiment, the data set Ds includes data on variables belonging to each of two variable types, but the number of variable types is not limited to two, and may be only one, or may be three or more.
また、本実施の形態では、データセットDsは、製造管理装置500からネットワークを介して送信されてデータベース106に格納されるが、他の装置または記録媒体からデータベース106に出力されて格納されてもよい。また、データセットDsは、ネットワークを介さずにデータベース106に格納されてもよい。
In addition, in this embodiment, the data set Ds is transmitted from the
なお、以下のような場合も本開示に含まれる。 The following cases are also included in this disclosure:
(1)上記の少なくとも1つの装置は、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。そのRAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、上記の少なくとも1つの装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。 (1) The at least one device is specifically a computer system consisting of a microprocessor, a ROM (Read Only Memory), a RAM (Random Access Memory), a hard disk unit, a display unit, a keyboard, a mouse, etc. A computer program is stored in the RAM or hard disk unit. The at least one device achieves its functions by the microprocessor operating in accordance with the computer program. Here, a computer program is composed of a combination of multiple instruction codes that indicate commands for a computer to achieve a specified function.
(2)上記の少なくとも1つの装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。 (2) Some or all of the components constituting at least one of the above devices may be composed of a single system LSI (Large Scale Integration). A system LSI is an ultra-multifunctional LSI manufactured by integrating multiple components on a single chip, and specifically, is a computer system composed of a microprocessor, ROM, RAM, etc. A computer program is stored in the RAM. The system LSI achieves its functions when the microprocessor operates in accordance with the computer program.
(3)上記の少なくとも1つの装置を構成する構成要素の一部または全部は、その装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。 (3) Some or all of the components constituting at least one of the above devices may be composed of an IC card or a standalone module that is detachable from the device. The IC card or module is a computer system composed of a microprocessor, ROM, RAM, etc. The IC card or module may include the above-mentioned ultra-multifunction LSI. The IC card or module achieves its functions when the microprocessor operates according to a computer program. This IC card or module may be tamper-resistant.
(4)本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、コンピュータプログラムからなるデジタル信号であるとしてもよい。 (4) The present disclosure may be the methods described above. It may also be a computer program that realizes these methods by a computer, or a digital signal that is a computer program.
また、本開示は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD(Compact Disc)-ROM、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。 The present disclosure may also be a computer program or a digital signal recorded on a computer-readable recording medium, such as a flexible disk, a hard disk, a CD (Compact Disc)-ROM, a DVD, a DVD-ROM, a DVD-RAM, a BD (Blu-ray (registered trademark) Disc), a semiconductor memory, or the like. It may also be a digital signal recorded on such a recording medium.
また、本開示は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。 The present disclosure may also involve the transmission of computer programs or digital signals via telecommunications lines, wireless or wired communication lines, networks such as the Internet, data broadcasting, etc.
また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。 The program or digital signal may also be implemented by another independent computer system by recording it on a recording medium and transferring it, or by transferring the program or digital signal via a network, etc.
本開示は、モデルの精度向上を容易に図ることができるという効果を奏し、例えば、製造プロセスに用いられる変数のデータから、その製造プロセスで製造される製品の品質を推定するモデルを生成する装置またはシステムに適用することができる。 The present disclosure has the effect of easily improving the accuracy of a model, and can be applied, for example, to an apparatus or system that generates a model that estimates the quality of a product manufactured in a manufacturing process from data on variables used in the manufacturing process.
1 モデル生成システム
100 モデル生成装置
101 入力部
102 演算回路
103 メモリ
104 出力部
105 記憶部
105a プログラム
105b テンポラリーデータ
106 データベース
121 第1変数特定部
122 層別条件設定部
123 非活用変数抽出部
124 変数型判定部
125 影響度算出部
125a 質的影響度算出部
125b 量的影響度算出部
126 第2変数特定部
127 層別部
128 生成部
129 結果出力部
130 受信部
500 製造管理装置
Ds データセット
Ds1~Ds4 層別データセット
1
Claims (11)
3以上の変数を含むデータセットを受信する受信手段と、
前記データセットから、1以上の目的変数と、1以上の説明変数とを特定し、前記データセットに含まれる前記3以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、1または複数の変数を層別変数として特定する変数特定手段と、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、
前記複数の層毎に、前記モデルを生成する生成手段と、
を備えるモデル生成装置。 A model generation device that generates a model indicating a relationship between one or more objective variables and one or more explanatory variables,
receiving means for receiving a data set including three or more variables;
a variable specifying means for specifying one or more dependent variables and one or more explanatory variables from the data set, and specifying one or more variables as stratification variables from among the three or more variables included in the data set, other than the determined dependent variables and the determined explanatory variables;
A stratification means for classifying a data set into a plurality of strata based on a tendency of a relationship between the stratification variable and the objective variable;
A generation means for generating the model for each of the plurality of layers;
A model generating device comprising:
請求項1に記載のモデル生成装置。 The stratification means classifies the data of the stratification variables into a plurality of groups based on identity or similarity of the data of the stratification variables, and classifies the data set for each combination of the plurality of groups.
The model generating device according to claim 1 .
請求項1または2に記載のモデル生成装置。 The data set includes qualitative variables representing data including characters and quantitative variables representing data consisting of numbers.
3. The model generating device according to claim 1 or 2.
前記変数特定手段は、前記影響度に基づいて、前記層別変数を特定する、
請求項1~3に記載のモデル生成装置。 The method further includes an influence calculation means for calculating an influence of each of the three or more variables included in the data set on the objective variable, the influence being calculated for each of the variables other than the objective variable and the explanatory variable,
The variable identification means identifies the stratification variables based on the influence degree.
The model generating device according to any one of claims 1 to 3.
前記受信手段は、前記質的変数または前記量的変数のどちらを優先するかを示す優先情報を受信し、
前記変数特定手段は、前記影響度および前記優先情報に基づいて、前記層別変数を特定する、
請求項3に記載のモデル生成装置。 The method further includes an influence calculation means for calculating an influence of each of the three or more variables included in the data set on the objective variable, the influence being calculated for each of the variables other than the objective variable and the explanatory variable,
the receiving means receives priority information indicating whether the qualitative variables or the quantitative variables are to be prioritized;
The variable identification means identifies the stratification variables based on the influence degree and the priority information.
4. The model generating device of claim 3.
ランダムフォレストまたは勾配ブースティング決定木を用いて、前記質的変数の前記影響度を算出する、
請求項5に記載のモデル生成装置。 The influence degree calculation means
Calculating the influence of the qualitative variables using a random forest or a gradient boosting decision tree.
6. The model generating device according to claim 5.
混合ガウスモデルまたはk-means法を用いて、前記データセットに含まれる前記量的変数の2つ以上のデータに対するクラスタリングを行い、前記クラスタリングによって得られる各クラスタと前記目的変数との単回帰分析によって、前記量的変数の前記影響度を算出する、
請求項5または6に記載のモデル生成装置。 The influence degree calculation means
Using a Gaussian mixture model or a k-means method, clustering is performed on two or more pieces of data of the quantitative variables included in the data set, and the influence degree of the quantitative variables is calculated by a simple regression analysis between each cluster obtained by the clustering and the objective variable.
7. A model generating device according to claim 5 or 6.
生成された複数の前記モデルのそれぞれについて、当該モデルの確からしさを示す指数を算出し、
前記モデル生成装置は、さらに、
複数の前記モデルのそれぞれに対して算出された前記指数を出力する結果出力手段を備える、
請求項1~7の何れか1項に記載のモデル生成装置。 The generating means further comprises:
Calculating an index indicating the likelihood of each of the generated models;
The model generating device further comprises:
A result output means for outputting the index calculated for each of the plurality of models is provided.
A model generating device according to any one of claims 1 to 7.
2つ以上の前記説明変数のそれぞれのデータと前記目的変数のデータとの関係を示す前記モデルを、重回帰式として生成する、
請求項1~8の何れか1項に記載のモデル生成装置。 The generating means includes:
generating the model indicating a relationship between data of each of the two or more explanatory variables and data of the objective variable as a multiple regression equation;
A model generating device according to any one of claims 1 to 8.
3以上の変数を含むデータセットを受信し、
前記データセットから、1以上の目的変数と、1以上の説明変数とを特定し、前記データセットに含まれる前記3以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、1または複数の変数を層別変数として特定し、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類し、
前記複数の層毎に、前記モデルを生成する、
モデル生成方法。 A model generation method in which a computer generates a model showing a relationship between one or more objective variables and one or more explanatory variables, comprising the steps of:
receiving a dataset containing three or more variables;
Identifying one or more objective variables and one or more explanatory variables from the data set, and identifying one or more variables as stratification variables from among the three or more variables included in the data set, other than the identified objective variables and the identified explanatory variables;
Classifying the data set into a plurality of strata based on a trend of a relationship between the stratification variables and the objective variable;
generating the model for each of the plurality of layers;
Model generation method.
3以上の変数を含むデータセットを受信し、
前記データセットから、1以上の目的変数と、1以上の説明変数とを特定し、前記データセットに含まれる前記3以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、1または複数の変数を層別変数として特定し、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類し、
前記複数の層毎に、前記モデルを生成する、
ことをコンピュータに実行させるプログラム。 A program for causing a computer to generate a model showing a relationship between one or more objective variables and one or more explanatory variables,
receiving a dataset containing three or more variables;
Identifying one or more objective variables and one or more explanatory variables from the data set, and identifying one or more variables as stratification variables from among the three or more variables included in the data set, other than the identified objective variables and the identified explanatory variables;
Classifying the data set into a plurality of strata based on a trend of a relationship between the stratification variables and the objective variable;
generating the model for each of the plurality of layers;
A program that causes a computer to do something.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021091915A JP7645462B2 (en) | 2021-05-31 | 2021-05-31 | Model generation device, model generation method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021091915A JP7645462B2 (en) | 2021-05-31 | 2021-05-31 | Model generation device, model generation method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022184205A JP2022184205A (en) | 2022-12-13 |
| JP7645462B2 true JP7645462B2 (en) | 2025-03-14 |
Family
ID=84438109
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021091915A Active JP7645462B2 (en) | 2021-05-31 | 2021-05-31 | Model generation device, model generation method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7645462B2 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025009036A1 (en) * | 2023-07-03 | 2025-01-09 | 株式会社ナイルワークス | Crop information processing system, crop information processing method, crop information processing device, and crop information processing program |
| CN121548835A (en) * | 2023-07-25 | 2026-02-17 | 松下知识产权经营株式会社 | Data analysis devices, data analysis methods and programs |
| WO2025262763A1 (en) * | 2024-06-17 | 2025-12-26 | 株式会社Nttドコモ | Information processing device and information processing method |
| WO2026013948A1 (en) * | 2024-07-09 | 2026-01-15 | 日本製鉄株式会社 | Estimation device, model generation device, estimation method, model generation method, and program |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019079214A (en) | 2017-10-24 | 2019-05-23 | 富士通株式会社 | Search method, search device and search program |
| JP2020098388A (en) | 2018-12-17 | 2020-06-25 | 富士通株式会社 | Demand prediction method, demand prediction program, and demand prediction device |
| JP2020154890A (en) | 2019-03-20 | 2020-09-24 | 株式会社 日立産業制御ソリューションズ | Correlation extraction method and correlation extraction program |
-
2021
- 2021-05-31 JP JP2021091915A patent/JP7645462B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019079214A (en) | 2017-10-24 | 2019-05-23 | 富士通株式会社 | Search method, search device and search program |
| JP2020098388A (en) | 2018-12-17 | 2020-06-25 | 富士通株式会社 | Demand prediction method, demand prediction program, and demand prediction device |
| JP2020154890A (en) | 2019-03-20 | 2020-09-24 | 株式会社 日立産業制御ソリューションズ | Correlation extraction method and correlation extraction program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022184205A (en) | 2022-12-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7645462B2 (en) | Model generation device, model generation method and program | |
| JP6629678B2 (en) | Machine learning device | |
| CN110232154B (en) | Random forest-based product recommendation method, device and medium | |
| CN108496190B (en) | Annotation system for extracting attributes from electronic data structures | |
| CN112396428A (en) | User portrait data-based customer group classification management method and device | |
| WO2019102533A1 (en) | Document classification device | |
| US20210357808A1 (en) | Machine learning model generation system and machine learning model generation method | |
| CN112801222A (en) | Multi-classification method and device based on two-classification model, electronic equipment and medium | |
| JP6242540B1 (en) | Data conversion system and data conversion method | |
| JP7645461B2 (en) | Model generation device, model generation method and program | |
| CN111539576B (en) | Risk identification model optimization method and device | |
| JP2016048485A (en) | Gene expression information analyzing apparatus, gene expression information analyzing method, and program | |
| JP7834619B2 (en) | Teaching support device, teaching support method, and teaching support program | |
| CN114511027B (en) | English remote data extraction method through big data network | |
| CN115565610B (en) | Method and system for establishing recurrence and metastasis analysis model based on multi-omics data | |
| JPWO2020158266A1 (en) | Evaluation device, evaluation method and program | |
| CN111127184B (en) | A Distributed Combination Credit Evaluation Method | |
| CN104951455B (en) | A kind of information classification approach and system based on classification hypotaxis degree | |
| JP6721895B2 (en) | Cell analysis result output device, cell analysis result output method and program | |
| CN111461264B (en) | Scalable modularized image recognition method based on generation of countermeasure network | |
| CN110265151B (en) | Learning method based on heterogeneous temporal data in EHR | |
| CN118820813B (en) | Product cluster analysis method based on deep learning model | |
| CN113919439A (en) | Method, system, device and storage medium for improving quality of classified learning data set | |
| JP2022127316A (en) | Physical property prediction device and program | |
| JP2021152751A (en) | Analysis support device and analysis support method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240312 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250128 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250131 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250218 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7645462 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |