JP7645461B2

JP7645461B2 - モデル生成装置、モデル生成方法およびプログラム

Info

Publication number: JP7645461B2
Application number: JP2021091906A
Authority: JP
Inventors: 雄一郎定永; 伸夫原
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2025-03-14
Anticipated expiration: 2041-05-31
Also published as: JP2022184197A

Description

本開示は、データ間の関係を示すモデルを生成するモデル生成装置などに関する。

データを推定するためのモデルを生成するモデル生成装置が提案されている。例えば、モデル生成装置は、複数の変数のそれぞれのデータを含むデータセットから、目的変数と説明変数とを選択し、それらの変数の間の相関係数、またはそれらの変数を用いた回帰モデルを導出することによって、モデルを生成する。データセットは、例えば製造に関する複数の製造データを含む。目的変数は、例えば、製造される製品の品質特性をデータとして示し、説明変数は、製造プロセスに用いられるパラメータのデータを示す。したがって、生成されるモデルを用いれば、製造プロセスから製品の品質特性を推定することができる。

また、局所品質モデルを作成する関連解析装置が提案されている（例えば、特許文献１参照）。この関連解析装置は、局所品質モデルを上述のモデルとして作成するためモデル生成装置と言える。また、この関連解析装置は、説明変数に相当する操業因子の空間を複数の局所領域に分割し、その各局所領域に対して局所品質モデルを作成する。

特許第４６５３５４７号公報

しかしながら、上記特許文献１の関連解析装置であるモデル生成装置では、モデルの精度向上を図ることが難しいという課題がある。

そこで、本開示は、モデルの精度向上を容易に図ることができるモデル生成装置などを提供する。

本開示の一態様に係るモデル生成装置は、１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、３以上の変数を含むデータセットを受信する受信手段と、前記データセットから、１以上の目的変数と、１以上の説明変数とを特定する第１変数特定手段と、前記データセットに含まれる前記３以上の変数のうちの、特定された前記目的変数および前記説明変数以外の変数である１以上の層別変数候補のそれぞれについて、当該層別変数候補を用いることによって前記モデルの確からしさが増す度合いである改善度を特定する改善度特定手段と、前記１以上の層別変数候補から、前記１以上の層別変数候補のそれぞれの前記改善度に基づいて、１または複数の層別変数候補を層別変数として特定する第２変数特定手段と、前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、前記複数の層毎に、前記モデルを生成する生成手段と、を備える。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。また、記録媒体は、非一時的な記録媒体であってもよい。

本開示のモデル生成装置は、モデルの精度向上を容易に図ることができる。

本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および／または効果は、いくつかの実施の形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、１つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

図１は、実施の形態におけるモデル生成システムの一例を示す図である。図２は、実施の形態におけるモデル生成装置の構成を示す図である。図３Ａは、実施の形態におけるデータセットの一例を示す図である。図３Ｂは、図３Ａのデータセットの先頭の行と２番目の行とを示す図である。図３Ｃは、実施の形態におけるデータセットから選択される目的変数および説明変数を示す図である。図４は、実施の形態におけるデータセットの他の例を示す図である。図５は、実施の形態におけるデータセットの変数名などを簡略化して示す図である。図６は、実施の形態におけるモデル生成装置の機能構成を示すブロック図である。図７は、実施の形態における層別データセットの一例を示す図である。図８は、実施の形態における層別データセットのそれぞれについて、その層別データセットに含まれる各レコードによって示される座標点の分布を示す図である。図９は、実施の形態におけるモデル生成装置の全体的な処理動作の一例を示すフローチャートである。図１０は、図９のステップＳ７における質的変数の候補抽出処理の具体的な一例を示すフローチャートである。図１１は、図９のステップＳ８における量的変数の候補抽出処理の具体的な一例を示すフローチャートである。図１２は、図９のステップＳ９における改善度算出処理の具体的な一例を示すフローチャートである。

（本開示の基礎となった知見）
本発明者は、「背景技術」の欄において記載した特許文献１のモデル生成装置に関し、以下の問題が生じることを見い出した。

上記特許文献１では、説明変数に相当する操業因子の空間を複数の局所領域に分割し、その各局所領域に対して局所品質モデルを構築する。したがって、データセットから複数のモデルが生成される。しかし、それらのモデルの構築には、データセットに含まれる目的変数と説明変数のみが用いられ、目的変数および説明変数以外の変数が用いられていない。具体的には、データセットに含まれる説明変数が示すデータの分布のみに基づいてデータセットが複数の局所領域に分割され、それらの局所領域に対してモデルが生成される。つまり、上記特許文献１では、説明変数および目的変数以外の変数が、説明変数と目的変数との間の相関関係に与える影響が不明なため、その説明変数および目的変数以外の変数は、モデルの構築には用いられていない。したがって、その説明変数および目的変数以外の変数のデータが、説明変数と目的変数との間の相関関係に影響を与えるような場合には、高い精度のモデルを生成することが難しい。

そこで、本開示の一態様に係るモデル生成装置は、１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、３以上の変数を含むデータセットを受信する受信手段と、前記データセットから、１以上の目的変数と、１以上の説明変数とを特定する第１変数特定手段と、前記データセットに含まれる前記３以上の変数のうちの、特定された前記目的変数および前記説明変数以外の変数である１以上の層別変数候補のそれぞれについて、当該層別変数候補を用いることによって前記モデルの確からしさが増す度合いである改善度を特定する改善度特定手段と、前記１以上の層別変数候補から、前記１以上の層別変数候補のそれぞれの前記改善度に基づいて、１または複数の層別変数候補を層別変数として特定する第２変数特定手段と、前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、前記複数の層毎に、前記モデルを生成する生成手段と、を備える。例えば、前記層別手段は、前記層別変数ごとに、当該層別変数のデータの同一性または類似性に基づいて、当該層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、前記データセットを分類してもよい。

これにより、目的変数および説明変数以外の変数である層別変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。つまり、その層別変数の各データが、それらのデータ間の共通性または類似性に応じて、複数のグループに分類される。そして、データセットは、それらのグループに対応する層に層別分類される。この層別分類によって、各層には、同一のグループに属する層別変数のデータをそれぞれ有する１つ以上のレコードが含まれる。なお、グループは、共通性または類似性を有するデータの集合であって、このグループには、共通のデータの集合であるカテゴリと、類似する数値データの集合であるクラスタとがある。また、層別変数は、モデルに含まれる変数として採用されていないが、そのモデルの生成には用いられる非活用変数である。このように、本開示の一態様に係るモデル生成装置では、データセットに含まれる変数のうち、説明変数および目的変数以外の変数である非活用変数によって、データセットに対する層別分類が行われるため、その非活用変数が説明変数と目的変数との間の相関関係に影響を与えるような場合であっても、その非活用変数に基づいた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。

例えば、それぞれ非活用変数である第１層別変数および第２層別変数が特定される。そして、第１層別変数の２つ以上のデータが例えば第１グループおよび第２グループに分類され、第２層別変数の２つ以上のデータが例えば第３グループおよび第４グループに分類される。なお、これらのグループに含まれる全てのデータは、共通性または高い類似性を有する。この場合、複数の層として、例えば第１層、第２層、第３層および第４層が決定される。第１層は、第１層別変数の第１グループと、第２層別変数の第３グループとの組み合わせに対応する。第２層は、第１層別変数の第１グループと、第２層別変数の第４グループとの組み合わせに対応する。第３層は、第１層別変数の第２グループと、第２層別変数の第３グループとの組み合わせに対応する。第４層は、第１層別変数の第２グループと、第２層別変数の第４グループとの組み合わせに対応する。このように、Ｎ個の層別変数のそれぞれのグループの組み合わせに応じて複数の層が決定される。したがって、層別分類では、第１層別変数の第１グループに属するデータと、第２層別変数の第３グループに属するデータとを含むレコードは、第１層に分類される。第１層別変数の第１グループに属するデータと、第２層別変数の第４グループに属するデータとを含むレコードは、第２層に分類される。第１層別変数の第２グループに属するデータと、第２層別変数の第３グループに属するデータとを含むレコードは、第３層に分類される。第１層別変数の第２グループに属するデータと、第２層別変数の第４グループに属するデータとを含むレコードは、第４層に分類される。

このように、層別変数が２つ以上であっても、データセットに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちＮ個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。

また、本開示の一態様に係るモデル生成装置では、１または複数の層別変数は、１以上の層別変数候補から、それらの層別変数候補の改善度に基づいて特定される。例えば、大きい改善度を有する層別変数候補が層別変数として特定される。したがって、大きい改善度の層別変数を用いた層別分類が層別手段によって行われるため、より高い精度のモデルを生成することができる。

また、前記データセットは、文字を含むデータを示す質的変数と、数字からなるデータを示す量的変数とを含んでもよい。

これにより、質的変数および量的変数のうちの一方だけでなく両方を含む複数の層別変数を特定することができ、特定される層別変数の変数型の自由度を高めることができる。

また、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数が前記質的変数である場合には、前記質的変数の前記目的変数に対する影響度に基づいて、前記データセットに含まれる前記３以上の変数から前記質的変数を前記層別変数候補として抽出する質的候補抽出手段をさらに備えてもよい。

これにより、データセットに含まれる全ての非活用変数のうちの全ての質的変数のそれぞれを層別変数候補として扱うことなく、例えば、目的変数に対する影響度が大きい質的変数のみを層別変数候補として扱うことができる。その結果、全ての非活用変数のうちの全ての質的変数のそれぞれの改善度を特定することなく、一部の質的変数、すなわち影響度が大きい質的変数のみに対して改善度を特定することができる。つまり、改善度の特定対象とされる質的変数の数を減らすことができる。さらに、影響度が大きい質的変数は、大きい改善度が見込まれる質的変数であるため、改善度の特定の処理負担を効果的に減らすことができる。

また、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数が前記量的変数である場合には、前記量的変数の機械学習によるクラスタリングによって得られるクラスタの状態に基づいて、前記データセットに含まれる前記３以上の変数から前記量的変数を前記層別変数候補として抽出する量的候補抽出手段をさらに備えてもよい。

これにより、データセットに含まれる全ての非活用変数のうちの全ての量的変数のそれぞれを層別変数候補として扱うことなく、例えば、信頼性の高い多くのクラスタを有する量的変数のみを層別変数候補として扱うことができる。その結果、全ての非活用変数のうちの全ての量的変数のそれぞれの改善度を特定することなく、一部の量的変数、すなわち信頼性の高い多くのクラスタを有する量的変数のみに対して改善度を特定することができる。つまり、改善度の特定対象とされる量的変数の数を減らすことができる。さらに、信頼性の高い多くのクラスタを有する量的変数は、大きい改善度が見込まれる量的変数であるため、改善度の特定の処理負担を効果的に減らすことができる。

また、前記質的候補抽出手段は、ランダムフォレストまたは勾配ブースティング決定木を用いて、前記質的変数の前記影響度を算出してもよい。

これにより、例えばランダムフォレストのジニ係数に応じた値を影響度として算出することによって、質的変数の適切な影響度を算出することができる。その結果、大きい影響度を有する質的変数を、大きい改善度が見込まれる層別変数候補として適切に抽出することができる。

また、前記量的候補抽出手段は、混合ガウスモデルまたはｋ－ｍｅａｎｓ法を用いて、前記データセットに含まれる前記量的変数の２つ以上のデータに対するクラスタリングを行ってもよい。

これにより、１つ以上の量的変数のそれぞれについて、クラスタの状態を適切に得ることができる。その結果、信頼性の高い多くのクラスタを有する量的変数を、大きい改善度が見込まれる層別変数候補として適切に抽出することができる。

また、前記改善度特定手段は、前記層別変数候補を用いて分類された前記データセットから得られるモデルの確からしさを示す指標と、分類されていない前記データセットから得られるモデルの確からしさを示す指標との差分を算出することによって、前記改善度を特定してもよい。

これにより、層別変数候補の改善度を適切に特定することができる。

また、前記生成手段は、さらに、生成された複数の前記モデルのそれぞれについて、当該モデルの確からしさを示す指数を算出し、前記モデル生成装置は、さらに、複数の前記モデルのそれぞれに対して算出された前記指数を出力する結果出力手段を備えてもよい。

これにより、例えば、複数のモデルのそれぞれの自由度調整済み決定係数が、そのモデルの確からしさを示す指数として算出されて出力される。したがって、ユーザは、生成されたモデルを使用するか否かを、その指数にしたがって容易に判断することができる。

また、前記生成手段は、２つ以上の前記説明変数のそれぞれのデータと前記目的変数のデータとの関係を示す前記モデルを、重回帰式として生成してもよい。

これにより、説明変数の数に関わらず適切なモデルを生成することができる。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。

（実施の形態１）
［ハードウェア構成］
図１は、本実施の形態におけるモデル生成システムの一例を示す図である。

本実施の形態におけるモデル生成システム１は、モデル生成装置１００と、製造管理装置５００とを含む。

製造管理装置５００は、例えば製造工場に設置され、製品を製造する製造システムを管理する装置である。この製造管理装置５００は、その製造システムで得られるデータセットＤｓを、例えばインターネットなどのネットワークを介してモデル生成装置１００に送信する。なお、データセットＤｓの詳細については、図３Ａ～図５を用いて後述する。

モデル生成装置１００は、パーソナルコンピュータなどから構成され、上述の製造管理装置５００からデータセットＤｓを受信する。そして、本実施の形態におけるモデル生成装置１００は、そのデータセットＤｓに基づいて、説明変数のデータと目的変数のデータとの関係を示す複数のモデルを生成する。

図２は、本実施の形態におけるモデル生成装置１００の構成を示す図である。

モデル生成装置１００は、入力部１０１、演算回路１０２、メモリ１０３、出力部１０４、記憶部１０５、データベース１０６、および通信部１０７を備える。

通信部１０７は、モデル生成装置１００の外部にある機器と通信する。その通信は、無線通信であっても、有線通信であってもよい。無線通信の方式は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＺｉｇＢｅｅ（登録商標）であってもよく、その他の方式であってもよい。例えば、通信部１０７は、製造管理装置５００と通信し、その製造管理装置５００からデータセットＤｓを受信する。

入力部１０１は、ユーザによる入力操作を受け付けるＨＭＩ（Human Machine Interface）としての機能を有し、例えばキーボード、マウス、タッチセンサ、タッチパッドなどを備える。

出力部１０４は、画像または文字などを表示するディスプレイを有し、そのディスプレイは、例えば液晶ディスプレイ、プラズマディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイなどである。なお、出力部１０４は、画像または文字などを印刷するプリンタを有していてもよく、演算回路１０２から出力されるデータをファイル形式で記憶部１０５に格納する機能を有していてもよい。

記憶部１０５は、演算回路１０２への各命令が記述されたプログラム（すなわちコンピュータプログラム）１０５ａを格納している。また、記憶部１０５には、その演算回路１０２の処理によって一時的に生成される各テンポラリーデータ１０５ｂが格納されてもよい。なお、このような記憶部１０５は、不揮発性の記録媒体であって、例えば、ハードディスクなどの磁気記憶装置、光ディスク、半導体メモリなどである。なお、プログラム１０５ａは、例えば、リムーバブルメディアまたはネットワークを介して、モデル生成装置１００に提供され、記憶部１０５に格納される。リムーバブルメディアは、例えばＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、フラッシュメモリなどである。このため、通信部１０７は、リムーバブルメディアのプログラム１０５ａを読み込むインターフェースを備えていてもよい。

メモリ１０３には、演算回路１０２によって読み出されて展開されたプログラム１０５ａが一時的に保存される。このようなメモリ１０３は、例えば揮発性のＲＡＭ（Random Access Memory）である。

演算回路１０２は、メモリ１０３に展開されたプログラム１０５ａを実行する回路であって、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）などである。演算回路１０２は、プログラム１０５ａを実行するときには、記憶部１０５に格納されている各テンポラリーデータ１０５ｂを用いてもよい。

データベース１０６は、記憶部１０５と同様に、不揮発性の記録媒体であって、例えば、ハードディスクなどの磁気記憶装置、光ディスク、半導体メモリなどである。例えば、演算回路１０２は、製造管理装置５００からネットワークおよび通信部１０７を介してデータセットＤｓを取得して、そのデータセットＤｓをデータベース１０６に格納する。

なお、本実施の形態では、記憶部１０５とデータベース１０６とは互に異なる記録媒体であるが、記憶部１０５およびデータベース１０６は、それらを含む１つの記録媒体として構成されていてもよい。

［データセット］
図３Ａは、本実施の形態におけるデータセットＤｓの一例を示す図である。また、図３Ｂは、そのデータセットＤｓの先頭の行と２番目の行とを示す図である。

データセットＤｓは、製造管理装置５００から送信される生のデータセットであって、例えば、上述の製造システムにおける製造プロセス、および、その製造プロセスによって製造された製品の品質を示す、複数の製造データからなる構造化されたデータセットである。このようなデータセットＤｓは、図３Ａに示すように、複数の変数のそれぞれの変数名と、それらの変数のデータとを示す。なお、データは、文字および数字のうちの少なくとも一方を示すものであれば、どのようなものであってもよい。データセットＤｓの先頭の行には、複数の変数のそれぞれの変数名が配置され、データセットＤｓの２行目以降の各行には、複数の変数のそれぞれのデータが配置されている。このような２行目以降の各行は、複数の変数のそれぞれのデータを含むレコードとして扱われる。また、データセットＤｓの左端の列は、紐付け情報列であって、それらのレコードを識別するための識別情報であるＩＤが示されている。ＩＤは、レコードに含まれる各変数のデータを紐付けている。

具体的には、図３Ｂに示すように、データセットＤｓの先頭の行には、それぞれの変数名である、「電圧」、「速度」、「抵抗値」、「作業者」、「設備号機」、「材料配合」、「材料温度差」、「補助電圧」、および「治具温度」が配置されている。そして、２行目のレコードには、それらの変数名によって識別される変数のデータｄ１～ｄ９が含まれている。データｄ１は、変数名「電圧」によって識別される変数のデータであって、例えば「５．４８８１３５」である。データｄ２は、変数名「速度」によって識別される変数のデータであって、例えば「７．１５１８９４」である。データｄ３は、変数名「抵抗値」によって識別される変数のデータであって、例えば「４４．６９８３１」である。データｄ４は、変数名「作業者」によって識別される変数のデータであって、例えば「スズキ」である。データｄ５は、変数名「設備号機」によって識別される変数のデータであって、例えば「Ｃ号機」である。データｄ６は、変数名「材料配合」によって識別される変数のデータであって、例えば「０」である。データｄ７は、変数名「材料温度差」によって識別される変数のデータであって、例えば「８．８１５６７３」である。データｄ８は、変数名「補助電圧」によって識別される変数のデータであって、例えば「３」である。データｄ９は、変数名「治具温度」によって識別される変数のデータであって、例えば「９．２９８４８１」である。これらの各変数のデータｄ１～ｄ９を含むレコードは、ＩＤ「ＩＤ２００９０１」によって識別される。つまり、ＩＤ「ＩＤ２００９０１」は、そのＩＤによって識別されるレコードに含まれるデータｄ１～ｄ９を紐付けている。

データセットＤｓは、図３Ａに示すように、このようなレコードを複数含む。例えば、データセットＤｓは、上述のＩＤ「ＩＤ２００９０１」によって識別されるレコードと、ＩＤ「ＩＤ２００９０２」によって識別されるレコードと、ＩＤ「ＩＤ２００９０３」によって識別されるレコードとを含む。このように、本実施の形態におけるデータセットＤｓは、複数の変数のそれぞれのデータを有するレコードを２つ以上含む。

また、図３Ａに示すように、データセットＤｓの左から２番目の列は、変数名「電圧」によって識別される変数のレコードごとのデータを示す。例えば、それらのデータは、「５．４８８１３５」、「６．０２７６３４」、および「４．２３６５４８」などである。同様に、データセットＤｓの左から３番目の列は、変数名「速度」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から４番目の列は、変数名「抵抗値」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から５番目の列は、変数名「作業者」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から６番目の列は、変数名「設備号機」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から７番目の列は、変数名「材料配合」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から８番目の列は、変数名「材料温度差」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から９番目の列は、変数名「補助電圧」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から１０番目の列は、変数名「治具温度」によって識別される変数のレコードごとのデータを示す。

ここで、変数の型には、量的変数と質的変数とがある。量的変数の各データは、数字のみで表されるデータであって、質的変数の各データは、文字を含んで表されるデータである。図３Ａおよび図３Ｂの例では、変数名「作業者」および変数名「設備号機」のそれぞれによって識別される変数が、質的変数である。例えば、図３Ｂに示すように、変数名「作業者」によって識別される変数のデータｄ４は「スズキ」であって、文字を含んでいる。したがって、変数名「作業者」によって識別される変数は、質的変数である。また、図３Ａおよび図３Ｂの例では、変数名「材料配合」、変数名「材料温度差」、変数名「補助電圧」、および変数名「治具温度」のそれぞれによって識別される変数が、量的変数である。例えば、図３Ｂに示すように、変数名「材料配合」によって識別される変数のデータｄ６は「０」であって、数字のみで表されている。したがって、変数名「材料配合」によって識別される変数は、量的変数である。

なお、変数は、図３Ａおよび図３Ｂに示す例に限定されるものではなく、どのような変数であってもよい。変数は、例えば、人に関わる変数、材料に関わる変数、設備に係る変数などである。人に関わる変数は、「作業者」または「作業班」などの変数であってもよい。材料に関わる変数は、「源泉材料Ｌｏｔ」または「途中工程材料Ｌｏｔ」などの変数であってもよい。設備に係る変数は、「生産設備種類、世代」、「生産設備号機」、「設備内レーン別、スピンドル別」、「金型」、「治具」、「金型温度」、「乾燥温度」、「設備メンテナンス前後」などの変数であってもよい。また、変数は、「雰囲気温度」、「雰囲気湿度」、「生産時期、時間」などの変数であってもよい。また、変数は、製品の「品種、品番」または「製品サイズ」などの変数であってもよい。

図３Ｃは、データセットＤｓから選択される目的変数および説明変数を示す図である。

データセットＤｓに示される各変数は、ユーザによる入力操作に応じて、活用変数と非活用変数に分類され、各活用変数は、説明変数と目的変数に分類される。活用変数は、モデルに採用される変数であって、非活用変数は、モデルに採用されない変数である。なお、非活用変数は、従来、データセットに含まれる目的変数以外の全ての変数を説明変数として採用せずに、目的変数に対する寄与度が大きな変数のみを説明変数として採用するために、モデルには採用されなかった変数である。さらに、活用変数には、説明変数と目的変数とがある。図３Ｃに示す例では、ユーザは、変数名「抵抗値」の変数を目的変数として選択し、変数名「電圧」の変数と、変数名「速度」の変数とをそれぞれ説明変数として選択する。これにより、変数名「作業者」、変数名「設備号機」、変数名「材料配合」、変数名「材料温度差」、変数名「補助電圧」、および変数名「治具温度」のそれぞれの変数が、非活用変数として決定される。また、これらの非活用変数には、上述の質的変数および量的変数が含まれる。したがって、本実施の形態では、データセットＤｓに示されるＭ個の非活用変数は、それぞれ文字を含むデータを示す１つ以上の質的変数と、それぞれ数字からなるデータを示す１つ以上の量的変数とを含む。なお、そのＭ個は、データセットＤｓに含まれる非活用変数の個数であって、上述の例では６個である。

図４は、本実施の形態におけるデータセットＤｓの他の例を示す図である。

演算回路１０２は、データセットＤｓに含まれる質的変数をダミー変数に置き換える。つまり、演算回路１０２は、ＯｎｅＨｏｔＥｎｃｏｄｉｎｇを行うことによって、図３Ａ～図３Ｃに示す変数名「作業者」の質的変数のデータを、変数名「作業者スズキ」、変数名「作業者サトウ」、および変数名「作業者タカハシ」の３つの変数のデータからなるフラグ列に変換する。例えば、図３Ａに示す変数名「作業者」の変数のデータ「スズキ」は、変数名「作業者スズキ」の変数のデータ「１」と、変数名「作業者サトウ」の変数のデータ「０」と、変数名「作業者タカハシ」の変数のデータ「０」とからなるフラグ列に変換される。また、図３Ａに示す変数名「作業者」の変数のデータ「サトウ」は、変数名「作業者スズキ」の変数のデータ「０」と、変数名「作業者サトウ」の変数のデータ「１」と、変数名「作業者タカハシ」の変数のデータ「０」とからなるフラグ列に変換される。同様に、演算回路１０２は、図３Ａ～図３Ｃに示す変数名「設備号機」の質的変数のデータを、変数名「設備号機Ｃ」、変数名「設備号機Ｄ」、および変数名「設備号機Ｅ」の３つの変数のデータからなるフラグ列に変換する。例えば、図３Ａに示す変数名「設備号機」の変数のデータ「Ｃ号機」は、変数名「設備号機Ｃ」の変数のデータ「１」と、変数名「設備号機Ｄ」の変数のデータ「０」と、変数名「設備号機Ｅ」の変数のデータ「０」とからなるフラグ列に変換される。また、図３Ａに示す変数名「設備号機」の変数のデータ「Ｄ号機」は、変数名「設備号機Ｃ」の変数のデータ「０」と、変数名「設備号機Ｄ」の変数のデータ「１」と、変数名「設備号機Ｅ」の変数のデータ「０」とからなるフラグ列に変換される。演算回路１０２は、後述のランダムフォレストなどの機械学習において質的変数を扱う場合には、その質的変数をダミー変数に置き換える。

図５は、本実施の形態におけるデータセットＤｓの変数名などを簡略化して示す図である。

以下、説明を分かり易くするため、図３Ａ～図３Ｃに示すデータセットＤｓの変数名「電圧」、「速度」、「抵抗値」、「作業者」、「設備号機」、「材料配合」、「材料温度差」、「補助電圧」および「治具温度」を、図５に示すように、変数名「Ｘ０」、「Ｘ１」、「Ｙ」、「Ｚ０」「Ｚ１」、「Ｄ１」、「Ｄ２」、「Ｄ３」および「Ｄ４」に置き換える。また、変数名「作業者」によって識別される変数のデータ「スズキ」および「サトウ」を、「Ａ」および「Ｂ」に置き換え、変数名「設備号機」によって識別される変数のデータ「Ｃ号機」および「Ｄ号機」を、「Ｃ」および「Ｄ」に置き換える。

なお、以下、各変数を識別する必要がある場合には、変数Ｘ１のように、変数の後に変数名を付けることによって、その変数を識別する。また、図５に示す例では、変数Ｘ０、変数Ｘ１、および変数Ｙはそれぞれ、量的変数である。また、変数Ｚ０および変数Ｚ１はそれぞれ、質的変数であり、変数Ｄ１、変数Ｄ２、変数Ｄ３、および変数Ｄ４はそれぞれ、量的変数である。

［機能構成］
図６は、演算回路１０２の機能構成を示すブロック図である。

演算回路１０２は、プログラム１０５ａを実行することによって、モデルを生成するための複数の機能を実現する。具体的には、演算回路１０２は、受信部（受信手段）１３０、第１変数特定部（第１変数特定手段）１２１、層別条件設定部１２２、非活用変数抽出部１２３、変数型判定部１２４、候補抽出部１２５、改善度特定部（改善度特定手段）１４０、第２変数特定部（第２変数特定手段）１２６、層別部（層別手段）１２７、生成部（生成手段）１２８、および結果出力部（結果出力手段）１２９を備える。また、候補抽出部１２５は、質的候補抽出部（質的候補抽出手段）１２５ａおよび量的候補抽出部（量的候補抽出手段）１２５ｂを備える。これらの構成要素は、演算回路１０２によるプログラム１０５ａの実行によって実現される。

受信部１３０は、３以上の変数を含むデータセットＤｓを受信する。例えば、受信部１３０は、データベース１０６からデータセットＤｓを読み出すことによって、そのデータセットＤｓを取得する。そして、ユーザは、入力部１０１に対して入力操作を行うことによって、図５に示すデータセットＤｓの複数の変数の中から説明変数と目的変数を選択する。第１変数特定部１２１は、入力部１０１によって受け付けられたユーザのその入力操作に応じて、図５に示すデータセットＤｓの複数の変数の中から、例えば変数Ｘ０および変数Ｘ１をそれぞれ説明変数として特定する。さらに、第１変数特定部１２１は、その複数の変数の中から、例えば変数Ｙを目的変数として特定する。これにより、２つの変数が説明変数として設定され、１つの変数が目的変数として設定される。

このように、本実施の形態における第１変数特定部１２１は、データセットＤｓから、１以上の目的変数と、１以上の説明変数とを特定する。なお、本実施の形態では、２つの説明変数が設定され、１つの目的変数が設定されるが、その説明変数および目的変数のそれぞれの数は、これらの例に限らず、任意の数であってもよい。例えば、第１変数特定部１２１は、データセットＤｓの複数の変数のうちの１つの変数を説明変数に設定してもよく、３つ以上の変数のそれぞれを説明変数に設定してもよい。また、第１変数特定部１２１は、データセットＤｓの複数の変数のうちの２つ以上の変数のそれぞれを目的変数として特定してもよい。

また、第１変数特定部１２１は、説明変数として設定された変数が変数Ｘ０および変数Ｘ１であり、目的変数として設定された変数が変数Ｙであることを示す第１設定情報を、メモリ１０３または記憶部１０５に格納する。第１設定情報が記憶部１０５に格納される場合には、その第１設定情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、第１変数特定部１２１は、その第１設定情報を非活用変数抽出部１２３に出力してもよい。

層別条件設定部１２２は、入力部１０１によって受け付けられたユーザの入力操作に応じて、データセットＤｓの層別に用いられる非活用変数の総数をＮ個（Ｎは１以上の整数）に設定する。本実施の形態では、層別条件設定部１２２は、ユーザの入力操作に応じて総数を設定するが、その入力操作を必要とせず、予め定められているＮ個を固定値として設定してもよい。なお、Ｎ個は、層別に用いられる非活用変数の総数であるが、本実施の形態では、その総数Ｎが１以上である例を挙げて説明する。また、本実施の形態では、具体的な例として、総数ＮはＮ＝２に設定される。なお、その層別に用いられる非活用変数は、以下、層別変数とも呼ばれる。つまり、本実施の形態における層別条件設定部１２２は、ユーザによる入力操作に応じて、層別変数の総数を設定する。なお、データセットＤｓに含まれる層別変数の各データは、上記層別のためには、それらのデータ間の共通性または類似性に応じて１つのグループだけではなく、複数のグループに分類される必要がある。

層別条件設定部１２２は、層別変数の総数であるＮ個を示す第２設定情報を、メモリ１０３または記憶部１０５に格納する。第２設定情報が記憶部１０５に格納される場合には、その第２設定情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、層別条件設定部１２２は、第２設定情報を第２変数特定部１２６に出力してもよい。

非活用変数抽出部１２３は、第１変数特定部１２１によって読み出された図５に示すデータセットＤｓの複数の変数の中から、Ｍ個の非活用変数を抽出する。具体的には、非活用変数抽出部１２３は、第１変数特定部１２１、メモリ１０３または記憶部１０５から第１設定情報を取得する。そして、非活用変数抽出部１２３は、その複数の変数から、第１設定情報によって示される説明変数および目的変数以外の全ての変数を非活用変数として抽出する。例えば、非活用変数抽出部１２３は、データセットＤｓの複数の変数の中から、変数Ｚ０、変数Ｚ１、変数Ｄ１、変数Ｄ２、変数Ｄ３、および変数Ｄ４をそれぞれ非活用変数として抽出する。その結果、本実施の形態では、データセットＤｓによって示される複数の変数から、Ｍ個の非活用変数が抽出される。そして、非活用変数抽出部１２３は、抽出されたＭ個の非活用変数を示す抽出情報を、メモリ１０３または記憶部１０５に格納する。抽出情報が記憶部１０５に格納される場合には、その抽出情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、非活用変数抽出部１２３は、抽出情報を変数型判定部１２４に出力してもよい。

変数型判定部１２４は、非活用変数抽出部１２３、メモリ１０３または記憶部１０５から抽出情報を取得し、その抽出情報によって示されるＭ個の非活用変数のそれぞれの変数型を順に判定する。変数型には、上述の質的変数の型と、量的変数の型とがある。つまり、変数型判定部１２４は、非活用変数のデータに基づいて、その非活用変数が質的変数であるか、量的変数であるかを判定する。具体的には、変数型判定部１２４は、非活用変数のデータに文字が含まれていれば、その非活用変数が質的変数であると判定する。一方、変数型判定部１２４は、非活用変数のデータに文字が含まれず数字のみが含まれていれば、その非活用変数が量的変数であると判定する。これにより、Ｍ個の非活用変数のそれぞれが、質的変数と量的変数とに分類される。例えば、本実施の形態では、変数型判定部１２４は、非活用変数Ｚ０および非活用変数Ｚ１のそれぞれが質的変数であると判定し、非活用変数Ｄ１、非活用変数Ｄ２、非活用変数Ｄ３、および非活用変数Ｄ４のそれぞれが量的変数であると判定する。そして、変数型判定部１２４は、Ｍ個の非活用変数のそれぞれについて、その非活用変数の変数型を示す変数型情報をメモリ１０３または記憶部１０５に格納する。変数型情報が記憶部１０５に格納される場合には、その変数型情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、変数型判定部１２４は、変数型情報を候補抽出部１２５に出力してもよい。

候補抽出部１２５は、データセットＤｓに含まれる３以上の変数から、特定された目的変数および説明変数以外の変数を層別変数候補として抽出する。言い換えれば、候補抽出部１２５は、Ｍ個の非活用変数の中から層別変数候補を抽出する。層別変数候補は、データセットＤｓの層別分類に用いられる層別変数の候補である。

具体的には、候補抽出部１２５は、上述のように、質的候補抽出部１２５ａと、量的候補抽出部１２５ｂとを備えている。質的候補抽出部１２５ａは、変数型判定部１２４、メモリ１０３または記憶部１０５から変数型情報を取得し、その変数型情報に示されている非活用変数の変数型を特定する。そして、質的候補抽出部１２５ａは、その非活用変数の変数型が質的変数であれば、その質的変数の影響度を算出し、その影響度に基づいて質的変数を層別変数候補として採用するか否かを判断する。なお、影響度は、質的変数である非活用変数のデータが目的変数のデータに与える影響の大きさを示す数値であって、その影響が大きいほど、大きい値を示す。質的候補抽出部１２５ａは、採用すると判断された質的変数である非活用変数を層別変数候補として抽出する。このような質的候補抽出部１２５ａによる処理は、図９のステップＳ７における質的変数の候補抽出処理によって行われる。その詳細については、図１０を用いて後述する。

一方、量的候補抽出部１２５ｂは、変数型判定部１２４、メモリ１０３または記憶部１０５から変数型情報を取得し、その変数型情報に示されている非活用変数の変数型を特定する。そして、量的候補抽出部１２５ｂは、その非活用変数の変数型が量的変数であれば、その量的変数のクラスタリングの状態を特定し、そのクラスタリングの状態に基づいて非活用変数を層別変数候補として採用するか否かを判断する。クラスタリングの詳細については、後述する。量的候補抽出部１２５ｂは、採用すると判断された量的変数である非活用変数を層別変数候補として抽出する。このような量的候補抽出部１２５ｂによる処理は、図９のステップＳ８における量的変数の候補抽出処理によって行われる。その詳細については、図１１を用いて後述する。

次に、改善度特定部１４０は、データセットＤｓに含まれる３以上の変数のうちの、特定された目的変数および説明変数以外の変数である１以上の層別変数候補のそれぞれについて、その層別変数候補を用いることによってモデルの確からしさが増す度合いである改善度を特定する。このような改善度特定部１４０による処理は、図９のステップＳ９における改善度算出処理によって行われる。その詳細については、図１２を用いて後述する。

そして、改善度特定部１４０は、１以上の層別変数候補のそれぞれについて、その層別変数候補の改善度を示す改善度情報を、メモリ１０３または記憶部１０５に格納する。改善度情報が記憶部１０５に格納される場合には、その改善度情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、改善度特定部１４０は、改善度情報を第２変数特定部１２６に出力してもよい。

第２変数特定部１２６は、候補抽出部１２５、メモリ１０３または記憶部１０５から、１以上の層別変数候補のそれぞれの改善度情報を取得する。さらに、第２変数特定部１２６は、層別条件設定部１２２、メモリ１０３または記憶部１０５から第２設定情報を取得する。そして、第２変数特定部１２６は、それらの改善度情報および第２設定情報を用いて、１以上の層別変数候補の中から、Ｎ個の層別変数候補をそれぞれ層別変数として特定する。層別変数は、データセットＤｓのレコードの層別に用いられる変数である。

このように、本実施の形態における第２変数特定部１２６は、１以上の層別変数候補から、その１以上の層別変数候補のそれぞれの改善度に基づいて、Ｎ個の層別変数候補を層別変数として特定する。つまり、第２変数特定部１２６は、層別条件設定部１２２によって設定された総数であるＮ個だけ層別変数を特定する。このとき、第２変数特定部１２６は、改善度に基づいて、層別変数を特定する。

そして、第２変数特定部１２６は、その特定されたＮ個の層別変数を示す層別変数情報を、メモリ１０３または記憶部１０５に格納する。層別変数情報が記憶部１０５に格納される場合には、その層別変数情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、第２変数特定部１２６は、層別変数情報を層別部１２７に出力してもよい。

層別部１２７は、データセットＤｓに含まれる層別変数の２つ以上のデータ間の共通性または類似性に基づいて層別分類を行う。この層別分類では、層別部１２７は、データセットＤｓに含まれる２つ以上のレコードを複数の層に分類することによって、複数の層のそれぞれに１つ以上のレコードを含める処理である層別分類を実行する。つまり、層別部１２７は、層別変数と目的変数との関係の傾向に基づいて、データセットＤｓを複数の層に分類する。具体的には、層別部１２７は、層別変数ごとに、その層別変数のデータの同一性または類似性に基づいて、その層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、データセットＤｓを分類する。ここで、その層別変数は、上述の層別変数情報によって示されている。したがって、層別部１２７は、第２変数特定部１２６、メモリ１０３または記憶部１０５から、層別変数情報を取得する。そして、層別部１２７は、その層別変数情報に基づいて、データセットＤｓに対する層別分類を行う。

具体的には、層別部１２７は、層別変数情報によって示されるＮ個の層別変数のそれぞれについて、その層別変数の２つ以上のデータ間の共通性または類似性に基づいて、データセットＤｓに含まれるその層別変数の２つ以上のデータを複数のグループに分類する。そして、層別部１２７は、そのＮ個の層別変数のそれぞれのグループの組み合わせに応じて複数の層を決定し、データセットＤｓに含まれる２つ以上のレコードを、決定された複数の層に分類する。これによって、複数の層のそれぞれに、１つ以上のレコードからなる層別データセットが生成される。複数の層のそれぞれの層別データセットは、データセットＤｓから分類された１つ以上のレコードを含む。その１つ以上のレコードのそれぞれは、Ｎ個の層別変数のそれぞれの同一グループに属するデータを含む。さらに、その１つ以上のレコードのそれぞれは、目的変数および説明変数のそれぞれのデータを含む。この層別データセットの詳細については、図７を用いて後述する。

なお、本実施の形態では、層別変数が質的変数である場合には、同一のデータがグループ化され、層別変数が量的変数である場合は、同一または類似のデータがグループ化される。また、本実施の形態における層別部１２７は、層別変数ごとに、その層別変数のデータの同一性または類似性に基づいて、その層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、データセットＤｓを分類する。ここで、層別変数が量的変数である場合において、その量的変数のデータが類似しているとは、量的変数の目的変数に対する影響の傾向が類似していることを意味する。したがって、層別部１２７は、層別変数と目的変数との関係の傾向に基づいて、データセットＤｓを複数の層に分類していると言える。

生成部１２８は、複数の層毎に、１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成する。つまり、生成部１２８は、複数の層のそれぞれについて、その層に含まれる１つ以上のレコード、すなわち層別データセットを用いて、説明変数のデータと目的変数のデータとの関係を示すモデルを生成する。ここで、上述の例では、変数Ｘ０および変数Ｘ１がそれぞれ説明変数であるが、説明変数は１つでもよく、２つ以上であってもよい。したがって、この場合には、生成部１２８は、２つ以上の説明変数のそれぞれのデータと目的変数のデータとの関係を示すモデルを、重回帰式として生成する。例えば、生成部１２８は、説明変数Ｘ０および説明変数Ｘ１と目的変数Ｙとに対する重回帰分析を行うことによって、説明変数Ｘ０および説明変数Ｘ１のそれぞれのデータと目的変数Ｙのデータとの関係を示すモデルを生成する。

結果出力部１２９は、生成された複数のモデルを出力する。つまり、結果出力部１２９は、生成部１２８によって層ごとに生成されたモデルを、その生成部１２８から取得して出力部１０４に出力する。

［層別データセット］
図７は、本実施の形態における層別データセットの一例を示す図である。

例えば、第２変数特定部１２６は、それぞれ質的変数である非活用変数Ｚ０および非活用変数Ｚ１を層別変数として特定する。図５に示すデータセットＤｓの各レコードに含まれる層別変数Ｚ０のデータは、「Ａ」または「Ｂ」を示す。また、そのデータセットＤｓの各レコードに含まれる層別変数Ｚ１のデータは、「Ｃ」または「Ｄ」を示す。そこで、層別部１２７は、図７の（ａ）に示すように、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを、第１層に分類する。これにより、層別データセットＤｓ１が生成される。層別データセットＤｓ１は、ＩＤ「ＩＤ２００９０１」によって識別されるレコードと、ＩＤ「ＩＤ２００９０２」によって識別されるレコードと、ＩＤ「ＩＤ２００９０３」によって識別されるレコードとからなる。

同様に、層別部１２７は、図７の（ｂ）に示すように、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを、第２層に分類する。これにより、層別データセットＤｓ２が生成される。層別データセットＤｓ２は、ＩＤ「ＩＤ２００９０４」によって識別されるレコードと、ＩＤ「ＩＤ２００９０５」によって識別されるレコードと、ＩＤ「ＩＤ２００９０６」によって識別されるレコードとからなる。

同様に、層別部１２７は、図７の（ｃ）に示すように、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを、第３層に分類する。これにより、層別データセットＤｓ３が生成される。層別データセットＤｓ３は、ＩＤ「ＩＤ２００９０７」によって識別されるレコードと、ＩＤ「ＩＤ２００９０８」によって識別されるレコードと、ＩＤ「ＩＤ２００９０９」によって識別されるレコードとからなる。

同様に、層別部１２７は、図７の（ｄ）に示すように、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを、第４層に分類する。これにより、層別データセットＤｓ４が生成される。層別データセットＤｓ４は、ＩＤ「ＩＤ２００９１０」によって識別されるレコードと、ＩＤ「ＩＤ２００９１１」によって識別されるレコードと、ＩＤ「ＩＤ２００９１２」によって識別されるレコードとからなる。

言い換えれば、層別変数Ｚ０の２つ以上のデータがグループ「Ａ」およびグループ「Ｂ」に分類され、層別変数Ｚ１の２つ以上のデータがグループ「Ｃ」およびグループ「Ｄ」に分類される。第１層は、層別変数Ｚ０のグループ「Ａ」と、層別変数Ｚ１のグループ「Ｃ」との組み合わせに対応する。第２層は、層別変数Ｚ０のグループ「Ｂ」と、層別変数Ｚ１のグループ「Ｃ」との組み合わせに対応する。第３層は、層別変数Ｚ０のグループ「Ａ」と、層別変数Ｚ１のグループ「Ｄ」との組み合わせに対応する。第４層は、層別変数Ｚ０のグループ「Ｂ」と、層別変数Ｚ１のグループ「Ｄ」との組み合わせに対応する。このように、層別変数Ｚ０および層別変数Ｚ１のそれぞれのグループの組み合わせに応じて複数の層が決定される。したがって、層別分類では、層別変数Ｚ０のグループ「Ａ」に属するデータと、層別変数Ｚ１のグループ「Ｃ」に属するデータとを含むレコードは、第１層に分類される。層別変数Ｚ０のグループ「Ｂ」に属するデータと、層別変数Ｚ１のグループ「Ｃ」に属するデータとを含むレコードは、第２層に分類される。層別変数Ｚ０のグループ「Ａ」に属するデータと、層別変数Ｚ１のグループ「Ｄ」に属するデータとを含むレコードは、第３層に分類される。層別変数Ｚ０のグループ「Ｂ」に属するデータと、層別変数Ｚ１のグループ「Ｄ」に属するデータとを含むレコードは、第４層に分類される。

なお、各層に分類されるレコードには、層別変数以外の他の非活用変数のデータが含まれていてもよく、図７に示す例のように、活用変数および層別変数のそれぞれのデータのみが含まれていてもよい。

図８は、層別データセットＤｓ１～Ｄｓ４のそれぞれについて、その層別データセットに含まれる各レコードによって示される座標点の分布を示す図である。

層別データセットＤｓ１～Ｄｓ４のそれぞれは、複数のレコードを含む。そして、その複数のレコードのそれぞれは、説明変数Ｘ０のデータと、説明変数Ｘ１のデータと、目的変数Ｙのデータとを含み、座標点（Ｘ０，Ｘ１，Ｙ）として示される。つまり、レコードは、説明変数Ｘ０、説明変数Ｘ１および目的変数Ｙからなる三次元座標系における座標点として示される。

データセットＤｓに含まれる全てのレコードの座標点からは、それらのレコード間の相関性を見出すことが難しい。しかし、図８に示すように、層別データセットＤｓ１～Ｄｓ４のそれぞれでは、その層別データセットに含まれる複数のレコードの座標点は、互に相関性を有する。したがって、層別データセットＤｓ１～Ｄｓ４のそれぞれでは、その層別データセットに含まれる全てのレコードの座標点から、それらのレコード間の相関性を見出すことができる。

生成部１２８は、これらの層別データセットＤｓ１～Ｄ４のそれぞれで、その層別データセットに含まれる１つ以上のレコードを用いて、説明変数Ｘ０および説明変数Ｘ１のそれぞれのデータと目的変数Ｙのデータとの関係を示すモデルを生成する。

このように、本実施の形態では、層別変数が非活用変数であって、その非活用変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。したがって、説明変数以外の変数である非活用変数によって、データセットＤｓに対する層別分類を最適に行うことができる。その結果、非活用変数に応じて説明変数と目的変数との間の相関関係が変化するような場合であっても、その非活用変数のグループに応じた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。また、本実施の形態では、層別変数が２つ以上であっても、データセットＤｓに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちＮ個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。

［処理動作］
図９は、本実施の形態におけるモデル生成装置１００の全体的な処理動作の一例を示すフローチャートである。

まず、モデル生成装置１００の受信部１３０は、データ受信処理を行う（ステップＳ１）。このデータ受信処理では、第１変数特定部１２１は、データベース１０６からデータセットＤｓを読み出すことによって、そのデータセットＤｓを受信する。そして、第１変数特定部１２１は、そのデータセットＤｓによって示される複数の変数から、説明変数および目的変数を特定する（ステップＳ２）。これにより、説明変数および目的変数が設定される。例えば、上述のように、変数Ｘ０および変数Ｘ１がそれぞれ説明変数に設定され、変数Ｙが目的変数に設定される。

次に、層別条件設定部１２２は、ユーザの入力操作に応じて、層別変数の総数Ｎを設定する（ステップＳ３）。例えば、総数ＮはＮ＝２に設定される。なお、この総数Ｎは、予め定められた固定値であってもよい。

次に、非活用変数抽出部１２３は、データセットＤｓの複数の変数から、説明変数および目的変数以外の変数を、非活用変数として抽出する（ステップＳ４）。

その後、モデル生成装置１００は、ステップＳ５～Ｓ８を含む第１ループ処理を、ステップＳ４で抽出された全ての非活用変数のそれぞれに対して順に実行する。すなわち、データセットＤｓに示されるＭ個の非活用変数のそれぞれに対して第１ループ処理が順に実行される。

具体的には、まず、変数型判定部１２４は、処理対象の非活用変数の変数型を判定する（ステップＳ５）。そして、変数型判定部１２４は、その変数型が質的変数の型であるか否かを判定する（ステップＳ６）。つまり、変数型判定部１２４は、処理対象の非活用変数が質的変数であるか否かを判定する。そして、その処理対象の非活用変数が質的変数であると変数型判定部１２４によって判定されると（ステップＳ６のＹｅｓ）、質的候補抽出部１２５ａは、質的変数の候補抽出処理を実行する（ステップＳ７）。つまり、質的候補抽出部１２５ａは、その質的変数である非活用変数の目的変数に対する影響度を算出し、その影響度に基づいてその質的変数を層別変数候補として採用するか否かを判断する。そして、質的候補抽出部１２５ａは、採用すると判断された質的変数を層別変数候補として抽出する。一方、その処理対象の非活用変数が質的変数ではないと変数型判定部１２４によって判定されると（ステップＳ６のＮｏ）、量的候補抽出部１２５ｂは、その処理対象の非活用変数である量的変数の候補抽出処理を実行する（ステップＳ８）。つまり、量的候補抽出部１２５ｂは、データセットＤｓに含まれるその量的変数の２つ以上のデータに対してクラスタリングを行い、そのクラスタリングの状態に基づいて、その量的変数を層別変数候補として採用するか否かを判断する。そして、量的候補抽出部１２５ｂは、採用すると判断された量的変数を層別変数候補として抽出する。

このようなステップＳ５～Ｓ８を含む第１ループ処理が、全ての非活用変数のそれぞれに対して順に実行されることによって、その全ての非活用変数から１以上の層別変数候補が抽出される。

次に、改善度特定部１４０は、１以上の層別変数候補のそれぞれの改善度を算出する改善度算出処理を行う（ステップＳ９）。

そして、第２変数特定部１２６は、全ての非活用変数から抽出された１以上の層別変数候補を、それらの層別変数候補の改善度順にソートする（ステップＳ１０）。具体的には、第２変数特定部１２６は、改善度が大きいほどその層別変数候補が前に配置されるように、それらの層別変数候補を並べ替える。

次に、第２変数特定部１２６は、ソートされた１以上の層別変数候補のうち、改善度が上位の層別変数候補を、ステップＳ３で設定された総数Ｎだけ、層別変数として特定する（ステップＳ１１）。つまり、第２変数特定部１２６は、大きい改善度から順にＮ個の層別変数候補をそれぞれ層別変数として特定する。これにより、合計Ｎ個の層別変数が特定される。上述の例では、Ｎ＝２であって、質的変数Ｚ０および質的変数Ｚ１がそれぞれ層別変数として特定される。

次に、層別部１２７は、その特定されたＮ個の層別変数を用いてデータセットＤｓに対する層別分類を行うことによって、複数の層別データセットを生成する。例えば、図７に示すように、層別データセットＤｓ１～Ｄｓ４が生成される。そして、生成部１２８は、層別データセットごとに、説明変数および目的変数に対する重回帰分析を行うことによって重回帰式を算出する（ステップＳ１２）。これにより、層別データセットごとに、重回帰式からなるモデルが生成される。

生成部１２８は、さらに、複数の層別データセットのそれぞれで算出された重回帰式に対して、説明変数の自由度調整済み決定係数を算出する（ステップＳ１３）。

結果出力部１２９は、ステップＳ１２で算出された各重回帰式と、ステップＳ１３で算出された各決定係数とを出力部１０４に出力する。これにより、出力部１０４は、各重回帰式と各決定係数とをディスプレイに表示したり、紙に印刷したり、それらを示すファイルを記憶部１０５に格納する（ステップＳ１４）。

図１０は、図９のステップＳ７における質的変数の候補抽出処理の具体的な一例を示すフローチャートである。なお、この候補抽出処理で扱われる処理対象の非活用変数は、質的変数である。

質的候補抽出部１２５ａは、処理対象の非活用変数のカテゴリ数が第１閾値以下であるか否かを判定する（ステップＳ７１）。そのカテゴリ数の第１閾値は、例えば２０である。カテゴリ数は、データセットＤｓに含まれる、その処理対象の非活用変数によって示される複数の同一データからなるグループ数である。例えば、図５に示すデータセットＤｓにおいて、質的変数である非活用変数Ｚ０によって示される複数のデータには、「Ａ」を示すデータと、「Ｂ」を示すデータとが含まれている。したがって、その非活用変数Ｚ０のカテゴリ数は２である。同様に、図５に示すデータセットＤｓにおいて、質的変数である非活用変数Ｚ１によって示される複数のデータには、「Ｃ」を示すデータと、「Ｄ」を示すデータとが含まれている。したがって、その非活用変数Ｚ１のカテゴリ数は２である。

次に、質的候補抽出部１２５ａは、処理対象の非活用変数のカテゴリ数が第１閾値以下ではないと判定すると（ステップＳ７１のＮｏ）、その非活用変数を影響度の算出対象から除外する（ステップＳ７２）。例えば、カテゴリ数が比較的多い非活用変数を層別変数候補として抽出し、さらに、その層別変数候補を層別変数として用いれば、多くの層別データセットが生成される。その結果、多くのモデルが生成されることによって、各モデルの精度の向上と、それらのモデルの使い易さの向上とを、期待することが難しいと想定される。したがって、ステップＳ７２では、そのようなカテゴリ数が多い非活用変数を影響度の算出対象から除外することによって、その非活用変数が層別変数候補として抽出されることを抑制し、その非活用変数が層別変数に用いられることを抑制することができる。

一方、質的候補抽出部１２５ａは、処理対象の非活用変数のカテゴリ数が第１閾値以下であると判定すると（ステップＳ７１のＹｅｓ）、その処理対象の非活用変数の影響度を教師あり機械学習によって算出する（ステップＳ７３）。その教師あり機械学習は、例えばランダムフォレストを用いた学習である。ランダムフォレストは、複数の決定木を用いる手法である。例えば、質的候補抽出部１２５ａは、データセットＤｓに含まれる目的変数の各データと、データセットＤｓに含まれる処理対象の非活用変数の各データとを、それぞれ教師データとして用いたランダムフォレストの機械学習を実行する。このランダムフォレストは、例えば目的変数のデータから処理対象の非活用変数のデータを推定するための学習モデルである。より具体的には、処理対象の非活用変数は、非活用変数Ｚ０である。この場合、質的候補抽出部１２５ａは、目的変数のデータをランダムフォレストに入力することによって、その目的変数のデータに対応する非活用変数Ｚ０のデータがそのランダムフォレストから出力されるように、機械学習を実行する。このときランダムフォレストから出力される非活用変数Ｚ０のデータは、「Ａ」または「Ｂ」である。

質的候補抽出部１２５ａは、ランダムフォレストに含まれる複数の決定木の不純度を表す指標であるジニ係数Ｇに基づいて、その処理対象の非活用変数の影響度を算出する。ジニ係数Ｇは、決定木のノードごとに、式（１）で定義される。

ここで、式（１）において、Ｃはカテゴリ数である。また、Ｐｉは、カテゴリｉに属するデータ数を、全データ数で割ったものである。つまり、Ｐｉは、そのジニ係数Ｇに対応するノードにおいて分類されたカテゴリｉのデータの数を、そのノードにおいて分類されたデータの総数で除算することによって得られる商である。例えば、「Ａ」を示す２つのデータと、「Ｂ」を示す１つのデータとがそのノードにおいて分類された場合、Ｇ＝１－（２／３）^２－（１／３）^２である。

質的候補抽出部１２５ａは、決定木におけるジニ係数ができるだけ小さくなるように学習を行う。そして、質的候補抽出部１２５ａは、ランダムフォレストに用いられた複数の決定木の全てのジニ係数の平均値が小さいほど大きい値を示す影響度を算出する。例えば、質的候補抽出部１２５ａは、その平均値の逆数を影響度として算出する。

次に、質的候補抽出部１２５ａは、例えばランダムフォレストを用いた学習で算出された影響度が第２閾値以上であるか否かを判定する（ステップＳ７４）。ここで、質的候補抽出部１２５ａは、処理対象の非活用変数の影響度が第２閾値以上ではないと判定すると（ステップＳ７４のＮｏ）、その非活用変数を層別変数候補から除外する（ステップＳ７５）。つまり、その非活用変数は、層別変数候補として採用されない。

一方、質的候補抽出部１２５ａは、処理対象の非活用変数の影響度が第２閾値以上であると判定すると（ステップＳ７４のＹｅｓ）、その非活用変数を層別変数候補として採用する（ステップＳ７６）。つまり、質的候補抽出部１２５ａは、処理対象の非活用変数を層別変数候補として採用するか否かを判断し、採用すると判断された非活用変数を層別変数候補として抽出する。

このように、本実施の形態における質的候補抽出部１２５ａは、処理対象の非活用変数が質的変数の場合、ランダムフォレストを用いてその質的変数の影響度を算出し、その影響度に基づいてその質的変数を層別変数候補として抽出するか否かを判断する。

これにより、データセットＤｓに含まれる全ての非活用変数のうちの全ての質的変数のそれぞれを層別変数候補として扱うことなく、例えば、目的変数に対する影響度が大きい質的変数のみを層別変数候補として扱うことができる。その結果、全ての非活用変数のうちの全ての質的変数のそれぞれの改善度を特定することなく、一部の質的変数、すなわち影響度が大きい質的変数のみに対して改善度を特定することができる。つまり、改善度の特定対象とされる質的変数の数を減らすことができる。さらに、影響度が大きい質的変数は、大きい改善度が見込まれる質的変数であるため、改善度の特定の処理負担を効果的に減らすことができる。

図１１は、図９のステップＳ８における量的変数の候補抽出処理の具体的な一例を示すフローチャートである。なお、この候補抽出処理で扱われる処理対象の非活用変数は、量的変数である。

量的候補抽出部１２５ｂは、データセットＤｓに含まれる処理対象の非活用変数の各データに対するクラスタリングを、教師なし機械学習によって行う（ステップＳ８１）。その教師なし機械学習は、例えば混合ガウスモデル（ＧＭＭ：Gaussian Mixture Model）である。

混合ガウスモデルは、ある確率分布が与えられたとき、その確率分布を複数のガウス関数（すなわち正規分布）の線形結合で近似する手法である。線形結合では、複数のガウス関数のそれぞれは、重みπｋを用いて結合される。重みπｋは、ｋ番目のガウス関数の重みであって、混合係数とも呼ばれる。（ａ，ｂ）の２次元で考えた場合、ｋ番目のガウス関数は、ａの平均値μａ＿ｋと、ｂの平均値μｂ＿ｋと、ａの分散Σａ＿ｋと、ｂの分散Σｂ＿ｋと、ａとｂの共分散Σａｂ＿ｋとを有する。各正規分布の大きさは、簡易的にΣｂ＿ｋ＋Σａ＿ｋで扱うことができる。なお、本実施の形態では、（ａ，ｂ）は、（目的変数，量的変数である非活用変数）である。

量的候補抽出部１２５ｂは、混合ガウスモデルでのハイパーパラメータであるクラスタ数を変更しながらその混合ガウスモデルを解析する。そして、量的候補抽出部１２５ｂは、例えば赤池情報量基準（ＡＩＣ：Akaike’s Information Criterion）またはベイズ情報量基準（ＢＩＣ：Bayesian Information Criterion）が最小となるクラスタ数を採用する。これにより、そのクラスタ数だけクラスタが生成される。なお、クラスタ数は、１つ以上である。また、クラスタは、上述のカテゴリまたはグループに相当する。

その後、量的候補抽出部１２５ｂは、ステップＳ８２～Ｓ８４を含む第２ループ処理を、ステップＳ８１で生成された全てのクラスタのそれぞれに対して順に実行する。

具体的には、まず、量的候補抽出部１２５ｂは、処理対象のクラスタ内のデータ数が第３閾値以上であるか否かを判定する（ステップＳ８２）。ここで、量的候補抽出部１２５ｂは、データ数が第３閾値以上であると判定すると（ステップＳ８２のＹｅｓ）、そのクラスタを高信頼クラスタとして採用する（ステップＳ８３）。一方、量的候補抽出部１２５ｂは、データ数が第３閾値未満であると判定すると（ステップＳ８２のＮｏ）、そのクラスタを低信頼クラスタに分類する（ステップＳ８４）。これにより、層別変数候補が、信頼性の低いクラスタを用いて抽出されることを抑制することができる。

このようなステップＳ８２～Ｓ８４を含む第２ループ処理が、ステップ８１で生成された全てのクラスタのそれぞれに対して順に実行される。これにより、量的変数の候補抽出処理における第一段階の処理として、その全てのクラスタから信頼性の低いクラスタを除外する処理が行われる。

そして、量的候補抽出部１２５ｂは、量的変数の候補抽出処理における第二段階の処理として、ステップＳ８５～Ｓ８７の処理を行う。つまり、量的候補抽出部１２５ｂは、ステップＳ８３で採用された高信頼クラスタが２つ以上あるか否かを判定する（ステップＳ８５）。ここで、量的候補抽出部１２５ｂは、その高信頼クラスタが２つ以上あると判定すると（ステップＳ８５のＹｅｓ）、それらの高信頼クラスタに対応する処理対象の非活用変数を層別変数候補として採用する（ステップＳ８７）。一方、量的候補抽出部１２５ｂは、高信頼クラスタが２つ以上ないと判定すると（ステップＳ８５のＮｏ）、その非活用変数を層別変数候補から除外する（ステップＳ８６）。

このように、本実施の形態における量的候補抽出部１２５ｂは、処理対象の非活用変数が量的変数の場合、その量的変数の機械学習によるクラスタリングによってクラスタの状態を特定し、そのクラスタの状態に基づいてその量的変数を層別変数候補として抽出するか否かを判断する。

これにより、データセットＤｓに含まれる全ての非活用変数のうちの全ての量的変数のそれぞれを層別変数候補として扱うことなく、例えば、信頼性の高い多くのクラスタを有する量的変数のみを層別変数候補として扱うことができる。その結果、改善度特定部１４０が、全ての非活用変数のうちの全ての量的変数のそれぞれの改善度を特定することなく、一部の量的変数、すなわち信頼性の高い多くのクラスタを有する量的変数のみに対して改善度を特定することができる。つまり、改善度の特定対象とされる量的変数の数を減らすことができる。さらに、信頼性の高い多くのクラスタを有する量的変数は、大きい改善度が見込まれる量的変数であるため、改善度の特定の処理負担を効果的に減らすことができる。

図１２は、図９のステップＳ９における改善度算出処理の具体的な一例を示すフローチャートである。なお、この改善度算出処理で扱われる層別変数候補は、質的変数であっても、量的変数であってもよい。

改善度特定部１４０は、層別分類が行われていないデータセットＤｓにおける目的変数と説明変数との関係を示す重回帰式を算出し、その重回帰式に対する自由度調整済み決定係数を第１決定係数として算出する（ステップＳ９１）。層別分類が行われていないデータセットＤｓは、例えば図５に示すデータセットＤｓである。

その後、改善度特定部１４０は、ステップＳ９２～Ｓ９６を含む第３ループ処理を、ステップＳ７およびステップＳ８で抽出された全ての層別変数候補のそれぞれに対して順に実行する。この第３ループ処理では、改善度特定部１４０は、候補抽出部１２５で抽出された１以上の層別変数候補のそれぞれに対して順に自由度調整済み決定係数を第２決定係数として算出する。

具体的には、まず、改善度特定部１４０は、抽出された層別変数候補を用いてデータセットＤｓを層別分類することによって、複数の層別データセットを生成する（ステップＳ９２）。この層別分類は、層別部１２７による層別分類と同様であるが、図７の例のように、複数の非活用変数を用いることなく、１つの非活用変数である層別変数候補を用いて行われる。なお、複数の層別データセットのそれぞれは、図７の例のように、データセットＤｓに含まれる１つ以上のレコードを含む。その１つ以上のレコードのそれぞれは、層別変数候補の同一のデータまたは類似しているデータを含む。つまり、その１つ以上のレコードのそれぞれは、層別変数候補の同一のグループ（すなわちカテゴリまたはクラスタ）に属するデータを含む。さらに、その１つ以上のレコードのそれぞれは、目的変数および説明変数のそれぞれのデータを含む。

次に、改善度特定部１４０は、その生成された複数の層別データセットのそれぞれについて、その層別データセットにおける目的変数と説明変数との関係を示す重回帰式を算出する（ステップＳ９３）。そして、改善度特定部１４０は、その算出された各重回帰式に対する自由度調整済み決定係数を第２決定係数として算出し（ステップＳ９４）、それらの第２決定係数の代表値を代表決定係数として決定する（ステップＳ９５）。例えば、改善度特定部１４０は、ステップＳ９３で算出された重回帰式ａ、ｂ、ｃ・・・に対して第２決定係数２ａ、２ｂ、２ｃ、・・・を算出し、それらの第２決定係数２ａ、２ｂ、２ｃ、・・・の代表値を代表決定係数として決定する。具体的には、改善度特定部１４０は、第２決定係数２ａ、２ｂ、２ｃ、・・・の平均値または最大値を代表決定係数に決定する。

そして、改善度特定部１４０は、ステップＳ９５で決定された代表決定係数と、ステップＳ９１で算出された第１決定係数との差分を、ステップＳ９２で用いられた層別変数候補の改善度として算出する（ステップＳ９６）。つまり、改善度特定部１４０は、「代表決定係数－第１決定係数＝改善度」によって、層別変数候補の改善度を算出する。言い換えれば、代表決定係数と第１決定係数との差分が、層別変数候補の改善度として定義される。

このように、本実施の形態における改善度特定部１４０は、層別変数候補を用いて分類されたデータセットＤｓから得られる重回帰式の確からしさを示す第１決定係数と、分類されていないデータセットＤｓから得られる重回帰式の確からしさを示す代表決定係数との差分を算出することによって、改善度を特定する。なお、その重回帰式は、目的変数と説明変数との関係を示すモデルである。また、第１決定係数、第２決定係数、および代表決定係数のそれぞれは、自由度調整済み決定係数であって、モデルの確からしさを示す指標である。

これにより、１以上の層別変数候補のそれぞれについて、層別分類が行われない場合に得られる自由度決定係数からの改善度を適切に特定することができる。その結果、層別部１２７は、その改善度を用いて１以上の層別変数候補から改善度が大きい層別変数候補を層別変数として用いることによって、データセットＤｓに対する最適な層別分類を行うことができる。その結果、層別部１２７による層別分類によって得られる複数の層別データセットのそれぞれに対して、より精度の高いモデルを生成することができる。

［モデルの例］
以上のように、本実施の形態では、データセットＤｓに対して層別分類が行われる。例えば、非活用変数Ｚ０および非活用変数Ｚ１がそれぞれ層別変数として特定された場合には、図７に示すように、４つの層別データセットＤｓ１～Ｄｓ４が生成される。そして、４つの層別データセットＤｓ１～Ｄｓ４のそれぞれからモデルが生成される。これにより、モデルの精度向上を図ることができる。

具体的には、層別分類が行われない場合、データセットＤｓから生成されるモデルは、以下の式（２）のように示される。なお、式（２）では、ｘ_０およびｘ_１が、上述の説明変数Ｘ０および説明変数Ｘ１にそれぞれ相当し、ｆが上述の目的変数Ｙに相当する。

一方、本実施の形態では、上述のように層別分類が行われるため、以下の式（３）～式（６）に示される４つのモデルがそれぞれ重回帰式として生成される。なお、式（３）～式（６）では、ｘ_０およびｘ_１が、上述の説明変数Ｘ０および説明変数Ｘ１にそれぞれ相当し、ｆ_００、ｆ_０１、ｆ_１０、およびｆ_１１のそれぞれが上述の目的変数Ｙに相当する。具体的には、式（３）は、図７の（ｄ）および図８に示す層別データセットＤｓ４から生成されたモデルであって、その層別データセットＤｓ４は、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを含む。式（３）のｆ_００は、この層別データセットＤｓ４の目的変数Ｙに相当する。式（４）は、図７の（ｃ）および図８に示す層別データセットＤｓ３から生成されたモデルであって、その層別データセットＤｓ３は、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを含む。式（４）のｆ_０１は、この層別データセットＤｓ３の目的変数Ｙに相当する。式（５）は、図７の（ｂ）および図８に示す層別データセットＤｓ２から生成されたモデルであって、その層別データセットＤｓ２は、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを含む。式（５）のｆ_１０は、この層別データセットＤｓ２の目的変数Ｙに相当する。式（６）は、図７の（ａ）および図８に示す層別データセットＤｓ１から生成されたモデルであって、その層別データセットＤｓ１は、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを含む。式（６）のｆ_１１は、この層別データセットＤｓ１の目的変数Ｙに相当する。

なお、本実施の形態では、２つの層別変数Ｚ０および層別変数Ｚ１が特定され、層別変数Ｚ０の各データが２つのグループに分類され、層別変数Ｚ１の各データが２つのグループに分類される。したがって、グループの組み合わせ数が４であって、４つのモデルが生成される。ここで、３つの層別変数が特定され、それらの層別変数の各データが２つのグループに分類される場合には、グループの組み合わせ数は８であって、８つのモデルが生成される。また、２つの層別変数が特定され、それらの層別変数の各データが３つのグループに分類される場合には、グループの組み合わせ数は９であって、９つのモデルが生成される。

ここで、Ｒ^２＊は自由度調整済み決定係数である。この自由度調整済み決定係数は、モデルの確からしさを示す指数である。本実施の形態では、上述の式（２）～式（６）に示すとおり、自由度調整済み決定係数を、０．２７３から、０．５０３～０．９６９の範囲まで増加させることができ、モデルの精度向上を図ることができる。そして、このような各モデルと各自由度調整済み決定係数とが、結果出力部１２９によって出力される。

このように、本実施の形態における生成部１２８は、生成された複数のモデルのそれぞれについて、そのモデルの確からしさを示す指数を算出する。そして、結果出力部１２９は、複数のモデルのそれぞれに対して算出されたその指数を出力する。したがって、ユーザは、生成されたモデルを使用するか否かを、その指数にしたがって容易に判断することができる。

［効果など］
以上のように、本実施の形態では、目的変数および説明変数以外の変数である層別変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。また、層別変数は、モデルに含まれる変数として採用されていないが、そのモデルの生成には用いられる非活用変数である。したがって、その非活用変数によって、データセットＤｓに対する層別分類を最適に行うことができる。その結果、非活用変数に応じて説明変数と目的変数との間の相関関係が変化するような場合であっても、その非活用変数のデータに応じた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。

また、本実施の形態では、データセットＤｓのＭ個の非活用変数の中から、有効な変数が層別変数として自動的に特定される。したがって、例えば工場の有識者などのユーザが活用変数（すなわち目的変数および説明変数）を選択した意図を活かすことができ、ユーザの理解し易いモデルの生成と、そのモデルの精度向上とを両立することができる。

また、本実施の形態では、改善度特定部１４０が、データセットＤｓに含まれる３以上の変数のうちの、特定された目的変数および説明変数以外の変数である１以上の層別変数候補のそれぞれについて、当該層別変数候補を用いることによってモデルの確からしさが増す度合いである改善度を特定する。さらに、第２変数特定部１２６が、１以上の層別変数候補から、それらの層別変数候補の改善度に基づいてＮ個の層別変数候補のそれぞれを層別変数として特定する。そして、層別部１２７が、そのＮ個の層別変数のそれぞれについて、その層別変数の２つ以上のデータ間の共通性または類似性に基づいて、データセットＤｓに含まれるその層別変数の２つ以上のデータを複数のグループに分類する。さらに、層別部１２７が、Ｎ個の層別変数のそれぞれのグループの組み合わせに応じて複数の層を決定し、データセットＤｓに含まれる２つ以上のレコードを、決定された複数の層に分類する。グループは、層別変数が質的変数の場合には、上述のカテゴリに相当し、層別変数が量的変数の場合には、上述のクラスタに相当する。

これにより、層別変数が２つ以上であっても、データセットＤｓに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちＮ個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。また、例えば、大きい改善度を有する層別変数候補が層別変数として特定され、その大きい改善度の層別変数を用いた層別分類が層別部１２７によって行われるため、より高い精度のモデルを生成することができる。

また、本実施の形態では、質的変数の層別変数候補に対しても、量的変数の層別変数候補に対しても、同一の算出手法によって改善度が算出される。したがって、質的変数の層別変数候補および量的変数の層別変数候補の何れにも、その算出される改善度を、モデルの確からしさが増す共通の度合いとして用いることがきる。つまり、改善度は、変数型に依存することのない共通の指標とも言える。したがって、質的変数の層別変数候補および量的変数の層別変数候補を分け隔てすることなく平等に、それらの層別変数候補から、大きい改善度を有する層別変数候補を層別変数として特定することができる。

また、本実施の形態では、層別条件設定部１２２が、ユーザによる入力操作に応じて、層別変数の総数を設定し、第２変数特定部１２６が、その設定された総数であるＮ個だけ層別変数を特定する。

これにより、特定される層別変数の総数を、ユーザの意図どおりに任意に設定することができ、生成されるモデルの数または精度を調整することができる。

また、本実施の形態では、Ｍ個の非活用変数は、それぞれ文字を含むデータを示す１つ以上の質的変数と、それぞれ数字からなるデータを示す１つ以上の量的変数とを含む。

これにより、質的変数および量的変数のうちの一方だけでなく両方を含むＮ個の層別変数を特定することができ、特定される層別変数の変数型の自由度を高めることができる。

（変形例など）
以上、本開示の一態様に係るモデル生成装置について、上記実施の形態に基づいて説明したが、本開示は、その実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記実施の形態に施したものも本開示に含まれてもよい。

例えば、本実施の形態では、質的変数の候補抽出処理に、教師あり機械学習の一例としてランダムフォレストが用いられているが、その教師あり機械学習はランダムフォレストに限定されるものではなく、他の教師あり機械学習が用いられてもよい。例えば、ランダムフォレストの代わりに、勾配ブースティング決定木（ＧＢＤＴ：Gradient Boosting Decision Tree）が用いられてもよい。この勾配ブースティング決定木が用いられる場合には、誤差または損失係数が小さくなるように機械学習が行われる。そして、質的候補抽出部１２５ａは、その誤差または損失係数が小さいほど大きい値を示す影響度を算出する。また、ランダムフォレストと勾配ブースティング決定木とを組み合わせてもよい。例えば、質的変数である第１非活用変数の影響度を、ランダムフォレストを用いて算出し、質的変数である第２非活用変数の影響度を、勾配ブースティング決定木を用いて算出してもよい。このとき、互に異なる２つの機械学習によって算出される影響度を正規化することによって、それらの影響度を比較可能にしてもよい。

また、本実施の形態では、量的変数の候補抽出処理に、教師なし機械学習の一例として混合ガウスモデルが用いられているが、その教師なし機械学習は混合ガウスモデルに限定されるものではなく、他の教師なし機械学習が用いられてもよい。例えば、混合ガウスモデルの代わりに、ｋ－ｍｅａｎｓ法が用いられてもよい。この場合には、処理対象の非活用変数によって示される各データは、ｋ－ｍｅａｎｓ法によってクラスタリングされる。また、混合ガウスモデルとｋ－ｍｅａｎｓ法とを組み合わせてもよい。例えば、量的変数である第１非活用変数のクラスタリングを、混合ガウスモデルを用いて行い、量的変数である第２非活用変数のクラスタリングを、ｋ－ｍｅａｎｓ法を用いて行ってもよい。

また、混合ガウスモデルでは、１つ１つのデータは、各グループに属する確率を有し、複数のグループのうち最も確率の高いグループに属する。混合ガウスモデルの代わりに後述のｋ－ｍｅａｎｓ法が用いられる場合には、１つ１つのデータは、各グループの重心との間に距離を有し、複数のグループのうち最も距離が近いグループに属する。したがって、具体的に、量的変数のデータが類似しているとは、そのデータに対応する確率が一定値以上であること、又は、グループの重心から、そのデータに対応する位置までの距離が一定値以下であることである。

また、本実施の形態では、重回帰式をモデルとして生成したが、単回帰式をモデルとして生成してもよく、回帰式以外のモデルを生成してもよい。例えば、ニューラルネットワークをモデルとして生成してもよい。

また、本実施の形態におけるデータセットＤｓは、製造関連の変数およびその変数のデータを示すが、その製造関連に限定されることなく、製造関連とは異なる他の分野の変数およびその変数のデータを示していてもよい。

また、本実施の形態におけるデータセットＤｓに含まれるデータは、操業データと品質データとに分別されていてもよい。例えば、操業データは、製造プロセスに関するデータであって、図５に示す、変数Ｘ０、変数Ｘ１、変数Ｚ０、変数Ｚ１、変数Ｄ１、変数Ｄ２、変数Ｄ３、および変数Ｄ４のそれぞれのデータであってもよい。また、例えば、品質データは、製品の品質に関するデータであって、図５に示す変数Ｙであってもよい。

また、本実施の形態では、層別変数の総数Ｎが設定されるが、例えば、質的変数の総数と、量的変数の総数とをそれぞれ個別に設定してもよい。この場合、第２変数特定部１２６は、質的変数である１以上の層別変数候補から、その設定された質的変数の総数だけ、改善度の大きい順に層別変数候補を層別変数として特定する。さらに、第２変数特定部１２６は、量的変数である１以上の層別変数候補から、その設定された量的変数の総数だけ、改善度の大きい順に層別変数候補を層別変数として特定する。

また、本実施の形態では、Ｍ個の非活用変数に含まれる１以上の質的変数から、それらの影響度に基づいて層別変数候補が抽出され、そのＭ個の非活用変数に含まれる１以上の量的変数から、それらのクラスタの状態に基づいて層別変数候補が抽出される。しかし、影響度およびクラスタの状態に関わらず、Ｍ個の非活用変数に含まれる全ての質的変数のそれぞれが層別変数候補として抽出されてもよく、Ｍ個の非活用変数に含まれる全ての量的変数のそれぞれが層別変数候補として抽出されてもよい。この場合には、Ｍ個の非活用変数のそれぞれが層別変数候補として抽出され、そのＭ個の非活用変数のそれぞれに対して改善度が算出される。

また、本実施の形態では、データセットＤｓは、２つの変数型のそれぞれに属する変数のデータを含んでいるが、その変数型の数は２つに限らず、１つだけであってもよく、３つ以上であってもよい。

また、本実施の形態では、データセットＤｓは、製造管理装置５００からネットワークを介して送信されてデータベース１０６に格納されるが、他の装置または記録媒体からデータベース１０６に出力されて格納されてもよい。また、データセットＤｓは、ネットワークを介さずにデータベース１０６に格納されてもよい。

なお、以下のような場合も本開示に含まれる。

（１）上記の少なくとも１つの装置は、具体的には、マイクロプロセッサ、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。そのＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、上記の少なくとも１つの装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の少なくとも１つの装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の少なくとも１つの装置を構成する構成要素の一部または全部は、その装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本開示は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Blu-ray（登録商標） Disc）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。

また、本開示は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本開示は、モデルの精度向上を容易に図ることができるという効果を奏し、例えば、製造プロセスに用いられる変数のデータから、その製造プロセスで製造される製品の品質を推定するモデルを生成する装置またはシステムに適用することができる。

１モデル生成システム
１００モデル生成装置
１０１入力部
１０２演算回路
１０３メモリ
１０４出力部
１０５記憶部
１０５ａプログラム
１０５ｂテンポラリーデータ
１０６データベース
１２１第１変数特定部
１２２層別条件設定部
１２３非活用変数抽出部
１２４変数型判定部
１２５候補抽出部
１２５ａ質的候補抽出部
１２５ｂ量的候補抽出部
１２６第２変数特定部
１２７層別部
１２８生成部
１２９結果出力部
１３０受信部
１４０改善度特定部
５００製造管理装置
Ｄｓデータセット
Ｄｓ１～Ｄｓ４層別データセット

Claims

１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、
３以上の変数を含むデータセットを受信する受信手段と、
前記データセットから、１以上の目的変数と、１以上の説明変数とを特定する第１変数特定手段と、
前記データセットに含まれる前記３以上の変数のうちの、特定された前記目的変数および前記説明変数以外の変数である１以上の層別変数候補のそれぞれについて、当該層別変数候補を用いることによって前記モデルの確からしさが増す度合いである改善度を特定する改善度特定手段と、
前記１以上の層別変数候補から、前記１以上の層別変数候補のそれぞれの前記改善度に基づいて、１または複数の層別変数候補を層別変数として特定する第２変数特定手段と、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、
前記複数の層毎に、前記モデルを生成する生成手段と、
を備えるモデル生成装置。
前記層別手段は、前記層別変数ごとに、当該層別変数のデータの同一性または類似性に基づいて、当該層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、前記データセットを分類する、
請求項１に記載のモデル生成装置。
前記データセットは、文字を含むデータを示す質的変数と、数字からなるデータを示す量的変数とを含む、
請求項１または２に記載のモデル生成装置。
前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数が前記質的変数である場合には、前記質的変数の前記目的変数に対する影響度に基づいて、前記データセットに含まれる前記３以上の変数から前記質的変数を前記層別変数候補として抽出する質的候補抽出手段をさらに備える、
請求項３に記載のモデル生成装置。
前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数が前記量的変数である場合には、前記量的変数の機械学習によるクラスタリングによって得られるクラスタの状態に基づいて、前記データセットに含まれる前記３以上の変数から前記量的変数を前記層別変数候補として抽出する量的候補抽出手段をさらに備える、
請求項４に記載のモデル生成装置。
前記質的候補抽出手段は、
ランダムフォレストまたは勾配ブースティング決定木を用いて、前記質的変数の前記影響度を算出する、
請求項４に記載のモデル生成装置。
前記量的候補抽出手段は、
混合ガウスモデルまたはｋ－ｍｅａｎｓ法を用いて、前記データセットに含まれる前記量的変数の２つ以上のデータに対するクラスタリングを行う、
請求項５に記載のモデル生成装置。
前記改善度特定手段は、
前記層別変数候補を用いて分類された前記データセットから得られるモデルの確からしさを示す指標と、分類されていない前記データセットから得られるモデルの確からしさを示す指標との差分を算出することによって、前記改善度を特定する、
請求項１～７の何れか１項に記載のモデル生成装置。
前記生成手段は、さらに、
生成された複数の前記モデルのそれぞれについて、当該モデルの確からしさを示す指数を算出し、
前記モデル生成装置は、さらに、
複数の前記モデルのそれぞれに対して算出された前記指数を出力する結果出力手段を備える、
請求項１～８の何れか１項に記載のモデル生成装置。
前記生成手段は、
２つ以上の前記説明変数のそれぞれのデータと前記目的変数のデータとの関係を示す前記モデルを、重回帰式として生成する、
請求項１～９の何れか１項に記載のモデル生成装置。
１または複数の目的変数と１または複数の説明変数との関係を示すモデルをコンピュータが生成するモデル生成方法であって、
３以上の変数を含むデータセットを受信し、
前記データセットから、１以上の目的変数と、１以上の説明変数とを特定し、
前記データセットに含まれる前記３以上の変数のうちの、特定された前記目的変数および前記説明変数以外の変数である１以上の層別変数候補のそれぞれについて、当該層別変数候補を用いることによって前記モデルの確からしさが増す度合いである改善度を特定し、
前記１以上の層別変数候補から、前記１以上の層別変数候補のそれぞれの前記改善度に基づいて、１または複数の層別変数候補を層別変数として特定し、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類し、
前記複数の層毎に、前記モデルを生成する、
モデル生成方法。
１または複数の目的変数と１または複数の説明変数との関係を示すモデルをコンピュータに生成させるためのプログラムであって、
３以上の変数を含むデータセットを受信し、
前記データセットから、１以上の目的変数と、１以上の説明変数とを特定し、
前記データセットに含まれる前記３以上の変数のうちの、特定された前記目的変数および前記説明変数以外の変数である１以上の層別変数候補のそれぞれについて、当該層別変数候補を用いることによって前記モデルの確からしさが増す度合いである改善度を特定し、
前記１以上の層別変数候補から、前記１以上の層別変数候補のそれぞれの前記改善度に基づいて、１または複数の層別変数候補を層別変数として特定し、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類し、
前記複数の層毎に、前記モデルを生成する、
ことをコンピュータに実行させるプログラム。