JP7783482B2

JP7783482B2 - モデル生成装置およびモデル生成方法

Info

Publication number: JP7783482B2
Application number: JP2021197943A
Authority: JP
Inventors: 充森本; 輝巳竹原
Original assignee: Nissin Electric Co Ltd
Current assignee: Nissin Electric Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2025-12-10
Anticipated expiration: 2041-12-06
Also published as: JP2023083931A

Description

本発明の一態様は、図面検索を行うための学習モデルを生成するモデル生成装置に関する。

例えば、プラントエンジニアリング分野では、大量の図面（例：過去図面）の取り扱いが必要となる。このため、大量の図面の内から、所望の図面を効率的に検索するための技術が提案されている。

一例として、特許文献１には、図面検索におけるユーザの利便性を高めることを目的とした技術が開示されている。具体的には、特許文献１の技術では、機械学習を利用して、図面検索を行うための学習モデルが生成される。

特開２０２１－１２４１３号公報

本発明の一態様は、図面検索を行うための学習モデルの品質を従来よりも向上させることを目的とする。

上記の課題を解決するために、本発明の一態様に係るモデル生成装置は、複数の検索対象図面の内からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを生成するモデル生成装置であって、上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得部と、（ｉ）上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる２つの内容パラメータの組み合わせパターンのそれぞれについて、当該２つの内容パラメータ間の多重共線性評価値を算出するとともに、（ｉｉ）当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定部と、上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習部と、を備えている。

また、本発明の一態様に係るモデル生成方法は、複数の検索対象図面の内からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを生成するモデル生成方法であって、上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得工程と、（ｉ）上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる２つの内容パラメータの組み合わせパターンのそれぞれについて、当該２つの内容パラメータ間の多重共線性評価値を算出するとともに、（ｉｉ）当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定工程と、上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習工程と、を含んでいる。

本発明の一態様によれば、図面検索を行うための学習モデルの品質を従来よりも向上させることができる。

参考形態における情報処理システムの要部の構成を示すブロック図である。参考形態における過去物件・図面対応テーブルの一例を示す図である。参考形態における過去図面内容パラメータテーブルの一例を示す図である。参考形態における、初期状態における内容パラメータ設定テーブルの一例を示す図である。参考形態における、各データセットにおける前処理後内容パラメータ数の一例を示す図である。参考形態における、データセット１のデータ構造を模式的に例示する図である。参考形態における、正規化用データ表および標準化用データ表の一例を示す図である。参考形態における、データセット・前処理手法対応テーブルの一例を示す図である。参考形態において、学習用前処理部によって生成された複数のデータセットの内の一部を例示する図である。参考形態における、評価結果テーブルの一例を示す図である。参考形態における、更新後の内容パラメータ設定テーブルの一例を示す図である。参考形態における、新規図面内容パラメータテーブルの一例を示す図である。参考形態における、前処理後新規図面内容パラメータテーブルの一例を示す図である。参考形態における、複数の生値・ラベル値変換テーブルの内の一部を例示する図である。参考形態における、生値・ラベル値変換統合テーブルの一例を表す。実施形態１における情報処理システムの要部の構成を示すブロック図である。実施形態１における、初期状態における決定係数・高リスク決定係数個数テーブルの一例を示す図である。図１７の決定係数・高リスク決定係数個数テーブルが更新されることによって得られた、決定係数・高リスク決定係数個数テーブルの一例を示す図である。図１８の決定係数・高リスク決定係数個数テーブルが更新されることによって得られた、決定係数・高リスク決定係数個数テーブルの一例を示す図である。更新の繰り返しの結果として得られた、最終的な決定係数・高リスク決定係数個数テーブルの一例を示す図である。図２０の決定係数・高リスク決定係数個数テーブルに対応する、剪定後データセット１の一例を示す図である。実施形態２における情報処理システムの要部の構成を示すブロック図である。

〔参考形態〕
実施形態１の情報処理システム１００の説明に先立ち、参考形態としての情報処理システム１００ｓについて述べる。説明の便宜上、参考形態にて説明した構成要素（コンポーネント）と同じ機能を有する構成要素については、以降の各実施形態では、同じ符号を付記し、その説明を繰り返さない。また、簡潔化のため、公知技術と同様の事項についても、説明を適宜省略する。

本明細書において以下に述べる各数値は、単なる一例であることに留意されたい。本明細書では、２つの数ＡおよびＢについての「Ａ～Ｂ」という記載は、特に明示されない限り、「Ａ以上かつＢ以下」を意味するものとする。

（情報処理システム１００ｓの概要）
図１は、情報処理システム１００ｓの要部の構成を示すブロック図である。情報処理システム１００ｓは、情報処理装置１ｓ、過去物件図面ＤＢ（Database）９１、および新規物件図面ＤＢ９２を備える。

情報処理装置１ｓは、制御装置１０ｓ、入力部７１、表示部７２、および記憶部８０を備える。制御装置１０ｓは、学習装置１１ｓおよび図面検索装置１２を備える。本明細書の「物件」とは、例えば、プラントエンジニアリングにおける「サイト」を意味する。

情報処理装置１ｓは、過去物件図面ＤＢ９１および新規物件図面ＤＢ９２と通信可能に接続されていればよい。このため、図１の例とは異なり、情報処理装置１ｓの内部に、過去物件図面ＤＢ９１および新規物件図面ＤＢ９２の少なくとも一方が設けられていてもよい。

情報処理装置１ｓ（より具体的には、制御装置１０ｓ）による検索対象となる図面（検索対象図面）には、例えば、仕様図面、設計図面、および製作図面が含まれる。また、検索対象図面には、仕様書、設計書、および、見積書が含まれていてもよい。このように、検索対象図面は、「図面」という名称が含まれている書面に限定されない。一例として、検索対象図面には、プラントエンジニアリング分野におけるプロジェクトの計画に関する任意の種類の書面が含まれる。

但し、当業者であれば明らかである通り、本発明の一態様に係る情報処理装置は、プラントエンジニアリング以外の分野における図面の検索についても適用可能である。本発明の一態様に係る図面は、上記情報処理装置によって内容パラメータを取得することが可能な図面であればよい。

制御装置１０ｓは、情報処理装置１ｓの各部を統括的に制御する。記憶部８０は、制御装置１０ｓの処理に用いられる各種のデータおよびプログラムを格納する。以下に述べるように、制御装置１０ｓは、機械学習を利用して、複数の検索対象図面（例：過去図面ａ１～ＭＮ）から、ターゲット図面（例：図面ＮＤ）に対応する少なくとも１つの図面を検索する。

入力部７１は、ユーザの操作（ユーザ操作）を受け付ける。表示部７２は、各種のデータを表示する。一例として、表示部７２には、制御装置１０ｓによる検索結果を示すデータが表示されてよい。なお、入力部７１と表示部７２とは、一体として設けられてもよい。例えば、タッチパネルを用いることにより、入力部７１と表示部７２とを一体化できる。

（過去物件図面ＤＢ９１）
過去物件図面ＤＢ９１には、過去の各物件（既設の各物件）に関する各図面（厳密には、図面データ）が格納されている。以下の説明では、「図面Ａ（ある図面）の図面データ」を、単に「図面Ａ」と適宜略称する。また、「図面Ａの図面番号」を、単に「図面Ａ」と適宜略称する。

参考形態では、過去物件図面ＤＢ９１には、複数のＭ個の異なる物件のそれぞれについての各図面が格納されている。Ｍは、１以上の整数である。以下、ｊ番目の物件を、「物件ｊ」とも称する。ｊは、１以上かつＭ以下の整数である。

また、過去物件図面ＤＢ９１には、物件１～Ｍのそれぞれについて、Ｎ個（Ｎ種類）の異なる図面が格納されている。Ｎは、１以上の整数である。以下、物件ｊにおけるｉ番目の図面を、「図面（ｉ，ｊ）」とも称する。また、各物件におけるｉ番目（ｉ種類目）の図面を、総称的に図面ｉとも称する。ｉは、１以上かつＮ以下の整数である。

以上のように、過去物件図面ＤＢ９１には、合計でＴ個の図面が格納されている。参考形態の例では、Ｔ＝Ｍ×Ｎである。Ｔは、２以上の整数であるものとする。つまり、ＭおよびＮの少なくとも１つは、１以上であるものとする。

具体的には、過去物件図面ＤＢ９１では、特許文献１と同様に、図２に示す過去物件・図面対応テーブルＴＢ１の形態で、各種類の図面番号が物件番号毎にリスト化されている。以下、過去物件・図面対応テーブルＴＢ１を、「ＴＢ１」とも略記する。その他の要素についても、適宜同様に略記する。ＴＢ１のｉ行ｊ列目のセルは、図面（ｉ，ｊ）の図面番号を示す。

図２の例では、便宜上、物件１～３をそれぞれ、物件Ａ～Ｃとも表記する。図２の例では、１種類目の図面（図面１）は外形図であり、２種類目の図面（図面２）は組立図であり、３種類目の図面（図面３）は基礎図である。また、Ｎ種類目の図面（図面Ｎ）は構成図である。

以下では、簡単のため、図２の例における図面（１，１）～（Ｎ，１）（すなわち、物件ＡにおけるＮ種類のそれぞれの図面）を、図面ａ１～ａＮとも表記する。例えば、図２の例における図面ａ１～ａＮはそれぞれ、物件Ａの外形図～構成図を指す。その他の物件における各図面についても、同様に表記する。

以上のように、過去物件図面ＤＢ９１には、図面ａ１から図面ＭＮまでの、合計Ｔ個の図面が格納されている。以下、図面ａ１～ＭＮを総称的に、過去図面とも称する。過去図面は、検索対象図面の一例である。このため、図面ａ１～ＭＮは、検索対象図面群とも称される。

また、本明細書では、複数の過去図面（検索対象図面）のうちの任意の１つの図面を、候補図面とも称する。一例として、図面ａ１（物件Ａの外形図）を候補図面とした場合の、各処理について主に例示する。その他の図面に対する処理については、適宜説明を省略するが、図面ａ１の場合と同様である。

（新規物件図面ＤＢ９２）
新規物件図面ＤＢ９２には、新規物件（例：これから建設が行われる予定である、少なくとも１つの物件）に関する各図面（以下、総称的に新規図面とも称する）が、新規物件データセットとして格納されている。本明細書では、新規物件データセットに含まれる１つの新規物件（物件Ｔ）について述べる。

一例として、新規物件図面ＤＢ９２には、物件Ｔについて、過去物件と同種類のＮ個の異なる図面（外形図～構成図）が格納されている。本明細書では、物件Ｔの外形図を、新規図面の一例として例示する。以下、物件Ｔの外形図を、図面ＮＤと称する。参考形態における図面ＮＤは、特許文献１と同様であるものとする。

（学習装置１１ｓ）
学習装置１１ｓは、過去図面データ取得部１１１、過去図面内容パラメータ取得部１１２（候補図面内容パラメータ取得部，検索対象図面内容パラメータ取得部，取得部）、学習用前処理部１１４（前処理部）、および学習モデル生成部１１３ｓを備える。学習装置１１ｓは、図面ａ１～ＭＮに基づき、図面検索装置１２ｓによる図面検索のための学習モデルを生成する。このことから、学習装置１１ｓは、モデル生成装置と称されてもよい。以下、学習装置１１ｓの処理の流れの一例について述べる。

（候補図面の取得）
過去物件図面ＤＢ９１では、ＴＢ１に従って、図面ａ１～ＭＮが、図面種類別に予めソートされている。従って、例えば、過去図面データ取得部１１１は、「図面ａ１→ｂ１→…→Ｍ１」の順に、各外形図を過去物件図面ＤＢ９１から取得する。続いて、過去図面データ取得部１１１は、「図面ａ２→ｂ２→…→Ｍ２」の順に、各組立図を過去物件図面ＤＢ９１から取得する。そして、最終的には、過去図面データ取得部１１１は、「図面ａＮ→ｂＮ→…→ＭＮ」の順に、各構成図を過去物件図面ＤＢ９１から取得する。参考形態におけるこれらの図面ａ１～ＭＮは、特許文献１と同様であるものとする。

上記の例の場合、過去図面データ取得部１１１は、はじめにＴＢ１の１行１列目のセルを参照する。そして、過去図面データ取得部１１１は、上記セルに対応する図面（１，１）、すなわち図面ａ１を、過去物件図面ＤＢ９１から取得する。過去図面データ取得部１１１は、取得した図面ａ１を、過去図面内容パラメータ取得部１１２に供給する。

（候補図面に対応する内容パラメータセットの取得）
過去図面内容パラメータ取得部１１２は、特許文献１と同様にして、図面ａ１を解析することにより（より詳細には、ＯＣＲ処理後の図面ａ１に対して、以下に述べる第ｋ特定文字列に着目した構文解析を行うことにより）、当該図面ａ１に対応する内容パラメータセットを取得する。内容パラメータセットは、第ｋ特定文字列に対応付けられた第ｋ内容パラメータ（以下、Ａｋ）を示すデータセットである。また、第１～第Ｌ内容パラメータを総称的に、内容パラメータとも称する。

本明細書では、各図面について予め設定された特定の文字列（ストリング）を、特定文字列と称する。参考形態では、Ｌ個（Ｌは２以上の整数）の異なる第ｋ特定文字列が、予め設定されているものとする。以下では、ｋ番目の特定文字列を、第ｋ特定文字列と称する。ｋは、１以上かつＬ以下の整数である。以下の説明では、第１特定文字列が「電圧値」、第２特定文字列が「電流値」、第３特定文字列が「ＯＲ」、第Ｌ特定文字列が「開」として設定されている場合について、例示する。

内容パラメータは、図面の記載内容（具体的には、特定文字列に係る記載内容）に関連付けられた量である。従って、内容パラメータは、当該記載内容を数値化（定量化）したデータの１つであると言える。このため、内容パラメータは、図面の記載内容を示す指標として用いられる。

なお、後述するターゲット図面内容パラメータとの区別のため、検索対象図面（過去図面）の内容パラメータを、検索対象図面内容パラメータとも称する。また、検索対象図面の第ｋ内容パラメータを、検索対象図面第ｋ内容パラメータとも称する。但し、以下の説明では、特に明示されない限り、内容パラメータは、過去図面内容パラメータを指すものとする。同様に、特に明示されない限り、内容パラメータセットは、過去図面内容パラメータセットを指すものとする。

本明細書では、図面（ｉ，ｊ）のＡｋを、Ａｋ（ｉ，ｊ）とも表記する。上述の通り、過去図面内容パラメータ取得部１１２は、図面（ｉ，ｊ）に対する解析結果（より具体的には、図面（ｉ，ｊ）における特定文字列の検出結果）に基づき、Ａｋ（ｉ，ｊ）を設定する。

以上のように、過去図面内容パラメータ取得部１１２は、図面ａ１について、Ａ１～ＡＬを設定する。以上のように、過去図面内容パラメータ取得部１１２は、候補図面を解析することにより、当該候補図面の内容パラメータを取得する。このことから、過去図面内容パラメータ取得部１１２は、候補図面内容パラメータ取得部とも呼称される。

また、過去図面内容パラメータ取得部１１２は、その他の過去図面についても、同様の処理を行う。すなわち、過去図面内容パラメータ取得部１１２は、図面ａ１～ＭＮのそれぞれに対し、Ａ１～ＡＬを設定する。

その後、過去図面内容パラメータ取得部１１２は、図面ａ１～ＭＮのそれぞれのＡ１～ＡＬ、すなわち、Ａ１（１，１）～ＡＬ（Ｍ，Ｎ）、を示す過去図面内容パラメータテーブルＴＢ２を生成する。

ＴＢ２には、過去図面内容パラメータテーブル内第ｉサブテーブルＴＢ２－ｉが含まれている。図３には、一例として、ＴＢ２－１が示されている。ＴＢ２－ｉは、図面ｉのそれぞれのＡ１～ＡＬを示すテーブルである。ＴＢ２－１には、図面ａ１～Ｍ１（物件Ａ～Ｍの外形図）のそれぞれのＡ１～ＡＬが示されている。ＴＢ２は、ＴＢ２－１～ＴＢ２－Ｎという、Ｎ個のサブテーブルのセットによって構成されている。このように、参考形態では、図面種別ごとにサブテーブルが作成される。参考形態におけるこれらのサブテーブルは、特許文献１と同様であるものとする。

ＴＢ２には、複数の過去図面のそれぞれ（例：図面ａ１）の番号（識別子の一例）と、当該複数の過去図面のそれぞれのＡ１～ＡＬとの対応関係が示されている。そこで、学習モデル生成部１１３ｓは、ＴＢ２を教師データとして取得する。一例として、学習モデル生成部１１３ｓは、当該教師データを用いた多項ロジスティック回帰を行うことにより、学習モデルを生成してよい。但し、後述の説明からも明らかである通り、本発明の一態様に係る機械学習アルゴリズムは、この例に限定されず、公知のその他のアルゴリズムが適用されてよい。なお、機械学習における正解データとしては、ＴＢ２において示されている各過去図面の番号（識別子）が用いられる。

参考形態では、過去図面内容パラメータ取得部１１２は、第ｋ内容パラメータを取得するとともに、当該第ｋ内容パラメータの変数種類を示す情報（第ｋ内容パラメータ変数種類情報）をさらに取得する。第ｋ内容パラメータ変数種類情報とは、第ｋ内容パラメータの変数種類（データ種類）を示す情報である。具体的には、第ｋ内容パラメータ変数種類情報とは、第ｋ内容パラメータが質的変数（以下、ＶＬと表記）または量的変数（以下、ＶＮと表記）のいずれであるかを示す情報である。以下、第１～第ｋ内容パラメータ変数種類情報を総称的に、内容パラメータ変数種類情報と称する。

一例として、過去図面内容パラメータ取得部１１２は、上述の構文解析の結果に基づいて、内容パラメータ変数種類情報を取得してよい。例えば、上述の通り、過去図面内容パラメータ取得部１１２は、構文解析の結果、第１特定文字列「電圧値」に後続する文字列「９０Ｖ」に含まれる数値「９０」が、電圧値の大きさであると判定する。この場合、過去図面内容パラメータ取得部１１２は、第１内容パラメータはＶＮであると判定する。同様に、過去図面内容パラメータ取得部１１２は、第２内容パラメータはＶＮであると判定する。

また、過去図面内容パラメータ取得部１１２は、構文解析の結果、第３特定文字列「ＯＲ」は、量的変数に対応する文字が後続していない旨を判定する。この場合、過去図面内容パラメータ取得部１１２は、第３内容パラメータはＶＬであると判定する。同様に、過去図面内容パラメータ取得部１１２は、第Ｌ内容パラメータはＶＬであると判定する。

（学習用前処理部１１４における処理の一例）
学習用前処理部１１４は、過去図面内容パラメータ取得部１１２から、図面ａ１～ＭＮに対応する内容パラメータセット（図面ａ１～ＭＮのそれぞれの第１～第Ｌ内容パラメータ）、および、内容パラメータ変数種類情報を取得する。そして、学習用前処理部１１４は、取得した内容パラメータ変数種類情報に応じて、内容パラメータ設定テーブルＴＢ３を生成する。

以下の説明では、図面ａ１～Ｍ１（外形図）の内容パラメータセット（図面ａ１～Ｍ１のそれぞれの第１～第Ｌ内容パラメータ）に基づく各処理について主に述べる。従って、以下に述べる各図におけるテーブルおよびデータは、外形図の内容パラメータセットに基づいて生成されている。これらのテーブルおよびデータは、図２に示されるその他の種類の図面（例：組立図、基礎図、および構成図）についても、外形図に関する以下の説明と同様の処理の流れによって生成されることに留意されたい。このように、参考形態では、これらのテーブルおよびデータは、図２に示されている図面の種類毎に生成される。

図４には、初期状態におけるＴＢ３の一例が示されている。図４に示す通り、ＴＢ３は、（ｉ）第１～第Ｌ内容パラメータのそれぞれの変数種類（データ種類）と、（ｉｉ）当該第１～第Ｌ内容パラメータのそれぞれに適用すべき前処理手法と、の対応関係を示す表である。学習用前処理部１１４は、取得した内容パラメータ変数種類情報を、ＴＢ３の「変数」の項目に記録する。なお、第１～第Ｌ内容パラメータのそれぞれに適用すべき前処理手法は、現段階では未決定である。このため、初期状態のＴＢ３では、「前処理手法」の項目は全てブランク項目として設定されている。本明細書では、初期状態のＴＢ３を、ＴＢ３ｉｎｉｔと称する。

続いて、学習用前処理部１１４は、第ｋ内容パラメータ変数種類情報に応じて、第ｋ内容パラメータに複数種類の前処理手法を適用する。具体的には、参考形態では、学習用前処理部１１４は、第ｋ内容パラメータがＶＬである場合には、第ｋパラメータに対し、以下の（ｉ）～（ｉｖ）、
（ｉ）生値（Raw値）をそのまま用いる処理（恒等処理）（以下、［Ｒ］と表記）；
（ｉｉ）ワンホットエンコーディング（One hot Encoding）（以下、［Ｏ］と表記）
；
（ｉｉｉ）正規化（Normalization）（以下、［Ｎ］と表記）；
（ｉｉｉｉ）標準化（Standardization）（以下、［Ｓ］と表記）；
という４種類の前処理手法を適用する。

なお、第ｋ内容パラメータがＶＬである場合には、当該第ｋ内容パラメータは、第ｋ特定文字列が過去図面内容パラメータ取得部１１２によってラベルエンコーディング（Label Encoding）（以下、［Ｌ］と表記）されることによって導出された値であると理解することもできる。このため、第ｋ内容パラメータがＶＬである場合には、［Ｒ］は［Ｌ］に読み替えることができる。このように、第ｋ内容パラメータがＶＬである場合には、［Ｒ］と［Ｌ］とは、等価な前処理手法である。なお、前処理手法［Ｌ］の一例については、後述する。

他方、学習用前処理部１１４は、第ｋ内容パラメータがＶＮである場合には、第ｋパラメータに対し、以下の（ｉ）～（ｖ）、
（ｉ）［Ｒ］；
（ｉｉ）［Ｌ］；
（ｉｉｉ）［Ｏ］；
（ｉｖ）［Ｎ］；
（ｖ）［Ｓ］；
という５種類の前処理手法を適用する。但し、当業者であれば明らかである通り、本発明の一態様に係る前処理手法は、これらの例に限定されない。本発明の一態様に係る前処理手法は、ＶＬまたはＶＮに適用可能な任意の前処理手法であってよい。

以上の通り、学習用前処理部１１４は、内容パラメータセットに含まれる各内容パラメータに対し、第ｋ内容パラメータ変数種類情報に応じた複数種類の前処理手法を適用することにより、当該内容パラメータセットを拡張（水増し）（data augmentation）する。以下、内容パラメータセットに含まれているＶＬおよびＶＮの個数を、ＦＬおよびＦＮとそれぞれ表記する。

上記の説明から明らかである通り、参考形態の例では、内容パラメータセットに対する前処理のパターンの組み合わせの総数は、４^ＦＬ×５^ＦＮ通りである。従って、学習用前処理部１１４は、１つの内容パラメータセットを、４^ＦＬ×５^ＦＮ個の内容パラメータセットへと拡張する。以下、当該４^ＦＬ×５^ＦＮ個の内容パラメータセットを、総称的に拡張後内容パラメータセットと称する。そして、当該４^ＦＬ×５^ＦＮ個の内容パラメータセットのそれぞれを、データセット１、データセット２、…、データセット４^ＦＬ×５^ＦＮと称する。拡張後内容パラメータセットは、前処理後内容パラメータセットと称されてもよい。なお、例えば、データセット１は、データセットＮｏ．１と称されてもよい。

なお、過去図面内容パラメータセットは、検索対象図面内容パラメータセットと称されてもよい。従って、拡張後内容パラメータセットは、過去図面拡張後内容パラメータセット（あるいは、検索対象図面拡張後内容パラメータセット）と称されてもよい。同様に、前処理後内容パラメータセットは、前処理後過去図面内容パラメータセット（あるいは、前処理後検索対象図面内容パラメータセット）と称されてもよい。なお、前処理後内容パラメータセットに含まれる各データは、前処理後内容パラメータ（より詳細には、前処理後検索対象図面内容パラメータ）と称されてもよい。

図５には、各データセットにおける前処理後内容パラメータの数（以下、前処理後内容パラメータ数と称する）の一例が示されている。１つのデータセット（例：データセット１）における前処理後内容パラメータ数は、同データセットに含まれるデータの数とも表現できる。従って、例えば、データセット１における前処理後内容パラメータ数は、データセット１の次元数（要素数）と称されてもよい。以下では、前処理後の第ｋ内容パラメータを、前処理後第ｋ内容パラメータと称する。

以下に述べる図６からも明らかである通り、前処理後内容パラメータ数は、内容パラメータセットに含まれる各内容パラメータに対して適用される前処理手法に応じて変化しうる。例えば、より多くの内容パラメータに対して［Ｏ］が適用されるほど、前処理後内容パラメータ数が増加する傾向がある（後述の図８も参照）。

図６は、データセット１のデータ構造を模式的に例示する図である。図６の例におけるデータセット１は、（ｉ）第１内容パラメータに対して［Ｓ］が、（ｉｉ）第２内容パラメータに対して［Ｓ］が、（ｉｉｉ）第３内容パラメータに対して［Ｏ］が、（ｉｖ）第Ｌ内容パラメータに対して［Ｌ］が、それぞれ施されることにより、生成されたデータ構造（例：データフレーム）である（後述の図８も参照）。

図６の例では、第３内容パラメータ（第３特定文字列「ＯＲ」に対応する内容パラメータ）がワンホットエンコーディングされることにより、「ＯＲ＿０」、「ＯＲ＿１」、「ＯＲ＿２」、および「ＯＲ＿３」という、当該第３内容パラメータに対応する４つの前処理後内容パラメータが生成されている。

説明の便宜上の一例として、内容パラメータセットに含まれる第３内容パラメータ（Ａ３）の最小値が０であり、最大値が３である場合を考える。すなわち、内容パラメータセットにおいて、Ａ３が０から３までの４通りの離散値をとっている場合を考える。この場合、Ａ３のそれぞれの値は、４次元のワンホットベクトル（より具体的には、４ビットのワンホットベクトル）によって表現可能である。

例えば、Ａ３＝０である場合、
ＯＲ＿０＝（１，０，０，０）；
ＯＲ＿１＝（０，０，０，０）；
ＯＲ＿２＝（０，０，０，０）；
ＯＲ＿３＝（０，０，０，０）；
である。

また、Ａ３＝１である場合、
ＯＲ＿０＝（０，０，０，０）；
ＯＲ＿１＝（０，１，０，０）；
ＯＲ＿２＝（０，０，０，０）；
ＯＲ＿３＝（０，０，０，０）；
である。

また、Ａ３＝２である場合、
ＯＲ＿０＝（０，０，０，０）；
ＯＲ＿１＝（０，０，０，０）；
ＯＲ＿２＝（０，０，１，０）；
ＯＲ＿３＝（０，０，０，０）；
である。

また、Ａ３＝３である場合、
ＯＲ＿０＝（０，０，０，０）；
ＯＲ＿１＝（０，０，０，０）；
ＯＲ＿２＝（０，０，０，０）；
ＯＲ＿３＝（０，０，０，１）；
である。以上の通り、Ａ３＝ｉ（この説明におけるｉは、０から３までの任意の自然数）であることは、ｉ番目の要素のみに成分「１」を有するワンホットベクトルＯＲ＿ｉによって表現される。

続いて、前処理手法［Ｎ］の一例について説明する。以下では、学習用前処理部１１４が、第ｋ内容パラメータ（Ａｋ）を正規化する場合を例示する。まず、学習用前処理部１１４は、内容パラメータセットから、Ａｋの最大値（Ａｋｍａｘ）および最小値（Ａｋｍｉｎ）を取得する。

そして、学習用前処理部１１４は、
Ａｋ＿Ｎｏｒｍａｌｉｚｅｄ＝（Ａｋ－Ａｋｍｉｎ）／（Ａｋｍａｘ－Ａｋｍｉｎ）
…（１）
の通り、Ａｋ＿Ｎｏｒｍａｌｉｚｅｄを算出する。Ａｋ＿Ｎｏｒｍａｌｉｚｅｄは、正規化後第ｋ内容パラメータ（より詳細には、正規化後過去図面第ｋ内容パラメータ）と称される。また、正規化後第１～第Ｌ内容パラメータを総称的に、正規化後内容パラメータ（より詳細には、正規化後過去図面内容パラメータ）と称する。正規化後内容パラメータは、前処理後内容パラメータの一例である。

以上の通り、学習用前処理部１１４は、式（１）に従って、ＡｋをＡｋ＿Ｎｏｒｍａｌｉｚｅｄへと正規化する。正規化は、Ｍｉｎ－Ｍａｘスケーリングとも称される。式（１）から理解される通り、［Ｎ］によって生成されたデータセットでは、正規化後内容パラメータの最小値は０であり、最大値は１である。

さらに、前処理手法［Ｓ］の一例について説明する。以下では、学習用前処理部１１４が、Ａｋを標準化する場合を例示する。まず、学習用前処理部１１４は、内容パラメータセットから、Ａｋの平均値（Ａｋｍｅａｎ）および標準偏差（Ａｋｓｄ）を導出する。

続いて、学習用前処理部１１４は、
Ａｋ＿Ｓｔａｎｄａｒｄｉｚｅｄ＝（Ａｋ－Ａｋｍｅａｎ）／Ａｋｓｄ …（２）の通り、Ａｋ＿Ｓｔａｎｄａｒｄｉｚｅｄを算出する。Ａｋ＿Ｓｔａｎｄａｒｄｉｚｅｄは、標準化後第ｋ内容パラメータ（より詳細には、標準化後過去図面第ｋ内容パラメータ）と称される。また、標準化後第１～第Ｌ内容パラメータを総称的に、標準化後内容パラメータ（より詳細には、標準化後過去図面内容パラメータ）と称する。標準化後内容パラメータは、前処理後内容パラメータの一例である。

以上の通り、学習用前処理部１１４は、式（２）に従って、ＡｋをＡｋ＿Ｓｔａｎｄａｒｄｉｚｅｄへと標準化する。式（２）から理解される通り、［Ｓ］によって生成されたデータセットでは、標準化後内容パラメータの平均値は０であり、標準偏差は１である。

学習用前処理部１１４は、［Ｓ］の過程にて取得したＡｋｍａｘおよびＡｋｍｉｎを記録した表（標準化用データ表）を生成してもよい。同様に、学習用前処理部１１４は、［Ｎ］の過程にて取得したＡｋｍｅａｎおよびＡｋｓｄを記録した表（正規化用データ表）を生成してもよい。

図７の正規化用データ表７００Ａおよび標準化用データ表７００Ｂはそれぞれ、参考形態における正規化用データ表および標準化用データ表の一例である。具体的には、正規化用データ表７００Ａおよび標準化用データ表７００Ｂはそれぞれ、データセット１の生成に伴って生成された表である。

上述の説明から理解される通り、［Ｎ］が施されない第ｋ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎがそもそも取得されない。このため、正規化用データ表７００Ａでは、［Ｎ］が施されない第ｋ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎに、ダミー値（例：０）が割り当てられる。

上述の例では、データセット１における前処理後第１～第３内容パラメータおよび前処理後第Ｌ内容パラメータはいずれも、［Ｎ］以外の前処理手法によって導出されている。このため、図７に示される通り、正規化用データ表７００Ａでは、前処理後第１～第３内容パラメータおよび前処理後第Ｎ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎとして、ダミー値である０が記録される。

参考形態では、学習用前処理部１１４によって、Ａ１ｍｅａｎ＝７１．９、Ａ１ｓｄ＝１０．５、Ａ２ｍｅａｎ＝２．４、Ａ２ｓｄ＝０．６が取得された場合を例示する。この場合、学習用前処理部１１４は、標準化用データ表７００Ｂの第１内容パラメータおよび第２内容パラメータのそれぞれの項目に、これらの値を記録する。

なお、［Ｓ］が施されない第ｋ内容パラメータについては、ＡｋｍｅａｎおよびＡｋｓｄがそもそも取得されない。このため、標準化用データ表７００Ｂでは、［Ｓ］が施されない第ｋ内容パラメータについては、ＡｋｍｅａｎおよびＡｋｓｄに、ダミー値（例：０）が割り当てられる。図７の例では、前処理後第３内容パラメータおよび前処理第Ｌ内容パラメータはいずれも、［Ｓ］以外の前処理手法によって導出されている。このため、標準化用データ表７００Ｂでは、前処理後第３内容パラメータおよび前処理第Ｌ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎとして、ダミー値である０が記録される。

学習用前処理部１１４は、各データセットと各前処理手法との対応関係を示すテーブル（データセット・前処理手法対応テーブル）を生成してよい。図８のテーブルＴＢ４は、データセット・前処理手法対応テーブルの一例である。なお、図８の例において、データセット１に対応する前処理手法にハッチングが付されている趣旨については後述する。

図９には、学習用前処理部１１４によって生成された複数のデータセットの内の一部が例示されている。図９において、符号９００Ａはデータセット１を、符号９００Ｂはデータセット２を、符号９００Ｃはデータセット４^ＦＬ×５^ＦＮを、それぞれ表す。上述の説明から理解される通り、データセット１における前処理後第１～第２内容パラメータはそれぞれ、標準化後第１～第２内容パラメータである。標準化後第１内容パラメータおよび標準化後第２内容パラメータはそれぞれ、上述の式（２）に従って第１内容パラメータおよび第２内容パラメータが標準化された値である。

上述の図８から理解される通り、図９の例におけるデータセット２は、データセット１とは異なり、第３内容パラメータに対して［Ｌ］が適用されることにより生成されている。その他の内容パラメータに対する前処理手法については、データセット１の例と同様である。

以上の通り、データセット２では、データセット１とは異なり、第３内容パラメータに対して［Ｏ］が適用されていない。それゆえ、データセット２の次元数は、データセット１の次元数よりも小さい。具体的には、上述の図５に示す通り、データセット１の次元数は５０であり、データセット２の次元数は２８である。

また、上述の図８から理解される通り、図９の例におけるデータセット４^ＦＬ×５^ＦＮは、データセット１・２とは異なり、全ての内容パラメータに対して［Ｏ］が適用されることにより生成されている。このため、データセット４^ＦＬ×５^ＦＮの次元数は、データセット１・２の次元数に比べて大きい。具体的には、図５に示す通り、データセット４^ＦＬ×５^ＦＮの次元数は１５１である。

（学習モデル生成部１１３ｓにおける学習フェーズ）
学習モデル生成部１１３ｓにおける処理は、学習フェーズと検証フェーズとに大別できる。まず、学習フェーズについて述べる。学習モデル生成部１１３ｓは、学習用前処理部１１４から拡張後内容パラメータセット（データセット１～データセット４^ＦＬ×５^ＦＮ）を取得する。そして、学習モデル生成部１１３ｓは、データセット１～データセット４^ＦＬ×５^ＦＮのそれぞれを、訓練データと検証データとに分割する。

学習モデル生成部１１３ｓは、データセット１～４^ＦＬ×５^ＦＮの内の任意の１つのデータセット（便宜上、注目データセットと称する）に対し、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、複数の学習モデルを生成する。具体的には、学習モデル生成部１１３ｓは、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、注目データセットの訓練データを用いて、複数の学習モデルを生成する。

一例として、学習モデル生成部１１３ｓは、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、データセット１の訓練データを用いて、データセット１に対応する複数の学習モデルを生成する。このように、学習モデル生成部１１３ｓは、注目データセットに対応する複数の学習モデルを生成する。

参考形態の例では、複数種類の機械学習アルゴリズムには、勾配ベースの機械学習アルゴリズムと距離ベースの機械学習アルゴリズムとが含まれる。勾配ベースの機械学習アルゴリズムとは、勾配降下法を利用した機械学習アルゴリズムである。勾配ベースの機械学習アルゴリズムの具体例としては、ＤＴ（Decision Tree，決定木）、ＬＲ（Logistic Regression，ロジスティック回帰）、およびＮＮ（Neural Network，ニューラルネットワーク）を挙げることができる。上述の多項ロジスティック回帰は、ＲＳの一例である。

本発明の一態様に係るＤＴとは、より厳密には、ＧＢＤＴ（Gradient Boosting DT，勾配ブースティング決定木）を意味する。従って、本発明の一態様に係るＤＴの例としては、ＸＧＢｏｏｓｔ（eXtreme Gradient Boosting）およびＬｉｇｈｔＧＢＭ（Light Gradient Boosting Machine）を挙げることができる。

距離ベースの機械学習アルゴリズムとは、各入力データに含まれる１つ以上のパラメータの分布を示す距離空間における各入力データ間の距離に基づいて、各入力データを評価（例：分類）する機械学習アルゴリズムである。距離ベースの機械学習アルゴリズムの具体例としては、ＳＶＭ（Support Vector Machine，サポートベクターマシン）および重回帰を挙げることができる。

以上の通り、学習モデル生成部１１３ｓは、データセット１～４^ＦＬ×５^ＦＮのそれぞれに対して各機械学習アルゴリズムを網羅的に（総当たりで）適用することにより、複数の学習モデルを生成してよい。これにより、以下に述べる検証フェーズにおいて評価（検証）の対象となる学習モデルを、十分な数だけ生成できる。

加えて、学習モデル生成部１１３ｓは、ある機械学習アルゴリズムの各ハイパーパラメータセットを変更してもよい。この場合、学習モデル生成部１１３ｓは、変更後のハイパーパラメータセットを用いて、同機械学習アルゴリズムを適用して学習モデルをさらに生成する。このように、学習モデル生成部１１３ｓは、ハイパーパラメータセットをも網羅的に適用することにより、複数の学習モデルを生成してもよい。これにより、さらに多くの学習モデルを生成できる（後述の図１０を参照）。

（学習モデル生成部１１３ｓにおける検証フェーズ）
続いて、検証フェーズについて述べる。学習モデル生成部１１３ｓは、学習フェーズにおいて生成された複数の学習モデルのそれぞれの品質を、データセット１～４^ＦＬ×５^ＦＮのそれぞれを用いて（より具体的には、データセット１～４^ＦＬ×５^ＦＮのそれぞれの検証データを用いて）評価する。

一例として、注目データセットとしてデータセットｊを考える。ｊは、後述するＴＢ５（図１０を参照）の列番号を示す添字である。学習モデル生成部１１３ｓは、データセットｊに対応する複数の学習モデルのそれぞれについて、データセットｊの検証データを用いて、当該複数の学習モデルのそれぞれの予測精度（判定精度）を示す指標値を取得する。例えば、学習モデル生成部１１３は、後述するモデル（ｉ，ｊ）にデータセットｊの検証データを入力することにより、上記指標値をモデル（ｉ，ｊ）に出力（導出）させる。上記指標値は、モデル（ｉ，ｊ）の品質を示す指標値とも表現できる。

参考形態では、学習モデル生成部１１３ｓは、上記指標値として、Accuracy（正解率）を取得する。このことから、参考形態における予測精度は、検索精度（より詳細には、過去図面の検索精度）と称されてもよい（図１０を参照）。但し、当業者であれば明らかである通り、本発明の一態様に係る指標値は上記の例に限定されず、機械学習分野における公知のその他の指標値が用いられてもよい。従って、例えば、学習モデル生成部１１３ｓは、指標値として、Precision（適合率）またはRecall（再現率）を取得してもよい。あるいは、学習モデル生成部１１３ｓは、指標値として、Ｆスコア（F-score）を取得してもよい。周知の通り、Ｆスコアは、PrecisionとRecallとの調和平均である。

学習モデル生成部１１３ｓは、取得した複数の指標値に応じて、ベスト学習モデルを選択する。参考形態の例では、学習モデル生成部１１３ｓは、複数の指標値の内の最大値（最大指標値）を特定する。そして、学習モデル生成部１１３ｓは、最大指標値を有する学習モデルを、ベスト学習モデルとして選択する。

学習モデル生成部１１３ｓは、評価フェーズにおける評価結果を示すテーブル（評価結果テーブル）を生成してよい。図１０のテーブルＴＢ５は、評価結果テーブルの一例である。ＴＢ５では、１つのデータセットと１つの機械学習アルゴリズムと１つのハイパーパラメータセット（例：Ｐａｒａ１）と１対１に対応するように、１つの指標値が記録されている。

図１０の例におけるＰａｒａ１およびＰａｒａ２はそれぞれ、ある１つの機械学習アルゴリズム（例：ＤＴ）に適用されるハイパーパラメータセット（一連のハイパーパラメータ）を示す。図１６の例では、
・ＤＴのＰａｒａ１：データ分割方法＝"gni"、最大深度＝３、…
・ＤＴのＰａｒａ２：データ分割方法＝"entropy"、最大深度＝３、…
・ＬＲのＰａｒａ１：正則化の種類＝"l2"、正則化項の係数＝１．０、…
・ＬＲのＰａｒａ２：正則化の種類＝"l2"、正則化項の係数＝０．５、…
・ＮＮのＰａｒａ１：バッチサイズ＝２５６、最大学習回数＝１０００、…
・ＮＮのＰａｒａ２：バッチサイズ＝１２８、最大学習回数＝１０００、…
・ＳＶＭのＰａｒａ１：カーネルの種類＝"rbf"、正則化項の係数＝１．０、…
・ＳＶＭのＰａｒａ２：カーネルの種類＝"rbf"、正則化項の係数＝０．５、…
の通りである。なお、当業者であれば明らかである通り、ハイパーパラメータセットの数は２つに限定されない。例えば、Ｐａｒａ１～Ｐａｒａ５までの５つのハイパーパラメータセットが、各機械学習アルゴリズムに対して割り当てられてもよい。

以下では、ＴＢ５のｉ行ｊ列目の成分を、ＴＢ５（ｉ，ｊ）と表記する。また、ＴＢ５（ｉ，ｊ）に対応する学習モデルを、モデル（ｉ，ｊ）と称する。ＴＢ８では、行方向（ｉ方向）に、機械学習アルゴリズムおよび当該機械学習アルゴリズムのハイパーパラメータセットが配列されている。そして、列方向（ｊ方向）に、データセットが配列されている。従って、一例として、図１０におけるＴＢ８（１，１）は、ＤＴにおいてＰａｒａ１が適用された場合に得られた検索精度である。図１０の例では、ＴＢ５（ｉ，ｊ）＝４２．１％である。上述の通り、ＴＢ５（１，１）は、Ｐａｒａ１が適用されたＤＴによって生成された学習モデル、すなわちモデル（１，１）の品質を示す指標値とも言える。

説明の便宜上、図１０の例において、ＮＮのＰａｒａ１に対応する行番号を、ｉｍと表記する。図１０の例では、ＴＢ５（ｉｍ，１）＝８１．６％が、各ＴＢ５（ｉ，ｊ）の内の最大値である（ＴＢ５においてハッチングが付されているセルを参照）。

以上の通り、学習装置１１ｓは、図面ａ１～Ｍ１（外形図）の内容パラメータセット（便宜上、第１図面種類内容パラメータセットと称する）に基づいて、複数の学習モデルを生成する。そして、学習装置１１は、第１図面種類内容パラメータセットに基づいて生成した当該複数の学習モデルのそれぞれの品質を評価する（より具体的には、生成した複数の学習モデルのそれぞれの指標値を導出する）。

外形図についての上記の例と同様に、学習装置１１ｓは、図面の種類毎に、当該図面の内容パラメータセットに基づいて、複数の学習モデルを生成する。そして、学習装置１１ｓは、当該内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。

一例として、学習装置１１ｓは、図面ａ２～Ｍ２（組立図）の内容パラメータセット（便宜上、第２内容図面種類パラメータセットと称する）に基づいて、複数の学習モデルを生成する。そして、学習装置１１は、第２図面種類内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。別の例として、学習装置１１ｓは、図面ａＮ～ＭＮ（構成図）の内容パラメータセット（便宜上、第Ｎ図面種類内容パラメータセットと称する）に基づいて、複数の学習モデルを生成する。そして、学習装置１１ｓは、第Ｎ図面種類内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。

参考形態では、以上の通り第１図面種類内容パラメータセット～第Ｎ図面種類内容パラメータセットに基づいて導出された全ての指標値の内、ＴＢ５（ｉｍ，１）が、最大値であるものとする。従って、参考形態では、学習モデル生成部１１３ｓは、ＴＢ５（ｉｍ，１）を最大指標値として特定する。そして、学習モデル生成部１１３ｓは、最大指標値を有する学習モデル、すなわちモデル（ｉｍ，１）を、ベスト学習モデルとして選択する。以上の通り、参考形態の例では、学習モデル生成部１１３ｓは、学習フェーズにおいて生成された複数の学習モデルの内、最も高品質な学習モデルを、ベスト学習モデルとして選択する。なお、本明細書では、ベスト学習モデルに対応する機械学習アルゴリズムを、ベスト機械学習アルゴリズムと称する。図１０の例におけるベスト機械学習アルゴリズムは、ＮＮである。

なお、当業者であれば明らかである通り、ベスト学習モデルの選択手法は上記の例に限定されない。学習モデル生成部１１３ｓは、複数の指標値に基づいて、複数の学習モデルの内から、ベスト学習モデルを選択できればよい。例えば、学習モデル生成部１１３ｓは、複数の指標値に基づいて統計値を導出し、当該統計値に基づいてベスト学習モデルを選択してよい。参考形態における最大指標値は、統計値の一例である。

（学習フェーズについての補足）
ところで、距離ベースの機械学習アルゴリズムは、勾配ベースの機械学習アルゴリズムとは異なり、いわゆる「次元の呪い」の影響を受けることが知られている。このため、注目データセットの次元数が多い場合、距離ベースの機械学習アルゴリズムによって生成された学習モデル（以下、距離ベース学習モデルと称する）は、勾配ベースの機械学習アルゴリズムによって生成された学習モデル（以下、勾配ベース学習モデルと称する）に比べて、低品質な学習モデルとなる傾向にある。このことから、注目データセットの次元数が多い場合、当該注目データセットを用いて生成された距離ベース学習モデルがベスト学習モデルとして選択される可能性はそもそも低いと考えられる。

そこで、参考形態では、学習モデル生成部１１３は、注目データセットの次元数が所定の次元数閾値Ｄｔｈ以上である場合には、当該注目データセットを用いて距離ベースの機械学習アルゴリズムによって学習モデルを生成することを停止することが好ましい。これにより、品質が低いと予期される学習モデルが生成されることを未然に防止することができるので、学習フェーズにおける演算コストを低減できる。加えて、後続する評価フェーズにおける演算コストを低減することもできる。

機械学習分野では、データセットの次元数が３０以上の場合、距離ベース学習モデルの品質が低下する傾向が高くなることが経験的に知られている。そこで、例えば、Ｄｔｈは３０以上の所定の値として設定されてよい。参考形態では、Ｄｔｈ＝３０に設定されている場合を例示する。

上述の通り、参考形態の例では、データセット１の次元数は５０であり、データセット４^ＦＬ×５^ＦＮの次元数は１５１である。このため、図１０の例では、学習モデル生成部１１３ｓは、データセット１およびデータセット４^ＦＬ×５^ＦＮに対しては、距離ベースの機械学習アルゴリズム（例：ＳＶＭ）による学習モデルの生成を行わない（ＴＢ５において「×」マークが付されているセルを参照）。

以上のことから、図１０の例では、学習モデル生成部１１３ｓは、データセット１およびデータセット４^ＦＬ×５^ＦＮに対しては、勾配ベースの機械学習アルゴリズム（例：ＤＴ、ＬＲ、およびＮＮ）のみを適用して、学習モデルを生成する。このように、学習モデル生成部１１３ｓは、データセット１およびデータセット４^ＦＬ×５^ＦＮに対しては、距離ベース学習モデルを生成することなく、勾配ベース学習モデルのみを生成する。

他方、学習モデル生成部１１３ｓは、注目データセットの次元数がＤｔｈ未満である場合には、距離ベースの機械学習アルゴリズムを適用して、当該データセットを用いて学習モデルを生成してもよい。参考形態の例では、データセット２の次元数は２８である。このため、図１０の例では、学習モデル生成部１１３は、データセット２に対しては、勾配ベース学習モデルを生成するとともに、距離ベース学習モデルをさらに生成する。

（学習モデル生成部１１３ｓにおける検証フェーズ後の処理）
学習モデル生成部１１３ｓは、ＴＢ５に含まれている各データセットのうち、ベスト学習モデルに対応する１つのデータセットを、ベストデータセットとして選択する。図１０の例では、学習モデル生成部１１３ｓは、データセット１をベストデータセットとして選択する。

続いて、学習モデル生成部１１３ｓは、ベストデータセットに対応する前処理手法を、ベスト前処理手法として選択する。参考形態の例では、学習モデル生成部１１３ｓは、上述のＴＢ４を参照し、データセット１に対応する前処理手法を、ベスト前処理手法として読み出す（図８のハッチング箇所を参照）。以上の説明から理解される通り、学習モデル生成部１１３ｓは、ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。

続いて、学習モデル生成部１１３ｓは、上述のＴＢ３ｉｎｉｔにおける「前処理手法」の項目に、ベスト前処理手法を記録することにより、ＴＢ３ｉｎｉｔを更新する。本明細書では、更新後の内容パラメータ設定初期テーブルを、ＴＢ３ｎｅｗと称する。図１１には、ＴＢ３ｎｅｗの一例が示されている。図１１の例では、データセット１に対応する前処理手法（換言すれば、ベスト学習モデルに対応する前処理手法）が、ベスト前処理手法として、「前処理手法」の項目に記録されている。

（図面検索装置１２）
続いて、図面検索装置１２について述べる。図面検索装置１２は、新規図面データ取得部１２１、新規図面内容パラメータ取得部１２２（ターゲット図面内容パラメータ取得部）、検索用前処理部１２５、および検索部１２６を備える。

図面検索装置１２は、学習装置１１ｓによって生成された学習モデル（参考形態の例では、ベスト学習モデル）を用いて、ターゲット図面を複数の検索対象図面のそれぞれと照合することにより、少なくとも１つの図面を検索する。参考形態の図面ＮＤは、ターゲット図面の一例である。以下に述べるように、図面検索装置１２では、上記学習モデルを用いて、図面ＮＤに対し、図面ａ１～ＭＮのそれぞれとの照合が行われる。

（新規図面の取得）
新規図面データ取得部１２１は、過去図面データ取得部１１１と対になる機能部である。一例として、新規図面データ取得部１２１は、入力部７１が所定のユーザ操作を受け付けたことを契機として、新規物件図面ＤＢ９２の新規物件データセットに含まれている、所定の新規図面（例：図面ＮＤ）を取得する。新規図面データ取得部１２１は、取得した図面ＮＤを、新規図面内容パラメータ取得部１２２に供給する。

（新規図面に対応する内容パラメータセットの取得）
新規図面内容パラメータ取得部１２２は、過去図面内容パラメータ取得部１１２と対になる機能部である。新規図面内容パラメータ取得部１２２は、過去図面内容パラメータ取得部１１２と同様の処理により、図面ＮＤに対応する内容パラメータセットを取得する。すなわち、新規図面内容パラメータ取得部１２２は、過去図面内容パラメータ取得部１１２と同じ解析手法によって図面ＮＤを解析することにより、当該図面ＮＤの内容パラメータを取得する。

以下、図面ＮＤの第ｋ内容パラメータを、Ｃｋとも称する。なお、上述の検索対象図面内容パラメータとの区別のため、ターゲット図面（図面ＮＤ）の内容パラメータを、ターゲット図面内容パラメータとも称する。また、ターゲット図面の第ｋ内容パラメータを、ターゲット図面第ｋ内容パラメータとも称する。ターゲット図面内容パラメータは、新規図面内容パラメータと称されてもよい。このため、ターゲット図面第ｋ内容パラメータは、新規図面第ｋ内容パラメータと称されてもよい。

以上のように、新規図面内容パラメータ取得部１２２は、図面ＮＤに対し過去図面内容パラメータ取得部１１２と同様の処理を行うことにより、Ｃ１～ＣＬを設定する。その後、新規図面内容パラメータ取得部１２２は、Ｃ１～ＣＬを示す新規図面内容パラメータテーブルＴＢ－ＮＤを生成してよい。図１２には、ＴＢ－ＮＤの一例が示されている。

（検索用前処理部１２５における処理の一例）
検索用前処理部１２５は、新規図面内容パラメータ取得部１２２から、図面ＮＤに対応する内容パラメータセット（便宜上、新規図面内容パラメータセットと称する）を取得する。具体的には、新規図面内容パラメータセットとは、図面ＮＤの第１～第Ｌ内容パラメータ（Ｃ１～ＣＬ）を含むデータセットを意味する。一例として、検索用前処理部１２５は、新規図面内容パラメータ取得部１２２から、上述のＴＢ－ＮＤを取得する。

また、検索用前処理部１２５は、学習モデル生成部１１３ｓから、ベスト前処理手法を取得する。一例として、検索用前処理部１２５は、学習モデル生成部１１３ｓからＴＢ３を取得し、ＴＢ３からベスト前処理手法を読み出す。

続いて、検索用前処理部１２５は、ベスト前処理手法に従って、新規図面内容パラメータセットに対して前処理を施すことにより、前処理後新規図面内容パラメータセットを生成する。すなわち、検索用前処理部１２５は、ベスト前処理手法と同じ前処理手法をＣ１～ＣＬのそれぞれに施すことにより、前処理後新規図面内容パラメータセットを生成する。参考形態の例では、検索用前処理部１２５は、（ｉ）Ｃ１に［Ｓ］を施し、（ｉｉ）Ｃ２に［Ｓ］を施し、（ｉｉｉ）Ｃ３に［Ｏ］を施し、かつ、（ｉｖ）ＣＬに［Ｌ］を施
す。

なお、新規図面内容パラメータセットは、ターゲット図面内容パラメータセットと称されてもよい。従って、前処理後新規図面内容パラメータセットは、前処理後ターゲット図面内容パラメータセットと称されてもよい。

検索用前処理部１２５は、前処理後新規図面内容パラメータセットを示すテーブル（前処理後新規図面内容パラメータテーブル）を生成してよい。図１３に示されているＴＢ－ＮＤＰは、参考形態における前処理後新規図面内容パラメータテーブルの一例である。上述の説明から明らかである通り、前処理後新規図面内容パラメータセットは、データセット１と同じデータ構造を有している（上述の図６も参照）。

なお、検索用前処理部１２５における前処理手法［Ｓ］の一例について説明すれば、次の通りである。以下では、検索用前処理部１２５によって、Ｃｋ（図面ＮＤの第ｋ内容パラメータ）を標準化する場合について述べる。

まず、検索用前処理部１２５は、上述の標準化用データ表７００Ｂを参照し、ＡｋｍｅａｎおよびＡｋｓｄを取得する。続いて、検索用前処理部１２５は、
Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄ＝（Ｃｋ－Ａｋｍｅａｎ）／Ａｋｓｄ …（３）
の通り、Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄを算出する。Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄは、図面ＮＤにおける標準化後の第ｋ内容パラメータである。Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄは、標準化後新規図面第ｋ内容パラメータとも称される。標準化後新規図面第ｋ内容パラメータは、前処理後新規図面第ｋ内容パラメータの一例である。

また、検索用前処理部１２５における前処理手法［Ｎ］の一例について説明すれば、次の通りである。まず、検索用前処理部１２５は、上述の正規化用データ表７００Ａを参照し、ＡｋｍａｘおよびＡｋｍｉｎを取得する。続いて、検索用前処理部１２５は、
Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄ＝（Ｃｋ－Ａｋｍｉｎ）／（Ａｋｍａｘ－Ａｋｍｉｎ）
…（４）
の通り、Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄを算出する。Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄは、図面ＮＤにおける正規化後の第ｋ内容パラメータである。Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄは、正規化後新規図面第ｋ内容パラメータとも称される。正規化後新規図面第ｋ内容パラメータは、前処理後新規図面第ｋ内容パラメータの別の例である。

（検索部１２６における検索フェーズ）
検索部１２６は、検索用前処理部１２５から、前処理後新規図面内容パラメータセットを取得する。また、検索部１２６は、学習モデル生成部１１３から、ベスト学習モデルを取得する。検索部１２６は、前処理後新規図面内容パラメータセットをベスト学習モデルに入力する。そして、検索部１２６は、前処理後新規図面内容パラメータセットに応じたベスト学習モデルの出力を、ベスト学習モデルから取得する。

一例として、参考形態における各学習モデルが、図面ＮＤに対する各過去図面（図面ａ１～ＭＮ）の関連性の高さを示すスコア（指標）である関連性スコアを出力（導出）するように訓練された学習モデルである場合を考える。関連性スコアの導出方法の例については、特許文献１を参照されたい。

この場合、検索部１２６は、ベスト学習モデルに前処理後新規図面内容パラメータセットを入力することにより、当該前処理後新規図面内容パラメータセットに応じた関連性スコアを、ベスト学習モデルに出力させる。そして、検索部１２６は、ベスト学習モデルの出力（例：関連性スコア）に基づいて、図面ＮＤに対応する少なくとも１つの過去図面を検索する。関連性スコアに基づく当該過去図面の検索手法の例については、特許文献１を参照されたい。検索部１２６は、特許文献１と同様に、検索結果を示すデータを、表示部７２に表示させてよい。

（参考形態の効果）
参考形態における情報処理システム１００ｓ（情報処理装置１ｓ）によれば、上記先行技術（特許文献１の技術）と同様に、図面検索におけるユーザの利便性を従来よりも高めることが可能となる。加えて、学習装置１１ｓによれば、上記先行技術とは異なり、検索対象図面内容パラメータセット（過去図面内容パラメータセット）に対して複数種類の前処理手法が網羅的に施されることにより、当該検索対象図面内容パラメータセットが拡張される。すなわち、複数の前処理後検索対象図面内容パラメータセットが生成される。

続いて、複数の機械学習アルゴリズムを適用することにより、複数の前処理後検索対象図面内容パラメータセット（例：データセット１～４^ＦＬ×５^ＦＮ）を用いて、複数の学習モデルが生成される。そして、複数の学習モデルのそれぞれの品質を示す指標値（例：過去図面の検索精度）に基づいて、当該複数の学習モデルの内から、ベスト学習モデルが選択される。言い換えれば、上記指標値に基づいて、複数の機械学習アルゴリズムの内から、ベスト機械学習アルゴリズムが選択される。続いて、ベスト学習モデルに対応するベスト前処理手法が選択される。

一般的に、機械学習アルゴリズムによって生成される学習モデルの品質は、学習用データ（例：検索対象図面内容パラメータセット）に適用される前処理手法に応じて変化しうる。加えて、学習モデルの品質は、前処理後の学習用データに適用される機械学習アルゴリズムの種類に応じても変化しうる。

適切な前処理手法および機械学習アルゴリズムが選択された場合には、高品質な学習モデルを生成することが可能である。但し、機械学習分野において適用可能な前処理手法および機械学習アルゴリズムの種類は、多岐に亘っている。このため、学習モデルの品質向上に好適な（理想的には最適な）前処理手法および機械学習アルゴリズムの組み合わせを、ユーザが人為的に選択することは必ずしも容易ではない。

そこで、学習装置１１ｓでは、上述の通り、生成された複数の学習モデルのそれぞれを、上記指標値に基づいて網羅的に評価することにより、ベスト学習モデルおよびベスト前処理手法が選択される。すなわち、生成された複数の学習モデルに対してグリッドサーチを行うことにより、ベスト学習モデルおよびベスト前処理手法が選択される。

上記の構成によれば、ユーザの人為的な選択を経ることなく、ベスト学習モデルおよびベスト前処理手法を特定することができる。すなわち、学習モデルの品質向上に最適である（少なくとも好適である）と期待される前処理手法および機械学習アルゴリズムの組み合わせを、学習装置１１によって自動的に選択できる。

その後、図面検索装置１２では、学習装置１１ｓによって選択されたベスト前処理手法に従って、ターゲット図面内容パラメータセット（新規図面内容パラメータセット）に対して前処理が施される。すなわち、ベスト前処理手法に従って、前処理後ターゲット図面内容パラメータセット（前処理後新規図面内容パラメータセット）が生成される。

上記の構成によれば、ベスト学習モデルに適したデータ構造を有する入力データセットとして、前処理後ターゲット図面内容パラメータセットが生成される。このため、当該前処理後ターゲット図面内容パラメータセットをベスト学習モデルに入力することにより、上記先行技術に比べてさらに高精度な学習モデルの出力（例：ベスト学習モデルによって導出された関連性スコア）を得ることができる。

以上の通り、情報処理システム１００ｓでは、（ｉ）学習装置１１ｓによって予め選択されたベスト前処理手法、および、（ｉｉ）学習装置１１ｓによって予め生成されたベスト学習モデルを用いて、図面検索装置１２に検索を行わせることができる。その結果、情報処理システム１００ｓによれば、上記先行技術に比べてさらに高い検索精度を実現できる。

（参考形態における補足）
前処理手法［Ｌ］の一例について、以下に説明する。参考形態では、学習用前処理部１１４は、生値・ラベル値変換テーブルに従って、生値（過去図面内容パラメータ取得部１１２によって取得された内容パラメータ）をラベルエンコーディングしてよい。具体的には、学習用前処理部１１４は、ある生値と当該生値に対応するラベル値の対応関係を示すテーブル（以下、生値・ラベル値変換テーブルと称する）に従って、生値をラベル値へと変換してよい。

一例として、情報処理システム１００ｓでは、第１～第Ｌ内容パラメータのそれぞれについて、個別の生値・ラベル値変換テーブルが予め設定されている。以下、第ｋ内容パラメータに対応する生値・ラベル値変換テーブルを、第ｋ生値・ラベル値変換テーブルと称する。

図１４には、複数の生値・ラベル値変換テーブルの内の一部が例示されている。図１４において、（ｉ）符号１４００－１は第１生値・ラベル値変換テーブルを、（ｉｉ）符号１４００－２は第２生値・ラベル値変換テーブルを、（ｉｉｉ）符号１４００－３は第３生値・ラベル値変換テーブルを、（ｉｖ）符号１４００－Ｌは第Ｌ生値・ラベル値変換テーブルを、それぞれ表す。

図１４の例では、学習用前処理部１１４は、第ｋ生値・ラベル値変換テーブルに従って、第ｋ内容パラメータをラベルエンコーディングしてよい。例えば、学習用前処理部１１４は、第１生値・ラベル値変換テーブルに従って、第１内容パラメータをラベルエンコーディングする。また、学習用前処理部１１４は、第Ｌ生値・ラベル値変換テーブルに従って、第Ｌ内容パラメータをラベルエンコーディングする。

以上の通り、第ｋ内容パラメータの変数種類によらず（すなわち、第ｋ内容パラメータがＶＬまたはＶＮのいずれであっても）、当該第ｋ内容パラメータに対し、前処理手法［Ｌ］が施されてよい。なお、上述の通り、第ｋ内容パラメータがＶＬである場合には、［Ｌ］は、［Ｒ］と等価な前処理手法であると言える。

別の例として、情報処理システム１００ｓでは、第１～第Ｌ生値・ラベル値変換テーブルを統合したテーブル（以下、生値・ラベル値変換統合テーブルと称する）が予め作成されていてもよい。図１５における符号１５００は、生値・ラベル値変換統合テーブルの一例を表す。

図１５の例において、生値・ラベル値変換統合テーブルのｋ行目は、第ｋ生値・ラベル値変換テーブルに対応する。従って、学習用前処理部１１４は、生値・ラベル値変換統合テーブルのｋ行目を参照し、第ｋ内容パラメータをラベルエンコーディングしてもよい。例えば、学習用前処理部１１４は、生値・ラベル値変換統合テーブルの２行目を参照し、第２内容パラメータをラベルエンコーディングする。

〔実施形態１〕
図１６は、実施形態１の情報処理システム１００の要部の構成を示すブロック図である。情報処理システム１００の情報処理装置を、情報処理装置１と称する。情報処理装置１の制御装置を、制御装置１０と称する。制御装置１０の学習装置を、学習装置１１（モデル生成装置）と称する。

学習装置１１は、学習装置１１ｓとは異なり、決定部１１５をさらに備える。また、学習装置１１は、学習装置１１ｓの学習モデル生成部１１３ｓに替えて、学習モデル生成部１１３（学習部）を備える。学習装置１１の各部の動作の説明に先立ち、参考形態において改善可能な点について以下に述べる。

上述の通り、参考形態では、第ｋ内容パラメータ変数種類情報に応じた複数種類の前処理手法を第ｋ内容パラメータに適用することにより、内容パラメータセットが拡張される。次いで、拡張後内容パラメータセットを用いた学習モデルの生成および検証（評価）を通じて、ベスト学習モデルおよびベスト前処理手法が選択される。

しかしながら、参考形態では、第ｋ内容パラメータに適用される前処理手法次第では、拡張後内容パラメータセットに含まれる複数の説明変数間（複数の前処理後内容パラメータ間）において、多重共線性（multicollinearity）が発生しうる。当業者であれば理解できる通り、多重共線性が発生している複数の説明変数を用いて学習モデルを生成した場合には、当該学習モデルの品質が低下しうる。

また、当業者であれば理解できる通り、多重共線性の発生リスクは、ある学習モデルを生成するための学習用データの次元数（参考形態の例では、前処理後内容パラメータ数）が大きくなるにつれて高くなる。上述の通り、複数種類の前処理手法のうちの１つは、［Ｏ］（ワンホットエンコーディング）でありうる。参考形態における説明から理解できる通り、［Ｏ］は、前処理後内容パラメータ数の増加をもたらす前処理手法の典型例であると言える。

このことから、より多くの第ｋ内容パラメータに［Ｏ］が適用されるほど、多重共線性の発生リスクが高まると懸念される。従って、学習モデルの品質をさらに高めるためには（例：より高品質なベスト学習モデルを得るためには）、多重共線性を排除するための方策を導入することが好ましいと考えられる。実施形態１の学習装置１１は、この考え方に基づき、本願の発明者らによって新たに創作された。

（決定部１１５の処理の一例）
以下、内容パラメータセットの拡張によって得られたある１つのデータセット（すなわち、上述の注目データセット）に対する、決定部１１５の一連の処理について説明する。以下では、上述の図９における符号９００Ａに示されているデータセット１が、注目データセットである場合について説明する。決定部１１５は、データセット１に含まれている異なる２つの前処理後内容パラメータセットのそれぞれについて、決定係数を算出する。

具体的には、決定部１１５は、
…（５）
の通り、決定係数Ｒｉｊを算出する。決定係数Ｒｉｊは、以下に述べるＩｋとＪｋとの間の決定係数である。実施形態１の説明において、ｉは１≦ｉ＜Ｐを満たす整数であり、ｊはｉ＜ｊ≦Ｐを満たす整数である。Ｐは、注目データセットの次元数（行数）である。Ｐは、注目データセットの系列数と称されてもよい。実施形態１の例では、Ｐ＝５０である（上述の図５を参照）。

式（５）におけるＩｋは、データセット１に含まれているＰ個の前処理後内容パラメータの内、ｉ番目の前処理後内容パラメータ（ある１つの前処理後内容パラメータ）である。Ｊｋは、データセット１に含まれているＰ個の前処理後内容パラメータの内、ｊ番目の前処理後内容パラメータ（別の１つの前処理後内容パラメータ）である。Ｑは、注目データセットの項目数（列数）である。実施形態１の例では、Ｑ＝Ｍである。Ｉａｖｅは、Ｉ１～ＩＱの平均値である。Ｊａｖｅは、Ｊ１～ＪＱの平均値である。

以上の通り、決定部１１５は、注目データセットに含まれる任意の２つの異なる前処理後内容パラメータ間の決定係数を算出してよい。実施形態１では、決定部１１５は、式（５）に従って、_ＰＣ_２通りのＲｉｊを算出する。すなわち、決定部１１５は、注目データセットに含まれる異なる２つの検索対象図面内容パラメータの組み合わせパターンのそれぞれについて、Ｒｉｊを算出する。

式（５）に示されている通り、Ｒｉｊは、ＩｋとＪｋとの間の相関係数ｓｉｊの２乗値として表すことができる。従って、Ｒｉｊを、ＩｋとＪｋとの間における多重共線性の程度（強さ）を示す評価値（多重共線性評価値）として用いることができる。実施形態１におけるＲｉｊは、多重共線性評価値の一例である。

決定部１１５は、算出した各決定係数を、所定の閾値Ｒｔｈ（決定係数閾値）と比較する。決定係数閾値は、多重共線性評価値に対する閾値（多重共線性閾値）の一例である。本明細書では、「多重共線性評価値が多重共線性閾値以上である」という条件を満たしている多重共線性評価値を、高リスク多重共線性評価値と称する。従って、実施形態１では、「決定係数がＲｔｈ以上である」という条件を満たしている決定係数を、高リスク決定係数と称する。

実施形態１では、決定部１１５は、各前処理後内容パラメータについて、各決定係数をＲｔｈと比較し、各決定係数の内から高リスク決定係数を抽出する。そして、決定部１１５は、各前処理後内容パラメータについて、抽出した高リスク決定係数の個数を計上（カウントアップ）する。

データサイエンス分野では、２つの説明変数間の相関係数の絶対値（以下、相関係数絶対値とも称する）が０．７以上である場合に、当該２つの説明変数間に強い相関（あるいは、やや強い相関）が存在していると評価されることが多い。このことから、一例として、Ｒｔｈは、０．４９（＝０．７^２）以上かつ１以下の所定の値として設定されることが好ましい。実施形態１では、Ｒｔｈが０．４９に設定されている場合を例示する。但し、当業者であれば明らかである通り、Ｒｔｈは上記の例に限定されない。

決定部１１５は、各Ｒｉｊと高リスク決定係数の個数との対応関係を示すテーブル（決定係数・高リスク決定係数個数テーブル）を生成する。図１７のＴＢ６は、決定係数・高リスク決定係数個数テーブルの一例である。なお、以下に述べる通り、ＴＢ６は、決定部１１５における一連の処理を通じて更新される。このことから、本明細書では、初期状態のＴＢ６を、ＴＢ６ｉｎｉｔとも称する。

図１７には、ＴＢ６ｉｎｉｔの一例が示されている。ＴＢ６ｉｎｉｔのｉ行ｊ列目には、ｉ番目の各前処理後内容パラメータ（すなわちＩｋ）とｊ番目の各前処理後内容パラメータ（すなわちＪｋ）との間の決定係数Ｒｉｊが記録されている。そして、ＴＢ６ｉｎｉｔの最右端列（Ｐ＋１列目）には、Ｉｋに対応する高リスク決定係数の個数（説明の便宜上、「Ｉｋが有する高リスク決定係数の個数」とも称する）が記録されている。図１７の例では、高リスク決定係数にハッチングが付されている。

一例として、決定部１１５は、ＴＢ６内（図１７の例では、ＴＢ６ｉｎｉｔ内）の各前処理後内容パラメータの内、最も多い高リスク決定係数の個数（最多高リスク決定係数個数）を有する前処理後内容パラメータを、削除対象となる削除対象前処理後内容パラメータとして決定してよい。図１７の例では、ＴＢ６ｉｎｉｔに含まれる各前処理後内容パラメータの内、５行目の前処理後内容パラメータ「ＯＲ＿２」が、最多高リスク決定係数個数（６個）を有している（図１７中の「高リスク決定係数の個数」における、点線によって図示された矩形部を参照）。このため、決定部１１５は、当該前処理後内容パラメータ「ＯＲ＿２」を、削除対象前処理後内容パラメータとして決定する。そして、決定部１１５は、ＴＢ６ｉｎｉｔから、「ＯＲ＿２」に対応する行および列（すなわち、第５行および第５列）を削除することにより、ＴＢ６を更新する。

図１８のＴＢ６ａは、ＴＢ６ｉｎｉｔが上述の通り更新されることによって得られたＴＢ６の一例である。決定部１１５は、ＴＢ６ｉｎｉｔから、「ＯＲ＿２」に対応する行および列を削除した後、ＴＢ６ｉｎｉｔの最右端列に記録されていた、Ｉｋに対応する高リスク決定係数の個数を更新する。従って、ＴＢ６ａの最右端列には、更新後の高リスク決定係数の個数が記録されている。

図１８の例では、ＴＢ６ａに含まれる各前処理後内容パラメータの内、２行目の前処理後内容パラメータ「電流値」および４行目の前処理後内容パラメータ「ＯＲ＿１」がそれぞれ、最多高リスク決定係数個数（３個）を有している（図１８中の「高リスク決定係数の個数」における、点線によって図示された矩形部を参照）。このように、ＴＢ６において、複数の前処理後内容パラメータが、同数の最多高リスク決定係数個数を有する場合も考えられる。

そこで、このような場合、決定部１１５は、最多高リスク決定係数個数を有する複数の前処理後内容パラメータを、削除対象候補前処理後内容パラメータとして決定してよい。次いで、決定部１１５は、複数の削除対象候補前処理後内容パラメータの内、最も大きい決定数を有する削除対象候補前処理後内容パラメータを、削除対象前処理後内容パラメータとして決定してよい。なお、削除対象前処理後内容パラメータは、学習対象外前処理後内容パラメータと称されてもよい。同様に、削除対象候補前処理後内容パラメータは、学習対象外候補前処理後内容パラメータと称されてもよい。

図１８の例では、２行目の前処理後内容パラメータ「電流値」における決定係数の最大値が、４行目の前処理後内容パラメータ「ＯＲ＿１」における決定係数の最大値よりも大きいものとする。このため、決定部１１５は、２行目の前処理後内容パラメータ「電流値」を、削除対象前処理後内容パラメータとして決定する（図１８中の「高リスク決定係数の個数」における、ハッチング付の上記矩形部を参照）。そして、決定部１１５は、ＴＢ６ａから、「電流値」に対応する行および列（すなわち、第２行および第２列）を削除することにより、ＴＢ６を更新する。

図１９のＴＢ６ｂは、ＴＢ６ａが上述の通り更新されることによって得られたＴＢ６の一例である。決定部１１５は、ＴＢ６ａから、「電流値」に対応する行および列を削除した後、ＴＢ６ａの最右端列に記録されていた、Ｉｋに対応する高リスク決定係数の個数を更新する。従って、ＴＢ６ｂの最右端列には、更新後の高リスク決定係数の個数が記録されている。以降、決定部１１５は、ＴＢ６における全ての高リスク決定係数の個数が０になるまで、上述の通りＴＢ６の更新を繰り返す。なお、図１９の例では、３行目の前処理後内容パラメータ「ＯＲ＿１」が削除対象候補前処理後内容パラメータとして決定されている（図１９中の「高リスク決定係数の個数」における、点線によって図示された矩形部を参照）。但し、図１９の例では、不図示の前処理後内容パラメータが、削除対象前処理後内容パラメータとして決定されている。

図２０のＴＢ６ｅｎｄは、上述の更新の繰り返しの結果として得られた、最終的なＴＢ６の一例である。図２０に示されている通り、ＴＢ６ｅｎｄでは、全ての高リスク決定係数の個数が０である。ＴＢ６ｅｎｄに含まれている前処理後内容パラメータは、ＴＢ６ｉｎｉｔに含まれていた複数の前処理後内容パラメータから、ＴＢ６の更新過程において見出された各削除対象前処理後内容パラメータ（実施形態１の例において図示されている範囲では、「ＯＲ＿２」および「電流値」）を除いた前処理後内容パラメータである。このことから、ＴＢ６ｅｎｄに含まれている前処理後内容パラメータは、残余前処理後内容パラメータと称されてもよい。

上述の説明から明らかである通り、複数の残余前処理後内容パラメータ間においては、高リスク決定係数は生じない。すなわち、複数の残余前処理後内容パラメータ間における、多重共線性の発生リスクが十分に低減されている。そこで、決定部１１５は、残余前処理後内容パラメータのみが学習フェーズにおける説明変数として用いられるように、データセット１を処理（より具体的には、剪定）してよい。

具体的には、決定部１１５は、データセット１から削除対象前処理後内容パラメータを削除することにより、剪定後データセット１（データセット１に対応する剪定後データセット）を生成してよい。図２１における符号９００ＡＰは、剪定後データセット１の一例を表す。上述の説明から明らかである通り、図２１の例における剪定後データセット１は、データセット１から「ＯＲ＿２」および「電流値」が削除されることによって生成される。

以上の通り、決定部１１５は、注目データセットにおける削除対象前処理後内容パラメータを当該注目データセットから削除することにより、当該注目データセットに対応する剪定後注目データセットを生成してよい。従って、例えば、決定部１１５は、データセット１に関する上記の例と同様にして、データセット２における削除対象前処理後内容パラメータをデータセット２から削除することにより、剪定後データセット２を生成してよい。また、決定部１１５は、データセット４^ＦＬ×５^ＦＮにおける削除対象前処理後内容パラメータをデータセット４^ＦＬ×５^ＦＮから削除することにより、剪定後データセット４^ＦＬ×５^ＦＮを生成してよい。

このように、決定部１１５は、前処理後第１図面種類内容パラメータセット（第１図面種類内容パラメータセットに複数パターンの前処理のそれぞれが施されることによって得られたデータセット）における削除対象前処理後内容パラメータを、当該前処理後第１図面種類内容パラメータセットから削除することにより、剪定後前処理後第１図面種類内容パラメータセット（剪定後データセット１～剪定後データセット４^ＦＬ×５^ＦＮから成るセット）を生成してよい。

第１図面種類内容パラメータセットについての上記の例と同様に、決定部１１５は、前処理後第２図面種類内容パラメータセット（第２図面種類内容パラメータセットに複数パターンの前処理のそれぞれが施されることによって得られたデータセット）における削除対象前処理後内容パラメータを、当該前処理後第２図面種類内容パラメータセットから削除することにより、剪定後前処理後第２図面種類内容パラメータセットを生成してよい。また、決定部１１５は、前処理第Ｎ図面種類内容パラメータセット（第Ｎ図面種類内容パラメータセットに複数パターンの前処理のそれぞれが施されることによって得られたデータセット）における削除対象前処理後内容パラメータを、当該前処理第Ｎ図面種類内容パラメータセットから削除することにより、剪定後前処理第Ｎ図面種類内容パラメータセットを生成してよい。

（学習モデル生成部１１３における処理の一例）
実施形態１では、学習モデル生成部１１３は、決定部１１５から剪定後前処理後第１図面種類内容パラメータセットを取得する。学習モデル生成部１１３は、参考形態と同様にして、剪定後前処理後第１図面種類内容パラメータセットに基づいて、剪定後前処理後第１図面種類内容パラメータセットに対応する複数の学習モデルを生成する。次いで、学習モデル生成部１１３は、当該複数の学習モデルのそれぞれの品質を評価する。

具体的には、学習モデル生成部１１３は、剪定後前処理後第１図面種類内容パラメータセットに含まれる各データセットを、訓練データと検証データとに分割する。そして、学習モデル生成部１１３は、当該訓練データを用いて、当該訓練データに対応する複数の学習モデルを生成する。次いで、学習モデル生成部１１３は、当該検証データを用いて、当該複数の学習モデルのそれぞれの品質を評価する。より具体的には、学習モデル生成部１１３は、当該検証データを用いて、当該複数の学習モデルのそれぞれの指標値を導出する。

同様に、学習モデル生成部１１３は、決定部１１５から剪定後前処理後第２図面種類内容パラメータセットを取得する。学習モデル生成部１１３は、剪定後前処理後第２図面種類内容パラメータセットに基づいて、当該剪定後前処理後第２図面種類内容パラメータセットに対応する複数の学習モデルを生成する。次いで、学習モデル生成部１１３は、当該複数の学習モデルのそれぞれの品質を評価する。また、学習モデル生成部１１３は、決定部１１５から剪定後前処理後第Ｎ図面種類内容パラメータセットを取得する。学習モデル生成部１１３は、剪定後前処理後第Ｎ図面種類内容パラメータセットに基づいて、当該剪定後前処理後第Ｎ図面種類内容パラメータセットに対応する複数の学習モデルを生成する。次いで、学習モデル生成部１１３は、当該複数の学習モデルのそれぞれの品質を評価する。

実施形態１では、学習モデル生成部１１３は、剪定後前処理後第１図面種類内容パラメータセット～剪定後前処理後第Ｎ図面種類内容パラメータセットに基づいて導出された指標値に基づき、生成された複数の学習モデルの内から、ベスト学習モデルを選択する。例えば、学習モデル生成部１１３は、当該複数の学習モデルの内、最大指標値を有する学習モデルを、ベスト学習モデルとして選択する。続いて、学習モデル生成部１１３は、参考形態と同様にして、ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。実施形態１における以降の処理については、参考形態と同様である。

（実施形態１の効果）
実施形態１における学習装置１１によれば、複数の前処理後内容パラメータから、削除対象前処理後内容パラメータ（多重共線性を生じさせるリスクが高いと懸念される前処理後内容パラメータ）を排除した上で、複数の学習モデルを生成できる。その上で、複数の学習モデルの内から、ベスト学習モデルを見出すことができる。

本明細書では、ある前処理後内容パラメータセット（より詳細には、前処理後検索対象図面内容パラメータセット）のそれぞれから、当該内容パラメータセットにおける削除対象前処理後内容パラメータを削除することによって得られるデータセットを、剪定後前処理後内容パラメータセット（より詳細には、剪定後前処理後検索対象図面内容パラメータセット）と称する。上述の剪定後前処理後第１図面種類内容パラメータセット～剪定後前処理後第Ｎ図面種類内容パラメータセットはいずれも、剪定後前処理後内容パラメータセットの例である。

以上の通り、学習装置１１によれば、複数の剪定後前処理後内容パラメータセットに基づき、複数の学習モデルを生成できる。その上で、複数の学習モデルの内から、ベスト学習モデルを見出すことができる。このため、学習装置１１によれば、多重共線性の影響が排除された学習モデルを、ベスト学習モデルとして得ることができる。それゆえ、参考形態に比べてさらに高品質なベスト学習モデルを得ることができる。このように、学習装置１１によれば、図面検索を行うための学習モデルの品質を従来よりも向上させることができる。

また、学習装置１１によれば、残余前処理後内容パラメータのみが学習フェーズにおける説明変数として用いられるように、複数の学習モデルを生成できる。すなわち、参考形態に比べ、各データセットの次元数を削減させた上で、複数の学習モデルを生成できる。それゆえ、学習フェーズに要する計算コストを、参考形態に比べて低減させることもできる。例えば、参考形態よりも短い計算時間によって、高品質なベスト学習モデルを得ることができる。

また、学習装置１１によれば、多重共線性の影響が排除されたベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択することもできる。それゆえ、図面検索の精度向上のためにより一層有効性の高い前処理手法を、ベスト前処理手法として選択できることも期待される。

そして、実施形態１における図面検索装置１２では、上述の通り学習装置１１によって選択されたベスト学習モデルおよびベスト前処理手法を用いて、図面検索を行うことができる。その結果、参考形態に比べて、さらに高い検索精度によって図面検索を行うことができる。

〔変形例〕
実施形態１では、多重共線性評価値として決定係数（Ｒｉｊ）が用いられる場合が例示されていた。但し、当業者であれば明らかである通り、多重共線性評価値は、上記の例に限定されない。例えば、学習装置１１において、多重共線性評価値として、上述の相関係数絶対値が用いられてもよい。

この場合、決定部１１５は、実施形態１と同様にして、注目データセットに含まれる任意の２つの異なる前処理後内容パラメータ間の相関係数絶対値を算出してよい。本変形例では、決定部１１５は、_ＰＣ_２通りの相関係数絶対値を算出する。このように、決定部１１５は、各前処理後内容パラメータについて、相関係数絶対値（すなわち、｜ｓｉｊ｜）を算出する。

そして、決定部１１５は、算出した各相関係数絶対値を、所定の閾値ｓｔｈ（相関係数絶対値閾値）と比較する。相関係数絶対値閾値は、多重共線性閾値の別の例である。本明細書では、「相関係数絶対値がｓｔｈ以上である」という条件を満たしている相関係数絶対値を、高リスク相関係数絶対値と称する。

本変形例では、決定部１１５は、各前処理後内容パラメータについて、各相関係数絶対値をｓｔｈと比較し、各相関係数絶対値の内から高リスク相関係数絶対値を抽出する。そして、決定部１１５は、各前処理後内容パラメータについて、抽出した高リスク相関係数絶対値の個数を計上する。

上述の式（５）との対応性から明らかである通り、例えば、
ｓｔｈ＝Ｒｔｈ^１／２ …（６）
として、ｓｔｈが設定されてよい。従って、ｓｔｈは、０．７以上かつ１以下の所定の値として設定されることが好ましい。一例として、ｓｔｈは０．７に設定されてよい。但し、当業者であれば明らかである通り、ｓｔｈは上記の例に限定されない。

本変形例において、決定部１１５は、各相関係数絶対値と高リスク相関係数絶対値の個数との対応関係を示すテーブル（相関係数絶対値・高リスク相関係数絶対値個数テーブル）を生成する。当該相関係数絶対値・高リスク相関係数絶対値個数テーブルは、上述のＴＢ６に対応する。そして、決定部１１５は、実施形態１と同様にして、相関係数絶対値・高リスク相関係数絶対値個数テーブルにおける全ての高リスク相関係数絶対値の個数が０になるまで、当該相関係数絶対値・高リスク相関係数絶対値個数テーブルの更新を繰り返す。以降の処理については、実施形態１と同様である。

以上の説明から明らかである通り、本発明の一態様において、決定部１１５は、各前処理後内容パラメータについて、多重共線性評価値を算出する。そして、決定部１１５は、算出した各多重共線性評価値を、所定の多重共線性閾値と比較する。具体的には、決定部１１５は、各多重共線性評価値を多重共線性閾値と比較し、各多重共線性評価値の内から高リスク多重共線性評価値を抽出する。決定部１１５は、各前処理後内容パラメータについて、抽出した高リスク多重共線性評価値の個数を計上する。

次いで、決定部１１５は、各多重共線性評価値と高リスク多重共線性評価値の個数との対応関係を示すテーブル（多重共線性評価値・高リスク多重共線性評価値個数テーブル）を生成する。当該多重共線性評価値・高リスク多重共線性評価値個数テーブルは、上述のＴＢ６に対応する。そして、上述の通り、決定部１１５は、多重共線性評価値・高リスク多重共線性評価値個数テーブルにおける全ての高リスク多重共線性評価値の個数が０になるまで、当該多重共線性評価値・高リスク多重共線性評価値個数テーブルの更新を繰り返す。

以上の通り、決定部１１５は、複数の前処理後内容パラメータに対して導出された複数の多重共線性評価値に基づいて、当該複数の前処理後内容パラメータの内から削除対象前処理後内容パラメータを決定できるように設定されていればよい。これにより、決定部１１５によって、当該複数の前処理後内容パラメータから削除対象前処理後内容パラメータを削除することが可能となる。その結果、上述の通り、多重共線性の影響が排除された学習モデルを、ベスト学習モデルとして得ることができる。

なお、当業者であれば明らかである通り、削除対象前処理後内容パラメータの選択方法は、実施形態１の例に限定されない。決定部１１５は、異なる２つの前処理後内容パラメータ間の多重共線性評価値が多重共線性閾値以上である場合に、当該２つの検索対象図面内容パラメータの内の一方を、削除対象前処理後内容パラメータとして決定すればよい。

〔実施形態２〕
図２２は、実施形態２の情報処理システム１００Ｖの要部の構成を示すブロック図である。情報処理システム１００Ｖの情報処理装置を、情報処理装置１Ｖと称する。情報処理装置１Ｖの制御装置を、制御装置１０Ｖと称する。制御装置１０の学習装置および図面検索装置をそれぞれ、学習装置１１Ｖ（モデル生成装置）および図面検索装置１２Ｖと称する。

学習装置１１Ｖは、実施形態１の学習装置１１とは異なり、学習用前処理部１１４を有していない。学習装置１１Ｖの決定部および学習モデル生成部をそれぞれ、決定部１１５Ｖおよび学習モデル生成部１１３Ｖ（学習部）と称する。また、図面検索装置１２Ｖは、実施形態１の図面検索装置１２とは異なり、検索用前処理部１２５を有していない。図面検索装置１２Ｖの検索部を、検索部１２６Ｖと称する。

図２２から明らかである通り、学習装置１１Ｖでは、学習装置１１とは異なり、前処理による各内容パラメータセットの拡張が行われない。このため、実施形態２では、複数の説明変数間（実施形態２の例では、複数の内容パラメータ間）における多重共線性の発生リスクは、実施形態１に比べて低いと期待される。但し、例えば、各過去図面の記載内容次第では、複数の内容パラメータ間において多重共線性が発生することも考えられる。そこで、実施形態２では、多重共線性の影響を排除するために、決定部１１５Ｖが設けられている。

（学習装置１１Ｖにおける処理の一例）
実施形態２では、決定部１１５Ｖは、過去図面内容パラメータ取得部１１２から、第１図面種類内容パラメータセット～第Ｎ図面種類内容パラメータセットを取得する。決定部１１５Ｖは、第１図面種類内容パラメータセットに含まれる任意の２つの異なる内容パラメータ間の多重共線性評価値を算出してよい。

実施形態２では、決定部１１５Ｖは、第１図面種類内容パラメータセットに含まれる各内容パラメータ（第１図面種類内容パラメータセット内の第１～第Ｌ内容パラメータ）について、多重共線性評価値を算出する。すなわち、実施形態２では、決定部１１５Ｖは、第１図面種類内容パラメータセットについて、_ＬＣ_２通りの多重共線性評価値を算出する。このように、決定部１１５は、第１図面種類内容パラメータセットに含まれる異なる２つの検索対象図面内容パラメータの組み合わせパターンのそれぞれについて、多重共線性評価値を算出する。

次いで、決定部１１５Ｖは、算出した各多重共線性評価値を多重共線性閾値と比較し、各多重共線性評価値の内から高リスク多重共線性評価値を抽出する。そして、決定部１１５は、各内容パラメータについて、抽出した高リスク多重共線性評価値の個数を計上する。

次いで、決定部１１５Ｖは、多重共線性評価値・高リスク多重共線性評価値個数テーブルを生成する。そして、決定部１１５Ｖは、多重共線性評価値・高リスク多重共線性評価値個数テーブルにおける全ての高リスク多重共線性評価値の個数が０になるまで、当該多重共線性評価値・高リスク多重共線性評価値個数テーブルの更新を繰り返す。

このように、決定部１１５Ｖは、多重共線性評価値・高リスク多重共線性評価値個数テーブルの更新を繰り返すことにより、第１図面種類内容パラメータセット内の第１～第Ｌ内容パラメータの内から、削除対象となる削除対象内容パラメータを特定する。削除対象内容パラメータは、多重共線性を生じさせるリスクが高いと懸念される内容パラメータと言える。なお、削除対象内容パラメータは、学習対象外内容パラメータと称されてもよい。

上述の各説明から明らかである通り、決定部１１５Ｖは、多重共線性評価値が所定の多重共線性閾値以上である場合に、上記２つの検索対象図面内容パラメータの内の一方を、削除対象内容パラメータとして決定してよい。そして、決定部１１５Ｖは、第１図面種類内容パラメータセット内の第１～第Ｌ内容パラメータの内から、削除対象内容パラメータを削除することにより、剪定後第１図面種類内容パラメータセットを生成する。

一例として、第１図面種類内容パラメータセット内の第１～第Ｌ内容パラメータの内、第２内容パラメータ「電流値」が、削除対象内容パラメータとして特定された場合を考える。この場合、決定部１１５Ｖは、第１図面種類内容パラメータセットから、第２内容パラメータ「電流値」に対応する系列（図３の例における２行目）を削除することにより、剪定後第１図面種類内容パラメータセットを生成する。

同様にして、決定部１１５Ｖは、第２図面種類内容パラメータセットに含まれる各内容パラメータ（第２図面種類内容パラメータセット内の第１～第Ｌ内容パラメータ）について、多重共線性評価値を算出する。そして、決定部１１５は、各多重共線性評価値に基づいて第２図面種類内容パラメータセットを剪定することにより、剪定後第２図面種類内容パラメータセットを生成する。

また、決定部１１５Ｖは、第Ｎ図面種類内容パラメータセットに含まれる各内容パラメータ（第Ｎ図面種類内容パラメータセット内の第１～第Ｌ内容パラメータ）について、多重共線性評価値を算出する。そして、決定部１１５Ｖは、各多重共線性評価値に基づいて第Ｎ図面種類内容パラメータセットを剪定することにより、剪定後第Ｎ図面種類内容パラメータセットを生成する。決定部１１５Ｖは、以上の通り生成した剪定後第１図面種類内容パラメータセット～剪定後第Ｎ図面種類内容パラメータセットを、学習モデル生成部１１３Ｖに供給する。

実施形態２では、学習モデル生成部１１３Ｖは、剪定後第１図面種類内容パラメータセット～剪定後第Ｎ図面種類内容パラメータセットに基づき、学習モデルを生成する。具体的には、学習モデル生成部１１３Ｖは、所定の機械学習アルゴリズムを実行することにより、剪定後第１図面種類内容パラメータセット～剪定後第Ｎ図面種類内容パラメータセットに基づき、学習モデルを生成する。学習モデル生成部１１３Ｖは、生成した学習モデルを、図面検索装置１２Ｖ（より具体的には、検索部１２６Ｖ）に供給する。

実施形態２における機械学習アルゴリズムは、実施形態１において例示した複数種類の機械学習アルゴリズムのうちの任意の１つであってよい。従って、一例として、学習モデル生成部１１３Ｖは、多項ロジスティック回帰によって、剪定後第１図面種類内容パラメータセット～剪定後第Ｎ図面種類内容パラメータセットに基づき、学習モデルを生成してよい。

上述の通り、実施形態２では、前処理による各内容パラメータセットの拡張が行われない。このため、実施形態２では、ベスト学習モデルおよびベスト前処理手法は決定されない。このことから明らかである通り、本発明の一態様において、複数の学習モデルを生成し、かつ、当該複数の学習モデルの内からベスト学習モデルを選択する決定する工程は必須ではない。同様に、本発明の一態様において、複数の前処理手法の内からベスト前処理手法を決定する工程も必須ではない。

（図面検索装置１２Ｖにおける処理の一例）
検索部１２６Ｖは、（ｉ）新規図面内容パラメータ取得部１２２から新規図面内容パラメータセットを取得するとともに、（ｉｉ）学習モデル生成部１１３Ｖによって生成された学習モデルを、学習装置１１Ｖから取得する。

検索部１２６Ｖは、新規図面内容パラメータセットを学習モデルに入力する。そして、検索部１２６Ｖは、新規図面内容パラメータセットに応じた学習モデルの出力を、当該学習モデルから取得する。

一例として、検索部１２６Ｖは、学習モデルに新規図面内容パラメータセットを入力することにより、当該新規図面内容パラメータセットに応じた関連性スコアを、当該学習モデルに出力させる。そして、検索部１２６Ｖは、学習モデルの出力（例：関連性スコア）に基づいて、図面ＮＤに対応する少なくとも１つの過去図面を検索する。

（実施形態２の効果）
実施形態２における学習装置１１Ｖによれば、複数の内容パラメータから、削除対象内容パラメータ（多重共線性を生じさせるリスクが高いと懸念される内容パラメータ）を排除した上で、学習モデルを生成できる。すなわち、学習装置１１Ｖによれば、削除対象内容パラメータを除いた複数の内容パラメータに基づき、学習モデルを生成できる。

本明細書では、内容パラメータセット（より詳細には、検索対象図面内容パラメータセット）から削除対象内容パラメータを削除することによって得られるデータセットを、剪定後内容パラメータセット（より詳細には、剪定後検索対象図面内容パラメータセット）とも称する。以上の通り、学習装置１１Ｖによれば、剪定後内容パラメータセットに基づき、学習モデルを生成できる。このため、学習装置１１Ｖによれば、多重共線性の影響が排除された学習モデルを得ることができる。それゆえ、従来（例：特許文献１の技術）に比べて、学習モデルの品質を従来よりも向上させることができる。

そして、実施形態２における図面検索装置１２Ｖでは、上述の通り学習装置１１Ｖによって生成された学習モデルを用いて、図面検索を行うことができる。その結果、従来に比べて、さらに高い検索精度によって図面検索を行うことができる。

上述の通り、実施形態２では、実施形態１とは異なり、ベスト学習モデルおよびベスト前処理手法の選択は実行されない。このため、実施形態２によれば、図面検索装置の運用時に使用される最終的な学習モデル（運用モデル）を、実施形態１に比べて短時間で得ることができる。

但し、上述の説明から明らかである通り、実施形態１によれば、運用モデルとしてベスト学習モデルを選択できる。すなわち、実施形態１によれば、実施形態２に比べてさらに高品質な運用モデルを得ることができる。加えて、実施形態１によれば、図面検索装置の運用時に使用される前処理手法（運用時前処理手法）として、ベスト前処理手法を選択できる。運用時にベスト前処理手法を適用することにより、図面検索装置における図面検索精度をより一層向上させることができる。従って、実施形態１または２のいずれの情報処理装置の構成を採用するかについては、例えば、当該情報処理装置に要求される仕様に応じて、当該情報処理装置の設計者によって適宜決定されてよい。

〔ソフトウェアによる実現例〕
情報処理システム１００ｓ・１００・１００Ｖ（以下では、便宜上「装置」と呼ぶ）の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック（特に、制御装置１０ｓ・１０・１０Ｖに含まれる各部）としてコンピュータを機能させるためのプログラムにより実現することができる。

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の一態様の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

上述の各説明から明らかである通り、上記各実施形態で説明した各処理は、ＡＩ（Artificial Intelligence：人工知能）に実行させることができる。この場合、ＡＩは上記制御装置で動作するものであってもよいし、他の装置（例えばエッジコンピュータまたはクラウドサーバ等）で動作するものであってもよい。

〔付記事項〕
本発明の一態様は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の一態様の技術的範囲に含まれる。

１，１Ｖ情報処理装置
１０，１０Ｖ制御装置
１１，１１Ｖ学習装置（モデル生成装置）
１００，１００Ｖ情報処理システム
１１１過去図面データ取得部
１１２過去図面内容パラメータ取得部（取得部）
１１３，１１３Ｖ学習モデル生成部（学習部）
１１４学習用前処理部（前処理部）
１１５、１１５Ｖ決定部

Claims

複数の検索対象図面の内からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを生成するモデル生成装置であって、
上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得部と、
（ｉ）上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる２つの内容パラメータの組み合わせパターンのそれぞれについて、当該２つの内容パラメータ間の多重共線性評価値を算出するとともに、（ｉｉ）当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定部と、
上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習部と、を備えており、
上記モデル生成装置は、
所定の複数種類の前処理手法の組み合わせに従って、上記内容パラメータセットに含まれる上記複数の内容パラメータのそれぞれを前処理することにより、複数の前処理後内容パラメータをそれぞれ含む複数の前処理後内容パラメータセットを生成する前処理部をさらに備えており、
上記決定部は、（ｉ）上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内の、異なる２つの前処理後内容パラメータの組み合わせパターンのそれぞれについて、当該２つの前処理後内容パラメータ間の多重共線性評価値を算出するとともに、（ｉｉ）当該多重共線性評価値に基づき、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内から、削除対象となる削除対象前処理後内容パラメータを決定し、
上記学習部は、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後内容パラメータセットのそれぞれから上記削除対象前処理後内容パラメータを削除することによって得られた複数の剪定後前処理後内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成し、
上記複数の剪定後前処理後内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択し、
上記複数種類の前処理手法の内、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択し、
上記複数種類の前処理手法のうちの１つは、ワンホットエンコーディングである、
モデル生成装置。
上記学習部は、上記複数の学習モデルの内、最も高い指標値を有する学習モデルを、上記ベスト学習モデルとして選択する、請求項１に記載のモデル生成装置。
上記決定部は、上記多重共線性評価値が多重共線性閾値以上である場合に、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記２つの前処理後内容パラメータの内の一方を、上記削除対象前処理後内容パラメータとして決定する、請求項１または２に記載のモデル生成装置。
上記決定部は、
上記多重共線性評価値として、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記２つの前処理後内容パラメータ間の決定係数を算出し、
上記決定係数が、上記多重共線性閾値としての決定係数閾値以上である場合に、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記２つの前処理後内容パラメータの内の一方を、上記削除対象前処理後内容パラメータとして決定する、請求項３に記載のモデル生成装置。
上記決定係数閾値は、０．４９以上かつ１以下の所定の値に設定されている、請求項４に記載のモデル生成装置。
上記決定部は、
上記多重共線性評価値として、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記２つの前処理後内容パラメータ間の相関係数の絶対値を算出し、
上記相関係数の絶対値が、上記多重共線性閾値としての相関係数絶対値閾値以上である場合に、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記２つの前処理後内容パラメータの内の一方を、上記削除対象前処理後内容パラメータとして決定する、請求項３に記載のモデル生成装置。
上記相関係数絶対値閾値は、０．７以上かつ１以下の所定の値に設定されている、請求項６に記載のモデル生成装置。
複数の検索対象図面の内からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを、モデル生成装置が生成するモデル生成方法であって、
上記モデル生成方法は、
上記モデル生成装置が、上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得工程と、
上記モデル生成装置が、（ｉ）上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる２つの内容パラメータの組み合わせパターンのそれぞれについて、当該２つの内容パラメータ間の多重共線性評価値を算出するとともに、（ｉｉ）当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定工程と、
上記モデル生成装置が、上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習工程と、を含んでおり、
上記モデル生成方法は、
所定の複数種類の前処理手法の組み合わせに従って、上記内容パラメータセットに含まれる上記複数の内容パラメータのそれぞれを前処理することにより、複数の前処理後内容パラメータをそれぞれ含む複数の前処理後内容パラメータセットを生成する前処理工程をさらに含んでおり、
上記決定工程は、上記モデル生成装置が、（ｉ）上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内の、異なる２つの前処理後内容パラメータの組み合わせパターンのそれぞれについて、当該２つの前処理後内容パラメータ間の多重共線性評価値を算出するとともに、（ｉｉ）当該多重共線性評価値に基づき、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内から、削除対象となる削除対象前処理後内容パラメータを決定する工程をさらに含んでおり、
上記学習工程は、
上記モデル生成装置が、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後内容パラメータセットのそれぞれから上記削除対象前処理後内容パラメータを削除することによって得られた複数の剪定後前処理後内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する工程と、
上記モデル生成装置が、上記複数の剪定後前処理後内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択する工程と、
上記モデル生成装置が、上記複数種類の前処理手法の内、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する工程と、をさらに含んでおり、
上記複数種類の前処理手法のうちの１つは、ワンホットエンコーディングである、
モデル生成方法。