Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7783482B2 - Model generation device and model generation method - Google Patents
[go: Go Back, main page]

JP7783482B2 - Model generation device and model generation method - Google Patents

Model generation device and model generation method

Info

Publication number
JP7783482B2
JP7783482B2 JP2021197943A JP2021197943A JP7783482B2 JP 7783482 B2 JP7783482 B2 JP 7783482B2 JP 2021197943 A JP2021197943 A JP 2021197943A JP 2021197943 A JP2021197943 A JP 2021197943A JP 7783482 B2 JP7783482 B2 JP 7783482B2
Authority
JP
Japan
Prior art keywords
content
content parameter
preprocessing
learning
multicollinearity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021197943A
Other languages
Japanese (ja)
Other versions
JP2023083931A (en
Inventor
充 森本
輝巳 竹原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissin Electric Co Ltd
Original Assignee
Nissin Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissin Electric Co Ltd filed Critical Nissin Electric Co Ltd
Priority to JP2021197943A priority Critical patent/JP7783482B2/en
Publication of JP2023083931A publication Critical patent/JP2023083931A/en
Application granted granted Critical
Publication of JP7783482B2 publication Critical patent/JP7783482B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明の一態様は、図面検索を行うための学習モデルを生成するモデル生成装置に関する。 One aspect of the present invention relates to a model generation device that generates a learning model for performing drawing searches.

例えば、プラントエンジニアリング分野では、大量の図面(例:過去図面)の取り扱いが必要となる。このため、大量の図面の内から、所望の図面を効率的に検索するための技術が提案されている。 For example, in the field of plant engineering, it is necessary to handle large amounts of drawings (e.g., past drawings). For this reason, technology has been proposed to efficiently search for desired drawings from among a large number of drawings.

一例として、特許文献1には、図面検索におけるユーザの利便性を高めることを目的とした技術が開示されている。具体的には、特許文献1の技術では、機械学習を利用して、図面検索を行うための学習モデルが生成される。 As an example, Patent Document 1 discloses technology aimed at improving user convenience when searching for drawings. Specifically, the technology in Patent Document 1 uses machine learning to generate a learning model for performing drawing searches.

特開2021-12413号公報Japanese Patent Application Laid-Open No. 2021-12413

本発明の一態様は、図面検索を行うための学習モデルの品質を従来よりも向上させることを目的とする。 One aspect of the present invention aims to improve the quality of learning models for drawing searches compared to conventional methods.

上記の課題を解決するために、本発明の一態様に係るモデル生成装置は、複数の検索対象図面の内からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを生成するモデル生成装置であって、上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得部と、(i)上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる2つの内容パラメータの組み合わせパターンのそれぞれについて、当該2つの内容パラメータ間の多重共線性評価値を算出するとともに、(ii)当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定部と、上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習部と、を備えている。 To solve the above problem, one aspect of the present invention provides a model generation device that generates a learning model for searching for at least one drawing corresponding to a target drawing from among a plurality of search target drawings. The model generation device includes: an acquisition unit that analyzes the plurality of search target drawings to acquire a content parameter set including a plurality of content parameters related to the content described in each of the plurality of search target drawings; (i) a determination unit that calculates a multicollinearity evaluation value between two different content parameters from among the plurality of content parameters included in the content parameter set for each combination pattern of the two different content parameters, and (ii) determines a content parameter to be deleted from among the plurality of content parameters based on the multicollinearity evaluation value; and a learning unit that generates the learning model based on a pruned content parameter set obtained by deleting the content parameter to be deleted from the content parameter set.

また、本発明の一態様に係るモデル生成方法は、複数の検索対象図面の内からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを生成するモデル生成方法であって、上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得工程と、(i)上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる2つの内容パラメータの組み合わせパターンのそれぞれについて、当該2つの内容パラメータ間の多重共線性評価値を算出するとともに、(ii)当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定工程と、上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習工程と、を含んでいる。 A model generation method according to one aspect of the present invention is a model generation method for generating a learning model for searching for at least one drawing corresponding to a target drawing from among a plurality of search target drawings, and includes: an acquisition step of acquiring a content parameter set including a plurality of content parameters related to the content described in each of the plurality of search target drawings by analyzing the plurality of search target drawings; (i) a determination step of calculating a multicollinearity assessment value between two different content parameters from among the plurality of content parameters included in the content parameter set for each combination pattern of the two different content parameters, and (ii) a determination step of determining, from among the plurality of content parameters, content parameters to be deleted based on the multicollinearity assessment value; and a learning step of generating the learning model based on a pruned content parameter set obtained by deleting the content parameters to be deleted from the content parameter set.

本発明の一態様によれば、図面検索を行うための学習モデルの品質を従来よりも向上させることができる。 One aspect of the present invention makes it possible to improve the quality of learning models for drawing searches compared to conventional methods.

参考形態における情報処理システムの要部の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a main part of an information processing system according to a reference embodiment. 参考形態における過去物件・図面対応テーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a past property/drawing correspondence table in a reference form. 参考形態における過去図面内容パラメータテーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a past drawing content parameter table in the reference embodiment. 参考形態における、初期状態における内容パラメータ設定テーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a content parameter setting table in an initial state in the reference embodiment. 参考形態における、各データセットにおける前処理後内容パラメータ数の一例を示す図である。FIG. 10 is a diagram showing an example of the number of content parameters after preprocessing in each data set in the reference embodiment. 参考形態における、データセット1のデータ構造を模式的に例示する図である。FIG. 10 is a diagram illustrating a schematic example of the data structure of dataset 1 in the reference embodiment. 参考形態における、正規化用データ表および標準化用データ表の一例を示す図である。10A and 10B are diagrams showing examples of a normalization data table and a standardization data table in the reference embodiment. 参考形態における、データセット・前処理手法対応テーブルの一例を示す図である。FIG. 10 is a diagram illustrating an example of a dataset/preprocessing method correspondence table in the reference embodiment. 参考形態において、学習用前処理部によって生成された複数のデータセットの内の一部を例示する図である。FIG. 10 is a diagram illustrating some of a plurality of data sets generated by a learning preprocessing unit in the reference embodiment. 参考形態における、評価結果テーブルの一例を示す図である。FIG. 10 is a diagram showing an example of an evaluation result table in the reference embodiment. 参考形態における、更新後の内容パラメータ設定テーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a content parameter setting table after updating in the reference embodiment. 参考形態における、新規図面内容パラメータテーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a new drawing content parameter table in the reference embodiment. 参考形態における、前処理後新規図面内容パラメータテーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a post-preprocessing new drawing content parameter table in the reference embodiment. 参考形態における、複数の生値・ラベル値変換テーブルの内の一部を例示する図である。FIG. 10 is a diagram illustrating some of a plurality of raw value/label value conversion tables in a reference embodiment. 参考形態における、生値・ラベル値変換統合テーブルの一例を表す。10 illustrates an example of a raw value/label value conversion integrated table in a reference embodiment. 実施形態1における情報処理システムの要部の構成を示すブロック図である。1 is a block diagram showing a configuration of a main part of an information processing system according to a first embodiment. 実施形態1における、初期状態における決定係数・高リスク決定係数個数テーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a table of coefficients of determination and the number of high-risk coefficients of determination in the initial state in the first embodiment. 図17の決定係数・高リスク決定係数個数テーブルが更新されることによって得られた、決定係数・高リスク決定係数個数テーブルの一例を示す図である。FIG. 18 is a diagram showing an example of a coefficient of determination/high risk coefficient of determination number table obtained by updating the coefficient of determination/high risk coefficient of determination number table of FIG. 17. 図18の決定係数・高リスク決定係数個数テーブルが更新されることによって得られた、決定係数・高リスク決定係数個数テーブルの一例を示す図である。FIG. 19 is a diagram showing an example of a coefficient of determination/high risk coefficient of determination number table obtained by updating the coefficient of determination/high risk coefficient of determination number table of FIG. 18. 更新の繰り返しの結果として得られた、最終的な決定係数・高リスク決定係数個数テーブルの一例を示す図である。FIG. 10 is a diagram showing an example of a final determination coefficient/high risk determination coefficient number table obtained as a result of repeated updates. 図20の決定係数・高リスク決定係数個数テーブルに対応する、剪定後データセット1の一例を示す図である。FIG. 21 is a diagram showing an example of a pruned dataset 1 corresponding to the table of coefficients of determination and the number of high-risk coefficients of determination in FIG. 20. 実施形態2における情報処理システムの要部の構成を示すブロック図である。FIG. 10 is a block diagram showing the configuration of a main part of an information processing system according to a second embodiment.

〔参考形態〕
実施形態1の情報処理システム100の説明に先立ち、参考形態としての情報処理システム100sについて述べる。説明の便宜上、参考形態にて説明した構成要素(コンポーネント)と同じ機能を有する構成要素については、以降の各実施形態では、同じ符号を付記し、その説明を繰り返さない。また、簡潔化のため、公知技術と同様の事項についても、説明を適宜省略する。
[Reference form]
Prior to describing the information processing system 100 of the first embodiment, an information processing system 100s will be described as a reference embodiment. For convenience of explanation, components having the same functions as those described in the reference embodiment will be denoted by the same reference numerals in the following embodiments, and their descriptions will not be repeated. For simplicity, descriptions of matters similar to those in known technologies will also be omitted as appropriate.

本明細書において以下に述べる各数値は、単なる一例であることに留意されたい。本明細書では、2つの数AおよびBについての「A~B」という記載は、特に明示されない限り、「A以上かつB以下」を意味するものとする。 Please note that the numerical values described below in this specification are merely examples. In this specification, the expression "A to B" for two numbers A and B means "greater than or equal to A and less than or equal to B" unless otherwise specified.

(情報処理システム100sの概要)
図1は、情報処理システム100sの要部の構成を示すブロック図である。情報処理システム100sは、情報処理装置1s、過去物件図面DB(Database)91、および新規物件図面DB92を備える。
(Overview of information processing system 100s)
1 is a block diagram showing the configuration of a main part of an information processing system 100s. The information processing system 100s includes an information processing device 1s, a previous property plan DB (Database) 91, and a new property plan DB 92.

情報処理装置1sは、制御装置10s、入力部71、表示部72、および記憶部80を備える。制御装置10sは、学習装置11sおよび図面検索装置12を備える。本明細書の「物件」とは、例えば、プラントエンジニアリングにおける「サイト」を意味する。 The information processing device 1s includes a control device 10s, an input unit 71, a display unit 72, and a memory unit 80. The control device 10s includes a learning device 11s and a drawing search device 12. In this specification, "property" refers to, for example, a "site" in plant engineering.

情報処理装置1sは、過去物件図面DB91および新規物件図面DB92と通信可能に接続されていればよい。このため、図1の例とは異なり、情報処理装置1sの内部に、過去物件図面DB91および新規物件図面DB92の少なくとも一方が設けられていてもよい。 The information processing device 1s only needs to be communicatively connected to the past property plan DB 91 and the new property plan DB 92. Therefore, unlike the example in Figure 1, at least one of the past property plan DB 91 and the new property plan DB 92 may be provided inside the information processing device 1s.

情報処理装置1s(より具体的には、制御装置10s)による検索対象となる図面(検索対象図面)には、例えば、仕様図面、設計図面、および製作図面が含まれる。また、検索対象図面には、仕様書、設計書、および、見積書が含まれていてもよい。このように、検索対象図面は、「図面」という名称が含まれている書面に限定されない。一例として、検索対象図面には、プラントエンジニアリング分野におけるプロジェクトの計画に関する任意の種類の書面が含まれる。 Drawings to be searched for by the information processing device 1s (more specifically, the control device 10s) (search target drawings) include, for example, specification drawings, design drawings, and production drawings. Search target drawings may also include specifications, design documents, and estimates. In this way, search target drawings are not limited to documents containing the word "drawing." As an example, search target drawings include any type of document related to project plans in the plant engineering field.

但し、当業者であれば明らかである通り、本発明の一態様に係る情報処理装置は、プラントエンジニアリング以外の分野における図面の検索についても適用可能である。本発明の一態様に係る図面は、上記情報処理装置によって内容パラメータを取得することが可能な図面であればよい。 However, as will be clear to those skilled in the art, the information processing device according to one aspect of the present invention can also be applied to searching for drawings in fields other than plant engineering. Drawings according to one aspect of the present invention may be drawings from which content parameters can be obtained using the information processing device.

制御装置10sは、情報処理装置1sの各部を統括的に制御する。記憶部80は、制御装置10sの処理に用いられる各種のデータおよびプログラムを格納する。以下に述べるように、制御装置10sは、機械学習を利用して、複数の検索対象図面(例:過去図面a1~MN)から、ターゲット図面(例:図面ND)に対応する少なくとも1つの図面を検索する。 The control device 10s controls all components of the information processing device 1s. The memory unit 80 stores various data and programs used in the processing of the control device 10s. As described below, the control device 10s uses machine learning to search for at least one drawing corresponding to the target drawing (e.g., drawing ND) from multiple search target drawings (e.g., past drawings a1 to MN).

入力部71は、ユーザの操作(ユーザ操作)を受け付ける。表示部72は、各種のデータを表示する。一例として、表示部72には、制御装置10sによる検索結果を示すデータが表示されてよい。なお、入力部71と表示部72とは、一体として設けられてもよい。例えば、タッチパネルを用いることにより、入力部71と表示部72とを一体化できる。 The input unit 71 accepts user operations (user operations). The display unit 72 displays various data. As an example, the display unit 72 may display data indicating the search results of the control device 10s. The input unit 71 and display unit 72 may be provided as an integrated unit. For example, the input unit 71 and display unit 72 can be integrated by using a touch panel.

(過去物件図面DB91)
過去物件図面DB91には、過去の各物件(既設の各物件)に関する各図面(厳密には、図面データ)が格納されている。以下の説明では、「図面A(ある図面)の図面データ」を、単に「図面A」と適宜略称する。また、「図面Aの図面番号」を、単に「図面A」と適宜略称する。
(Past property drawings DB91)
The past property drawing DB 91 stores drawings (strictly speaking, drawing data) for each past property (each existing property). In the following explanation, "drawing data of drawing A (a certain drawing)" will be abbreviated as simply "drawing A" as appropriate. Also, "drawing number of drawing A" will be abbreviated as simply "drawing A" as appropriate.

参考形態では、過去物件図面DB91には、複数のM個の異なる物件のそれぞれについての各図面が格納されている。Mは、1以上の整数である。以下、j番目の物件を、「物件j」とも称する。jは、1以上かつM以下の整数である。 In the reference embodiment, the past property drawing DB91 stores drawings for each of a number M of different properties. M is an integer greater than or equal to 1. Hereinafter, the jth property will also be referred to as "property j." j is an integer greater than or equal to 1 and less than or equal to M.

また、過去物件図面DB91には、物件1~Mのそれぞれについて、N個(N種類)の異なる図面が格納されている。Nは、1以上の整数である。以下、物件jにおけるi番目の図面を、「図面(i,j)」とも称する。また、各物件におけるi番目(i種類目)の図面を、総称的に図面iとも称する。iは、1以上かつN以下の整数である。 In addition, the past property drawing DB91 stores N different drawings (N types) for each of properties 1 to M. N is an integer greater than or equal to 1. Hereinafter, the i-th drawing for property j will also be referred to as "drawing (i, j)." Furthermore, the i-th drawing (i-th type) for each property will also be collectively referred to as drawing i. i is an integer greater than or equal to 1 and less than or equal to N.

以上のように、過去物件図面DB91には、合計でT個の図面が格納されている。参考形態の例では、T=M×Nである。Tは、2以上の整数であるものとする。つまり、MおよびNの少なくとも1つは、1以上であるものとする。 As described above, a total of T drawings are stored in the past property drawing DB91. In the reference example, T = M x N. T is an integer greater than or equal to 2. In other words, at least one of M and N is greater than or equal to 1.

具体的には、過去物件図面DB91では、特許文献1と同様に、図2に示す過去物件・図面対応テーブルTB1の形態で、各種類の図面番号が物件番号毎にリスト化されている。以下、過去物件・図面対応テーブルTB1を、「TB1」とも略記する。その他の要素についても、適宜同様に略記する。TB1のi行j列目のセルは、図面(i,j)の図面番号を示す。 Specifically, in the past property drawing DB91, similar to Patent Document 1, each type of drawing number is listed by property number in the form of the past property/drawing correspondence table TB1 shown in Figure 2. Hereinafter, the past property/drawing correspondence table TB1 will also be abbreviated as "TB1." Other elements will also be abbreviated in the same way as appropriate. The cell in the i-th row and j-th column of TB1 indicates the drawing number of drawing (i, j).

図2の例では、便宜上、物件1~3をそれぞれ、物件A~Cとも表記する。図2の例では、1種類目の図面(図面1)は外形図であり、2種類目の図面(図面2)は組立図であり、3種類目の図面(図面3)は基礎図である。また、N種類目の図面(図面N)は構成図である。 In the example of Figure 2, for convenience, properties 1 to 3 are also referred to as properties A to C, respectively. In the example of Figure 2, the first type of drawing (Drawing 1) is an outline drawing, the second type of drawing (Drawing 2) is an assembly drawing, and the third type of drawing (Drawing 3) is a foundation drawing. Furthermore, the Nth type of drawing (Drawing N) is a configuration drawing.

以下では、簡単のため、図2の例における図面(1,1)~(N,1)(すなわち、物件AにおけるN種類のそれぞれの図面)を、図面a1~aNとも表記する。例えば、図2の例における図面a1~aNはそれぞれ、物件Aの外形図~構成図を指す。その他の物件における各図面についても、同様に表記する。 For simplicity's sake, drawings (1,1) to (N,1) in the example of Figure 2 (i.e., each of the N types of drawings for Property A) will also be referred to as drawings a1 to aN. For example, drawings a1 to aN in the example of Figure 2 refer to the outline drawing to the configuration drawing of Property A, respectively. The same notation will be used for each drawing for other properties.

以上のように、過去物件図面DB91には、図面a1から図面MNまでの、合計T個の図面が格納されている。以下、図面a1~MNを総称的に、過去図面とも称する。過去図面は、検索対象図面の一例である。このため、図面a1~MNは、検索対象図面群とも称される。 As described above, the past property drawing DB91 stores a total of T drawings, from drawing a1 to drawing MN. Hereinafter, drawings a1 to MN will be collectively referred to as past drawings. Past drawings are an example of drawings to be searched. For this reason, drawings a1 to MN will also be referred to as a group of drawings to be searched.

また、本明細書では、複数の過去図面(検索対象図面)のうちの任意の1つの図面を、候補図面とも称する。一例として、図面a1(物件Aの外形図)を候補図面とした場合の、各処理について主に例示する。その他の図面に対する処理については、適宜説明を省略するが、図面a1の場合と同様である。 In addition, in this specification, any one drawing from multiple past drawings (drawings to be searched) is also referred to as a candidate drawing. As an example, we will mainly illustrate the processes when drawing a1 (exterior drawing of property A) is the candidate drawing. Explanations of the processes for other drawings will be omitted where appropriate, but they are the same as those for drawing a1.

(新規物件図面DB92)
新規物件図面DB92には、新規物件(例:これから建設が行われる予定である、少なくとも1つの物件)に関する各図面(以下、総称的に新規図面とも称する)が、新規物件データセットとして格納されている。本明細書では、新規物件データセットに含まれる1つの新規物件(物件T)について述べる。
(New property drawing DB92)
The new property drawing DB 92 stores drawings (hereinafter collectively referred to as new drawings) relating to new properties (e.g., at least one property that is scheduled to be constructed) as a new property data set. In this specification, one new property (property T) included in the new property data set will be described.

一例として、新規物件図面DB92には、物件Tについて、過去物件と同種類のN個の異なる図面(外形図~構成図)が格納されている。本明細書では、物件Tの外形図を、新規図面の一例として例示する。以下、物件Tの外形図を、図面NDと称する。参考形態における図面NDは、特許文献1と同様であるものとする。 As an example, the new property drawing DB92 stores N different drawings (outline drawings to configuration drawings) of the same type for property T as for previous properties. In this specification, the outline drawing for property T is used as an example of a new drawing. Hereinafter, the outline drawing for property T will be referred to as drawing ND. Drawing ND in the reference form is assumed to be the same as in Patent Document 1.

(学習装置11s)
学習装置11sは、過去図面データ取得部111、過去図面内容パラメータ取得部112(候補図面内容パラメータ取得部,検索対象図面内容パラメータ取得部,取得部)、学習用前処理部114(前処理部)、および学習モデル生成部113sを備える。学習装置11sは、図面a1~MNに基づき、図面検索装置12sによる図面検索のための学習モデルを生成する。このことから、学習装置11sは、モデル生成装置と称されてもよい。以下、学習装置11sの処理の流れの一例について述べる。
(Learning device 11s)
The learning device 11s includes a past drawing data acquisition unit 111, a past drawing content parameter acquisition unit 112 (candidate drawing content parameter acquisition unit, search target drawing content parameter acquisition unit, acquisition unit), a learning preprocessing unit 114 (preprocessing unit), and a learning model generation unit 113s. Based on the drawings a1 to MN, the learning device 11s generates a learning model for drawing search by the drawing search device 12s. For this reason, the learning device 11s may be referred to as a model generation device. An example of the processing flow of the learning device 11s is described below.

(候補図面の取得)
過去物件図面DB91では、TB1に従って、図面a1~MNが、図面種類別に予めソートされている。従って、例えば、過去図面データ取得部111は、「図面a1→b1→…→M1」の順に、各外形図を過去物件図面DB91から取得する。続いて、過去図面データ取得部111は、「図面a2→b2→…→M2」の順に、各組立図を過去物件図面DB91から取得する。そして、最終的には、過去図面データ取得部111は、「図面aN→bN→…→MN」の順に、各構成図を過去物件図面DB91から取得する。参考形態におけるこれらの図面a1~MNは、特許文献1と同様であるものとする。
(Acquisition of candidate drawings)
In the past property drawing DB91, drawings a1 to MN are pre-sorted by drawing type according to TB1. Therefore, for example, the past drawing data acquisition unit 111 acquires each exterior drawing from the past property drawing DB91 in the order of "drawing a1 → b1 → ... → M1." Next, the past drawing data acquisition unit 111 acquires each assembly drawing from the past property drawing DB91 in the order of "drawing a2 → b2 → ... → M2." Finally, the past drawing data acquisition unit 111 acquires each configuration drawing from the past property drawing DB91 in the order of "drawing aN → bN → ... → MN." These drawings a1 to MN in the reference embodiment are assumed to be the same as those in Patent Document 1.

上記の例の場合、過去図面データ取得部111は、はじめにTB1の1行1列目のセルを参照する。そして、過去図面データ取得部111は、上記セルに対応する図面(1,1)、すなわち図面a1を、過去物件図面DB91から取得する。過去図面データ取得部111は、取得した図面a1を、過去図面内容パラメータ取得部112に供給する。 In the above example, the past drawing data acquisition unit 111 first references the cell in row 1, column 1 of TB1. Then, the past drawing data acquisition unit 111 acquires the drawing (1,1) corresponding to the above cell, i.e., drawing a1, from the past property drawing DB 91. The past drawing data acquisition unit 111 supplies the acquired drawing a1 to the past drawing content parameter acquisition unit 112.

(候補図面に対応する内容パラメータセットの取得)
過去図面内容パラメータ取得部112は、特許文献1と同様にして、図面a1を解析することにより(より詳細には、OCR処理後の図面a1に対して、以下に述べる第k特定文字列に着目した構文解析を行うことにより)、当該図面a1に対応する内容パラメータセットを取得する。内容パラメータセットは、第k特定文字列に対応付けられた第k内容パラメータ(以下、Ak)を示すデータセットである。また、第1~第L内容パラメータを総称的に、内容パラメータとも称する。
(Obtaining content parameter sets corresponding to candidate drawings)
The previous drawing content parameter acquisition unit 112 acquires a content parameter set corresponding to the drawing a1 by analyzing the drawing a1 (more specifically, by performing a syntax analysis on the OCR-processed drawing a1, focusing on the k-th specific character string described below), in the same manner as in Patent Document 1. The content parameter set is a data set indicating the k-th content parameter (hereinafter, Ak) associated with the k-th specific character string. The first to L-th content parameters are also collectively referred to as content parameters.

本明細書では、各図面について予め設定された特定の文字列(ストリング)を、特定文字列と称する。参考形態では、L個(Lは2以上の整数)の異なる第k特定文字列が、予め設定されているものとする。以下では、k番目の特定文字列を、第k特定文字列と称する。kは、1以上かつL以下の整数である。以下の説明では、第1特定文字列が「電圧値」、第2特定文字列が「電流値」、第3特定文字列が「OR」、第L特定文字列が「開」として設定されている場合について、例示する。 In this specification, a specific character string (string) that is preset for each drawing is referred to as a specific character string. In the reference embodiment, it is assumed that L (L is an integer greater than or equal to 2) different kth specific character strings are preset. In the following, the kth specific character string is referred to as the kth specific character string. k is an integer greater than or equal to 1 and less than or equal to L. In the following explanation, an example is given in which the first specific character string is set to "voltage value," the second specific character string is set to "current value," the third specific character string is set to "OR," and the Lth specific character string is set to "open."

内容パラメータは、図面の記載内容(具体的には、特定文字列に係る記載内容)に関連付けられた量である。従って、内容パラメータは、当該記載内容を数値化(定量化)したデータの1つであると言える。このため、内容パラメータは、図面の記載内容を示す指標として用いられる。 Content parameters are quantities associated with the content of a drawing (specifically, the content of a specific character string). Therefore, content parameters can be considered to be a type of data that quantifies (quantifies) the content of the drawing. For this reason, content parameters are used as indicators of the content of a drawing.

なお、後述するターゲット図面内容パラメータとの区別のため、検索対象図面(過去図面)の内容パラメータを、検索対象図面内容パラメータとも称する。また、検索対象図面の第k内容パラメータを、検索対象図面第k内容パラメータとも称する。但し、以下の説明では、特に明示されない限り、内容パラメータは、過去図面内容パラメータを指すものとする。同様に、特に明示されない限り、内容パラメータセットは、過去図面内容パラメータセットを指すものとする。 In order to distinguish them from the target drawing content parameters described below, the content parameters of the search target drawing (past drawing) are also referred to as search target drawing content parameters. Furthermore, the kth content parameter of the search target drawing is also referred to as the kth content parameter of the search target drawing. However, in the following explanation, unless otherwise specified, content parameters refer to past drawing content parameters. Similarly, unless otherwise specified, content parameter set refers to past drawing content parameter set.

本明細書では、図面(i,j)のAkを、Ak(i,j)とも表記する。上述の通り、過去図面内容パラメータ取得部112は、図面(i,j)に対する解析結果(より具体的には、図面(i,j)における特定文字列の検出結果)に基づき、Ak(i,j)を設定する。 In this specification, Ak of drawing (i, j) is also referred to as Ak(i, j). As described above, the past drawing content parameter acquisition unit 112 sets Ak(i, j) based on the analysis results for drawing (i, j) (more specifically, the detection results of specific character strings in drawing (i, j)).

以上のように、過去図面内容パラメータ取得部112は、図面a1について、A1~ALを設定する。以上のように、過去図面内容パラメータ取得部112は、候補図面を解析することにより、当該候補図面の内容パラメータを取得する。このことから、過去図面内容パラメータ取得部112は、候補図面内容パラメータ取得部とも呼称される。 As described above, the past drawing content parameter acquisition unit 112 sets A1 to AL for drawing a1. As described above, the past drawing content parameter acquisition unit 112 acquires the content parameters of the candidate drawing by analyzing the candidate drawing. For this reason, the past drawing content parameter acquisition unit 112 is also referred to as the candidate drawing content parameter acquisition unit.

また、過去図面内容パラメータ取得部112は、その他の過去図面についても、同様の処理を行う。すなわち、過去図面内容パラメータ取得部112は、図面a1~MNのそれぞれに対し、A1~ALを設定する。 The past drawing content parameter acquisition unit 112 also performs similar processing for other past drawings. That is, the past drawing content parameter acquisition unit 112 sets A1 to AL for each of drawings a1 to MN.

その後、過去図面内容パラメータ取得部112は、図面a1~MNのそれぞれのA1~AL、すなわち、A1(1,1)~AL(M,N)、を示す過去図面内容パラメータテーブルTB2を生成する。 Then, the past drawing content parameter acquisition unit 112 generates a past drawing content parameter table TB2 that indicates A1 to AL of each of drawings a1 to MN, i.e., A1(1,1) to AL(M,N).

TB2には、過去図面内容パラメータテーブル内第iサブテーブルTB2-iが含まれている。図3には、一例として、TB2-1が示されている。TB2-iは、図面iのそれぞれのA1~ALを示すテーブルである。TB2-1には、図面a1~M1(物件A~Mの外形図)のそれぞれのA1~ALが示されている。TB2は、TB2-1~TB2-Nという、N個のサブテーブルのセットによって構成されている。このように、参考形態では、図面種別ごとにサブテーブルが作成される。参考形態におけるこれらのサブテーブルは、特許文献1と同様であるものとする。 TB2 contains the i-th sub-table TB2-i in the past drawing content parameter table. Figure 3 shows TB2-1 as an example. TB2-i is a table showing A1 to AL for each of drawing i. TB2-1 shows A1 to AL for each of drawings a1 to M1 (exterior drawings of properties A to M). TB2 is made up of a set of N sub-tables, TB2-1 to TB2-N. In this way, in the reference embodiment, a sub-table is created for each drawing type. These sub-tables in the reference embodiment are assumed to be the same as those in Patent Document 1.

TB2には、複数の過去図面のそれぞれ(例:図面a1)の番号(識別子の一例)と、当該複数の過去図面のそれぞれのA1~ALとの対応関係が示されている。そこで、学習モデル生成部113sは、TB2を教師データとして取得する。一例として、学習モデル生成部113sは、当該教師データを用いた多項ロジスティック回帰を行うことにより、学習モデルを生成してよい。但し、後述の説明からも明らかである通り、本発明の一態様に係る機械学習アルゴリズムは、この例に限定されず、公知のその他のアルゴリズムが適用されてよい。なお、機械学習における正解データとしては、TB2において示されている各過去図面の番号(識別子)が用いられる。 TB2 shows the number (an example of an identifier) of each of multiple past drawings (e.g., drawing a1) and the correspondence between A1 to AL of each of the multiple past drawings. The learning model generation unit 113s then acquires TB2 as training data. As an example, the learning model generation unit 113s may generate a learning model by performing multinomial logistic regression using the training data. However, as will be clear from the explanation below, the machine learning algorithm according to one aspect of the present invention is not limited to this example, and other well-known algorithms may be applied. Note that the numbers (identifiers) of each past drawing shown in TB2 are used as correct answer data in machine learning.

参考形態では、過去図面内容パラメータ取得部112は、第k内容パラメータを取得するとともに、当該第k内容パラメータの変数種類を示す情報(第k内容パラメータ変数種類情報)をさらに取得する。第k内容パラメータ変数種類情報とは、第k内容パラメータの変数種類(データ種類)を示す情報である。具体的には、第k内容パラメータ変数種類情報とは、第k内容パラメータが質的変数(以下、VLと表記)または量的変数(以下、VNと表記)のいずれであるかを示す情報である。以下、第1~第k内容パラメータ変数種類情報を総称的に、内容パラメータ変数種類情報と称する。 In the reference embodiment, the past drawing content parameter acquisition unit 112 acquires the kth content parameter and also acquires information indicating the variable type of the kth content parameter (kth content parameter variable type information). The kth content parameter variable type information is information indicating the variable type (data type) of the kth content parameter. Specifically, the kth content parameter variable type information is information indicating whether the kth content parameter is a qualitative variable (hereinafter referred to as VL) or a quantitative variable (hereinafter referred to as VN). Hereinafter, the first to kth content parameter variable type information will be collectively referred to as content parameter variable type information.

一例として、過去図面内容パラメータ取得部112は、上述の構文解析の結果に基づいて、内容パラメータ変数種類情報を取得してよい。例えば、上述の通り、過去図面内容パラメータ取得部112は、構文解析の結果、第1特定文字列「電圧値」に後続する文字列「90V」に含まれる数値「90」が、電圧値の大きさであると判定する。この場合、過去図面内容パラメータ取得部112は、第1内容パラメータはVNであると判定する。同様に、過去図面内容パラメータ取得部112は、第2内容パラメータはVNであると判定する。 As an example, the past drawing content parameter acquisition unit 112 may acquire content parameter variable type information based on the results of the above-mentioned syntax analysis. For example, as described above, the past drawing content parameter acquisition unit 112 determines, as a result of syntax analysis, that the number "90" contained in the character string "90V" following the first specific character string "voltage value" represents the magnitude of the voltage value. In this case, the past drawing content parameter acquisition unit 112 determines that the first content parameter is VN. Similarly, the past drawing content parameter acquisition unit 112 determines that the second content parameter is VN.

また、過去図面内容パラメータ取得部112は、構文解析の結果、第3特定文字列「OR」は、量的変数に対応する文字が後続していない旨を判定する。この場合、過去図面内容パラメータ取得部112は、第3内容パラメータはVLであると判定する。同様に、過去図面内容パラメータ取得部112は、第L内容パラメータはVLであると判定する。 Furthermore, as a result of the syntax analysis, the past drawing content parameter acquisition unit 112 determines that the third specific character string "OR" is not followed by a character corresponding to a quantitative variable. In this case, the past drawing content parameter acquisition unit 112 determines that the third content parameter is VL. Similarly, the past drawing content parameter acquisition unit 112 determines that the Lth content parameter is VL.

(学習用前処理部114における処理の一例)
学習用前処理部114は、過去図面内容パラメータ取得部112から、図面a1~MNに対応する内容パラメータセット(図面a1~MNのそれぞれの第1~第L内容パラメータ)、および、内容パラメータ変数種類情報を取得する。そして、学習用前処理部114は、取得した内容パラメータ変数種類情報に応じて、内容パラメータ設定テーブルTB3を生成する。
(Example of processing in the learning preprocessing unit 114)
The learning preprocessing unit 114 acquires content parameter sets corresponding to the drawings a1 to MN (the first to Lth content parameters of each of the drawings a1 to MN) and content parameter variable type information from the past drawing content parameter acquisition unit 112. Then, the learning preprocessing unit 114 generates a content parameter setting table TB3 according to the acquired content parameter variable type information.

以下の説明では、図面a1~M1(外形図)の内容パラメータセット(図面a1~M1のそれぞれの第1~第L内容パラメータ)に基づく各処理について主に述べる。従って、以下に述べる各図におけるテーブルおよびデータは、外形図の内容パラメータセットに基づいて生成されている。これらのテーブルおよびデータは、図2に示されるその他の種類の図面(例:組立図、基礎図、および構成図)についても、外形図に関する以下の説明と同様の処理の流れによって生成されることに留意されたい。このように、参考形態では、これらのテーブルおよびデータは、図2に示されている図面の種類毎に生成される。 The following explanation mainly focuses on the processes based on the content parameter sets (the first to Lth content parameters of drawings a1 to M1, respectively) for drawings a1 to M1 (outline drawings). Therefore, the tables and data for each drawing described below are generated based on the content parameter sets for the outline drawings. Please note that these tables and data are also generated for other types of drawings shown in Figure 2 (e.g., assembly drawings, foundation drawings, and configuration drawings) using a process similar to that described below for outline drawings. Thus, in the reference embodiment, these tables and data are generated for each type of drawing shown in Figure 2.

図4には、初期状態におけるTB3の一例が示されている。図4に示す通り、TB3は、(i)第1~第L内容パラメータのそれぞれの変数種類(データ種類)と、(ii)当該第1~第L内容パラメータのそれぞれに適用すべき前処理手法と、の対応関係を示す表である。学習用前処理部114は、取得した内容パラメータ変数種類情報を、TB3の「変数」の項目に記録する。なお、第1~第L内容パラメータのそれぞれに適用すべき前処理手法は、現段階では未決定である。このため、初期状態のTB3では、「前処理手法」の項目は全てブランク項目として設定されている。本明細書では、初期状態のTB3を、TB3initと称する。 Figure 4 shows an example of TB3 in its initial state. As shown in Figure 4, TB3 is a table showing the correspondence between (i) the variable type (data type) of each of the first through Lth content parameters and (ii) the preprocessing method to be applied to each of the first through Lth content parameters. The learning preprocessing unit 114 records the acquired content parameter variable type information in the "Variable" field of TB3. Note that the preprocessing method to be applied to each of the first through Lth content parameters has not yet been determined at this stage. For this reason, in the initial state of TB3, all of the "Preprocessing Method" fields are set to blank. In this specification, TB3 in its initial state is referred to as TB3init.

続いて、学習用前処理部114は、第k内容パラメータ変数種類情報に応じて、第k内容パラメータに複数種類の前処理手法を適用する。具体的には、参考形態では、学習用前処理部114は、第k内容パラメータがVLである場合には、第kパラメータに対し、以下の(i)~(iv)、
(i)生値(Raw値)をそのまま用いる処理(恒等処理)(以下、[R]と表記);
(ii)ワンホットエンコーディング(One hot Encoding)(以下、[O]と表記)

(iii)正規化(Normalization)(以下、[N]と表記);
(iiii)標準化(Standardization)(以下、[S]と表記);
という4種類の前処理手法を適用する。
Next, the learning preprocessing unit 114 applies a plurality of types of preprocessing methods to the k-th content parameter according to the k-th content parameter variable type information. Specifically, in the reference embodiment, when the k-th content parameter is VL, the learning preprocessing unit 114 applies the following (i) to (iv) to the k-th parameter:
(i) Processing using raw values as they are (identity processing) (hereinafter referred to as [R]);
(ii) One hot encoding (hereinafter referred to as [O])
;
(iii) Normalization (hereinafter referred to as [N]);
(iii) Standardization (hereinafter referred to as [S]);
Four types of preprocessing methods are applied:

なお、第k内容パラメータがVLである場合には、当該第k内容パラメータは、第k特定文字列が過去図面内容パラメータ取得部112によってラベルエンコーディング(Label Encoding)(以下、[L]と表記)されることによって導出された値であると理解することもできる。このため、第k内容パラメータがVLである場合には、[R]は[L]に読み替えることができる。このように、第k内容パラメータがVLである場合には、[R]と[L]とは、等価な前処理手法である。なお、前処理手法[L]の一例については、後述する。 When the kth content parameter is VL, the kth content parameter can also be understood as a value derived by label encoding (hereinafter referred to as [L]) of the kth specific character string by the past drawing content parameter acquisition unit 112. Therefore, when the kth content parameter is VL, [R] can be read as [L]. In this way, when the kth content parameter is VL, [R] and [L] are equivalent preprocessing methods. An example of the preprocessing method [L] will be described later.

他方、学習用前処理部114は、第k内容パラメータがVNである場合には、第kパラメータに対し、以下の(i)~(v)、
(i)[R];
(ii)[L];
(iii)[O];
(iv)[N];
(v)[S];
という5種類の前処理手法を適用する。但し、当業者であれば明らかである通り、本発明の一態様に係る前処理手法は、これらの例に限定されない。本発明の一態様に係る前処理手法は、VLまたはVNに適用可能な任意の前処理手法であってよい。
On the other hand, when the k-th content parameter is VN, the learning preprocessing unit 114 performs the following (i) to (v) on the k-th parameter:
(i) [R];
(ii) [L];
(iii) [O];
(iv) [N];
(v) [S];
However, as will be apparent to those skilled in the art, the preprocessing technique according to one embodiment of the present invention is not limited to these examples. The preprocessing technique according to one embodiment of the present invention may be any preprocessing technique applicable to VL or VN.

以上の通り、学習用前処理部114は、内容パラメータセットに含まれる各内容パラメータに対し、第k内容パラメータ変数種類情報に応じた複数種類の前処理手法を適用することにより、当該内容パラメータセットを拡張(水増し)(data augmentation)する。以下、内容パラメータセットに含まれているVLおよびVNの個数を、FLおよびFNとそれぞれ表記する。 As described above, the learning preprocessing unit 114 expands (data augmentes) the content parameter set by applying multiple preprocessing methods to each content parameter included in the content parameter set according to the kth content parameter variable type information. Hereinafter, the number of VLs and VNs included in the content parameter set will be referred to as FL and FN, respectively.

上記の説明から明らかである通り、参考形態の例では、内容パラメータセットに対する前処理のパターンの組み合わせの総数は、4FL×5FN通りである。従って、学習用前処理部114は、1つの内容パラメータセットを、4FL×5FN個の内容パラメータセットへと拡張する。以下、当該4FL×5FN個の内容パラメータセットを、総称的に拡張後内容パラメータセットと称する。そして、当該4FL×5FN個の内容パラメータセットのそれぞれを、データセット1、データセット2、…、データセット4FL×5FNと称する。拡張後内容パラメータセットは、前処理後内容パラメータセットと称されてもよい。なお、例えば、データセット1は、データセットNo.1と称されてもよい。 As is clear from the above description, in the example of the reference embodiment, the total number of combinations of preprocessing patterns for the content parameter set is 4 FL × 5 FN . Therefore, the learning preprocessing unit 114 expands one content parameter set into 4 FL × 5 FN content parameter sets. Hereinafter, these 4 FL × 5 FN content parameter sets will be collectively referred to as expanded content parameter sets. Each of these 4 FL × 5 FN content parameter sets will be referred to as Dataset 1, Dataset 2, ..., Dataset 4 FL × 5 FN . The expanded content parameter sets may also be referred to as preprocessed content parameter sets. Note that, for example, Dataset 1 may also be referred to as Dataset No. 1.

なお、過去図面内容パラメータセットは、検索対象図面内容パラメータセットと称されてもよい。従って、拡張後内容パラメータセットは、過去図面拡張後内容パラメータセット(あるいは、検索対象図面拡張後内容パラメータセット)と称されてもよい。同様に、前処理後内容パラメータセットは、前処理後過去図面内容パラメータセット(あるいは、前処理後検索対象図面内容パラメータセット)と称されてもよい。なお、前処理後内容パラメータセットに含まれる各データは、前処理後内容パラメータ(より詳細には、前処理後検索対象図面内容パラメータ)と称されてもよい。 The past drawing content parameter set may also be referred to as the search target drawing content parameter set. Therefore, the expanded content parameter set may also be referred to as the past drawing expanded content parameter set (or the search target drawing expanded content parameter set). Similarly, the pre-processed content parameter set may also be referred to as the pre-processed past drawing content parameter set (or the pre-processed search target drawing content parameter set). Each piece of data included in the pre-processed content parameter set may also be referred to as a pre-processed content parameter (more specifically, a pre-processed search target drawing content parameter).

図5には、各データセットにおける前処理後内容パラメータの数(以下、前処理後内容パラメータ数と称する)の一例が示されている。1つのデータセット(例:データセット1)における前処理後内容パラメータ数は、同データセットに含まれるデータの数とも表現できる。従って、例えば、データセット1における前処理後内容パラメータ数は、データセット1の次元数(要素数)と称されてもよい。以下では、前処理後の第k内容パラメータを、前処理後第k内容パラメータと称する。 Figure 5 shows an example of the number of post-preprocessing content parameters in each dataset (hereinafter referred to as the number of post-preprocessing content parameters). The number of post-preprocessing content parameters in one dataset (e.g., dataset 1) can also be expressed as the number of data contained in that dataset. Therefore, for example, the number of post-preprocessing content parameters in dataset 1 may be referred to as the number of dimensions (number of elements) of dataset 1. Below, the kth content parameter after preprocessing will be referred to as the kth post-preprocessing content parameter.

以下に述べる図6からも明らかである通り、前処理後内容パラメータ数は、内容パラメータセットに含まれる各内容パラメータに対して適用される前処理手法に応じて変化しうる。例えば、より多くの内容パラメータに対して[O]が適用されるほど、前処理後内容パラメータ数が増加する傾向がある(後述の図8も参照)。 As is clear from Figure 6 below, the number of preprocessed content parameters can vary depending on the preprocessing method applied to each content parameter included in the content parameter set. For example, the more content parameters to which [O] is applied, the more likely the number of preprocessed content parameters will increase (see also Figure 8 below).

図6は、データセット1のデータ構造を模式的に例示する図である。図6の例におけるデータセット1は、(i)第1内容パラメータに対して[S]が、(ii)第2内容パラメータに対して[S]が、(iii)第3内容パラメータに対して[O]が、(iv)第L内容パラメータに対して[L]が、それぞれ施されることにより、生成されたデータ構造(例:データフレーム)である(後述の図8も参照)。 Figure 6 is a diagram that schematically illustrates the data structure of Dataset 1. In the example of Figure 6, Dataset 1 is a data structure (e.g., a data frame) generated by applying [S] to (i) the first content parameter, (ii) [S] to the second content parameter, (iii) [O] to the third content parameter, and (iv) [L] to the Lth content parameter (see also Figure 8, described below).

図6の例では、第3内容パラメータ(第3特定文字列「OR」に対応する内容パラメータ)がワンホットエンコーディングされることにより、「OR_0」、「OR_1」、「OR_2」、および「OR_3」という、当該第3内容パラメータに対応する4つの前処理後内容パラメータが生成されている。 In the example of Figure 6, the third content parameter (the content parameter corresponding to the third specific string "OR") is one-hot encoded to generate four pre-processed content parameters corresponding to the third content parameter: "OR_0", "OR_1", "OR_2", and "OR_3".

説明の便宜上の一例として、内容パラメータセットに含まれる第3内容パラメータ(A3)の最小値が0であり、最大値が3である場合を考える。すなわち、内容パラメータセットにおいて、A3が0から3までの4通りの離散値をとっている場合を考える。この場合、A3のそれぞれの値は、4次元のワンホットベクトル(より具体的には、4ビットのワンホットベクトル)によって表現可能である。 As an example for ease of explanation, consider a case where the minimum value of the third content parameter (A3) included in the content parameter set is 0 and the maximum value is 3. In other words, consider a case where A3 takes on four discrete values from 0 to 3 in the content parameter set. In this case, each value of A3 can be represented by a four-dimensional one-hot vector (more specifically, a four-bit one-hot vector).

例えば、A3=0である場合、
OR_0=(1,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,0);
である。
For example, if A3=0,
OR_0=(1,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,0);
is.

また、A3=1である場合、
OR_0=(0,0,0,0);
OR_1=(0,1,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,0);
である。
Also, if A3=1,
OR_0=(0,0,0,0);
OR_1=(0,1,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,0);
is.

また、A3=2である場合、
OR_0=(0,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,1,0);
OR_3=(0,0,0,0);
である。
Also, if A3=2,
OR_0=(0,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,1,0);
OR_3=(0,0,0,0);
is.

また、A3=3である場合、
OR_0=(0,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,1);
である。以上の通り、A3=i(この説明におけるiは、0から3までの任意の自然数)であることは、i番目の要素のみに成分「1」を有するワンホットベクトルOR_iによって表現される。
Also, if A3=3,
OR_0=(0,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,1);
As described above, A3=i (i in this description is any natural number from 0 to 3) is expressed by a one-hot vector OR_i having a component "1" only in the i-th element.

続いて、前処理手法[N]の一例について説明する。以下では、学習用前処理部114が、第k内容パラメータ(Ak)を正規化する場合を例示する。まず、学習用前処理部114は、内容パラメータセットから、Akの最大値(Akmax)および最小値(Akmin)を取得する。 Next, an example of preprocessing method [N] will be described. Below, we will explain an example in which the learning preprocessing unit 114 normalizes the k-th content parameter (Ak). First, the learning preprocessing unit 114 obtains the maximum value (Akmax) and minimum value (Akmin) of Ak from the content parameter set.

そして、学習用前処理部114は、
Ak_Normalized=(Ak-Akmin)/(Akmax-Akmin)
…(1)
の通り、Ak_Normalizedを算出する。Ak_Normalizedは、正規化後第k内容パラメータ(より詳細には、正規化後過去図面第k内容パラメータ)と称される。また、正規化後第1~第L内容パラメータを総称的に、正規化後内容パラメータ(より詳細には、正規化後過去図面内容パラメータ)と称する。正規化後内容パラメータは、前処理後内容パラメータの一例である。
Then, the learning preprocessing unit 114 performs the following:
Ak_Normalized=(Ak-Akmin)/(Akmax-Akmin)
…(1)
Ak_Normalized is calculated as follows. Ak_Normalized is referred to as the normalized kth content parameter (more specifically, the normalized kth past drawing content parameter). The normalized first to Lth content parameters are collectively referred to as the normalized content parameters (more specifically, the normalized past drawing content parameters). The normalized content parameters are an example of preprocessed content parameters.

以上の通り、学習用前処理部114は、式(1)に従って、AkをAk_Normalizedへと正規化する。正規化は、Min-Maxスケーリングとも称される。式(1)から理解される通り、[N]によって生成されたデータセットでは、正規化後内容パラメータの最小値は0であり、最大値は1である。 As described above, the learning preprocessing unit 114 normalizes Ak to Ak_Normalized according to equation (1). Normalization is also called min-max scaling. As can be seen from equation (1), in the dataset generated by [N], the minimum value of the content parameter after normalization is 0, and the maximum value is 1.

さらに、前処理手法[S]の一例について説明する。以下では、学習用前処理部114が、Akを標準化する場合を例示する。まず、学習用前処理部114は、内容パラメータセットから、Akの平均値(Akmean)および標準偏差(Aksd)を導出する。 Next, an example of the preprocessing method [S] will be described. Below, we will explain an example in which the learning preprocessing unit 114 standardizes Ak. First, the learning preprocessing unit 114 derives the mean value (Akmean) and standard deviation (Aksd) of Ak from the content parameter set.

続いて、学習用前処理部114は、
Ak_Standardized=(Ak-Akmean)/Aksd …(2)の通り、Ak_Standardizedを算出する。Ak_Standardizedは、標準化後第k内容パラメータ(より詳細には、標準化後過去図面第k内容パラメータ)と称される。また、標準化後第1~第L内容パラメータを総称的に、標準化後内容パラメータ(より詳細には、標準化後過去図面内容パラメータ)と称する。標準化後内容パラメータは、前処理後内容パラメータの一例である。
Next, the learning preprocessing unit 114 performs the following:
Ak_Standardized is calculated as follows: Ak_Standardized = (Ak - Akmean) / Aksd (2). Ak_Standardized is referred to as the standardized kth content parameter (more specifically, the standardized kth past drawing content parameter). The standardized first to Lth content parameters are collectively referred to as the standardized content parameters (more specifically, the standardized past drawing content parameters). The standardized content parameters are an example of preprocessed content parameters.

以上の通り、学習用前処理部114は、式(2)に従って、AkをAk_Standardizedへと標準化する。式(2)から理解される通り、[S]によって生成されたデータセットでは、標準化後内容パラメータの平均値は0であり、標準偏差は1である。 As described above, the learning preprocessing unit 114 standardizes Ak to Ak_Standardized according to equation (2). As can be seen from equation (2), in the dataset generated by [S], the mean value of the standardized content parameters is 0 and the standard deviation is 1.

学習用前処理部114は、[S]の過程にて取得したAkmaxおよびAkminを記録した表(標準化用データ表)を生成してもよい。同様に、学習用前処理部114は、[N]の過程にて取得したAkmeanおよびAksdを記録した表(正規化用データ表)を生成してもよい。 The learning preprocessing unit 114 may generate a table (standardization data table) that records the Akmax and Akmin obtained in the [S] process. Similarly, the learning preprocessing unit 114 may generate a table (normalization data table) that records the Akmean and Aksd obtained in the [N] process.

図7の正規化用データ表700Aおよび標準化用データ表700Bはそれぞれ、参考形態における正規化用データ表および標準化用データ表の一例である。具体的には、正規化用データ表700Aおよび標準化用データ表700Bはそれぞれ、データセット1の生成に伴って生成された表である。 Normalization data table 700A and standardization data table 700B in Figure 7 are examples of a normalization data table and a standardization data table, respectively, in the reference form. Specifically, normalization data table 700A and standardization data table 700B are tables generated in conjunction with the generation of dataset 1.

上述の説明から理解される通り、[N]が施されない第k内容パラメータについては、AkmaxおよびAkminがそもそも取得されない。このため、正規化用データ表700Aでは、[N]が施されない第k内容パラメータについては、AkmaxおよびAkminに、ダミー値(例:0)が割り当てられる。 As can be understood from the above explanation, Akmax and Akmin are not obtained for the kth content parameter to which [N] is not applied. For this reason, in the normalization data table 700A, dummy values (e.g., 0) are assigned to Akmax and Akmin for the kth content parameter to which [N] is not applied.

上述の例では、データセット1における前処理後第1~第3内容パラメータおよび前処理後第L内容パラメータはいずれも、[N]以外の前処理手法によって導出されている。このため、図7に示される通り、正規化用データ表700Aでは、前処理後第1~第3内容パラメータおよび前処理後第N内容パラメータについては、AkmaxおよびAkminとして、ダミー値である0が記録される。 In the above example, the first to third post-preprocessing content parameters and the Lth post-preprocessing content parameter in dataset 1 were all derived using a preprocessing method other than [N]. Therefore, as shown in Figure 7, in normalization data table 700A, the dummy value 0 is recorded as Akmax and Akmin for the first to third post-preprocessing content parameters and the Nth post-preprocessing content parameter.

参考形態では、学習用前処理部114によって、A1mean=71.9、A1sd=10.5、A2mean=2.4、A2sd=0.6が取得された場合を例示する。この場合、学習用前処理部114は、標準化用データ表700Bの第1内容パラメータおよび第2内容パラメータのそれぞれの項目に、これらの値を記録する。 In the reference embodiment, the learning preprocessing unit 114 obtains A1mean = 71.9, A1sd = 10.5, A2mean = 2.4, and A2sd = 0.6. In this case, the learning preprocessing unit 114 records these values in the first content parameter and second content parameter fields of the standardization data table 700B.

なお、[S]が施されない第k内容パラメータについては、AkmeanおよびAksdがそもそも取得されない。このため、標準化用データ表700Bでは、[S]が施されない第k内容パラメータについては、AkmeanおよびAksdに、ダミー値(例:0)が割り当てられる。図7の例では、前処理後第3内容パラメータおよび前処理第L内容パラメータはいずれも、[S]以外の前処理手法によって導出されている。このため、標準化用データ表700Bでは、前処理後第3内容パラメータおよび前処理第L内容パラメータについては、AkmaxおよびAkminとして、ダミー値である0が記録される。 Note that for kth content parameters that are not subjected to [S], Akmean and Aksd are not obtained in the first place. For this reason, in standardization data table 700B, for kth content parameters that are not subjected to [S], dummy values (e.g., 0) are assigned to Akmean and Aksd. In the example of Figure 7, both the post-preprocessing third content parameter and the preprocessing Lth content parameter are derived using a preprocessing method other than [S]. For this reason, in standardization data table 700B, the dummy value 0 is recorded as Akmax and Akmin for the post-preprocessing third content parameter and the preprocessing Lth content parameter.

学習用前処理部114は、各データセットと各前処理手法との対応関係を示すテーブル(データセット・前処理手法対応テーブル)を生成してよい。図8のテーブルTB4は、データセット・前処理手法対応テーブルの一例である。なお、図8の例において、データセット1に対応する前処理手法にハッチングが付されている趣旨については後述する。 The learning preprocessing unit 114 may generate a table (dataset/preprocessing method correspondence table) that shows the correspondence between each dataset and each preprocessing method. Table TB4 in Figure 8 is an example of a dataset/preprocessing method correspondence table. Note that the reason why the preprocessing method corresponding to dataset 1 in the example in Figure 8 is hatched will be explained later.

図9には、学習用前処理部114によって生成された複数のデータセットの内の一部が例示されている。図9において、符号900Aはデータセット1を、符号900Bはデータセット2を、符号900Cはデータセット4FL×5FNを、それぞれ表す。上述の説明から理解される通り、データセット1における前処理後第1~第2内容パラメータはそれぞれ、標準化後第1~第2内容パラメータである。標準化後第1内容パラメータおよび標準化後第2内容パラメータはそれぞれ、上述の式(2)に従って第1内容パラメータおよび第2内容パラメータが標準化された値である。 9 illustrates some of the multiple data sets generated by the learning preprocessing unit 114. In FIG. 9, reference numeral 900A represents data set 1, reference numeral 900B represents data set 2, and reference numeral 900C represents data set 4 FL × 5 FN . As can be understood from the above description, the first and second preprocessed content parameters in data set 1 are the first and second standardized content parameters, respectively. The first and second standardized content parameters are values obtained by standardizing the first and second content parameters according to the above-described formula (2).

上述の図8から理解される通り、図9の例におけるデータセット2は、データセット1とは異なり、第3内容パラメータに対して[L]が適用されることにより生成されている。その他の内容パラメータに対する前処理手法については、データセット1の例と同様である。 As can be seen from Figure 8 above, Dataset 2 in the example of Figure 9 differs from Dataset 1 in that it is generated by applying [L] to the third content parameter. The preprocessing methods for the other content parameters are the same as those used in the example of Dataset 1.

以上の通り、データセット2では、データセット1とは異なり、第3内容パラメータに対して[O]が適用されていない。それゆえ、データセット2の次元数は、データセット1の次元数よりも小さい。具体的には、上述の図5に示す通り、データセット1の次元数は50であり、データセット2の次元数は28である。 As described above, unlike Dataset 1, Dataset 2 does not apply [O] to the third content parameter. Therefore, the number of dimensions of Dataset 2 is smaller than the number of dimensions of Dataset 1. Specifically, as shown in Figure 5 above, the number of dimensions of Dataset 1 is 50, and the number of dimensions of Dataset 2 is 28.

また、上述の図8から理解される通り、図9の例におけるデータセット4FL×5FNは、データセット1・2とは異なり、全ての内容パラメータに対して[O]が適用されることにより生成されている。このため、データセット4FL×5FNの次元数は、データセット1・2の次元数に比べて大きい。具体的には、図5に示す通り、データセット4FL×5FNの次元数は151である。 8 described above, the dataset 4 FL × 5 FN in the example of FIG. 9 is generated by applying [O] to all content parameters, unlike datasets 1 and 2. Therefore, the number of dimensions of dataset 4 FL × 5 FN is greater than the number of dimensions of datasets 1 and 2. Specifically, as shown in FIG. 5, the number of dimensions of dataset 4 FL × 5 FN is 151.

(学習モデル生成部113sにおける学習フェーズ)
学習モデル生成部113sにおける処理は、学習フェーズと検証フェーズとに大別できる。まず、学習フェーズについて述べる。学習モデル生成部113sは、学習用前処理部114から拡張後内容パラメータセット(データセット1~データセット4FL×5FN)を取得する。そして、学習モデル生成部113sは、データセット1~データセット4FL×5FNのそれぞれを、訓練データと検証データとに分割する。
(Learning Phase in the Learning Model Generation Unit 113s)
The processing in the learning model generation unit 113s can be broadly divided into a learning phase and a verification phase. First, the learning phase will be described. The learning model generation unit 113s acquires an expanded content parameter set (dataset 1 to dataset 4 FL × 5 FN ) from the learning preprocessing unit 114. Then, the learning model generation unit 113s divides each of data sets 1 to 4 FL × 5 FN into training data and verification data.

学習モデル生成部113sは、データセット1~4FL×5FNの内の任意の1つのデータセット(便宜上、注目データセットと称する)に対し、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、複数の学習モデルを生成する。具体的には、学習モデル生成部113sは、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、注目データセットの訓練データを用いて、複数の学習モデルを生成する。 The learning model generation unit 113s generates multiple learning models by applying each of multiple predetermined types of machine learning algorithms to any one of the datasets 1 to 4 FL × 5 FN (for convenience, referred to as a dataset of interest). Specifically, the learning model generation unit 113s generates multiple learning models using the training data of the dataset of interest by applying each of multiple predetermined types of machine learning algorithms.

一例として、学習モデル生成部113sは、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、データセット1の訓練データを用いて、データセット1に対応する複数の学習モデルを生成する。このように、学習モデル生成部113sは、注目データセットに対応する複数の学習モデルを生成する。 As an example, the learning model generation unit 113s generates multiple learning models corresponding to Dataset 1 using the training data of Dataset 1 by applying each of multiple predetermined types of machine learning algorithms. In this way, the learning model generation unit 113s generates multiple learning models corresponding to the dataset of interest.

参考形態の例では、複数種類の機械学習アルゴリズムには、勾配ベースの機械学習アルゴリズムと距離ベースの機械学習アルゴリズムとが含まれる。勾配ベースの機械学習アルゴリズムとは、勾配降下法を利用した機械学習アルゴリズムである。勾配ベースの機械学習アルゴリズムの具体例としては、DT(Decision Tree,決定木)、LR(Logistic Regression,ロジスティック回帰)、およびNN(Neural Network,ニューラルネットワーク)を挙げることができる。上述の多項ロジスティック回帰は、RSの一例である。 In the example of the reference form, the multiple types of machine learning algorithms include a gradient-based machine learning algorithm and a distance-based machine learning algorithm. A gradient-based machine learning algorithm is a machine learning algorithm that uses gradient descent. Specific examples of gradient-based machine learning algorithms include DT (Decision Tree), LR (Logistic Regression), and NN (Neural Network). The above-mentioned multinomial logistic regression is an example of RS.

本発明の一態様に係るDTとは、より厳密には、GBDT(Gradient Boosting DT,勾配ブースティング決定木)を意味する。従って、本発明の一態様に係るDTの例としては、XGBoost(eXtreme Gradient Boosting)およびLightGBM(Light Gradient Boosting Machine)を挙げることができる。 The DT in one aspect of the present invention, more strictly speaking, refers to a GBDT (Gradient Boosting DT, gradient boosting decision tree). Therefore, examples of the DT in one aspect of the present invention include XGBoost (eXtreme Gradient Boosting) and LightGBM (Light Gradient Boosting Machine).

距離ベースの機械学習アルゴリズムとは、各入力データに含まれる1つ以上のパラメータの分布を示す距離空間における各入力データ間の距離に基づいて、各入力データを評価(例:分類)する機械学習アルゴリズムである。距離ベースの機械学習アルゴリズムの具体例としては、SVM(Support Vector Machine,サポートベクターマシン)および重回帰を挙げることができる。 A distance-based machine learning algorithm is a machine learning algorithm that evaluates (e.g., classifies) each piece of input data based on the distance between each piece of input data in a metric space that represents the distribution of one or more parameters contained in each piece of input data. Specific examples of distance-based machine learning algorithms include SVM (Support Vector Machine) and multiple regression.

以上の通り、学習モデル生成部113sは、データセット1~4FL×5FNのそれぞれに対して各機械学習アルゴリズムを網羅的に(総当たりで)適用することにより、複数の学習モデルを生成してよい。これにより、以下に述べる検証フェーズにおいて評価(検証)の対象となる学習モデルを、十分な数だけ生成できる。 As described above, the learning model generation unit 113s may generate multiple learning models by exhaustively applying each machine learning algorithm to each of the data sets 1 to 4 FL × 5 FN , thereby generating a sufficient number of learning models to be evaluated (verified) in the verification phase described below.

加えて、学習モデル生成部113sは、ある機械学習アルゴリズムの各ハイパーパラメータセットを変更してもよい。この場合、学習モデル生成部113sは、変更後のハイパーパラメータセットを用いて、同機械学習アルゴリズムを適用して学習モデルをさらに生成する。このように、学習モデル生成部113sは、ハイパーパラメータセットをも網羅的に適用することにより、複数の学習モデルを生成してもよい。これにより、さらに多くの学習モデルを生成できる(後述の図10を参照)。 In addition, the learning model generation unit 113s may change each hyperparameter set of a certain machine learning algorithm. In this case, the learning model generation unit 113s uses the changed hyperparameter set to apply the same machine learning algorithm and generate a further learning model. In this way, the learning model generation unit 113s may generate multiple learning models by comprehensively applying hyperparameter sets as well. This allows for the generation of even more learning models (see Figure 10, described below).

(学習モデル生成部113sにおける検証フェーズ)
続いて、検証フェーズについて述べる。学習モデル生成部113sは、学習フェーズにおいて生成された複数の学習モデルのそれぞれの品質を、データセット1~4FL×5FNのそれぞれを用いて(より具体的には、データセット1~4FL×5FNのそれぞれの検証データを用いて)評価する。
(Verification phase in the learning model generation unit 113s)
Next, the verification phase will be described. The learning model generation unit 113s evaluates the quality of each of the multiple learning models generated in the learning phase using each of the data sets 1 to 4 FL × 5 FN (more specifically, using the verification data for each of the data sets 1 to 4 FL × 5 FN ).

一例として、注目データセットとしてデータセットjを考える。jは、後述するTB5(図10を参照)の列番号を示す添字である。学習モデル生成部113sは、データセットjに対応する複数の学習モデルのそれぞれについて、データセットjの検証データを用いて、当該複数の学習モデルのそれぞれの予測精度(判定精度)を示す指標値を取得する。例えば、学習モデル生成部113は、後述するモデル(i,j)にデータセットjの検証データを入力することにより、上記指標値をモデル(i,j)に出力(導出)させる。上記指標値は、モデル(i,j)の品質を示す指標値とも表現できる。 As an example, consider dataset j as the dataset of interest. j is a subscript indicating the column number of TB5 (see Figure 10), which will be described later. The learning model generation unit 113s uses the validation data of dataset j to obtain an index value indicating the prediction accuracy (determination accuracy) of each of the multiple learning models corresponding to dataset j. For example, the learning model generation unit 113 inputs the validation data of dataset j into model (i, j), which will be described later, to output (derive) the index value to model (i, j). The index value can also be expressed as an index value indicating the quality of model (i, j).

参考形態では、学習モデル生成部113sは、上記指標値として、Accuracy(正解率)を取得する。このことから、参考形態における予測精度は、検索精度(より詳細には、過去図面の検索精度)と称されてもよい(図10を参照)。但し、当業者であれば明らかである通り、本発明の一態様に係る指標値は上記の例に限定されず、機械学習分野における公知のその他の指標値が用いられてもよい。従って、例えば、学習モデル生成部113sは、指標値として、Precision(適合率)またはRecall(再現率)を取得してもよい。あるいは、学習モデル生成部113sは、指標値として、Fスコア(F-score)を取得してもよい。周知の通り、Fスコアは、PrecisionとRecallとの調和平均である。 In the reference embodiment, the learning model generation unit 113s acquires Accuracy (the rate of correct answers) as the index value. Therefore, the prediction accuracy in the reference embodiment may also be referred to as search accuracy (more specifically, search accuracy of past drawings) (see Figure 10). However, as will be clear to those skilled in the art, the index value according to one aspect of the present invention is not limited to the above example, and other index values known in the field of machine learning may also be used. Therefore, for example, the learning model generation unit 113s may acquire Precision (the precision rate) or Recall (the recall rate) as the index value. Alternatively, the learning model generation unit 113s may acquire the F-score as the index value. As is well known, the F-score is the harmonic mean of Precision and Recall.

学習モデル生成部113sは、取得した複数の指標値に応じて、ベスト学習モデルを選択する。参考形態の例では、学習モデル生成部113sは、複数の指標値の内の最大値(最大指標値)を特定する。そして、学習モデル生成部113sは、最大指標値を有する学習モデルを、ベスト学習モデルとして選択する。 The learning model generation unit 113s selects the best learning model based on the multiple index values obtained. In the reference example, the learning model generation unit 113s identifies the maximum value (maximum index value) among the multiple index values. Then, the learning model generation unit 113s selects the learning model with the maximum index value as the best learning model.

学習モデル生成部113sは、評価フェーズにおける評価結果を示すテーブル(評価結果テーブル)を生成してよい。図10のテーブルTB5は、評価結果テーブルの一例である。TB5では、1つのデータセットと1つの機械学習アルゴリズムと1つのハイパーパラメータセット(例:Para1)と1対1に対応するように、1つの指標値が記録されている。 The learning model generation unit 113s may generate a table (evaluation result table) that shows the evaluation results from the evaluation phase. Table TB5 in Figure 10 is an example of an evaluation result table. In TB5, one index value is recorded so that there is a one-to-one correspondence between one dataset, one machine learning algorithm, and one hyperparameter set (e.g., Para1).

図10の例におけるPara1およびPara2はそれぞれ、ある1つの機械学習アルゴリズム(例:DT)に適用されるハイパーパラメータセット(一連のハイパーパラメータ)を示す。図16の例では、
・DTのPara1:データ分割方法="gni"、最大深度=3、…
・DTのPara2:データ分割方法="entropy"、最大深度=3、…
・LRのPara1:正則化の種類="l2"、正則化項の係数=1.0、…
・LRのPara2:正則化の種類="l2"、正則化項の係数=0.5、…
・NNのPara1:バッチサイズ=256、最大学習回数=1000、…
・NNのPara2:バッチサイズ=128、最大学習回数=1000、…
・SVMのPara1:カーネルの種類="rbf"、正則化項の係数=1.0、…
・SVMのPara2:カーネルの種類="rbf"、正則化項の係数=0.5、…
の通りである。なお、当業者であれば明らかである通り、ハイパーパラメータセットの数は2つに限定されない。例えば、Para1~Para5までの5つのハイパーパラメータセットが、各機械学習アルゴリズムに対して割り当てられてもよい。
In the example of Fig. 10, Para1 and Para2 each represent a hyperparameter set (a series of hyperparameters) applied to a certain machine learning algorithm (e.g., DT).
・DT Para 1: Data division method = "gni", maximum depth = 3, ...
・DT Para 2: Data division method = "entropy", maximum depth = 3, ...
・LR Para1: Regularization type = "l2", regularization term coefficient = 1.0, ...
・LR Para2: Regularization type = "l2", regularization coefficient = 0.5, ...
・NN Para1: batch size = 256, maximum number of learning iterations = 1000, ...
NN Para2: batch size = 128, maximum number of learning iterations = 1000, ...
・SVM Para1: Kernel type = "rbf", regularization coefficient = 1.0, ...
・SVM Para2: Kernel type = "rbf", regularization coefficient = 0.5, ...
As will be apparent to those skilled in the art, the number of hyperparameter sets is not limited to two. For example, five hyperparameter sets, Para1 to Para5, may be assigned to each machine learning algorithm.

以下では、TB5のi行j列目の成分を、TB5(i,j)と表記する。また、TB5(i,j)に対応する学習モデルを、モデル(i,j)と称する。TB8では、行方向(i方向)に、機械学習アルゴリズムおよび当該機械学習アルゴリズムのハイパーパラメータセットが配列されている。そして、列方向(j方向)に、データセットが配列されている。従って、一例として、図10におけるTB8(1,1)は、DTにおいてPara1が適用された場合に得られた検索精度である。図10の例では、TB5(i,j)=42.1%である。上述の通り、TB5(1,1)は、Para1が適用されたDTによって生成された学習モデル、すなわちモデル(1,1)の品質を示す指標値とも言える。 In the following, the component in the i-th row and j-th column of TB5 will be denoted as TB5(i,j). The learning model corresponding to TB5(i,j) will be referred to as model(i,j). In TB8, machine learning algorithms and their hyperparameter sets are arranged in the row direction (i direction). Datasets are arranged in the column direction (j direction). Therefore, as an example, TB8(1,1) in Figure 10 is the search accuracy obtained when Para1 is applied in DT. In the example of Figure 10, TB5(i,j) = 42.1%. As mentioned above, TB5(1,1) can also be considered an index value indicating the quality of the learning model generated by DT to which Para1 is applied, i.e., model(1,1).

説明の便宜上、図10の例において、NNのPara1に対応する行番号を、imと表記する。図10の例では、TB5(im,1)=81.6%が、各TB5(i,j)の内の最大値である(TB5においてハッチングが付されているセルを参照)。 For ease of explanation, in the example in Figure 10, the row number corresponding to Para1 in the NN will be denoted as im. In the example in Figure 10, TB5(im,1) = 81.6% is the maximum value among each TB5(i,j) (see the hatched cells in TB5).

以上の通り、学習装置11sは、図面a1~M1(外形図)の内容パラメータセット(便宜上、第1図面種類内容パラメータセットと称する)に基づいて、複数の学習モデルを生成する。そして、学習装置11は、第1図面種類内容パラメータセットに基づいて生成した当該複数の学習モデルのそれぞれの品質を評価する(より具体的には、生成した複数の学習モデルのそれぞれの指標値を導出する)。 As described above, the learning device 11s generates multiple learning models based on the content parameter set (for convenience, referred to as the first drawing type content parameter set) for drawings a1 to M1 (outline drawings). The learning device 11 then evaluates the quality of each of the multiple learning models generated based on the first drawing type content parameter set (more specifically, derives index values for each of the multiple generated learning models).

外形図についての上記の例と同様に、学習装置11sは、図面の種類毎に、当該図面の内容パラメータセットに基づいて、複数の学習モデルを生成する。そして、学習装置11sは、当該内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。 Similar to the example above for the outline drawing, the learning device 11s generates multiple learning models for each type of drawing based on the content parameter set for that drawing. The learning device 11s then evaluates the quality of each of the multiple learning models generated based on the content parameter set.

一例として、学習装置11sは、図面a2~M2(組立図)の内容パラメータセット(便宜上、第2内容図面種類パラメータセットと称する)に基づいて、複数の学習モデルを生成する。そして、学習装置11は、第2図面種類内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。別の例として、学習装置11sは、図面aN~MN(構成図)の内容パラメータセット(便宜上、第N図面種類内容パラメータセットと称する)に基づいて、複数の学習モデルを生成する。そして、学習装置11sは、第N図面種類内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。 As one example, the learning device 11s generates multiple learning models based on a content parameter set (for convenience, referred to as the second content drawing type parameter set) for drawings a2 to M2 (assembly drawings). The learning device 11 then evaluates the quality of each of the multiple learning models generated based on the second drawing type content parameter set. As another example, the learning device 11s generates multiple learning models based on a content parameter set (for convenience, referred to as the Nth drawing type content parameter set) for drawings aN to MN (configuration drawings). The learning device 11s then evaluates the quality of each of the multiple learning models generated based on the Nth drawing type content parameter set.

参考形態では、以上の通り第1図面種類内容パラメータセット~第N図面種類内容パラメータセットに基づいて導出された全ての指標値の内、TB5(im,1)が、最大値であるものとする。従って、参考形態では、学習モデル生成部113sは、TB5(im,1)を最大指標値として特定する。そして、学習モデル生成部113sは、最大指標値を有する学習モデル、すなわちモデル(im,1)を、ベスト学習モデルとして選択する。以上の通り、参考形態の例では、学習モデル生成部113sは、学習フェーズにおいて生成された複数の学習モデルの内、最も高品質な学習モデルを、ベスト学習モデルとして選択する。なお、本明細書では、ベスト学習モデルに対応する機械学習アルゴリズムを、ベスト機械学習アルゴリズムと称する。図10の例におけるベスト機械学習アルゴリズムは、NNである。 In the reference embodiment, as described above, of all the index values derived based on the first drawing type content parameter set through the Nth drawing type content parameter set, TB5(im,1) is assumed to be the maximum value. Therefore, in the reference embodiment, the learning model generation unit 113s identifies TB5(im,1) as the maximum index value. The learning model generation unit 113s then selects the learning model with the maximum index value, i.e., model (im,1), as the best learning model. As described above, in the example of the reference embodiment, the learning model generation unit 113s selects the highest quality learning model as the best learning model from among the multiple learning models generated in the learning phase. Note that in this specification, the machine learning algorithm corresponding to the best learning model is referred to as the best machine learning algorithm. In the example of Figure 10, the best machine learning algorithm is NN.

なお、当業者であれば明らかである通り、ベスト学習モデルの選択手法は上記の例に限定されない。学習モデル生成部113sは、複数の指標値に基づいて、複数の学習モデルの内から、ベスト学習モデルを選択できればよい。例えば、学習モデル生成部113sは、複数の指標値に基づいて統計値を導出し、当該統計値に基づいてベスト学習モデルを選択してよい。参考形態における最大指標値は、統計値の一例である。 As will be clear to those skilled in the art, the method for selecting the best learning model is not limited to the above example. The learning model generation unit 113s may simply select the best learning model from among multiple learning models based on multiple index values. For example, the learning model generation unit 113s may derive a statistical value based on multiple index values and select the best learning model based on the statistical value. The maximum index value in the reference embodiment is an example of a statistical value.

(学習フェーズについての補足)
ところで、距離ベースの機械学習アルゴリズムは、勾配ベースの機械学習アルゴリズムとは異なり、いわゆる「次元の呪い」の影響を受けることが知られている。このため、注目データセットの次元数が多い場合、距離ベースの機械学習アルゴリズムによって生成された学習モデル(以下、距離ベース学習モデルと称する)は、勾配ベースの機械学習アルゴリズムによって生成された学習モデル(以下、勾配ベース学習モデルと称する)に比べて、低品質な学習モデルとなる傾向にある。このことから、注目データセットの次元数が多い場合、当該注目データセットを用いて生成された距離ベース学習モデルがベスト学習モデルとして選択される可能性はそもそも低いと考えられる。
(Additional information about the learning phase)
However, unlike gradient-based machine learning algorithms, distance-based machine learning algorithms are known to be affected by the so-called "curse of dimensionality." Therefore, when a dataset of interest has a high number of dimensions, a learning model generated by a distance-based machine learning algorithm (hereinafter referred to as a distance-based learning model) tends to be of lower quality than a learning model generated by a gradient-based machine learning algorithm (hereinafter referred to as a gradient-based learning model). For this reason, when a dataset of interest has a high number of dimensions, it is considered unlikely that a distance-based learning model generated using the dataset of interest will be selected as the best learning model.

そこで、参考形態では、学習モデル生成部113は、注目データセットの次元数が所定の次元数閾値Dth以上である場合には、当該注目データセットを用いて距離ベースの機械学習アルゴリズムによって学習モデルを生成することを停止することが好ましい。これにより、品質が低いと予期される学習モデルが生成されることを未然に防止することができるので、学習フェーズにおける演算コストを低減できる。加えて、後続する評価フェーズにおける演算コストを低減することもできる。 Therefore, in a reference embodiment, it is preferable that the learning model generation unit 113 stop generating a learning model using a distance-based machine learning algorithm with a data set of interest when the number of dimensions of the data set of interest is equal to or greater than a predetermined dimensionality threshold Dth. This makes it possible to prevent the generation of a learning model that is expected to be of low quality, thereby reducing the computational cost in the learning phase. In addition, it is also possible to reduce the computational cost in the subsequent evaluation phase.

機械学習分野では、データセットの次元数が30以上の場合、距離ベース学習モデルの品質が低下する傾向が高くなることが経験的に知られている。そこで、例えば、Dthは30以上の所定の値として設定されてよい。参考形態では、Dth=30に設定されている場合を例示する。 In the field of machine learning, it is empirically known that when the number of dimensions of a dataset is 30 or more, the quality of distance-based learning models tends to decline. Therefore, for example, Dth may be set to a predetermined value of 30 or more. In the reference embodiment, a case where Dth is set to 30 is illustrated.

上述の通り、参考形態の例では、データセット1の次元数は50であり、データセット4FL×5FNの次元数は151である。このため、図10の例では、学習モデル生成部113sは、データセット1およびデータセット4FL×5FNに対しては、距離ベースの機械学習アルゴリズム(例:SVM)による学習モデルの生成を行わない(TB5において「×」マークが付されているセルを参照)。 As described above, in the example of the reference embodiment, the number of dimensions of Dataset 1 is 50, and the number of dimensions of Dataset 4 FL × 5 FN is 151. Therefore, in the example of Fig. 10, the learning model generation unit 113s does not generate learning models using a distance-based machine learning algorithm (e.g., SVM) for Dataset 1 and Dataset 4 FL × 5 FN (see cells marked with "x" in TB5).

以上のことから、図10の例では、学習モデル生成部113sは、データセット1およびデータセット4FL×5FNに対しては、勾配ベースの機械学習アルゴリズム(例:DT、LR、およびNN)のみを適用して、学習モデルを生成する。このように、学習モデル生成部113sは、データセット1およびデータセット4FL×5FNに対しては、距離ベース学習モデルを生成することなく、勾配ベース学習モデルのみを生成する。 10, the learning model generation unit 113s generates learning models by applying only gradient-based machine learning algorithms (e.g., DT, LR, and NN) to Data Set 1 and Data Set 4 FL × 5 FN . In this way, the learning model generation unit 113s generates only gradient-based learning models for Data Set 1 and Data Set 4 FL × 5 FN , without generating distance-based learning models.

他方、学習モデル生成部113sは、注目データセットの次元数がDth未満である場合には、距離ベースの機械学習アルゴリズムを適用して、当該データセットを用いて学習モデルを生成してもよい。参考形態の例では、データセット2の次元数は28である。このため、図10の例では、学習モデル生成部113は、データセット2に対しては、勾配ベース学習モデルを生成するとともに、距離ベース学習モデルをさらに生成する。 On the other hand, if the number of dimensions of the dataset of interest is less than Dth, the learning model generation unit 113s may apply a distance-based machine learning algorithm to generate a learning model using the dataset. In the example of the reference form, the number of dimensions of dataset 2 is 28. Therefore, in the example of Figure 10, the learning model generation unit 113 generates a gradient-based learning model for dataset 2, and also generates a distance-based learning model.

(学習モデル生成部113sにおける検証フェーズ後の処理)
学習モデル生成部113sは、TB5に含まれている各データセットのうち、ベスト学習モデルに対応する1つのデータセットを、ベストデータセットとして選択する。図10の例では、学習モデル生成部113sは、データセット1をベストデータセットとして選択する。
(Processing after the verification phase in the learning model generation unit 113s)
The learning model generation unit 113s selects, as the best dataset, one dataset corresponding to the best learning model from among the datasets included in TB5. In the example of Fig. 10, the learning model generation unit 113s selects Dataset 1 as the best dataset.

続いて、学習モデル生成部113sは、ベストデータセットに対応する前処理手法を、ベスト前処理手法として選択する。参考形態の例では、学習モデル生成部113sは、上述のTB4を参照し、データセット1に対応する前処理手法を、ベスト前処理手法として読み出す(図8のハッチング箇所を参照)。以上の説明から理解される通り、学習モデル生成部113sは、ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。 The learning model generation unit 113s then selects the preprocessing method corresponding to the best data set as the best preprocessing method. In the reference example, the learning model generation unit 113s references the above-mentioned TB4 and reads out the preprocessing method corresponding to Data Set 1 as the best preprocessing method (see the hatched area in Figure 8). As can be understood from the above explanation, the learning model generation unit 113s selects the preprocessing method corresponding to the best learning model as the best preprocessing method.

続いて、学習モデル生成部113sは、上述のTB3initにおける「前処理手法」の項目に、ベスト前処理手法を記録することにより、TB3initを更新する。本明細書では、更新後の内容パラメータ設定初期テーブルを、TB3newと称する。図11には、TB3newの一例が示されている。図11の例では、データセット1に対応する前処理手法(換言すれば、ベスト学習モデルに対応する前処理手法)が、ベスト前処理手法として、「前処理手法」の項目に記録されている。 The learning model generation unit 113s then updates TB3init by recording the best preprocessing method in the "Preprocessing Method" field in the above-mentioned TB3init. In this specification, the updated content parameter setting initial table is referred to as TB3new. Figure 11 shows an example of TB3new. In the example of Figure 11, the preprocessing method corresponding to Dataset 1 (in other words, the preprocessing method corresponding to the best learning model) is recorded as the best preprocessing method in the "Preprocessing Method" field.

(図面検索装置12)
続いて、図面検索装置12について述べる。図面検索装置12は、新規図面データ取得部121、新規図面内容パラメータ取得部122(ターゲット図面内容パラメータ取得部)、検索用前処理部125、および検索部126を備える。
(Drawing search device 12)
Next, a description will be given of the drawing search device 12. The drawing search device 12 includes a new drawing data acquisition unit 121, a new drawing content parameter acquisition unit 122 (target drawing content parameter acquisition unit), a search preprocessing unit 125, and a search unit 126.

図面検索装置12は、学習装置11sによって生成された学習モデル(参考形態の例では、ベスト学習モデル)を用いて、ターゲット図面を複数の検索対象図面のそれぞれと照合することにより、少なくとも1つの図面を検索する。参考形態の図面NDは、ターゲット図面の一例である。以下に述べるように、図面検索装置12では、上記学習モデルを用いて、図面NDに対し、図面a1~MNのそれぞれとの照合が行われる。 The drawing search device 12 searches for at least one drawing by matching the target drawing with each of the multiple search target drawings using the learning model (in the example of the reference embodiment, the best learning model) generated by the learning device 11s. Drawing ND in the reference embodiment is an example of a target drawing. As described below, the drawing search device 12 uses the learning model to match drawing ND with each of drawings a1 to MN.

(新規図面の取得)
新規図面データ取得部121は、過去図面データ取得部111と対になる機能部である。一例として、新規図面データ取得部121は、入力部71が所定のユーザ操作を受け付けたことを契機として、新規物件図面DB92の新規物件データセットに含まれている、所定の新規図面(例:図面ND)を取得する。新規図面データ取得部121は、取得した図面NDを、新規図面内容パラメータ取得部122に供給する。
(Acquisition of new drawings)
The new drawing data acquisition unit 121 is a functional unit paired with the past drawing data acquisition unit 111. As an example, the new drawing data acquisition unit 121 acquires a predetermined new drawing (e.g., drawing ND) included in the new property data set of the new property drawing DB 92 when the input unit 71 receives a predetermined user operation. The new drawing data acquisition unit 121 supplies the acquired drawing ND to the new drawing content parameter acquisition unit 122.

(新規図面に対応する内容パラメータセットの取得)
新規図面内容パラメータ取得部122は、過去図面内容パラメータ取得部112と対になる機能部である。新規図面内容パラメータ取得部122は、過去図面内容パラメータ取得部112と同様の処理により、図面NDに対応する内容パラメータセットを取得する。すなわち、新規図面内容パラメータ取得部122は、過去図面内容パラメータ取得部112と同じ解析手法によって図面NDを解析することにより、当該図面NDの内容パラメータを取得する。
(Getting the content parameter set corresponding to the new drawing)
The new drawing content parameter acquisition unit 122 is a functional unit paired with the previous drawing content parameter acquisition unit 112. The new drawing content parameter acquisition unit 122 acquires a content parameter set corresponding to the drawing ND by the same processing as the previous drawing content parameter acquisition unit 112. That is, the new drawing content parameter acquisition unit 122 acquires the content parameters of the drawing ND by analyzing the drawing ND by the same analysis method as the previous drawing content parameter acquisition unit 112.

以下、図面NDの第k内容パラメータを、Ckとも称する。なお、上述の検索対象図面内容パラメータとの区別のため、ターゲット図面(図面ND)の内容パラメータを、ターゲット図面内容パラメータとも称する。また、ターゲット図面の第k内容パラメータを、ターゲット図面第k内容パラメータとも称する。ターゲット図面内容パラメータは、新規図面内容パラメータと称されてもよい。このため、ターゲット図面第k内容パラメータは、新規図面第k内容パラメータと称されてもよい。 Hereinafter, the kth content parameter of drawing ND will also be referred to as Ck. Note that, to distinguish it from the search target drawing content parameters described above, the content parameter of the target drawing (drawing ND) will also be referred to as the target drawing content parameter. The kth content parameter of the target drawing will also be referred to as the target drawing kth content parameter. The target drawing content parameter may also be referred to as the new drawing content parameter. Therefore, the target drawing kth content parameter may also be referred to as the new drawing kth content parameter.

以上のように、新規図面内容パラメータ取得部122は、図面NDに対し過去図面内容パラメータ取得部112と同様の処理を行うことにより、C1~CLを設定する。その後、新規図面内容パラメータ取得部122は、C1~CLを示す新規図面内容パラメータテーブルTB-NDを生成してよい。図12には、TB-NDの一例が示されている。 As described above, the new drawing content parameter acquisition unit 122 sets C1 to CL by performing the same processing on the drawing ND as the past drawing content parameter acquisition unit 112. The new drawing content parameter acquisition unit 122 may then generate a new drawing content parameter table TB-ND that indicates C1 to CL. Figure 12 shows an example of TB-ND.

(検索用前処理部125における処理の一例)
検索用前処理部125は、新規図面内容パラメータ取得部122から、図面NDに対応する内容パラメータセット(便宜上、新規図面内容パラメータセットと称する)を取得する。具体的には、新規図面内容パラメータセットとは、図面NDの第1~第L内容パラメータ(C1~CL)を含むデータセットを意味する。一例として、検索用前処理部125は、新規図面内容パラメータ取得部122から、上述のTB-NDを取得する。
(Example of processing in search preprocessing unit 125)
The search preprocessing unit 125 acquires a content parameter set (for convenience, referred to as a new drawing content parameter set) corresponding to the drawing ND from the new drawing content parameter acquisition unit 122. Specifically, the new drawing content parameter set refers to a data set including the first to Lth content parameters (C1 to CL) of the drawing ND. As an example, the search preprocessing unit 125 acquires the above-mentioned TB-ND from the new drawing content parameter acquisition unit 122.

また、検索用前処理部125は、学習モデル生成部113sから、ベスト前処理手法を取得する。一例として、検索用前処理部125は、学習モデル生成部113sからTB3を取得し、TB3からベスト前処理手法を読み出す。 The search preprocessing unit 125 also obtains the best preprocessing method from the learning model generation unit 113s. As an example, the search preprocessing unit 125 obtains TB3 from the learning model generation unit 113s and reads the best preprocessing method from TB3.

続いて、検索用前処理部125は、ベスト前処理手法に従って、新規図面内容パラメータセットに対して前処理を施すことにより、前処理後新規図面内容パラメータセットを生成する。すなわち、検索用前処理部125は、ベスト前処理手法と同じ前処理手法をC1~CLのそれぞれに施すことにより、前処理後新規図面内容パラメータセットを生成する。参考形態の例では、検索用前処理部125は、(i)C1に[S]を施し、(ii)C2に[S]を施し、(iii)C3に[O]を施し、かつ、(iv)CLに[L]を施
す。
Next, the search preprocessing unit 125 generates a preprocessed new drawing content parameter set by preprocessing the new drawing content parameter set according to the best preprocessing method. That is, the search preprocessing unit 125 generates a preprocessed new drawing content parameter set by applying the same preprocessing method as the best preprocessing method to each of C1 to CL. In the example of the reference embodiment, the search preprocessing unit 125 (i) applies [S] to C1, (ii) applies [S] to C2, (iii) applies [O] to C3, and (iv) applies [L] to CL.

なお、新規図面内容パラメータセットは、ターゲット図面内容パラメータセットと称されてもよい。従って、前処理後新規図面内容パラメータセットは、前処理後ターゲット図面内容パラメータセットと称されてもよい。 Note that the new drawing content parameter set may also be referred to as the target drawing content parameter set. Therefore, the pre-processed new drawing content parameter set may also be referred to as the pre-processed target drawing content parameter set.

検索用前処理部125は、前処理後新規図面内容パラメータセットを示すテーブル(前処理後新規図面内容パラメータテーブル)を生成してよい。図13に示されているTB-NDPは、参考形態における前処理後新規図面内容パラメータテーブルの一例である。上述の説明から明らかである通り、前処理後新規図面内容パラメータセットは、データセット1と同じデータ構造を有している(上述の図6も参照)。 The search preprocessing unit 125 may generate a table indicating the post-preprocessing new drawing content parameter set (post-preprocessing new drawing content parameter table). TB-NDP shown in Figure 13 is an example of a post-preprocessing new drawing content parameter table in the reference form. As is clear from the above explanation, the post-preprocessing new drawing content parameter set has the same data structure as Dataset 1 (see also Figure 6 above).

なお、検索用前処理部125における前処理手法[S]の一例について説明すれば、次の通りである。以下では、検索用前処理部125によって、Ck(図面NDの第k内容パラメータ)を標準化する場合について述べる。 An example of the preprocessing method [S] in the search preprocessing unit 125 is as follows. The following describes the case where Ck (the kth content parameter of the drawing ND) is standardized by the search preprocessing unit 125.

まず、検索用前処理部125は、上述の標準化用データ表700Bを参照し、AkmeanおよびAksdを取得する。続いて、検索用前処理部125は、
Ck_Standardized=(Ck-Akmean)/Aksd …(3)
の通り、Ck_Standardizedを算出する。Ck_Standardizedは、図面NDにおける標準化後の第k内容パラメータである。Ck_Standardizedは、標準化後新規図面第k内容パラメータとも称される。標準化後新規図面第k内容パラメータは、前処理後新規図面第k内容パラメータの一例である。
First, the search preprocessing unit 125 references the standardization data table 700B and obtains Akmean and Aksd.
Ck_Standardized=(Ck-Akmean)/Aksd...(3)
Ck_Standardized is calculated as follows. Ck_Standardized is the standardized k-th content parameter in the drawing ND. Ck_Standardized is also referred to as the standardized new drawing k-th content parameter. The standardized new drawing k-th content parameter is an example of the preprocessed new drawing k-th content parameter.

また、検索用前処理部125における前処理手法[N]の一例について説明すれば、次の通りである。まず、検索用前処理部125は、上述の正規化用データ表700Aを参照し、AkmaxおよびAkminを取得する。続いて、検索用前処理部125は、
Ck_Normalized=(Ck-Akmin)/(Akmax-Akmin)
…(4)
の通り、Ck_Normalizedを算出する。Ck_Normalizedは、図面NDにおける正規化後の第k内容パラメータである。Ck_Normalizedは、正規化後新規図面第k内容パラメータとも称される。正規化後新規図面第k内容パラメータは、前処理後新規図面第k内容パラメータの別の例である。
An example of the preprocessing method [N] in the search preprocessing unit 125 will be described as follows. First, the search preprocessing unit 125 references the normalization data table 700A described above to obtain Akmax and Akmin. Next, the search preprocessing unit 125
Ck_Normalized=(Ck-Akmin)/(Akmax-Akmin)
…(4)
Ck_Normalized is calculated as follows. Ck_Normalized is the normalized k-th content parameter in the drawing ND. Ck_Normalized is also referred to as the normalized new drawing k-th content parameter. The normalized new drawing k-th content parameter is another example of the preprocessed new drawing k-th content parameter.

(検索部126における検索フェーズ)
検索部126は、検索用前処理部125から、前処理後新規図面内容パラメータセットを取得する。また、検索部126は、学習モデル生成部113から、ベスト学習モデルを取得する。検索部126は、前処理後新規図面内容パラメータセットをベスト学習モデルに入力する。そして、検索部126は、前処理後新規図面内容パラメータセットに応じたベスト学習モデルの出力を、ベスト学習モデルから取得する。
(Search Phase in Search Unit 126)
The search unit 126 acquires the post-preprocessing new drawing content parameter set from the search preprocessing unit 125. The search unit 126 also acquires the best learning model from the learning model generation unit 113. The search unit 126 inputs the post-preprocessing new drawing content parameter set to the best learning model. Then, the search unit 126 acquires the output of the best learning model corresponding to the post-preprocessing new drawing content parameter set from the best learning model.

一例として、参考形態における各学習モデルが、図面NDに対する各過去図面(図面a1~MN)の関連性の高さを示すスコア(指標)である関連性スコアを出力(導出)するように訓練された学習モデルである場合を考える。関連性スコアの導出方法の例については、特許文献1を参照されたい。 As an example, consider a case where each learning model in the reference embodiment is a learning model trained to output (derive) a relevance score, which is a score (index) indicating the degree of relevance of each past drawing (drawings a1 to MN) to drawing ND. For an example of a method for deriving a relevance score, see Patent Document 1.

この場合、検索部126は、ベスト学習モデルに前処理後新規図面内容パラメータセットを入力することにより、当該前処理後新規図面内容パラメータセットに応じた関連性スコアを、ベスト学習モデルに出力させる。そして、検索部126は、ベスト学習モデルの出力(例:関連性スコア)に基づいて、図面NDに対応する少なくとも1つの過去図面を検索する。関連性スコアに基づく当該過去図面の検索手法の例については、特許文献1を参照されたい。検索部126は、特許文献1と同様に、検索結果を示すデータを、表示部72に表示させてよい。 In this case, the search unit 126 inputs the preprocessed new drawing content parameter set into the best learning model, causing the best learning model to output a relevance score corresponding to the preprocessed new drawing content parameter set. Then, the search unit 126 searches for at least one past drawing corresponding to the drawing ND based on the output (e.g., relevance score) of the best learning model. For an example of a method for searching for past drawings based on a relevance score, see Patent Document 1. As with Patent Document 1, the search unit 126 may display data indicating the search results on the display unit 72.

(参考形態の効果)
参考形態における情報処理システム100s(情報処理装置1s)によれば、上記先行技術(特許文献1の技術)と同様に、図面検索におけるユーザの利便性を従来よりも高めることが可能となる。加えて、学習装置11sによれば、上記先行技術とは異なり、検索対象図面内容パラメータセット(過去図面内容パラメータセット)に対して複数種類の前処理手法が網羅的に施されることにより、当該検索対象図面内容パラメータセットが拡張される。すなわち、複数の前処理後検索対象図面内容パラメータセットが生成される。
(Effects of the reference form)
The information processing system 100s (information processing device 1s) in the reference embodiment, like the prior art (the technology of Patent Document 1), can improve user convenience in drawing searches compared to conventional methods. In addition, unlike the prior art, the learning device 11s comprehensively applies multiple types of preprocessing methods to a search target drawing content parameter set (past drawing content parameter set), thereby expanding the search target drawing content parameter set. In other words, multiple preprocessed search target drawing content parameter sets are generated.

続いて、複数の機械学習アルゴリズムを適用することにより、複数の前処理後検索対象図面内容パラメータセット(例:データセット1~4FL×5FN)を用いて、複数の学習モデルが生成される。そして、複数の学習モデルのそれぞれの品質を示す指標値(例:過去図面の検索精度)に基づいて、当該複数の学習モデルの内から、ベスト学習モデルが選択される。言い換えれば、上記指標値に基づいて、複数の機械学習アルゴリズムの内から、ベスト機械学習アルゴリズムが選択される。続いて、ベスト学習モデルに対応するベスト前処理手法が選択される。 Next, by applying multiple machine learning algorithms, multiple learning models are generated using multiple preprocessed retrieval target drawing content parameter sets (e.g., data sets 1-4 FL × 5 FN ). Then, the best learning model is selected from the multiple learning models based on an index value indicating the quality of each of the multiple learning models (e.g., retrieval accuracy of past drawings). In other words, the best machine learning algorithm is selected from the multiple machine learning algorithms based on the index value. Then, the best preprocessing method corresponding to the best learning model is selected.

一般的に、機械学習アルゴリズムによって生成される学習モデルの品質は、学習用データ(例:検索対象図面内容パラメータセット)に適用される前処理手法に応じて変化しうる。加えて、学習モデルの品質は、前処理後の学習用データに適用される機械学習アルゴリズムの種類に応じても変化しうる。 In general, the quality of a learning model generated by a machine learning algorithm may vary depending on the preprocessing method applied to the learning data (e.g., the set of drawing content parameters to be searched). In addition, the quality of the learning model may also vary depending on the type of machine learning algorithm applied to the preprocessed learning data.

適切な前処理手法および機械学習アルゴリズムが選択された場合には、高品質な学習モデルを生成することが可能である。但し、機械学習分野において適用可能な前処理手法および機械学習アルゴリズムの種類は、多岐に亘っている。このため、学習モデルの品質向上に好適な(理想的には最適な)前処理手法および機械学習アルゴリズムの組み合わせを、ユーザが人為的に選択することは必ずしも容易ではない。 When appropriate preprocessing methods and machine learning algorithms are selected, it is possible to generate high-quality learning models. However, there are a wide variety of preprocessing methods and machine learning algorithms that can be applied in the field of machine learning. For this reason, it is not always easy for users to manually select a combination of preprocessing methods and machine learning algorithms that is suitable (ideally the optimal) for improving the quality of learning models.

そこで、学習装置11sでは、上述の通り、生成された複数の学習モデルのそれぞれを、上記指標値に基づいて網羅的に評価することにより、ベスト学習モデルおよびベスト前処理手法が選択される。すなわち、生成された複数の学習モデルに対してグリッドサーチを行うことにより、ベスト学習モデルおよびベスト前処理手法が選択される。 Therefore, as described above, the learning device 11s comprehensively evaluates each of the multiple generated learning models based on the above index values to select the best learning model and the best preprocessing method. In other words, the best learning model and the best preprocessing method are selected by performing a grid search on the multiple generated learning models.

上記の構成によれば、ユーザの人為的な選択を経ることなく、ベスト学習モデルおよびベスト前処理手法を特定することができる。すなわち、学習モデルの品質向上に最適である(少なくとも好適である)と期待される前処理手法および機械学習アルゴリズムの組み合わせを、学習装置11によって自動的に選択できる。 The above configuration makes it possible to identify the best learning model and best preprocessing method without the user having to manually select them. In other words, the learning device 11 can automatically select a combination of preprocessing method and machine learning algorithm that is expected to be optimal (or at least suitable) for improving the quality of the learning model.

その後、図面検索装置12では、学習装置11sによって選択されたベスト前処理手法に従って、ターゲット図面内容パラメータセット(新規図面内容パラメータセット)に対して前処理が施される。すなわち、ベスト前処理手法に従って、前処理後ターゲット図面内容パラメータセット(前処理後新規図面内容パラメータセット)が生成される。 Then, the drawing search device 12 applies preprocessing to the target drawing content parameter set (new drawing content parameter set) according to the best preprocessing method selected by the learning device 11s. In other words, a preprocessed target drawing content parameter set (preprocessed new drawing content parameter set) is generated according to the best preprocessing method.

上記の構成によれば、ベスト学習モデルに適したデータ構造を有する入力データセットとして、前処理後ターゲット図面内容パラメータセットが生成される。このため、当該前処理後ターゲット図面内容パラメータセットをベスト学習モデルに入力することにより、上記先行技術に比べてさらに高精度な学習モデルの出力(例:ベスト学習モデルによって導出された関連性スコア)を得ることができる。 With the above configuration, a preprocessed target drawing content parameter set is generated as an input dataset having a data structure suitable for the best learning model. Therefore, by inputting this preprocessed target drawing content parameter set into the best learning model, it is possible to obtain a learning model output (e.g., a relevance score derived by the best learning model) with even higher accuracy than the prior art described above.

以上の通り、情報処理システム100sでは、(i)学習装置11sによって予め選択されたベスト前処理手法、および、(ii)学習装置11sによって予め生成されたベスト学習モデルを用いて、図面検索装置12に検索を行わせることができる。その結果、情報処理システム100sによれば、上記先行技術に比べてさらに高い検索精度を実現できる。 As described above, the information processing system 100s can cause the drawing search device 12 to perform a search using (i) the best preprocessing method pre-selected by the learning device 11s and (ii) the best learning model pre-generated by the learning device 11s. As a result, the information processing system 100s can achieve even higher search accuracy than the prior art.

(参考形態における補足)
前処理手法[L]の一例について、以下に説明する。参考形態では、学習用前処理部114は、生値・ラベル値変換テーブルに従って、生値(過去図面内容パラメータ取得部112によって取得された内容パラメータ)をラベルエンコーディングしてよい。具体的には、学習用前処理部114は、ある生値と当該生値に対応するラベル値の対応関係を示すテーブル(以下、生値・ラベル値変換テーブルと称する)に従って、生値をラベル値へと変換してよい。
(Supplementary information in reference format)
An example of the preprocessing method [L] will be described below. In a reference embodiment, the learning preprocessing unit 114 may label-encode raw values (content parameters acquired by the past drawing content parameter acquisition unit 112) according to a raw value-label value conversion table. Specifically, the learning preprocessing unit 114 may convert raw values into label values according to a table (hereinafter referred to as the raw value-label value conversion table) that indicates the correspondence between a certain raw value and the label value corresponding to the raw value.

一例として、情報処理システム100sでは、第1~第L内容パラメータのそれぞれについて、個別の生値・ラベル値変換テーブルが予め設定されている。以下、第k内容パラメータに対応する生値・ラベル値変換テーブルを、第k生値・ラベル値変換テーブルと称する。 As an example, in the information processing system 100s, individual raw value-to-label value conversion tables are pre-set for each of the first through Lth content parameters. Hereinafter, the raw value-to-label value conversion table corresponding to the kth content parameter will be referred to as the kth raw value-to-label value conversion table.

図14には、複数の生値・ラベル値変換テーブルの内の一部が例示されている。図14において、(i)符号1400-1は第1生値・ラベル値変換テーブルを、(ii)符号1400-2は第2生値・ラベル値変換テーブルを、(iii)符号1400-3は第3生値・ラベル値変換テーブルを、(iv)符号1400-Lは第L生値・ラベル値変換テーブルを、それぞれ表す。 Figure 14 illustrates some of the multiple raw value-to-label value conversion tables. In Figure 14, (i) symbol 1400-1 represents the first raw value-to-label value conversion table, (ii) symbol 1400-2 represents the second raw value-to-label value conversion table, (iii) symbol 1400-3 represents the third raw value-to-label value conversion table, and (iv) symbol 1400-L represents the Lth raw value-to-label value conversion table.

図14の例では、学習用前処理部114は、第k生値・ラベル値変換テーブルに従って、第k内容パラメータをラベルエンコーディングしてよい。例えば、学習用前処理部114は、第1生値・ラベル値変換テーブルに従って、第1内容パラメータをラベルエンコーディングする。また、学習用前処理部114は、第L生値・ラベル値変換テーブルに従って、第L内容パラメータをラベルエンコーディングする。 In the example of FIG. 14, the learning preprocessing unit 114 may label encode the kth content parameter according to the kth raw value-to-label value conversion table. For example, the learning preprocessing unit 114 label encodes the first content parameter according to the first raw value-to-label value conversion table. Also, the learning preprocessing unit 114 label encodes the Lth content parameter according to the Lth raw value-to-label value conversion table.

以上の通り、第k内容パラメータの変数種類によらず(すなわち、第k内容パラメータがVLまたはVNのいずれであっても)、当該第k内容パラメータに対し、前処理手法[L]が施されてよい。なお、上述の通り、第k内容パラメータがVLである場合には、[L]は、[R]と等価な前処理手法であると言える。 As described above, regardless of the variable type of the kth content parameter (i.e., whether the kth content parameter is VL or VN), the preprocessing method [L] may be applied to the kth content parameter. Note that, as mentioned above, when the kth content parameter is VL, [L] can be said to be a preprocessing method equivalent to [R].

別の例として、情報処理システム100sでは、第1~第L生値・ラベル値変換テーブルを統合したテーブル(以下、生値・ラベル値変換統合テーブルと称する)が予め作成されていてもよい。図15における符号1500は、生値・ラベル値変換統合テーブルの一例を表す。 As another example, the information processing system 100s may have created in advance a table that combines the first to Lth raw value-label value conversion tables (hereinafter referred to as the integrated raw value-label value conversion table). Reference numeral 1500 in Figure 15 represents an example of an integrated raw value-label value conversion table.

図15の例において、生値・ラベル値変換統合テーブルのk行目は、第k生値・ラベル値変換テーブルに対応する。従って、学習用前処理部114は、生値・ラベル値変換統合テーブルのk行目を参照し、第k内容パラメータをラベルエンコーディングしてもよい。例えば、学習用前処理部114は、生値・ラベル値変換統合テーブルの2行目を参照し、第2内容パラメータをラベルエンコーディングする。 In the example of Figure 15, the kth row of the integrated raw value/label value conversion table corresponds to the kth raw value/label value conversion table. Therefore, the learning preprocessing unit 114 may refer to the kth row of the integrated raw value/label value conversion table and label encode the kth content parameter. For example, the learning preprocessing unit 114 refers to the second row of the integrated raw value/label value conversion table and label encodes the second content parameter.

〔実施形態1〕
図16は、実施形態1の情報処理システム100の要部の構成を示すブロック図である。情報処理システム100の情報処理装置を、情報処理装置1と称する。情報処理装置1の制御装置を、制御装置10と称する。制御装置10の学習装置を、学習装置11(モデル生成装置)と称する。
[Embodiment 1]
16 is a block diagram showing the configuration of the main parts of the information processing system 100 of embodiment 1. The information processing device of the information processing system 100 is referred to as the information processing device 1. The control device of the information processing device 1 is referred to as the control device 10. The learning device of the control device 10 is referred to as the learning device 11 (model generation device).

学習装置11は、学習装置11sとは異なり、決定部115をさらに備える。また、学習装置11は、学習装置11sの学習モデル生成部113sに替えて、学習モデル生成部113(学習部)を備える。学習装置11の各部の動作の説明に先立ち、参考形態において改善可能な点について以下に述べる。 Unlike learning device 11s, learning device 11 further includes a determination unit 115. Furthermore, learning device 11 includes a learning model generation unit 113 (learning unit) instead of the learning model generation unit 113s of learning device 11s. Before explaining the operation of each unit of learning device 11, possible improvements in the reference embodiment will be described below.

上述の通り、参考形態では、第k内容パラメータ変数種類情報に応じた複数種類の前処理手法を第k内容パラメータに適用することにより、内容パラメータセットが拡張される。次いで、拡張後内容パラメータセットを用いた学習モデルの生成および検証(評価)を通じて、ベスト学習モデルおよびベスト前処理手法が選択される。 As described above, in the reference embodiment, the content parameter set is expanded by applying multiple preprocessing methods to the kth content parameter according to the kth content parameter variable type information. Next, the best learning model and best preprocessing method are selected through the generation and verification (evaluation) of a learning model using the expanded content parameter set.

しかしながら、参考形態では、第k内容パラメータに適用される前処理手法次第では、拡張後内容パラメータセットに含まれる複数の説明変数間(複数の前処理後内容パラメータ間)において、多重共線性(multicollinearity)が発生しうる。当業者であれば理解できる通り、多重共線性が発生している複数の説明変数を用いて学習モデルを生成した場合には、当該学習モデルの品質が低下しうる。 However, in the reference embodiment, depending on the preprocessing method applied to the kth content parameter, multicollinearity may occur between the multiple explanatory variables included in the expanded content parameter set (between the multiple preprocessed content parameters). As will be understood by those skilled in the art, if a learning model is generated using multiple explanatory variables in which multicollinearity occurs, the quality of the learning model may deteriorate.

また、当業者であれば理解できる通り、多重共線性の発生リスクは、ある学習モデルを生成するための学習用データの次元数(参考形態の例では、前処理後内容パラメータ数)が大きくなるにつれて高くなる。上述の通り、複数種類の前処理手法のうちの1つは、[O](ワンホットエンコーディング)でありうる。参考形態における説明から理解できる通り、[O]は、前処理後内容パラメータ数の増加をもたらす前処理手法の典型例であると言える。 Furthermore, as will be understood by those skilled in the art, the risk of multicollinearity increases as the number of dimensions of the training data used to generate a certain training model (in the example of the reference embodiment, the number of post-preprocessing content parameters) increases. As described above, one of the multiple types of preprocessing methods can be [O] (one-hot encoding). As can be understood from the explanation in the reference embodiment, [O] can be said to be a typical example of a preprocessing method that results in an increase in the number of post-preprocessing content parameters.

このことから、より多くの第k内容パラメータに[O]が適用されるほど、多重共線性の発生リスクが高まると懸念される。従って、学習モデルの品質をさらに高めるためには(例:より高品質なベスト学習モデルを得るためには)、多重共線性を排除するための方策を導入することが好ましいと考えられる。実施形態1の学習装置11は、この考え方に基づき、本願の発明者らによって新たに創作された。 Therefore, there is concern that the risk of multicollinearity increasing as [O] is applied to more k-th content parameters. Therefore, in order to further improve the quality of the learning model (e.g., to obtain a higher quality best learning model), it is considered preferable to introduce measures to eliminate multicollinearity. The learning device 11 of embodiment 1 was newly created by the inventors of the present application based on this idea.

(決定部115の処理の一例)
以下、内容パラメータセットの拡張によって得られたある1つのデータセット(すなわち、上述の注目データセット)に対する、決定部115の一連の処理について説明する。以下では、上述の図9における符号900Aに示されているデータセット1が、注目データセットである場合について説明する。決定部115は、データセット1に含まれている異なる2つの前処理後内容パラメータセットのそれぞれについて、決定係数を算出する。
(Example of processing by the determination unit 115)
The following describes a series of processes performed by the determination unit 115 for one data set obtained by expanding the content parameter set (i.e., the above-mentioned data set of interest). The following describes a case where data set 1 indicated by reference numeral 900A in FIG. 9 is the data set of interest. The determination unit 115 calculates a coefficient of determination for each of two different post-preprocessing content parameter sets included in data set 1.

具体的には、決定部115は、
…(5)
の通り、決定係数Rijを算出する。決定係数Rijは、以下に述べるIkとJkとの間の決定係数である。実施形態1の説明において、iは1≦i<Pを満たす整数であり、jはi<j≦Pを満たす整数である。Pは、注目データセットの次元数(行数)である。Pは、注目データセットの系列数と称されてもよい。実施形態1の例では、P=50である(上述の図5を参照)。
Specifically, the determination unit 115
…(5)
The coefficient of determination Rij is calculated as follows. The coefficient of determination Rij is the coefficient of determination between Ik and Jk described below. In the description of the first embodiment, i is an integer that satisfies 1≦i<P, and j is an integer that satisfies i<j≦P. P is the number of dimensions (number of rows) of the dataset of interest. P may also be referred to as the number of series of the dataset of interest. In the example of the first embodiment, P=50 (see FIG. 5 above).

式(5)におけるIkは、データセット1に含まれているP個の前処理後内容パラメータの内、i番目の前処理後内容パラメータ(ある1つの前処理後内容パラメータ)である。Jkは、データセット1に含まれているP個の前処理後内容パラメータの内、j番目の前処理後内容パラメータ(別の1つの前処理後内容パラメータ)である。Qは、注目データセットの項目数(列数)である。実施形態1の例では、Q=Mである。Iaveは、I1~IQの平均値である。Javeは、J1~JQの平均値である。 In equation (5), Ik is the i-th preprocessed content parameter (one preprocessed content parameter) of the P preprocessed content parameters included in dataset 1. Jk is the j-th preprocessed content parameter (another preprocessed content parameter) of the P preprocessed content parameters included in dataset 1. Q is the number of items (number of columns) in the dataset of interest. In the example of embodiment 1, Q = M. Iave is the average value of I1 to IQ. Jave is the average value of J1 to JQ.

以上の通り、決定部115は、注目データセットに含まれる任意の2つの異なる前処理後内容パラメータ間の決定係数を算出してよい。実施形態1では、決定部115は、式(5)に従って、通りのRijを算出する。すなわち、決定部115は、注目データセットに含まれる異なる2つの検索対象図面内容パラメータの組み合わせパターンのそれぞれについて、Rijを算出する。 As described above, the determination unit 115 may calculate the coefficient of determination between any two different preprocessed content parameters included in the target data set. In the first embodiment, the determination unit 115 calculates two P C combinations of Rij according to formula (5). That is, the determination unit 115 calculates Rij for each combination pattern of two different search target drawing content parameters included in the target data set.

式(5)に示されている通り、Rijは、IkとJkとの間の相関係数sijの2乗値として表すことができる。従って、Rijを、IkとJkとの間における多重共線性の程度(強さ)を示す評価値(多重共線性評価値)として用いることができる。実施形態1におけるRijは、多重共線性評価値の一例である。 As shown in equation (5), Rij can be expressed as the square of the correlation coefficient sij between Ik and Jk. Therefore, Rij can be used as an evaluation value (multicollinearity evaluation value) that indicates the degree (strength) of multicollinearity between Ik and Jk. Rij in embodiment 1 is an example of a multicollinearity evaluation value.

決定部115は、算出した各決定係数を、所定の閾値Rth(決定係数閾値)と比較する。決定係数閾値は、多重共線性評価値に対する閾値(多重共線性閾値)の一例である。本明細書では、「多重共線性評価値が多重共線性閾値以上である」という条件を満たしている多重共線性評価値を、高リスク多重共線性評価値と称する。従って、実施形態1では、「決定係数がRth以上である」という条件を満たしている決定係数を、高リスク決定係数と称する。 The determination unit 115 compares each calculated coefficient of determination with a predetermined threshold Rth (coefficient of determination threshold). The coefficient of determination threshold is an example of a threshold for the multicollinearity assessment value (multicollinearity threshold). In this specification, a multicollinearity assessment value that satisfies the condition that "the multicollinearity assessment value is equal to or greater than the multicollinearity threshold" is referred to as a high-risk multicollinearity assessment value. Therefore, in embodiment 1, a coefficient of determination that satisfies the condition that "the coefficient of determination is equal to or greater than Rth" is referred to as a high-risk coefficient of determination.

実施形態1では、決定部115は、各前処理後内容パラメータについて、各決定係数をRthと比較し、各決定係数の内から高リスク決定係数を抽出する。そして、決定部115は、各前処理後内容パラメータについて、抽出した高リスク決定係数の個数を計上(カウントアップ)する。 In embodiment 1, the determination unit 115 compares each coefficient of determination with Rth for each preprocessed content parameter and extracts high-risk coefficients of determination from among the coefficients of determination. The determination unit 115 then counts up the number of high-risk coefficients of determination extracted for each preprocessed content parameter.

データサイエンス分野では、2つの説明変数間の相関係数の絶対値(以下、相関係数絶対値とも称する)が0.7以上である場合に、当該2つの説明変数間に強い相関(あるいは、やや強い相関)が存在していると評価されることが多い。このことから、一例として、Rthは、0.49(=0.7)以上かつ1以下の所定の値として設定されることが好ましい。実施形態1では、Rthが0.49に設定されている場合を例示する。但し、当業者であれば明らかである通り、Rthは上記の例に限定されない。 In the field of data science, when the absolute value of the correlation coefficient between two explanatory variables (hereinafter also referred to as the absolute value of the correlation coefficient) is 0.7 or more, it is often evaluated that there is a strong correlation (or a somewhat strong correlation) between the two explanatory variables. For this reason, as an example, it is preferable that Rth is set to a predetermined value of 0.49 (= 0.72 ) or more and 1 or less. In embodiment 1, a case where Rth is set to 0.49 is exemplified. However, as will be clear to those skilled in the art, Rth is not limited to the above example.

決定部115は、各Rijと高リスク決定係数の個数との対応関係を示すテーブル(決定係数・高リスク決定係数個数テーブル)を生成する。図17のTB6は、決定係数・高リスク決定係数個数テーブルの一例である。なお、以下に述べる通り、TB6は、決定部115における一連の処理を通じて更新される。このことから、本明細書では、初期状態のTB6を、TB6initとも称する。 The determination unit 115 generates a table (coefficient of determination/number of high-risk coefficients of determination table) that shows the correspondence between each Rij and the number of high-risk coefficients of determination. TB6 in Figure 17 is an example of a coefficient of determination/number of high-risk coefficients of determination table. As described below, TB6 is updated through a series of processes in the determination unit 115. For this reason, in this specification, TB6 in its initial state is also referred to as TB6init.

図17には、TB6initの一例が示されている。TB6initのi行j列目には、i番目の各前処理後内容パラメータ(すなわちIk)とj番目の各前処理後内容パラメータ(すなわちJk)との間の決定係数Rijが記録されている。そして、TB6initの最右端列(P+1列目)には、Ikに対応する高リスク決定係数の個数(説明の便宜上、「Ikが有する高リスク決定係数の個数」とも称する)が記録されている。図17の例では、高リスク決定係数にハッチングが付されている。 Figure 17 shows an example of TB6init. The coefficient of determination Rij between the i-th preprocessed content parameter (i.e., Ik) and the j-th preprocessed content parameter (i.e., Jk) is recorded in the i-th row and j-th column of TB6init. The rightmost column (P+1 column) of TB6init records the number of high-risk coefficients of determination corresponding to Ik (for ease of explanation, also referred to as "the number of high-risk coefficients of determination possessed by Ik"). In the example of Figure 17, high-risk coefficients of determination are hatched.

一例として、決定部115は、TB6内(図17の例では、TB6init内)の各前処理後内容パラメータの内、最も多い高リスク決定係数の個数(最多高リスク決定係数個数)を有する前処理後内容パラメータを、削除対象となる削除対象前処理後内容パラメータとして決定してよい。図17の例では、TB6initに含まれる各前処理後内容パラメータの内、5行目の前処理後内容パラメータ「OR_2」が、最多高リスク決定係数個数(6個)を有している(図17中の「高リスク決定係数の個数」における、点線によって図示された矩形部を参照)。このため、決定部115は、当該前処理後内容パラメータ「OR_2」を、削除対象前処理後内容パラメータとして決定する。そして、決定部115は、TB6initから、「OR_2」に対応する行および列(すなわち、第5行および第5列)を削除することにより、TB6を更新する。 As an example, the determination unit 115 may determine, among the pre-processing content parameters in TB6 (in TB6init in the example of Figure 17), the pre-processing content parameter with the highest number of high-risk determination coefficients (highest number of high-risk determination coefficients) as the pre-processing content parameter to be deleted. In the example of Figure 17, among the pre-processing content parameters included in TB6init, the pre-processing content parameter "OR_2" in the fifth row has the highest number of high-risk determination coefficients (6) (see the dotted rectangle in "Number of high-risk determination coefficients" in Figure 17). Therefore, the determination unit 115 determines the pre-processing content parameter "OR_2" as the pre-processing content parameter to be deleted. Then, the determination unit 115 updates TB6 by deleting the row and column corresponding to "OR_2" (i.e., the fifth row and fifth column) from TB6init.

図18のTB6aは、TB6initが上述の通り更新されることによって得られたTB6の一例である。決定部115は、TB6initから、「OR_2」に対応する行および列を削除した後、TB6initの最右端列に記録されていた、Ikに対応する高リスク決定係数の個数を更新する。従って、TB6aの最右端列には、更新後の高リスク決定係数の個数が記録されている。 Table 6a in Figure 18 is an example of Table 6 obtained by updating Table 6init as described above. After deleting the row and column corresponding to "OR_2" from Table 6init, the determination unit 115 updates the number of high-risk determination coefficients corresponding to Ik that was recorded in the rightmost column of Table 6init. Therefore, the rightmost column of Table 6a records the updated number of high-risk determination coefficients.

図18の例では、TB6aに含まれる各前処理後内容パラメータの内、2行目の前処理後内容パラメータ「電流値」および4行目の前処理後内容パラメータ「OR_1」がそれぞれ、最多高リスク決定係数個数(3個)を有している(図18中の「高リスク決定係数の個数」における、点線によって図示された矩形部を参照)。このように、TB6において、複数の前処理後内容パラメータが、同数の最多高リスク決定係数個数を有する場合も考えられる。 In the example of Figure 18, of the pre-processed content parameters included in TB6a, the pre-processed content parameter "Current Value" in the second row and the pre-processed content parameter "OR_1" in the fourth row each have the highest number of high-risk determination coefficients (3) (see the dotted rectangle in "Number of High-Risk Determination Coefficients" in Figure 18). In this way, it is possible that multiple pre-processed content parameters in TB6 have the same number of highest number of high-risk determination coefficients.

そこで、このような場合、決定部115は、最多高リスク決定係数個数を有する複数の前処理後内容パラメータを、削除対象候補前処理後内容パラメータとして決定してよい。次いで、決定部115は、複数の削除対象候補前処理後内容パラメータの内、最も大きい決定数を有する削除対象候補前処理後内容パラメータを、削除対象前処理後内容パラメータとして決定してよい。なお、削除対象前処理後内容パラメータは、学習対象外前処理後内容パラメータと称されてもよい。同様に、削除対象候補前処理後内容パラメータは、学習対象外候補前処理後内容パラメータと称されてもよい。 In such a case, the determination unit 115 may determine the multiple pre-processing content parameters having the largest number of high-risk determination coefficients as the deletion candidate post-processing content parameters. Next, the determination unit 115 may determine the deletion candidate post-processing content parameter having the largest number of determinations among the multiple deletion candidate post-processing content parameters as the deletion candidate post-processing content parameter. Note that the deletion candidate post-processing content parameter may also be referred to as a non-learning candidate post-processing content parameter. Similarly, the deletion candidate post-processing content parameter may also be referred to as a non-learning candidate post-processing content parameter.

図18の例では、2行目の前処理後内容パラメータ「電流値」における決定係数の最大値が、4行目の前処理後内容パラメータ「OR_1」における決定係数の最大値よりも大きいものとする。このため、決定部115は、2行目の前処理後内容パラメータ「電流値」を、削除対象前処理後内容パラメータとして決定する(図18中の「高リスク決定係数の個数」における、ハッチング付の上記矩形部を参照)。そして、決定部115は、TB6aから、「電流値」に対応する行および列(すなわち、第2行および第2列)を削除することにより、TB6を更新する。 In the example of Figure 18, the maximum value of the coefficient of determination for the preprocessed content parameter "current value" in the second row is greater than the maximum value of the coefficient of determination for the preprocessed content parameter "OR_1" in the fourth row. Therefore, the determination unit 115 determines the preprocessed content parameter "current value" in the second row as the preprocessed content parameter to be deleted (see the hatched rectangle in "Number of high-risk determination coefficients" in Figure 18). The determination unit 115 then updates TB6 by deleting the row and column corresponding to "current value" (i.e., the second row and second column) from TB6a.

図19のTB6bは、TB6aが上述の通り更新されることによって得られたTB6の一例である。決定部115は、TB6aから、「電流値」に対応する行および列を削除した後、TB6aの最右端列に記録されていた、Ikに対応する高リスク決定係数の個数を更新する。従って、TB6bの最右端列には、更新後の高リスク決定係数の個数が記録されている。以降、決定部115は、TB6における全ての高リスク決定係数の個数が0になるまで、上述の通りTB6の更新を繰り返す。なお、図19の例では、3行目の前処理後内容パラメータ「OR_1」が削除対象候補前処理後内容パラメータとして決定されている(図19中の「高リスク決定係数の個数」における、点線によって図示された矩形部を参照)。但し、図19の例では、不図示の前処理後内容パラメータが、削除対象前処理後内容パラメータとして決定されている。 Table 6b in Figure 19 is an example of table 6 obtained by updating table 6a as described above. After deleting the row and column corresponding to "current value" from table 6a, the determination unit 115 updates the number of high-risk determination coefficients corresponding to Ik, which was recorded in the rightmost column of table 6a. Therefore, the rightmost column of table 6b records the updated number of high-risk determination coefficients. Thereafter, the determination unit 115 repeats updating table 6 as described above until the number of all high-risk determination coefficients in table 6 becomes 0. Note that in the example of Figure 19, the preprocessed content parameter "OR_1" in the third row has been determined as the preprocessed content parameter candidate for deletion (see the dotted rectangle in "Number of high-risk determination coefficients" in Figure 19). However, in the example of Figure 19, a preprocessed content parameter not shown has been determined as the preprocessed content parameter to be deleted.

図20のTB6endは、上述の更新の繰り返しの結果として得られた、最終的なTB6の一例である。図20に示されている通り、TB6endでは、全ての高リスク決定係数の個数が0である。TB6endに含まれている前処理後内容パラメータは、TB6initに含まれていた複数の前処理後内容パラメータから、TB6の更新過程において見出された各削除対象前処理後内容パラメータ(実施形態1の例において図示されている範囲では、「OR_2」および「電流値」)を除いた前処理後内容パラメータである。このことから、TB6endに含まれている前処理後内容パラメータは、残余前処理後内容パラメータと称されてもよい。 TB6end in Figure 20 is an example of the final TB6 obtained as a result of the repeated updates described above. As shown in Figure 20, in TB6end, the counts of all high-risk determination coefficients are 0. The preprocessed content parameters included in TB6end are the preprocessed content parameters obtained by excluding each preprocessed content parameter to be deleted (in the range illustrated in the example of embodiment 1) found during the TB6 update process from the multiple preprocessed content parameters included in TB6init. For this reason, the preprocessed content parameters included in TB6end may also be referred to as residual preprocessed content parameters.

上述の説明から明らかである通り、複数の残余前処理後内容パラメータ間においては、高リスク決定係数は生じない。すなわち、複数の残余前処理後内容パラメータ間における、多重共線性の発生リスクが十分に低減されている。そこで、決定部115は、残余前処理後内容パラメータのみが学習フェーズにおける説明変数として用いられるように、データセット1を処理(より具体的には、剪定)してよい。 As is clear from the above explanation, no high-risk coefficients of determination occur between the multiple residual preprocessed content parameters. In other words, the risk of multicollinearity occurring between the multiple residual preprocessed content parameters is sufficiently reduced. Therefore, the determination unit 115 may process (more specifically, prune) dataset 1 so that only the residual preprocessed content parameters are used as explanatory variables in the learning phase.

具体的には、決定部115は、データセット1から削除対象前処理後内容パラメータを削除することにより、剪定後データセット1(データセット1に対応する剪定後データセット)を生成してよい。図21における符号900APは、剪定後データセット1の一例を表す。上述の説明から明らかである通り、図21の例における剪定後データセット1は、データセット1から「OR_2」および「電流値」が削除されることによって生成される。 Specifically, the determination unit 115 may generate pruned dataset 1 (a pruned dataset corresponding to dataset 1) by deleting the post-preprocessing content parameters to be deleted from dataset 1. Reference numeral 900AP in FIG. 21 represents an example of pruned dataset 1. As is clear from the above explanation, pruned dataset 1 in the example of FIG. 21 is generated by deleting "OR_2" and "current value" from dataset 1.

以上の通り、決定部115は、注目データセットにおける削除対象前処理後内容パラメータを当該注目データセットから削除することにより、当該注目データセットに対応する剪定後注目データセットを生成してよい。従って、例えば、決定部115は、データセット1に関する上記の例と同様にして、データセット2における削除対象前処理後内容パラメータをデータセット2から削除することにより、剪定後データセット2を生成してよい。また、決定部115は、データセット4FL×5FNにおける削除対象前処理後内容パラメータをデータセット4FL×5FNから削除することにより、剪定後データセット4FL×5FNを生成してよい。 As described above, the determining unit 115 may generate a pruned dataset of interest corresponding to the dataset of interest by deleting, from the dataset of interest, post-preprocessing content parameters to be deleted in the dataset of interest. Therefore, for example, the determining unit 115 may generate pruned dataset 2 by deleting, from dataset 2, post-preprocessing content parameters to be deleted in dataset 2, in the same manner as in the above example regarding dataset 1. Furthermore, the determining unit 115 may generate pruned dataset 4 FL × 5 FN by deleting, from dataset 4 FL × 5 FN , post-preprocessing content parameters to be deleted in dataset 4 FL × 5 FN .

このように、決定部115は、前処理後第1図面種類内容パラメータセット(第1図面種類内容パラメータセットに複数パターンの前処理のそれぞれが施されることによって得られたデータセット)における削除対象前処理後内容パラメータを、当該前処理後第1図面種類内容パラメータセットから削除することにより、剪定後前処理後第1図面種類内容パラメータセット(剪定後データセット1~剪定後データセット4FL×5FNから成るセット)を生成してよい。 In this way, the determination unit 115 may generate a pruned post-preprocessing first drawing type content parameter set (a set consisting of pruned dataset 1 to pruned dataset 4 FL x 5 FN) by deleting the preprocessing content parameters to be deleted in the preprocessing first drawing type content parameter set (a data set obtained by applying each of multiple patterns of preprocessing to the first drawing type content parameter set) from the preprocessing first drawing type content parameter set.

第1図面種類内容パラメータセットについての上記の例と同様に、決定部115は、前処理後第2図面種類内容パラメータセット(第2図面種類内容パラメータセットに複数パターンの前処理のそれぞれが施されることによって得られたデータセット)における削除対象前処理後内容パラメータを、当該前処理後第2図面種類内容パラメータセットから削除することにより、剪定後前処理後第2図面種類内容パラメータセットを生成してよい。また、決定部115は、前処理第N図面種類内容パラメータセット(第N図面種類内容パラメータセットに複数パターンの前処理のそれぞれが施されることによって得られたデータセット)における削除対象前処理後内容パラメータを、当該前処理第N図面種類内容パラメータセットから削除することにより、剪定後前処理第N図面種類内容パラメータセットを生成してよい。 Similar to the above example for the first drawing type content parameter set, the determination unit 115 may generate the pruned post-preprocessing second drawing type content parameter set by deleting from the post-preprocessing second drawing type content parameter set the post-preprocessing content parameters to be deleted in the post-preprocessing second drawing type content parameter set (a data set obtained by applying each of multiple patterns of preprocessing to the second drawing type content parameter set). Furthermore, the determination unit 115 may generate the pruned post-preprocessing Nth drawing type content parameter set by deleting from the preprocessing Nth drawing type content parameter set the post-preprocessing content parameters to be deleted in the preprocessing Nth drawing type content parameter set (a data set obtained by applying each of multiple patterns of preprocessing to the Nth drawing type content parameter set).

(学習モデル生成部113における処理の一例)
実施形態1では、学習モデル生成部113は、決定部115から剪定後前処理後第1図面種類内容パラメータセットを取得する。学習モデル生成部113は、参考形態と同様にして、剪定後前処理後第1図面種類内容パラメータセットに基づいて、剪定後前処理後第1図面種類内容パラメータセットに対応する複数の学習モデルを生成する。次いで、学習モデル生成部113は、当該複数の学習モデルのそれぞれの品質を評価する。
(Example of processing in the learning model generation unit 113)
In the first embodiment, the learning model generation unit 113 acquires the pruned, preprocessed, first drawing type content parameter set from the determination unit 115. Similar to the reference embodiment, the learning model generation unit 113 generates a plurality of learning models corresponding to the pruned, preprocessed, first drawing type content parameter set based on the pruned, preprocessed, first drawing type content parameter set. Next, the learning model generation unit 113 evaluates the quality of each of the plurality of learning models.

具体的には、学習モデル生成部113は、剪定後前処理後第1図面種類内容パラメータセットに含まれる各データセットを、訓練データと検証データとに分割する。そして、学習モデル生成部113は、当該訓練データを用いて、当該訓練データに対応する複数の学習モデルを生成する。次いで、学習モデル生成部113は、当該検証データを用いて、当該複数の学習モデルのそれぞれの品質を評価する。より具体的には、学習モデル生成部113は、当該検証データを用いて、当該複数の学習モデルのそれぞれの指標値を導出する。 Specifically, the learning model generation unit 113 divides each data set included in the post-pruning and post-preprocessing first drawing type content parameter set into training data and validation data. Then, the learning model generation unit 113 uses the training data to generate multiple learning models corresponding to the training data. Next, the learning model generation unit 113 uses the validation data to evaluate the quality of each of the multiple learning models. More specifically, the learning model generation unit 113 uses the validation data to derive index values for each of the multiple learning models.

同様に、学習モデル生成部113は、決定部115から剪定後前処理後第2図面種類内容パラメータセットを取得する。学習モデル生成部113は、剪定後前処理後第2図面種類内容パラメータセットに基づいて、当該剪定後前処理後第2図面種類内容パラメータセットに対応する複数の学習モデルを生成する。次いで、学習モデル生成部113は、当該複数の学習モデルのそれぞれの品質を評価する。また、学習モデル生成部113は、決定部115から剪定後前処理後第N図面種類内容パラメータセットを取得する。学習モデル生成部113は、剪定後前処理後第N図面種類内容パラメータセットに基づいて、当該剪定後前処理後第N図面種類内容パラメータセットに対応する複数の学習モデルを生成する。次いで、学習モデル生成部113は、当該複数の学習モデルのそれぞれの品質を評価する。 Similarly, the learning model generation unit 113 obtains the post-pruning, post-preprocessing, second drawing type content parameter set from the determination unit 115. The learning model generation unit 113 generates a plurality of learning models corresponding to the post-pruning, post-preprocessing, second drawing type content parameter set based on the post-pruning, post-preprocessing, second drawing type content parameter set. Next, the learning model generation unit 113 evaluates the quality of each of the plurality of learning models. Furthermore, the learning model generation unit 113 obtains the post-pruning, post-preprocessing, Nth drawing type content parameter set from the determination unit 115. The learning model generation unit 113 generates a plurality of learning models corresponding to the post-pruning, post-preprocessing, Nth drawing type content parameter set based on the post-pruning, post-preprocessing, Nth drawing type content parameter set. Next, the learning model generation unit 113 evaluates the quality of each of the plurality of learning models.

実施形態1では、学習モデル生成部113は、剪定後前処理後第1図面種類内容パラメータセット~剪定後前処理後第N図面種類内容パラメータセットに基づいて導出された指標値に基づき、生成された複数の学習モデルの内から、ベスト学習モデルを選択する。例えば、学習モデル生成部113は、当該複数の学習モデルの内、最大指標値を有する学習モデルを、ベスト学習モデルとして選択する。続いて、学習モデル生成部113は、参考形態と同様にして、ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。実施形態1における以降の処理については、参考形態と同様である。 In embodiment 1, the learning model generation unit 113 selects the best learning model from among multiple generated learning models based on index values derived based on the pruned, post-preprocessing first drawing type content parameter set through the pruned, post-preprocessing Nth drawing type content parameter set. For example, the learning model generation unit 113 selects the learning model with the largest index value from among the multiple learning models as the best learning model. Next, the learning model generation unit 113 selects the preprocessing method corresponding to the best learning model as the best preprocessing method, similar to the reference embodiment. Subsequent processing in embodiment 1 is similar to the reference embodiment.

(実施形態1の効果)
実施形態1における学習装置11によれば、複数の前処理後内容パラメータから、削除対象前処理後内容パラメータ(多重共線性を生じさせるリスクが高いと懸念される前処理後内容パラメータ)を排除した上で、複数の学習モデルを生成できる。その上で、複数の学習モデルの内から、ベスト学習モデルを見出すことができる。
(Effects of the First Embodiment)
The learning device 11 according to the first embodiment can generate multiple learning models after excluding preprocessing parameters to be deleted (preprocessing parameters that are feared to have a high risk of causing multicollinearity) from multiple preprocessing parameters, and then can find the best learning model from among the multiple learning models.

本明細書では、ある前処理後内容パラメータセット(より詳細には、前処理後検索対象図面内容パラメータセット)のそれぞれから、当該内容パラメータセットにおける削除対象前処理後内容パラメータを削除することによって得られるデータセットを、剪定後前処理後内容パラメータセット(より詳細には、剪定後前処理後検索対象図面内容パラメータセット)と称する。上述の剪定後前処理後第1図面種類内容パラメータセット~剪定後前処理後第N図面種類内容パラメータセットはいずれも、剪定後前処理後内容パラメータセットの例である。 In this specification, the data set obtained by deleting the preprocessed content parameters to be deleted in a preprocessed content parameter set (more specifically, the preprocessed drawing content parameter set to be searched) from that content parameter set is referred to as the pruned preprocessed content parameter set (more specifically, the pruned preprocessed drawing content parameter set to be searched). The pruned preprocessed first drawing type content parameter set through the pruned preprocessed Nth drawing type content parameter set described above are all examples of pruned preprocessed content parameter sets.

以上の通り、学習装置11によれば、複数の剪定後前処理後内容パラメータセットに基づき、複数の学習モデルを生成できる。その上で、複数の学習モデルの内から、ベスト学習モデルを見出すことができる。このため、学習装置11によれば、多重共線性の影響が排除された学習モデルを、ベスト学習モデルとして得ることができる。それゆえ、参考形態に比べてさらに高品質なベスト学習モデルを得ることができる。このように、学習装置11によれば、図面検索を行うための学習モデルの品質を従来よりも向上させることができる。 As described above, the learning device 11 can generate multiple learning models based on multiple pruned and preprocessed content parameter sets. It can then find the best learning model from among the multiple learning models. Therefore, the learning device 11 can obtain a learning model from which the effects of multicollinearity have been eliminated as the best learning model. Therefore, it is possible to obtain a best learning model of even higher quality than the reference form. In this way, the learning device 11 can improve the quality of learning models for drawing search compared to conventional methods.

また、学習装置11によれば、残余前処理後内容パラメータのみが学習フェーズにおける説明変数として用いられるように、複数の学習モデルを生成できる。すなわち、参考形態に比べ、各データセットの次元数を削減させた上で、複数の学習モデルを生成できる。それゆえ、学習フェーズに要する計算コストを、参考形態に比べて低減させることもできる。例えば、参考形態よりも短い計算時間によって、高品質なベスト学習モデルを得ることができる。 Furthermore, the learning device 11 can generate multiple learning models so that only the residual preprocessed content parameters are used as explanatory variables in the learning phase. In other words, multiple learning models can be generated after reducing the number of dimensions of each dataset compared to the reference form. Therefore, the computational cost required for the learning phase can also be reduced compared to the reference form. For example, a high-quality best learning model can be obtained in a shorter computation time than the reference form.

また、学習装置11によれば、多重共線性の影響が排除されたベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択することもできる。それゆえ、図面検索の精度向上のためにより一層有効性の高い前処理手法を、ベスト前処理手法として選択できることも期待される。 Furthermore, the learning device 11 can select the preprocessing method corresponding to the best learning model, from which the effects of multicollinearity have been eliminated, as the best preprocessing method. Therefore, it is expected that a more effective preprocessing method for improving the accuracy of drawing search can be selected as the best preprocessing method.

そして、実施形態1における図面検索装置12では、上述の通り学習装置11によって選択されたベスト学習モデルおよびベスト前処理手法を用いて、図面検索を行うことができる。その結果、参考形態に比べて、さらに高い検索精度によって図面検索を行うことができる。 The drawing search device 12 in embodiment 1 can perform drawing searches using the best learning model and best preprocessing method selected by the learning device 11 as described above. As a result, drawing searches can be performed with even higher search accuracy than in the reference embodiment.

〔変形例〕
実施形態1では、多重共線性評価値として決定係数(Rij)が用いられる場合が例示されていた。但し、当業者であれば明らかである通り、多重共線性評価値は、上記の例に限定されない。例えば、学習装置11において、多重共線性評価値として、上述の相関係数絶対値が用いられてもよい。
[Modification]
In the first embodiment, the coefficient of determination (Rij) is used as the multicollinearity evaluation value. However, as will be apparent to those skilled in the art, the multicollinearity evaluation value is not limited to the above example. For example, the learning device 11 may use the above-mentioned absolute value of the correlation coefficient as the multicollinearity evaluation value.

この場合、決定部115は、実施形態1と同様にして、注目データセットに含まれる任意の2つの異なる前処理後内容パラメータ間の相関係数絶対値を算出してよい。本変形例では、決定部115は、通りの相関係数絶対値を算出する。このように、決定部115は、各前処理後内容パラメータについて、相関係数絶対値(すなわち、|sij|)を算出する。 In this case, the determining unit 115 may calculate the absolute value of the correlation coefficient between any two different preprocessed content parameters included in the data set of interest, similarly to the first embodiment. In this modification, the determining unit 115 calculates two absolute values of the correlation coefficient P. In this way, the determining unit 115 calculates the absolute value of the correlation coefficient (i.e., |sij|) for each preprocessed content parameter.

そして、決定部115は、算出した各相関係数絶対値を、所定の閾値sth(相関係数絶対値閾値)と比較する。相関係数絶対値閾値は、多重共線性閾値の別の例である。本明細書では、「相関係数絶対値がsth以上である」という条件を満たしている相関係数絶対値を、高リスク相関係数絶対値と称する。 The determination unit 115 then compares each calculated correlation coefficient absolute value with a predetermined threshold sth (correlation coefficient absolute value threshold). The correlation coefficient absolute value threshold is another example of a multicollinearity threshold. In this specification, correlation coefficient absolute values that satisfy the condition that "the correlation coefficient absolute value is equal to or greater than sth" are referred to as high-risk correlation coefficient absolute values.

本変形例では、決定部115は、各前処理後内容パラメータについて、各相関係数絶対値をsthと比較し、各相関係数絶対値の内から高リスク相関係数絶対値を抽出する。そして、決定部115は、各前処理後内容パラメータについて、抽出した高リスク相関係数絶対値の個数を計上する。 In this modified example, the determination unit 115 compares each correlation coefficient absolute value with sth for each preprocessed content parameter, and extracts high-risk correlation coefficient absolute values from among the correlation coefficient absolute values. Then, the determination unit 115 counts the number of high-risk correlation coefficient absolute values extracted for each preprocessed content parameter.

上述の式(5)との対応性から明らかである通り、例えば、
sth=Rth1/2 …(6)
として、sthが設定されてよい。従って、sthは、0.7以上かつ1以下の所定の値として設定されることが好ましい。一例として、sthは0.7に設定されてよい。但し、当業者であれば明らかである通り、sthは上記の例に限定されない。
As is clear from the correspondence with the above formula (5), for example,
sth=Rth 1/2 ...(6)
Therefore, sth is preferably set to a predetermined value equal to or greater than 0.7 and equal to or less than 1. As an example, sth may be set to 0.7. However, as will be apparent to those skilled in the art, sth is not limited to the above example.

本変形例において、決定部115は、各相関係数絶対値と高リスク相関係数絶対値の個数との対応関係を示すテーブル(相関係数絶対値・高リスク相関係数絶対値個数テーブル)を生成する。当該相関係数絶対値・高リスク相関係数絶対値個数テーブルは、上述のTB6に対応する。そして、決定部115は、実施形態1と同様にして、相関係数絶対値・高リスク相関係数絶対値個数テーブルにおける全ての高リスク相関係数絶対値の個数が0になるまで、当該相関係数絶対値・高リスク相関係数絶対値個数テーブルの更新を繰り返す。以降の処理については、実施形態1と同様である。 In this modified example, the determination unit 115 generates a table (a correlation coefficient absolute value/high risk correlation coefficient absolute value count table) that indicates the correspondence between each correlation coefficient absolute value and the number of high risk correlation coefficient absolute values. This correlation coefficient absolute value/high risk correlation coefficient absolute value count table corresponds to TB6 described above. Then, as in embodiment 1, the determination unit 115 repeatedly updates the correlation coefficient absolute value/high risk correlation coefficient absolute value count table until the number of all high risk correlation coefficient absolute values in the correlation coefficient absolute value/high risk correlation coefficient absolute value count table becomes 0. Subsequent processing is the same as in embodiment 1.

以上の説明から明らかである通り、本発明の一態様において、決定部115は、各前処理後内容パラメータについて、多重共線性評価値を算出する。そして、決定部115は、算出した各多重共線性評価値を、所定の多重共線性閾値と比較する。具体的には、決定部115は、各多重共線性評価値を多重共線性閾値と比較し、各多重共線性評価値の内から高リスク多重共線性評価値を抽出する。決定部115は、各前処理後内容パラメータについて、抽出した高リスク多重共線性評価値の個数を計上する。 As is clear from the above explanation, in one aspect of the present invention, the determination unit 115 calculates a multicollinearity assessment value for each preprocessed content parameter. Then, the determination unit 115 compares each calculated multicollinearity assessment value with a predetermined multicollinearity threshold. Specifically, the determination unit 115 compares each multicollinearity assessment value with the multicollinearity threshold and extracts high-risk multicollinearity assessment values from among the multicollinearity assessment values. The determination unit 115 counts the number of high-risk multicollinearity assessment values extracted for each preprocessed content parameter.

次いで、決定部115は、各多重共線性評価値と高リスク多重共線性評価値の個数との対応関係を示すテーブル(多重共線性評価値・高リスク多重共線性評価値個数テーブル)を生成する。当該多重共線性評価値・高リスク多重共線性評価値個数テーブルは、上述のTB6に対応する。そして、上述の通り、決定部115は、多重共線性評価値・高リスク多重共線性評価値個数テーブルにおける全ての高リスク多重共線性評価値の個数が0になるまで、当該多重共線性評価値・高リスク多重共線性評価値個数テーブルの更新を繰り返す。 Next, the determination unit 115 generates a table (multicollinearity evaluation value/high-risk multicollinearity evaluation value count table) that shows the correspondence between each multicollinearity evaluation value and the number of high-risk multicollinearity evaluation values. This multicollinearity evaluation value/high-risk multicollinearity evaluation value count table corresponds to TB6 described above. Then, as described above, the determination unit 115 repeatedly updates the multicollinearity evaluation value/high-risk multicollinearity evaluation value count table until the counts of all high-risk multicollinearity evaluation values in the multicollinearity evaluation value/high-risk multicollinearity evaluation value count table become zero.

以上の通り、決定部115は、複数の前処理後内容パラメータに対して導出された複数の多重共線性評価値に基づいて、当該複数の前処理後内容パラメータの内から削除対象前処理後内容パラメータを決定できるように設定されていればよい。これにより、決定部115によって、当該複数の前処理後内容パラメータから削除対象前処理後内容パラメータを削除することが可能となる。その結果、上述の通り、多重共線性の影響が排除された学習モデルを、ベスト学習モデルとして得ることができる。 As described above, the determination unit 115 may be configured to determine preprocessed content parameters to be deleted from among a plurality of preprocessed content parameters based on a plurality of multicollinearity evaluation values derived for the plurality of preprocessed content parameters. This enables the determination unit 115 to delete preprocessed content parameters to be deleted from the plurality of preprocessed content parameters. As a result, as described above, a learning model from which the effects of multicollinearity have been eliminated can be obtained as the best learning model.

なお、当業者であれば明らかである通り、削除対象前処理後内容パラメータの選択方法は、実施形態1の例に限定されない。決定部115は、異なる2つの前処理後内容パラメータ間の多重共線性評価値が多重共線性閾値以上である場合に、当該2つの検索対象図面内容パラメータの内の一方を、削除対象前処理後内容パラメータとして決定すればよい。 As will be clear to those skilled in the art, the method for selecting the preprocessed content parameters to be deleted is not limited to the example in embodiment 1. If the multicollinearity evaluation value between two different preprocessed content parameters is equal to or greater than the multicollinearity threshold, the determination unit 115 may determine one of the two search target drawing content parameters as the preprocessed content parameter to be deleted.

〔実施形態2〕
図22は、実施形態2の情報処理システム100Vの要部の構成を示すブロック図である。情報処理システム100Vの情報処理装置を、情報処理装置1Vと称する。情報処理装置1Vの制御装置を、制御装置10Vと称する。制御装置10の学習装置および図面検索装置をそれぞれ、学習装置11V(モデル生成装置)および図面検索装置12Vと称する。
[Embodiment 2]
22 is a block diagram showing the configuration of the main parts of an information processing system 100V according to the second embodiment. The information processing device of the information processing system 100V is referred to as an information processing device 1V. The control device of the information processing device 1V is referred to as a control device 10V. The learning device and drawing search device of the control device 10 are referred to as a learning device 11V (model generation device) and a drawing search device 12V, respectively.

学習装置11Vは、実施形態1の学習装置11とは異なり、学習用前処理部114を有していない。学習装置11Vの決定部および学習モデル生成部をそれぞれ、決定部115Vおよび学習モデル生成部113V(学習部)と称する。また、図面検索装置12Vは、実施形態1の図面検索装置12とは異なり、検索用前処理部125を有していない。図面検索装置12Vの検索部を、検索部126Vと称する。 Unlike the learning device 11 of embodiment 1, the learning device 11V does not have a learning preprocessing unit 114. The determination unit and learning model generation unit of the learning device 11V are referred to as the determination unit 115V and the learning model generation unit 113V (learning unit), respectively. Furthermore, unlike the drawing search device 12 of embodiment 1, the drawing search device 12V does not have a search preprocessing unit 125. The search unit of the drawing search device 12V is referred to as the search unit 126V.

図22から明らかである通り、学習装置11Vでは、学習装置11とは異なり、前処理による各内容パラメータセットの拡張が行われない。このため、実施形態2では、複数の説明変数間(実施形態2の例では、複数の内容パラメータ間)における多重共線性の発生リスクは、実施形態1に比べて低いと期待される。但し、例えば、各過去図面の記載内容次第では、複数の内容パラメータ間において多重共線性が発生することも考えられる。そこで、実施形態2では、多重共線性の影響を排除するために、決定部115Vが設けられている。 As is clear from FIG. 22, unlike the learning device 11, the learning device 11V does not expand each content parameter set through preprocessing. For this reason, in the second embodiment, the risk of multicollinearity occurring between multiple explanatory variables (between multiple content parameters in the example of the second embodiment) is expected to be lower than in the first embodiment. However, depending on the content of each past drawing, for example, it is possible that multicollinearity may occur between multiple content parameters. Therefore, in the second embodiment, a determination unit 115V is provided to eliminate the effects of multicollinearity.

(学習装置11Vにおける処理の一例)
実施形態2では、決定部115Vは、過去図面内容パラメータ取得部112から、第1図面種類内容パラメータセット~第N図面種類内容パラメータセットを取得する。決定部115Vは、第1図面種類内容パラメータセットに含まれる任意の2つの異なる内容パラメータ間の多重共線性評価値を算出してよい。
(Example of processing in learning device 11V)
In the second embodiment, the determination unit 115V acquires the first to Nth drawing type content parameter sets from the past drawing content parameter acquisition unit 112. The determination unit 115V may calculate a multicollinearity evaluation value between any two different content parameters included in the first drawing type content parameter set.

実施形態2では、決定部115Vは、第1図面種類内容パラメータセットに含まれる各内容パラメータ(第1図面種類内容パラメータセット内の第1~第L内容パラメータ)について、多重共線性評価値を算出する。すなわち、実施形態2では、決定部115Vは、第1図面種類内容パラメータセットについて、通りの多重共線性評価値を算出する。このように、決定部115は、第1図面種類内容パラメータセットに含まれる異なる2つの検索対象図面内容パラメータの組み合わせパターンのそれぞれについて、多重共線性評価値を算出する。 In the second embodiment, the determination unit 115V calculates a multicollinearity evaluation value for each content parameter included in the first drawing type content parameter set (the first to Lth content parameters in the first drawing type content parameter set). That is, in the second embodiment, the determination unit 115V calculates L C two multicollinearity evaluation values for the first drawing type content parameter set. In this way, the determination unit 115 calculates a multicollinearity evaluation value for each combination pattern of two different drawing content parameters to be searched included in the first drawing type content parameter set.

次いで、決定部115Vは、算出した各多重共線性評価値を多重共線性閾値と比較し、各多重共線性評価値の内から高リスク多重共線性評価値を抽出する。そして、決定部115は、各内容パラメータについて、抽出した高リスク多重共線性評価値の個数を計上する。 The determination unit 115V then compares each calculated multicollinearity evaluation value with a multicollinearity threshold and extracts high-risk multicollinearity evaluation values from among the multicollinearity evaluation values. The determination unit 115 then counts the number of extracted high-risk multicollinearity evaluation values for each content parameter.

次いで、決定部115Vは、多重共線性評価値・高リスク多重共線性評価値個数テーブルを生成する。そして、決定部115Vは、多重共線性評価値・高リスク多重共線性評価値個数テーブルにおける全ての高リスク多重共線性評価値の個数が0になるまで、当該多重共線性評価値・高リスク多重共線性評価値個数テーブルの更新を繰り返す。 The determination unit 115V then generates a table of multicollinearity assessment values and the number of high-risk multicollinearity assessment values. The determination unit 115V then repeatedly updates the table of multicollinearity assessment values and the number of high-risk multicollinearity assessment values until the number of all high-risk multicollinearity assessment values in the table of multicollinearity assessment values and the number of high-risk multicollinearity assessment values becomes 0.

このように、決定部115Vは、多重共線性評価値・高リスク多重共線性評価値個数テーブルの更新を繰り返すことにより、第1図面種類内容パラメータセット内の第1~第L内容パラメータの内から、削除対象となる削除対象内容パラメータを特定する。削除対象内容パラメータは、多重共線性を生じさせるリスクが高いと懸念される内容パラメータと言える。なお、削除対象内容パラメータは、学習対象外内容パラメータと称されてもよい。 In this way, the determination unit 115V repeatedly updates the multicollinearity evaluation value/high-risk multicollinearity evaluation value count table to identify content parameters to be deleted from among the first through Lth content parameters in the first drawing type content parameter set. Content parameters to be deleted can be said to be content parameters that are feared to pose a high risk of causing multicollinearity. Note that content parameters to be deleted may also be referred to as content parameters not to be learned.

上述の各説明から明らかである通り、決定部115Vは、多重共線性評価値が所定の多重共線性閾値以上である場合に、上記2つの検索対象図面内容パラメータの内の一方を、削除対象内容パラメータとして決定してよい。そして、決定部115Vは、第1図面種類内容パラメータセット内の第1~第L内容パラメータの内から、削除対象内容パラメータを削除することにより、剪定後第1図面種類内容パラメータセットを生成する。 As is clear from the above explanations, the determination unit 115V may determine one of the two search target drawing content parameters as a content parameter to be deleted if the multicollinearity evaluation value is equal to or greater than a predetermined multicollinearity threshold. The determination unit 115V then generates a pruned first drawing type content parameter set by deleting the content parameter to be deleted from the first through Lth content parameters in the first drawing type content parameter set.

一例として、第1図面種類内容パラメータセット内の第1~第L内容パラメータの内、第2内容パラメータ「電流値」が、削除対象内容パラメータとして特定された場合を考える。この場合、決定部115Vは、第1図面種類内容パラメータセットから、第2内容パラメータ「電流値」に対応する系列(図3の例における2行目)を削除することにより、剪定後第1図面種類内容パラメータセットを生成する。 As an example, consider the case where, of the first through Lth content parameters in the first drawing type content parameter set, the second content parameter "current value" is identified as the content parameter to be deleted. In this case, the determination unit 115V generates a pruned first drawing type content parameter set by deleting the series corresponding to the second content parameter "current value" (the second row in the example of Figure 3) from the first drawing type content parameter set.

同様にして、決定部115Vは、第2図面種類内容パラメータセットに含まれる各内容パラメータ(第2図面種類内容パラメータセット内の第1~第L内容パラメータ)について、多重共線性評価値を算出する。そして、決定部115は、各多重共線性評価値に基づいて第2図面種類内容パラメータセットを剪定することにより、剪定後第2図面種類内容パラメータセットを生成する。 Similarly, the determination unit 115V calculates a multicollinearity evaluation value for each content parameter included in the second drawing type content parameter set (the first to Lth content parameters in the second drawing type content parameter set).The determination unit 115 then prunes the second drawing type content parameter set based on each multicollinearity evaluation value, thereby generating a pruned second drawing type content parameter set.

また、決定部115Vは、第N図面種類内容パラメータセットに含まれる各内容パラメータ(第N図面種類内容パラメータセット内の第1~第L内容パラメータ)について、多重共線性評価値を算出する。そして、決定部115Vは、各多重共線性評価値に基づいて第N図面種類内容パラメータセットを剪定することにより、剪定後第N図面種類内容パラメータセットを生成する。決定部115Vは、以上の通り生成した剪定後第1図面種類内容パラメータセット~剪定後第N図面種類内容パラメータセットを、学習モデル生成部113Vに供給する。 The determination unit 115V also calculates a multicollinearity evaluation value for each content parameter included in the Nth drawing type content parameter set (the 1st to Lth content parameters in the Nth drawing type content parameter set). The determination unit 115V then generates a pruned Nth drawing type content parameter set by pruning the Nth drawing type content parameter set based on each multicollinearity evaluation value. The determination unit 115V supplies the pruned 1st to Nth drawing type content parameter sets generated as described above to the learning model generation unit 113V.

実施形態2では、学習モデル生成部113Vは、剪定後第1図面種類内容パラメータセット~剪定後第N図面種類内容パラメータセットに基づき、学習モデルを生成する。具体的には、学習モデル生成部113Vは、所定の機械学習アルゴリズムを実行することにより、剪定後第1図面種類内容パラメータセット~剪定後第N図面種類内容パラメータセットに基づき、学習モデルを生成する。学習モデル生成部113Vは、生成した学習モデルを、図面検索装置12V(より具体的には、検索部126V)に供給する。 In embodiment 2, the learning model generation unit 113V generates a learning model based on the pruned first drawing type content parameter set through the pruned Nth drawing type content parameter set. Specifically, the learning model generation unit 113V executes a predetermined machine learning algorithm to generate a learning model based on the pruned first drawing type content parameter set through the pruned Nth drawing type content parameter set. The learning model generation unit 113V supplies the generated learning model to the drawing search device 12V (more specifically, the search unit 126V).

実施形態2における機械学習アルゴリズムは、実施形態1において例示した複数種類の機械学習アルゴリズムのうちの任意の1つであってよい。従って、一例として、学習モデル生成部113Vは、多項ロジスティック回帰によって、剪定後第1図面種類内容パラメータセット~剪定後第N図面種類内容パラメータセットに基づき、学習モデルを生成してよい。 The machine learning algorithm in embodiment 2 may be any one of the multiple types of machine learning algorithms exemplified in embodiment 1. Therefore, as an example, the learning model generation unit 113V may generate a learning model based on the pruned first drawing type content parameter set through the pruned Nth drawing type content parameter set using multinomial logistic regression.

上述の通り、実施形態2では、前処理による各内容パラメータセットの拡張が行われない。このため、実施形態2では、ベスト学習モデルおよびベスト前処理手法は決定されない。このことから明らかである通り、本発明の一態様において、複数の学習モデルを生成し、かつ、当該複数の学習モデルの内からベスト学習モデルを選択する決定する工程は必須ではない。同様に、本発明の一態様において、複数の前処理手法の内からベスト前処理手法を決定する工程も必須ではない。 As described above, in embodiment 2, each content parameter set is not expanded by preprocessing. Therefore, in embodiment 2, the best learning model and best preprocessing method are not determined. As is clear from this, in one aspect of the present invention, the steps of generating multiple learning models and selecting the best learning model from among the multiple learning models are not required. Similarly, in one aspect of the present invention, the step of determining the best preprocessing method from among multiple preprocessing methods is not required.

(図面検索装置12Vにおける処理の一例)
検索部126Vは、(i)新規図面内容パラメータ取得部122から新規図面内容パラメータセットを取得するとともに、(ii)学習モデル生成部113Vによって生成された学習モデルを、学習装置11Vから取得する。
(Example of processing in the drawing search device 12V)
The search unit 126V (i) acquires a new drawing content parameter set from the new drawing content parameter acquisition unit 122, and (ii) acquires the learning model generated by the learning model generation unit 113V from the learning device 11V.

検索部126Vは、新規図面内容パラメータセットを学習モデルに入力する。そして、検索部126Vは、新規図面内容パラメータセットに応じた学習モデルの出力を、当該学習モデルから取得する。 The search unit 126V inputs the new drawing content parameter set into the learning model. Then, the search unit 126V obtains the output of the learning model corresponding to the new drawing content parameter set from the learning model.

一例として、検索部126Vは、学習モデルに新規図面内容パラメータセットを入力することにより、当該新規図面内容パラメータセットに応じた関連性スコアを、当該学習モデルに出力させる。そして、検索部126Vは、学習モデルの出力(例:関連性スコア)に基づいて、図面NDに対応する少なくとも1つの過去図面を検索する。 As an example, the search unit 126V inputs a new drawing content parameter set into a learning model, causing the learning model to output a relevance score corresponding to the new drawing content parameter set. Then, the search unit 126V searches for at least one past drawing corresponding to the drawing ND based on the output of the learning model (e.g., the relevance score).

(実施形態2の効果)
実施形態2における学習装置11Vによれば、複数の内容パラメータから、削除対象内容パラメータ(多重共線性を生じさせるリスクが高いと懸念される内容パラメータ)を排除した上で、学習モデルを生成できる。すなわち、学習装置11Vによれば、削除対象内容パラメータを除いた複数の内容パラメータに基づき、学習モデルを生成できる。
(Effects of the Second Embodiment)
The learning device 11V in the second embodiment can generate a learning model after excluding content parameters to be deleted (content parameters that are feared to have a high risk of causing multicollinearity) from a plurality of content parameters. That is, the learning device 11V can generate a learning model based on a plurality of content parameters excluding the content parameters to be deleted.

本明細書では、内容パラメータセット(より詳細には、検索対象図面内容パラメータセット)から削除対象内容パラメータを削除することによって得られるデータセットを、剪定後内容パラメータセット(より詳細には、剪定後検索対象図面内容パラメータセット)とも称する。以上の通り、学習装置11Vによれば、剪定後内容パラメータセットに基づき、学習モデルを生成できる。このため、学習装置11Vによれば、多重共線性の影響が排除された学習モデルを得ることができる。それゆえ、従来(例:特許文献1の技術)に比べて、学習モデルの品質を従来よりも向上させることができる。 In this specification, the data set obtained by deleting the deletion target content parameters from the content parameter set (more specifically, the search target drawing content parameter set) is also referred to as the pruned content parameter set (more specifically, the pruned search target drawing content parameter set). As described above, the learning device 11V can generate a learning model based on the pruned content parameter set. Therefore, the learning device 11V can obtain a learning model in which the effects of multicollinearity are eliminated. This makes it possible to improve the quality of the learning model compared to conventional techniques (e.g., the technology of Patent Document 1).

そして、実施形態2における図面検索装置12Vでは、上述の通り学習装置11Vによって生成された学習モデルを用いて、図面検索を行うことができる。その結果、従来に比べて、さらに高い検索精度によって図面検索を行うことができる。 The drawing search device 12V in embodiment 2 can perform drawing searches using the learning model generated by the learning device 11V as described above. As a result, drawing searches can be performed with even higher search accuracy than before.

上述の通り、実施形態2では、実施形態1とは異なり、ベスト学習モデルおよびベスト前処理手法の選択は実行されない。このため、実施形態2によれば、図面検索装置の運用時に使用される最終的な学習モデル(運用モデル)を、実施形態1に比べて短時間で得ることができる。 As described above, in embodiment 2, unlike embodiment 1, the selection of the best learning model and the best preprocessing method is not performed. Therefore, according to embodiment 2, the final learning model (operational model) used when operating the drawing search device can be obtained in a shorter time than in embodiment 1.

但し、上述の説明から明らかである通り、実施形態1によれば、運用モデルとしてベスト学習モデルを選択できる。すなわち、実施形態1によれば、実施形態2に比べてさらに高品質な運用モデルを得ることができる。加えて、実施形態1によれば、図面検索装置の運用時に使用される前処理手法(運用時前処理手法)として、ベスト前処理手法を選択できる。運用時にベスト前処理手法を適用することにより、図面検索装置における図面検索精度をより一層向上させることができる。従って、実施形態1または2のいずれの情報処理装置の構成を採用するかについては、例えば、当該情報処理装置に要求される仕様に応じて、当該情報処理装置の設計者によって適宜決定されてよい。 However, as is clear from the above explanation, according to embodiment 1, the best learning model can be selected as the operational model. That is, according to embodiment 1, an operational model of even higher quality can be obtained compared to embodiment 2. In addition, according to embodiment 1, the best preprocessing method can be selected as the preprocessing method to be used when the drawing search device is in operation (operational preprocessing method). By applying the best preprocessing method during operation, the drawing search accuracy of the drawing search device can be further improved. Therefore, whether the configuration of the information processing device of embodiment 1 or 2 is to be adopted may be decided appropriately by the designer of the information processing device, for example, depending on the specifications required for the information processing device.

〔ソフトウェアによる実現例〕
情報処理システム100s・100・100V(以下では、便宜上「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に、制御装置10s・10・10Vに含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
[Software implementation example]
The functions of the information processing systems 100s, 100, and 100V (hereinafter referred to as "devices" for convenience) can be realized by a program that causes a computer to function as the device, and a program that causes a computer to function as each control block of the device (in particular, each part included in the control device 10s, 10, and 10V).

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。 In this case, the device includes a computer having at least one control device (e.g., a processor) and at least one storage device (e.g., a memory) as hardware for executing the program. The functions described in each of the above embodiments are realized by executing the program using this control device and storage device.

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。 The above program may be stored non-transitory on one or more computer-readable storage media. These storage media may or may not be included in the device. In the latter case, the program may be supplied to the device via any wired or wireless transmission medium.

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の一態様の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。 Furthermore, some or all of the functions of each of the above control blocks can be realized by logic circuits. For example, an integrated circuit incorporating logic circuits that function as each of the above control blocks also falls within the scope of one aspect of the present invention. In addition, the functions of each of the above control blocks can also be realized by, for example, a quantum computer.

上述の各説明から明らかである通り、上記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させることができる。この場合、AIは上記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。 As is clear from the above explanations, the processes described in the above embodiments can be executed by AI (Artificial Intelligence). In this case, the AI may run on the control device, or on another device (such as an edge computer or cloud server).

〔付記事項〕
本発明の一態様は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の一態様の技術的範囲に含まれる。
[Additional Notes]
One aspect of the present invention is not limited to the above-described embodiments, and various modifications are possible within the scope of the claims. Embodiments obtained by appropriately combining the technical means disclosed in different embodiments are also included in the technical scope of one aspect of the present invention.

1,1V 情報処理装置
10,10V 制御装置
11,11V 学習装置(モデル生成装置)
100,100V 情報処理システム
111 過去図面データ取得部
112 過去図面内容パラメータ取得部(取得部)
113,113V 学習モデル生成部(学習部)
114 学習用前処理部(前処理部)
115、115V 決定部
1, 1V Information processing device 10, 10V Control device 11, 11V Learning device (model generation device)
100, 100V Information processing system 111 Past drawing data acquisition unit 112 Past drawing content parameter acquisition unit (acquisition unit)
113, 113V Learning model generation unit (learning unit)
114 Learning preprocessing unit (preprocessing unit)
115, 115V decision section

Claims (8)

複数の検索対象図面の内からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを生成するモデル生成装置であって、
上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得部と、
(i)上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる2つの内容パラメータの組み合わせパターンのそれぞれについて、当該2つの内容パラメータ間の多重共線性評価値を算出するとともに、(ii)当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定部と、
上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習部と、を備えており、
上記モデル生成装置は、
所定の複数種類の前処理手法の組み合わせに従って、上記内容パラメータセットに含まれる上記複数の内容パラメータのそれぞれを前処理することにより、複数の前処理後内容パラメータをそれぞれ含む複数の前処理後内容パラメータセットを生成する前処理部をさらに備えており、
上記決定部は、(i)上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内の、異なる2つの前処理後内容パラメータの組み合わせパターンのそれぞれについて、当該2つの前処理後内容パラメータ間の多重共線性評価値を算出するとともに、(ii)当該多重共線性評価値に基づき、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内から、削除対象となる削除対象前処理後内容パラメータを決定し、
上記学習部は、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後内容パラメータセットのそれぞれから上記削除対象前処理後内容パラメータを削除することによって得られた複数の剪定後前処理後内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成し、
上記複数の剪定後前処理後内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択し、
上記複数種類の前処理手法の内、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択し、
上記複数種類の前処理手法のうちの1つは、ワンホットエンコーディングである、
モデル生成装置。
A model generation device that generates a learning model for searching at least one drawing corresponding to a target drawing from among a plurality of search target drawings,
an acquisition unit that analyzes the plurality of search target drawings to acquire a content parameter set including a plurality of content parameters related to the description content of each of the plurality of search target drawings;
(i) a determination unit that calculates a multicollinearity evaluation value between two different content parameters for each combination pattern of the plurality of content parameters included in the content parameter set, and (ii) determines content parameters to be deleted from the plurality of content parameters based on the multicollinearity evaluation value;
a learning unit that generates the learning model based on a pruned content parameter set obtained by deleting the deletion target content parameters from the content parameter set ,
The model generating device
a preprocessing unit that generates a plurality of preprocessed content parameter sets each including a plurality of preprocessed content parameters by preprocessing each of the plurality of content parameters included in the content parameter set according to a combination of a predetermined plurality of types of preprocessing techniques;
The determination unit (i) calculates a multicollinearity evaluation value between two different pre-processed content parameters for each combination pattern of the plurality of pre-processed content parameters included in each of the plurality of pre-processed content parameter sets, and (ii) determines, based on the multicollinearity evaluation value, a post-processed content parameter to be deleted from the plurality of pre-processed content parameters included in each of the plurality of pre-processed content parameter sets;
The learning section is
generating a plurality of learning models using a plurality of pruned post-preprocessing content parameter sets obtained by deleting the post-preprocessing content parameters to be deleted from each of the plurality of post-preprocessing content parameter sets by applying each of a plurality of predetermined types of machine learning algorithms;
selecting a best learning model from the plurality of learning models based on a plurality of index values indicating the quality of each of the plurality of learning models, the index values being obtained by verifying each of the plurality of learning models using each of the plurality of post-pruning and post-preprocessing content parameter sets;
selecting a preprocessing method corresponding to the best learning model as a best preprocessing method from among the plurality of preprocessing methods;
One of the multiple preprocessing techniques is one-hot encoding.
Model generation device.
上記学習部は、上記複数の学習モデルの内、最も高い指標値を有する学習モデルを、上記ベスト学習モデルとして選択する、請求項に記載のモデル生成装置。 2. The model generating device according to claim 1 , wherein the learning unit selects, from the plurality of learning models, a learning model having the highest index value as the best learning model. 上記決定部は、上記多重共線性評価値が多重共線性閾値以上である場合に、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記2つの前処理後内容パラメータの内の一方を、上記削除対象前処理後内容パラメータとして決定する、請求項1または2に記載のモデル生成装置。 3. The model generating device according to claim 1, wherein the determination unit determines one of the two preprocessed content parameters included in each of the plurality of preprocessed content parameter sets as the preprocessed content parameter to be deleted when the multicollinearity evaluation value is equal to or greater than a multicollinearity threshold. 上記決定部は、
上記多重共線性評価値として、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記2つの前処理後内容パラメータ間の決定係数を算出し、
上記決定係数が、上記多重共線性閾値としての決定係数閾値以上である場合に、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記2つの前処理後内容パラメータの内の一方を、上記削除対象前処理後内容パラメータとして決定する、請求項に記載のモデル生成装置。
The determination unit:
calculating a coefficient of determination between the two preprocessed content parameters included in each of the plurality of preprocessed content parameter sets as the multicollinearity evaluation value;
4. The model generating device according to claim 3, wherein, when the coefficient of determination is equal to or greater than a coefficient of determination threshold as the multicollinearity threshold, one of the two preprocessed content parameters included in each of the plurality of preprocessed content parameter sets is determined to be the preprocessed content parameter to be deleted.
上記決定係数閾値は、0.49以上かつ1以下の所定の値に設定されている、請求項に記載のモデル生成装置。 The model generating device according to claim 4 , wherein the coefficient of determination threshold is set to a predetermined value not less than 0.49 and not more than 1. 上記決定部は、
上記多重共線性評価値として、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記2つの前処理後内容パラメータ間の相関係数の絶対値を算出し、
上記相関係数の絶対値が、上記多重共線性閾値としての相関係数絶対値閾値以上である場合に、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記2つの前処理後内容パラメータの内の一方を、上記削除対象前処理後内容パラメータとして決定する、請求項に記載のモデル生成装置。
The determination unit:
calculating, as the multicollinearity evaluation value, an absolute value of a correlation coefficient between the two preprocessed content parameters included in each of the plurality of preprocessed content parameter sets;
4. The model generating device according to claim 3, wherein, when the absolute value of the correlation coefficient is equal to or greater than a correlation coefficient absolute value threshold as the multicollinearity threshold , one of the two preprocessed content parameters included in each of the plurality of preprocessed content parameter sets is determined to be the preprocessed content parameter to be deleted.
上記相関係数絶対値閾値は、0.7以上かつ1以下の所定の値に設定されている、請求項に記載のモデル生成装置。 7. The model generating device according to claim 6 , wherein the correlation coefficient absolute value threshold is set to a predetermined value not less than 0.7 and not more than 1. 複数の検索対象図面の内からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを、モデル生成装置が生成するモデル生成方法であって、
上記モデル生成方法は、
上記モデル生成装置が、上記複数の検索対象図面を解析することにより、当該複数の検索対象図面のそれぞれの記載内容に関連した複数の内容パラメータを含む内容パラメータセットを取得する取得工程と、
上記モデル生成装置が、(i)上記内容パラメータセットに含まれる上記複数の内容パラメータの内の、異なる2つの内容パラメータの組み合わせパターンのそれぞれについて、当該2つの内容パラメータ間の多重共線性評価値を算出するとともに、(ii)当該多重共線性評価値に基づき、上記複数の内容パラメータの内から、削除対象となる削除対象内容パラメータを決定する決定工程と、
上記モデル生成装置が、上記内容パラメータセットから上記削除対象内容パラメータを削除することによって得られた剪定後内容パラメータセットに基づき、上記学習モデルを生成する学習工程と、を含んでおり、
上記モデル生成方法は、
所定の複数種類の前処理手法の組み合わせに従って、上記内容パラメータセットに含まれる上記複数の内容パラメータのそれぞれを前処理することにより、複数の前処理後内容パラメータをそれぞれ含む複数の前処理後内容パラメータセットを生成する前処理工程をさらに含んでおり、
上記決定工程は、上記モデル生成装置が、(i)上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内の、異なる2つの前処理後内容パラメータの組み合わせパターンのそれぞれについて、当該2つの前処理後内容パラメータ間の多重共線性評価値を算出するとともに、(ii)当該多重共線性評価値に基づき、上記複数の前処理後内容パラメータセットのそれぞれに含まれる上記複数の前処理後内容パラメータの内から、削除対象となる削除対象前処理後内容パラメータを決定する工程をさらに含んでおり、
上記学習工程は、
上記モデル生成装置が、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後内容パラメータセットのそれぞれから上記削除対象前処理後内容パラメータを削除することによって得られた複数の剪定後前処理後内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する工程と、
上記モデル生成装置が、上記複数の剪定後前処理後内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択する工程と、
上記モデル生成装置が、上記複数種類の前処理手法の内、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する工程と、をさらに含んでおり、
上記複数種類の前処理手法のうちの1つは、ワンホットエンコーディングである、
モデル生成方法。
A model generation method in which a model generation device generates a learning model for searching at least one drawing corresponding to a target drawing from among a plurality of search target drawings, the method comprising:
The above model generation method is as follows:
an acquisition step in which the model generation device analyzes the plurality of search target drawings to acquire a content parameter set including a plurality of content parameters related to the description content of each of the plurality of search target drawings;
the model generating device performs a determination step of: (i) calculating a multicollinearity evaluation value between two different content parameters for each combination pattern of the plurality of content parameters included in the content parameter set; and (ii) determining a deletion target content parameter to be deleted from the plurality of content parameters based on the multicollinearity evaluation value;
a learning step in which the model generation device generates the learning model based on a pruned content parameter set obtained by deleting the deletion target content parameters from the content parameter set ,
The above model generation method is as follows:
a preprocessing step of generating a plurality of preprocessed content parameter sets each including a plurality of preprocessed content parameters by preprocessing each of the plurality of content parameters included in the content parameter set according to a combination of a plurality of predetermined types of preprocessing techniques;
the determining step further includes a step in which the model generating device (i) calculates a multicollinearity evaluation value between two different pre-processed content parameters for each combination pattern of the plurality of pre-processed content parameters included in each of the plurality of pre-processed content parameter sets, and (ii) determines, based on the multicollinearity evaluation value, a pre-processed content parameter to be deleted from the plurality of pre-processed content parameters included in each of the plurality of pre-processed content parameter sets;
The learning process is as follows:
The model generating device generates a plurality of learning models using a plurality of pruned post-preprocessing content parameter sets obtained by deleting the post-preprocessing content parameters to be deleted from each of the plurality of post-preprocessing content parameter sets by applying each of a plurality of predetermined types of machine learning algorithms;
a step in which the model generation device selects a best learning model from among the plurality of learning models based on a plurality of index values indicating the quality of each of the plurality of learning models, the index values being obtained by verifying each of the plurality of learning models using each of the plurality of post-pruning and post-preprocessing content parameter sets;
the model generation device further includes a step of selecting, from the plurality of types of preprocessing methods, a preprocessing method corresponding to the best learning model as a best preprocessing method;
One of the multiple preprocessing techniques is one-hot encoding.
Model generation method.
JP2021197943A 2021-12-06 2021-12-06 Model generation device and model generation method Active JP7783482B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021197943A JP7783482B2 (en) 2021-12-06 2021-12-06 Model generation device and model generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021197943A JP7783482B2 (en) 2021-12-06 2021-12-06 Model generation device and model generation method

Publications (2)

Publication Number Publication Date
JP2023083931A JP2023083931A (en) 2023-06-16
JP7783482B2 true JP7783482B2 (en) 2025-12-10

Family

ID=86731637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021197943A Active JP7783482B2 (en) 2021-12-06 2021-12-06 Model generation device and model generation method

Country Status (1)

Country Link
JP (1) JP7783482B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102616508B1 (en) * 2023-08-04 2023-12-21 주식회사 지뉴소프트 Method and system for selecting an optimized construction method using artificial intelligence
JP7623055B1 (en) 2024-06-21 2025-01-28 A1A株式会社 Program, method, information processing device and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124894A1 (en) 2015-11-04 2017-05-04 EDUCATION4SIGHT GmbH Systems and methods for instrumentation of education processes
JP2018151883A (en) 2017-03-13 2018-09-27 株式会社東芝 Analysis device, analysis method, and program
KR102111667B1 (en) 2019-07-25 2020-05-15 (주)위세아이텍 Apparatus of generating 2d image data set for deep learning through 3d design drawing data processing and system for searching simillar design drawing data based on deep learning using the same
JP2021012413A (en) 2019-07-03 2021-02-04 日新電機株式会社 Drawing retrieval device and drawing retrieval method
JP2021022275A (en) 2019-07-30 2021-02-18 横浜ゴム株式会社 Data processing method, data processing apparatus, and program
JP2021174125A (en) 2020-04-22 2021-11-01 株式会社 日立産業制御ソリューションズ Information processing device and information processing method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124894A1 (en) 2015-11-04 2017-05-04 EDUCATION4SIGHT GmbH Systems and methods for instrumentation of education processes
JP2018151883A (en) 2017-03-13 2018-09-27 株式会社東芝 Analysis device, analysis method, and program
JP2021012413A (en) 2019-07-03 2021-02-04 日新電機株式会社 Drawing retrieval device and drawing retrieval method
KR102111667B1 (en) 2019-07-25 2020-05-15 (주)위세아이텍 Apparatus of generating 2d image data set for deep learning through 3d design drawing data processing and system for searching simillar design drawing data based on deep learning using the same
JP2021022275A (en) 2019-07-30 2021-02-18 横浜ゴム株式会社 Data processing method, data processing apparatus, and program
JP2021174125A (en) 2020-04-22 2021-11-01 株式会社 日立産業制御ソリューションズ Information processing device and information processing method

Also Published As

Publication number Publication date
JP2023083931A (en) 2023-06-16

Similar Documents

Publication Publication Date Title
CN110163261B (en) Unbalanced data classification model training method, device, equipment and storage medium
CN109165664B (en) Attribute-missing data set completion and prediction method based on generation of countermeasure network
US12541705B2 (en) System and method for facilitating a machine learning model rebuild
Mirtaheri et al. One-shot learning for temporal knowledge graphs
KR20220059120A (en) System for modeling automatically of machine learning with hyper-parameter optimization and method thereof
CN104866472B (en) The generation method and device of participle training set
JP7783482B2 (en) Model generation device and model generation method
CN110334208B (en) LKJ fault prediction diagnosis method and system based on Bayesian belief network
CN108459955A (en) Software Defects Predict Methods based on depth autoencoder network
CN119646134B (en) Data knowledge extraction method, system, equipment and storage medium based on large language model
CN114254199B (en) Course recommendation method based on bipartite graph projection and node2vec
Ma et al. Energy consumption prediction for office buildings: Performance evaluation and application of ensemble machine learning techniques
CN119961493A (en) An intelligent data mining platform and method based on big data analysis
Zhang et al. A data-driven metric-based proper orthogonal decomposition method with Shapley Additive Explanations for aerodynamic shape inverse design optimization
Ansary Machine learning for predicting the stock price direction with trading indicators
CN111737918B (en) An integrated learning method for fault diagnosis of aero-engine high-pressure rotors
KR100895481B1 (en) Region-based Image Retrieval Using Multi-class SMB
CN111108516A (en) Evaluating input data using a deep learning algorithm
JP7688251B2 (en) MODEL GENERATION DEVICE, INFORMATION PROCESSING DEVICE, MODEL GENERATION METHOD, AND METHOD FOR CONTROLLING INFORMATION PROCESSING DEVICE
US20230105736A1 (en) Interactive system to assist a user in building a machine learning model
JP2024037022A (en) Model generation device and model generation method
CN116720079A (en) Wind turbine fault mode identification method and system based on multi-feature fusion
CN120409279A (en) Key process feature identification method and related device for high-temperature alloy turbine disk forgings
CN119993275A (en) A fungal phenotypic barcode screening method and system based on machine learning
JP7219920B2 (en) Drawing retrieval device and drawing retrieval method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20251028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20251110

R150 Certificate of patent or registration of utility model

Ref document number: 7783482

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150