JP7633958B2 - Information processing device, information processing method, and information processing program - Google Patents
Information processing device, information processing method, and information processing program Download PDFInfo
- Publication number
- JP7633958B2 JP7633958B2 JP2022028573A JP2022028573A JP7633958B2 JP 7633958 B2 JP7633958 B2 JP 7633958B2 JP 2022028573 A JP2022028573 A JP 2022028573A JP 2022028573 A JP2022028573 A JP 2022028573A JP 7633958 B2 JP7633958 B2 JP 7633958B2
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- information
- weak learner
- training
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。 The present invention relates to an information processing device, an information processing method, and an information processing program.
近時、様々な分野においてコンピュータが学習用データを使用して数理モデルを機械学習することが一般的になっている。機械学習において、数理モデルの係数(パラメータ)は最適化される。ユーザがある説明変数を機械学習済の数理モデルに入力すると、その数理モデルは、ユーザが期待する目的変数を出力する。ここで“ユーザが期待する目的変数”とは、“ユーザが経験的に正しいと評価できる”という意味である。 Recently, in various fields, it has become common for computers to use learning data to train mathematical models through machine learning. In machine learning, the coefficients (parameters) of the mathematical model are optimized. When a user inputs explanatory variables into a machine-learned mathematical model, the mathematical model outputs the objective variable expected by the user. Here, "the objective variable expected by the user" means "one that the user can empirically evaluate as correct."
人為的、社会的、時期的又は環境的な制約に起因して、母集団から得られた標本としての学習用データに偏り(バイアス)がある場合、数理モデルは、たとえ技術的に正しく機械学習が行われていても、ユーザが期待する目的変数を出力しなくなってしまう。そこで、機械学習済の数理モデルの係数を修正する必要が生じる。特許文献1の情報処理装置は、機械学習済の数理モデルの説明変数に対して乗算される係数の値を修正することにより、ユーザにとって違和感の少ない目的変数を数理モデルに出力させる旨を記載している。
If there is bias in the learning data as a sample obtained from a population due to human, social, temporal, or environmental constraints, the mathematical model will not output the objective variable expected by the user, even if the machine learning is performed technically correctly. This creates a need to modify the coefficients of the machine-learned mathematical model. The information processing device in
しかしながら、機械学習済みの数理モデルの係数の値を修正するには、ユーザは、多くの係数のうちから修正すべき係数を選択し、さらにその係数の値を決定するという試行錯誤が必要になる。係数を事後的に修正することに代えて、学習用データ自身を母集団に対して偏りのないものに入れ替えて再度機械学習を行うことも一法である。しかしながら、フォーマット(変数)が同じ新たな学習用データをその母集団から収集することもまた、多大な手間と時間を要する。そして、新たに収集した学習用データにも他種の偏りがあるかも知れない。
そこで、本発明は、母集団から収集した偏りのある学習用データを簡便に修正し、修正後の学習用データを使用して、精度の高い数理モデルを機械学習することを目的とする。
However, to modify the coefficient values of a mathematical model that has already been machine-learned, the user must select the coefficients to be modified from among many coefficients, and then determine the values of the coefficients through trial and error. Instead of modifying the coefficients after the fact, it is also possible to replace the training data itself with unbiased data from the population and perform machine learning again. However, collecting new training data with the same format (variables) from the population also requires a lot of time and effort. Furthermore, the newly collected training data may also have other types of bias.
Therefore, an object of the present invention is to easily correct biased learning data collected from a population, and to use the corrected learning data to machine-learn a highly accurate mathematical model.
本発明の情報処理装置は、統計情報と同じ変数を有する同時分布情報を学習用データから作成する同時分布作成部と、前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出する重み算出部と、前記算出した重みに基づいて、前記学習用データを修正し、前記修正した学習用データを使用して予測モデルを学習する予測モデル作成部と、前記予測モデルを使用して予測用データに対する予測結果を出力する出力処理部と、を備え、前記統計情報は、前記学習用データの標本が収集された施設を含む母集団から取得されたものであり、前記予測モデル作成部は、前記重みに基づいて、前記学習用データの標本をコピーすることによって前記学習用データの標本数を増やし、前記予測モデル作成部は、修正する前の前記学習用データを使用して第1の弱学習器を学習するとともに、修正した後の前記学習用データを使用して第2の弱学習器を学習し、前記第1の弱学習器及び前記第2の弱学習器を有するアンサンブルモデルを作成すること、を特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。
The information processing device of the present invention includes a simultaneous distribution creation unit that creates simultaneous distribution information having the same variables as statistical information from training data; a weight calculation unit that calculates a degree to which a sample of the created simultaneous distribution information is biased compared to the statistical information as a population as a weight for each combination of a plurality of the variables; a prediction model creation unit that corrects the training data based on the calculated weight and learns a prediction model using the corrected training data; and an output processing unit that outputs a prediction result for the prediction data using the prediction model, wherein the statistical information is obtained from a population including a facility where a sample of the training data was collected, the prediction model creation unit increases the number of samples of the training data by copying the samples of the training data based on the weight, and the prediction model creation unit learns a first weak learner using the training data before being corrected and learns a second weak learner using the corrected training data, thereby creating an ensemble model having the first weak learner and the second weak learner .
Other means will be described in the description of the embodiment of the invention.
本発明によれば、母集団から収集した偏りのある学習用データを簡便に修正し、修正後の学習用データを使用して、精度の高い数理モデルを機械学習することができる。 According to the present invention, biased learning data collected from a population can be easily corrected, and the corrected learning data can be used to machine-learn a highly accurate mathematical model.
以降、本発明を実施するための形態(“本実施形態”という)を、図等を参照しながら詳細に説明する。本実施形態は、単一の医療施設から収集された学習用データ、及び、国、自治体等が公表している統計情報を使用してその学習用データを修正する例である。しかしながら、本発明は、医療以外の分野についても一般的に適用可能である。 Hereinafter, a form for implementing the present invention (referred to as the "present embodiment") will be described in detail with reference to the drawings, etc. This embodiment is an example in which learning data collected from a single medical facility and the learning data are corrected using statistical information published by the national government, local governments, etc. However, the present invention is also generally applicable to fields other than medicine.
(母集団及び標本)
本実施形態における母集団は、国、自治体等に居住する国民、地域住民等である。
本実施形態における標本(サンプル)は、国、自治体等に属する特定の医療施設における被験者(被検者)である。標本は、母集団の特性を正しく反映しているとは限らない。それぞれの医療施設は、例えば高齢者が多い、男性が少ない等の特性を不可避的に有する場合がある。このような特性に起因して、母集団の特性と標本の特性との間に乖離が生じる。この乖離は、”偏り”とも呼ばれる。
(Population and Sample)
The population in this embodiment includes citizens, local residents, etc. residing in a country, a local government, etc.
The specimen (sample) in this embodiment is a subject (subject) at a specific medical facility belonging to a country, a local government, or the like. The specimen does not necessarily accurately reflect the characteristics of the population. Each medical facility may inevitably have characteristics such as a large number of elderly people and a small number of men. Due to such characteristics, a deviation occurs between the characteristics of the population and the characteristics of the sample. This deviation is also called "bias."
(情報処理装置の構成等)
図1は、情報処理装置1の構成等を説明する図である。情報処理装置1は、一般的なコンピュータであり、中央制御装置11、マウス、キーボード等の入力装置12、ディスプレイ等の出力装置13、主記憶装置14、補助記憶装置15及び通信装置16を備える。これらは、バスで相互に接続されている。補助記憶装置15は、同時分布情報31、重み情報32及び予測モデル33を格納している。予測モデル33は、第1の弱学習器34及第2の弱学習器35を含む。
(Configuration of information processing device, etc.)
1 is a diagram for explaining the configuration of an
一般に知られているように、“弱学習器”とは、単独の状態における予測精度が比較的低い数理モデルである。そして、複数の弱学習器から構成され、個々の弱学習器の出力を多数決した結果を出力する数理モデルは、アンサンブルモデルと呼ばれる。アンサンブルモデルの予測精度は、個々の弱学習器に比して高くなる。本実施形態の学習モデル33は、このようなアンサンブルモデルである。
As is generally known, a "weak learner" is a mathematical model that has relatively low predictive accuracy in a single state. A mathematical model that is composed of multiple weak learners and outputs the result of majority voting of the outputs of the individual weak learners is called an ensemble model. The predictive accuracy of an ensemble model is higher than that of individual weak learners. The
主記憶装置14における同時分布作成部21、重み算出部22、予測モデル作成部23及び出力処理部22は、プログラムである。中央制御装置11は、これらのプログラムを補助記憶装置15から主記憶装置14に読み出すことによって、それぞれのプログラムの機能(詳細後記)を実現する。
The joint
情報処理装置1は、有線又は無線のネットワーク3を介して、データベース2に接続されている。データベース2は、学習用データ41、予測用データ42及び統計情報43(詳細後記)を格納する。データベース2は、例えば、統計情報43を格納する国、自治体等のデータベース、学習用データ41を格納する特定の医療施設のデータベース、及び、予測用データ43(詳細後記)を格納する他の医療施設のデータベース等に分かれていてもよい。
The
(学習用データ)
図2は、学習用データ41の一例である。学習用データ41は、特定の単一の医療施設から収集される。学習用データ41においては、対象者ID欄101に記憶された対象者IDに関連付けて、イベント発生欄102にはイベント発生フラグが、年齢欄103には年齢が、性別欄104には性別が記憶されている。
(Learning data)
2 is an example of the
対象者ID欄101の対象者IDは、対象者を一意に特定する識別子である。対象者とは、単一の医療施設による特定の検査の被験者である。
イベント発生欄102のイベント発生フラグは、“0”又は“1”のいずれかである。“1”は、検査によって、対象者が特定の疾病に罹患していることが判明したことを示す。“0”は、検査によって、対象者が特定の疾病に罹患していないことが判明したことを示す。つまり、“イベント”は疾病に罹患することを示す。
年齢欄103の年齢は、対象者の年齢である。
性別欄104の性別は、対象者の性別である。
The subject ID in the
The event occurrence flag in the
The age in the
The gender in the
(統計情報)
図3は、統計情報43の一例である。統計情報43は、国、自治体等が作成する行政資料(図示せず)から作成される。本実施形態が想定する行政資料は、国民又は地域住民の属性(イベント発生、年齢、性別、職業、住所、予防接種を受けた回数、…等の変数)を相互に関連付けた公開資料である。学習用データ41の標本が“一部”であるのに対し、行政資料の母集団は、その一部を含み、その一部よりはるかに広い“全体”である。そして、行政資料における属性は、多くの場合、学習用データ41における“イベント発生”、“年齢”及び“性別”以外の属性(変数)を含んでいる。
(Statistical Information)
FIG. 3 is an example of the
統計情報43においては、イベント発生欄111に記憶されたイベント発生フラグに関連付けて、年齢欄112には年齢が、性別欄113には性別が、統計情報の例数欄114には統計情報の例数が記憶されている。
In the
イベント発生欄111のイベント発生フラグは、図2のイベント発生フラグと同じである。
年齢欄112の年齢は、行政資料が取り扱う国民等の年齢である。
性別欄113の性別は、行政資料が取り扱う国民等の性別である。
統計情報の例数欄114の統計情報の例数は、そのイベント発生、年齢及び性別の組合せに該当する国民等(母集団)の人数である。イベント発生、年齢及び性別の組合せは、学習用データ41(図2)の欄102~欄104に一致する。
The event occurrence flags in the
The age in the
The gender in the
The number of statistical information examples in the statistical information
以上より明らかなように、統計情報43は、もとの行政資料の属性から学習用データに現れる属性以外のものを捨象したうえで集計したものである。
As is clear from the above,
(同時分布情報)
図4は、同時分布情報31の一例である。同時分布情報31においては、イベント発生欄121に記憶されたイベント発生フラグに関連付けて、年齢欄122には年齢が、性別欄123には性別が、学習用データの例数欄124には学習用データの例数が記憶されている。
(Simultaneous distribution information)
4 is an example of the
イベント発生欄121のイベント発生フラグは、図2のイベント発生フラグと同じである。
年齢欄122の年齢は、図2の年齢と同じである。
性別欄123の性別は、図2の性別と同じである。
学習用データの例数欄124の学習用データの例数は、そのイベント発生、年齢及び性別の組合せに該当する、学習用データ41(図2)の対象者(標本)の人数である。
The event occurrence flags in the
The ages in the
The gender in the
The number of training data examples in the training data
同時分布情報31の属性(同時に起きるイベント発生、年齢及び性別の組合せ)は、図3の統計情報43の属性と完全に一致している。同時分布情報31の各属性の値(“0”又は“1”の2値、年齢の範囲、“男”又は“女”の2値)もまた、統計情報43の各属性の値と完全に一致している。
The attributes of the simultaneous distribution information 31 (combinations of simultaneous event occurrences, age, and gender) are completely consistent with the attributes of the
統計情報43(図3)の統計情報の例数、及び、同時分布情報31(図4)の学習用データの例数を比較すると、例えば以下のことがわかる。これらは、特定の医療施設から収集した学習用データ41(標本)が有する国民等(母集団)に対する偏りである。 Comparing the number of examples in the statistical information 43 (Figure 3) and the number of examples in the training data in the joint distribution information 31 (Figure 4), for example, reveals the following. These are biases in the training data 41 (sample) collected from a specific medical facility with respect to the general public (population).
・学習用データ41においては、男性の比率が高い。
・学習用データ41においては、男女ともに、イベント発生フラグが“1”である比率が高い。
・学習用データ41においては、女性のイベント発生フラグが“1”である比率が、男性のその比率よりも有意に大きい。母集団には、このような傾向は認められない。
・学習用データ41においては、女性若年層のイベント発生フラグが“1”である比率が高い。
・学習用データ41においては、男性高齢層のイベント発生フラグが“1”である比率が高い。
In the learning
In the learning
In the learning
In the learning
In the learning
(重み情報)
図5は、重み情報32の一例である。重み情報32においては、イベント発生欄131に記憶されたイベント発生フラグに関連付けて、年齢欄132には年齢が、性別欄133には性別が、重み欄134には重みが記憶されている。
(Weight information)
5 is an example of the
イベント発生欄121のイベント発生フラグは、図2のイベント発生フラグと同じである。
年齢欄132の年齢は、図2の年齢と同じである。
性別欄133の性別は、図2の性別と同じである。
重み欄134の重みは、統計情報の例数(図3の欄114)を学習用データの例数(図4の欄124)で除算した結果である。換言すれば、重みは、同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度である。
The event occurrence flags in the
The ages in the
The gender in the
The weights in the
(重みの意味)
図5の各レコード(行)の重みを上下方向に見たとき、各レコードの重みのすべてが同じ値であれば、学習用データ41は、統計情報43に対して偏りがなく、特定の医療施設は、国民等の母集団を理想的に代表しているといえる。しかしながら多くの場合、これらの値は、ばらつきを有する。このばらつきは、その学習用データ41が有する偏りの特徴を示している。例えば、レコード135の重みは“5.0”であり、他のレコードに比して有意に大きい。レコード6の重みは“1.0”であり、他のレコードに比して有意に小さい。これらは以下のことを示している。
(Meaning of weight)
When the weights of each record (row) in FIG. 5 are viewed vertically, if all the weights of each record are the same value, the learning
・学習用データ41が収集された特定の医療施設においては、年齢が“20~29”であり、かつ、性別が“女”である標本のうち、イベント発生フラグが“0”であるものが過小であり、“1”であるものが過大である。
・したがって、この医療施設から収集した学習用データ41を使用して数理モデルを機械学習すると、機械学習済の数理モデルは、“年齢が20~29である女性は、特定の疾病に罹患しやすい”という誤った結論を出力してしまう。
・このような誤りを防ぐには、学習用データ41のレコードのうち、レコード135の属性を有するものをコピーして標本数を増やす一方、レコード136の属性を有するものはコピーせずそのままとし、内容の異なる新たな学習用データを作成する。
・さらに、新たな学習用データを使用して数理モデルを再度機械学習する。
In a particular medical facility where the learning
Therefore, when a mathematical model is machine-learned using the learning
To prevent such an error, records in the
-Furthermore, the mathematical model is re-trained using new learning data.
以降で、本実施形態の処理手順を説明する。処理手順は、4つ存在し、それらは、同時分布作成処理手順、重み算出処理手順、予測モデル作成処理手順及び出力処理手順であり、この順に実行される。 The processing procedures of this embodiment are explained below. There are four processing procedures: a joint distribution creation processing procedure, a weight calculation processing procedure, a prediction model creation processing procedure, and an output processing procedure, which are executed in this order.
(同時分布作成処理手順)
図6は、同時分布作成処理手順のフローチャートである。
ステップS201において、情報処理装置1の同時分布作成部21は、学習用データ41及び統計情報43を取得する。具体的には、同時分布作成部21は、データベース2から、学習用データ41、及び、前記した“行政資料”の状態にある統計情報43を取得する。ここで取得される統計資料43は、図3のように整った型式を有していない。
(Joint distribution creation process)
FIG. 6 is a flowchart of the joint distribution creation process.
In step S201, the simultaneous
ステップS202において、同時分布作成部21は、変数を指定する。具体的には、第1に、同時分布作成部21は、学習用データ41の属性(図2の例では、イベント発生、年齢及び性別)を“変数”として認識する。
第2に、同時分布作成部21は、各変数における層を認識する。例えば、統計情報43(行政資料)の年齢が、“0~9”、“10~19”、“20~29”、・・・のように層分けされているのを認識する。
第3に、同時分布作成部21は、ステップS202の“第1”において認識された変数のみを属性とし、ステップS202の“第2”において認識された各変数の層ごとのレコードを有する、図3の型式の統計情報43を作成する。このとき、同時分布作成部21は、行政資料を参照し、イベント発生、性別及び年齢層ごとに、統計情報の例数(図3の欄114)を算出する。
In step S202, the simultaneous
Second, the joint
Third, the simultaneous
ステップS203において、同時分布作成部21は、同時分布情報31を作成する。具体的には、第1に、同時分布作成部21は、ステップS202の“第3”において作成した統計情報43(図3)のコピーを作成し、“統計情報の例数”(図3の欄114)を“学習用データの例数”に書き換えたうえで、各レコードの統計情報の例数の値を削除する(空白に戻す)。
第2に、同時分布作成部21は、学習用データ41を参照し、学習用データの例数(図4の欄124)を算出することによって、図4の同時分布情報31を完成させる。ここで完成した同時分布情報31は、統計情報43(図3)と同じ変数を有している。その後、同時分布作成処理手順を終了する。
In step S203, the simultaneous
Secondly, the simultaneous
(重み算出処理手順)
図7は、重み算出処理手順のフローチャートである。
ステップS211において、情報処理装置1の重み算出部22は、統計情報43及び同時分布情報31を取得する。具体的には、重み算出部22は、ステップS202の“第3”で作成した統計情報43、及び、ステップS203の“第2”において完成した同時分布情報31を取得する。
(Weight calculation process)
FIG. 7 is a flowchart of the weight calculation process.
In step S211, the
ステップS212において、重み算出部22は、重み情報32を作成する。具体的には、第1に、重み算出部22は、ステップS211において取得した統計情報43(図3)のコピーを作成し、“統計情報の例数”(図3の欄114)を“重み”に書き換えたうえで、各レコードの統計情報の例数の値を削除する(空白に戻す)。
第2に、重み算出部22は、ステップS211において取得した統計情報43の統計情報の例数を、ステップS211において取得した同時分布情報31の学習用データの例数で除算し、その結果を“重み”として記憶する。重み算出部22は、イベント発生、年齢層及び性別の組合せごとに重みを算出することによって、図5の重み情報32を完成させる。その後、重み算出処理手順を終了する。
In step S212, the
Secondly, the
(予測モデル作成処理手順)
図8は、予測モデル処理手順のフローチャートである。
ステップS221において、情報処理装置1の予測モデル作成部23は、学習用データ41及び重み情報32を取得する。具体的には、予測モデル作成部23は、データベース2から学習用データ41を取得するとともに、ステップS212の“第2に”において完成した重み情報32を取得する。ここで取得される重み情報31は、学習用データ41の偏りを表現している。
(Prediction model creation process)
FIG. 8 is a flowchart of a prediction model processing procedure.
In step S221, the prediction
前記したように例えば、図5のレコード135の重みは、“5.0”である。このことは、統計情報43における“イベント発生”が“0”、であり“年齢”が“20~29”であり、かつ、“性別”が“女”である母集団の数が、学習用データ41におけるそのような標本の数の5倍存在することを示す。すなわち、学習用データ41が収集された医療施設においては、国等に比して、そのような標本の数が“5分の1”しかなく、換言すれば、そのような標本が“5倍”の希少性を有することを意味する。なお、“5倍”という数値に絶対的な意味があるわけではない。他のレコードにおける重みに比して“5倍”は相対的に突出しており、そのことが偏りを示している。
As mentioned above, for example, the weight of
ステップS222において、予測モデル作成部23は、第1の弱学習器34及び第2の弱学習器35を作成する。具体的には、第1に、予測モデル作成部23は、以下のように第1の弱学習器34を学習する。
In step S222, the prediction
・予測モデル作成部23は、学習用データ41をそのまま使用して数理モデルを機械学習し、最適化された数理モデルを第1の弱学習器34とする。
・ここでの数理モデルは、年齢及び性別を説明変数とし、イベント発生を目的変数とする数理モデルであり、各説明変数に乗算される係数を有するものであってもよい。この場合、各係数が最適化される。
・さらに、ここでの数理モデルは、入力層、複数の中間層及び出力層を有するニューラルネットワークであってもよい。この場合、あるノードの情報を次の層のどのノードにどれだけ伝搬するかを決める重みベクトル(図5の欄134の重みとは別の概念)が最適化される。
The prediction
The mathematical model here is a mathematical model in which age and sex are explanatory variables and the occurrence of an event is a response variable, and may have coefficients by which each explanatory variable is multiplied. In this case, each coefficient is optimized.
Furthermore, the mathematical model here may be a neural network having an input layer, multiple intermediate layers, and an output layer. In this case, a weight vector (a different concept from the weights in
第2に、予測モデル作成部23は、以下のように第2の弱学習器35を学習する。
・予測モデル作成部23は、図5の重みに従って学習用データ41のレコード(標本)をコピー(複写)する。例えば、予測モデル作成部23は、図5のレコード135に対応して、学習用データ41のレコードのうち、年齢が“20~29”であり、かつ、性別が“女”であるものを5倍に増やす。
・予測モデル作成部23は、同様にして、図5の他の全てのレコードについて、そのレコードに対応する学習用データ41のレコード(標本)を、重みが示す倍数に増やす。
・予測モデル作成部23は、このようにしてレコードの数が修正された後の学習用データ41を使用して前記の数理モデルを機械学習し、最適化された数理モデルを第2の弱学習器35とする。
第1の弱学習器34に比して、第2の弱学習器35は、予測精度が高い。
Second, the prediction
The prediction
Similarly, for all other records in FIG. 5, the prediction
- The prediction
Compared to the first
修正後の学習用データ41のレコード数が極端に増加すると、それを使用して数理モデルを機械学習する処理に時間を要する。そこで例えば図5のレコード135の重みが“50.0”であり、レコード136の重みが“20.0”であったとする。この場合、予測モデル作成部23は、レコード135に対応する学習用データ41のレコードを50倍にコピーし、レコード136に対応する学習用データ41のレコードを20倍にコピーするには及ばない。予測モデル作成部23は、例えば、レコード135に対応する学習用データ41のレコードを5倍にコピーし、レコード136に対応する学習用データ41のレコードを2倍にコピーすればよい(制限的コピー)。
If the number of records in the
ステップS223において、予測モデル作成部23は、アンサンブルモデル33を作成する。具体的には、予測モデル作成部23は、第1の弱学習器34及び第2の弱学習器35を有するアンサンブルモデル33を作成する。前記したように、アンサンブルモデルとは、それを構成する弱学習器の出力結果を“多数決的”に採用するモデルである。その後、予測モデル作成処理手順を終了する。
In step S223, the prediction
(出力処理手順)
図9は、出力処理手順のフローチャートである。
ステップS231において、情報処理装置1の出力処理部24は、予測用データ42を取得する。具体的には、出力処理部24は、データベース2から予測用データ42を取得する。予測用データ42は、学習用データ41(図2)と同じ構成を有する。しかしながら、予測用データ42のイベント発生欄は、空白である。つまり、学習用データ41が、イベント発生が既知である“教師付き学習データ”(過去の標本)であるのに対し、予測用データ42は、イベント発生が未知である現在の標本である。多くの場合、予測用データ42は、特定の医療施設以外の他の医療施設から収集される。
(Output Processing Procedure)
FIG. 9 is a flowchart of the output process procedure.
In step S231, the
ステップS232において、出力処理部24は、イベント発生の予測結果を表示する。具体的には、第1に、出力処理部24は、ユーザが指定する年齢及び性別の組合せを予測用データとして予測モデル33に入力し、予測モデル33の出力としてのイベント発生を取得する。ここで出力処理部24は、ユーザが指定する年齢及び性別の組合せを第1の弱学習器34のみに入力してもよいし、第2の弱学習器35のみに入力してもよい。
第2に、出力処理部24は、出力装置13に表示画面51(詳細後記)を表示する。その後、出力処理手順を終了する。
In step S232, the
Secondly, the
(表示画面)
図10は、表示画面51の一例である。いま、ユーザは、以下を希望している。
・過去において、特定の疾病に罹患しなかった男性の人数を、年齢層ごとに視認したい。
・その人数を、特定の医療施設と、国民等の母集団とで比較したい。
(Display screen)
10 is an example of the
- I want to see the number of men who have not suffered from a specific disease in the past, by age group.
-I would like to compare that number between a specific medical facility and the general population, such as the general public.
そこで、ユーザは、グラフ表示欄52のうち表示情報欄53の横軸欄58に“年齢”を入力し、凡例欄59に“イベント発生:0 性別:男”を入力し、グラフ表示実行ボタン55を押下する。すると出力処理部24は、年齢層を横軸とし、標本数を縦軸とするグラフ54上に、折れ線56及び折れ線57を比較可能に表示する。折れ線56は、統計情報の例数を示し、折れ線57は、学習用データの例数を示す。図10では、単純化のために縦軸の目盛りを1つに統一しているが、出力処理部24は、折れ線57用の目盛り(桁が小さい)とは別に、折れ線56用の目盛り(桁が大きい)を表示してもよい。
The user then enters "age" in the
さらにユーザは、以下を希望している。
・他の医療施設から収集した現在の予測用データのうち、年齢層が“30~39”である女性についてのイベント発生を予測したい。
・アンサンブルモデル33を使用してイベント発生を予測したい。
In addition, users want:
- We want to predict the occurrence of events for women in the age group "30 to 39" from the current prediction data collected from other medical facilities.
- I want to predict the occurrence of an event using the
そこで、ユーザは、予測用データとして、分析欄61のうち予測用データ欄62の年齢欄63に“30~39”を入力し、性別欄64に“女”を入力し、予測モデル欄65に“アンサンブル”を入力し、分析実行ボタン66を押下する。すると、出力処理部24は、イベント発生の予測結果欄67に予測結果を表示し、予測結果の説明欄68に予測結果の説明を表示する。
The user then enters "30-39" as prediction data in the
これらの表示例から、出力処理部24は、以下の処理を行うことがわかる。
・出力処理部24は、第1の弱学習器34及び第2の弱学習器35を有するアンサンブルモデル33に対して、年齢“30~39”及び性別“女”を入力した。
・第1の弱学習器34は、イベント発生“1”を出力した。
・第2の弱学習器35も、イベント発生“1”を出力した。
・アンサンブルモデル33は、これらの出力を多数決し、イベント発生“1”を出力した。イベント発生の予測結果欄67の“C”は、多数決後の出力“1”に対応している。
From these display examples, it can be seen that the
The
The first
The second
The
ちなみに、第1の弱学習器34及び第2の弱学習器35の両者がイベント発生“0”を出力した場合、アンサンブルモデル33は、多数決の結果、イベント発生“0”を出力する。すると出力処理部24は、イベント発生の予測結果欄67に“A”を表示する。第1の弱学習器34及び第2の弱学習器35のどちらか一方がイベント発生“0”を出力し、他方がイベント発生“1”を出力した場合、アンサンブルモデル33は、多数決の結果、“同数競合”を出力する。すると出力処理部24は、イベント発生の予測結果欄67に“B”を表示する。
Incidentally, if both the first
図10の例では、ユーザは、アンサンブルモデルを使用することを希望した。しかしながら、ユーザは、第1の弱学習器のみを使用することを希望できるし、第2の弱学習器のみを使用することも希望できる。結局、これらの希望に応じて、出力表示部24は、ユーザの選択に基づいて、第1の弱学習器のみを使用して、第2の弱学習器のみを使用して、又は、前記アンサンブルモデルを使用して前記予測結果を出力することができる。
In the example of FIG. 10, the user desired to use the ensemble model. However, the user may wish to use only the first weak learner, or may wish to use only the second weak learner. Ultimately, depending on these desires, the
(重みを使用して学習用データを修正する意義)
始めから統計情報43(図3)を学習用データとして数理モデルを機械学習することも当然に可能である。しかしながら、特定の単一の医療施設から収集された学習用データに偏りがあることは、事後的にわかる場合が多い。また、特定の単一の医療施設から収集された学習用データを使用して機械学習した数理モデルが既に存在しており、専ら当該医療施設から収集された標本に対する予測のために、当該機械学習済の数理モデルを引き続き使用したい場合もある。さらに、情報量が膨大である統計情報43を使用して機械学習を行う処理よりは、前記したように、統計情報43を単純にソートし層ごとの例数を除算して重みを算出し、学習用データを制限的にコピーする処理の方が単純である。
(The significance of using weights to modify training data)
It is of course possible to machine-train a mathematical model using the statistical information 43 (FIG. 3) as training data from the beginning. However, it is often the case that the training data collected from a specific single medical facility is biased after the fact. In addition, there are cases where a mathematical model machine-trained using training data collected from a specific single medical facility already exists, and the user wishes to continue using the machine-trained mathematical model solely for prediction of samples collected from the medical facility. Furthermore, as described above, the process of simply sorting the
(本実施形態の効果)
本実施形態の情報処理装置の効果は以下の通りである。
(1)情報処理装置は、学習用データの母集団に対する偏りに基づき、学習用データを修正することができる。
(2)情報処理装置は、医療施設における標本の偏りを修正することができる。
(3)情報処理装置は、コピーという簡便な方法で学習用データを修正することができる。
(4)情報処理装置は、予測精度が高いアンサンブルモデルを使用することができる。
(5)情報処理装置は、ユーザがアンサンブルモデルの使用を選択することを可能にする。
(6)情報処理装置は、学習用データの母集団に対する偏りを比較可能に表示することができる。
(Effects of this embodiment)
The information processing device of this embodiment has the following advantages.
(1) The information processing device can correct the learning data based on the bias of the learning data relative to the population.
(2) The information processing device can correct bias in samples at medical facilities.
(3) The information processing device can modify the learning data by a simple method of copying.
(4) The information processing device can use an ensemble model with high predictive accuracy.
(5) The information processor allows a user to select the use of an ensemble model.
(6) The information processing device can display bias in the learning data relative to a population in a comparative manner.
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 The present invention is not limited to the above-described embodiments, but includes various modified examples. For example, the above-described embodiments have been described in detail to make the present invention easier to understand, and are not necessarily limited to those having all of the configurations described. It is also possible to replace part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment. It is also possible to add, delete, or replace part of the configuration of each embodiment with other configurations.
また、前記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウエアで実現してもよい。また、前記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウエアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
In addition, the above-mentioned configurations, functions, processing units, processing means, etc. may be realized in part or in whole by hardware, for example, by designing them as integrated circuits. In addition, the above-mentioned configurations, functions, etc. may be realized in software by a processor interpreting and executing a program that realizes each function. Information such as a program, table, file, etc. that realizes each function can be stored in a memory, a recording device such as a hard disk or SSD (Solid State Drive), or a recording medium such as an IC card, SD card, or DVD.
In addition, the control lines and information lines shown are those that are considered necessary for the explanation, and not all control lines and information lines in the product are necessarily shown. In reality, it can be considered that almost all components are connected to each other.
1 情報処理装置
2 データベース
3 ネットワーク
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
16 通信装置
21 同時分布作成部
22 重み算出部
23 予測モデル作成部
24 出力処理部
31 同時分布情報
32 重み情報
33 予測モデル(アンサンブルモデル)
34 第1の弱学習器
35 第2の弱学習器
41 学習用データ
42 予測用データ
43 統計情報
51 表示画面
REFERENCE SIGNS
34 First
Claims (5)
前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出する重み算出部と、
前記算出した重みに基づいて、前記学習用データを修正し、
前記修正した学習用データを使用して予測モデルを学習する予測モデル作成部と、
前記予測モデルを使用して予測用データに対する予測結果を出力する出力処理部と、
を備え、
前記統計情報は、
前記学習用データの標本が収集された施設を含む母集団から取得されたものであり、
前記予測モデル作成部は、
前記重みに基づいて、前記学習用データの標本をコピーすることによって前記学習用データの標本数を増やし、
前記予測モデル作成部は、
修正する前の前記学習用データを使用して第1の弱学習器を学習するとともに、
修正した後の前記学習用データを使用して第2の弱学習器を学習し、
前記第1の弱学習器及び前記第2の弱学習器を有するアンサンブルモデルを作成すること、
を特徴とする情報処理装置。 a simultaneous distribution creating unit that creates simultaneous distribution information having the same variables as the statistical information from the learning data;
a weight calculation unit that calculates a degree of bias of the created sample of the joint distribution information compared to the statistical information as a population as a weight for each combination of the multiple variables;
modifying the learning data based on the calculated weights;
a prediction model creation unit that learns a prediction model using the corrected learning data;
an output processing unit that outputs a prediction result for prediction data using the prediction model;
Equipped with
The statistical information is
The learning data sample is obtained from a population including a facility where the learning data sample was collected,
The prediction model creation unit,
increasing the number of samples of the training data by copying samples of the training data based on the weights;
The prediction model creation unit,
training a first weak learner using the training data before the correction;
training a second weak learner using the modified training data;
creating an ensemble model comprising the first weak learner and the second weak learner;
An information processing device comprising:
ユーザの選択に基づいて、前記第1の弱学習器のみを使用して、前記第2の弱学習器のみを使用して、又は、前記アンサンブルモデルを使用して前記予測結果を出力すること、
を特徴とする請求項1に記載の情報処理装置。 The output processing unit includes:
outputting the prediction result using only the first weak learner, using only the second weak learner, or using the ensemble model based on a user selection;
2. The information processing apparatus according to claim 1 ,
前記統計情報の標本数及び前記学習用データの標本数を比較可能に図示すること、
を特徴とする請求項2に記載の情報処理装置。 The output processing unit includes:
Illustrating the number of samples of the statistical information and the number of samples of the learning data in a comparative manner;
3. The information processing apparatus according to claim 2 ,
統計情報と同じ変数を有する同時分布情報を学習用データから作成し、
前記情報処理装置の重み算出部は、
前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出し、
前記情報処理装置の予測モデル作成部は、
前記算出した重みに基づいて、前記学習用データを修正し、
前記修正した学習用データを使用して予測モデルを学習し、
前記情報処理装置の出力処理部は、
前記予測モデルを使用して予測用データに対する予測結果を出力し、
前記統計情報は、
前記学習用データの標本が収集された施設を含む母集団から取得されたものであり、
前記予測モデル作成部は、
前記重みに基づいて、前記学習用データの標本をコピーすることによって前記学習用データの標本数を増やし、
前記予測モデル作成部は、
修正する前の前記学習用データを使用して第1の弱学習器を学習するとともに、
修正した後の前記学習用データを使用して第2の弱学習器を学習し、
前記第1の弱学習器及び前記第2の弱学習器を有するアンサンブルモデルを作成すること、
を特徴とする情報処理装置の情報処理方法。 The simultaneous distribution creation unit of the information processing device
Creating joint distribution information having the same variables as the statistical information from the training data;
The weight calculation unit of the information processing device
Calculating a degree of bias of the sample of the created joint distribution information compared to the statistical information as a population as a weight for each combination of the multiple variables;
The prediction model creation unit of the information processing device,
modifying the learning data based on the calculated weights;
Training a predictive model using the corrected training data;
The output processing unit of the information processing device
Outputting a prediction result for prediction data using the prediction model;
The statistical information is
The learning data sample is obtained from a population including a facility where the learning data sample was collected,
The prediction model creation unit,
increasing the number of samples of the training data by copying samples of the training data based on the weights;
The prediction model creation unit,
training a first weak learner using the training data before the correction;
training a second weak learner using the modified training data;
creating an ensemble model comprising the first weak learner and the second weak learner;
An information processing method for an information processing device comprising the steps of:
統計情報と同じ変数を有する同時分布情報を学習用データから作成する同時分布作成部と、
前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出する重み算出部と、
前記算出した重みに基づいて、前記学習用データを修正し、
前記修正した学習用データを使用して予測モデルを学習する予測モデル作成部と、
前記予測モデルを使用して予測用データに対する予測結果を出力する出力処理部と、
して機能させるための情報処理プログラムであって、
前記統計情報は、
前記学習用データの標本が収集された施設を含む母集団から取得されたものであり、
前記予測モデル作成部に対し、
前記重みに基づいて、前記学習用データの標本をコピーすることによって前記学習用データの標本数を増やす処理を実行させ、
前記予測モデル作成部に対し、
修正する前の前記学習用データを使用して第1の弱学習器を学習するとともに、
修正した後の前記学習用データを使用して第2の弱学習器を学習し、
前記第1の弱学習器及び前記第2の弱学習器を有するアンサンブルモデルを作成する処理を実行させること、
を特徴とする情報処理プログラム。 Computer,
a simultaneous distribution creating unit that creates simultaneous distribution information having the same variables as the statistical information from the learning data;
a weight calculation unit that calculates a degree of bias of the created sample of the joint distribution information compared to the statistical information as a population as a weight for each combination of the multiple variables;
modifying the learning data based on the calculated weights;
a prediction model creation unit that learns a prediction model using the corrected learning data;
an output processing unit that outputs a prediction result for prediction data using the prediction model;
An information processing program for causing the device to function as described above,
The statistical information is
The learning data sample is obtained from a population including a facility where the learning data sample was collected,
The prediction model creation unit:
executing a process of increasing the number of samples of the learning data by copying samples of the learning data based on the weights;
The prediction model creation unit:
training a first weak learner using the training data before the correction;
training a second weak learner using the modified training data;
executing a process of creating an ensemble model having the first weak learner and the second weak learner;
An information processing program characterized by:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022028573A JP7633958B2 (en) | 2022-02-25 | 2022-02-25 | Information processing device, information processing method, and information processing program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022028573A JP7633958B2 (en) | 2022-02-25 | 2022-02-25 | Information processing device, information processing method, and information processing program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023124669A JP2023124669A (en) | 2023-09-06 |
| JP7633958B2 true JP7633958B2 (en) | 2025-02-20 |
Family
ID=87885998
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022028573A Active JP7633958B2 (en) | 2022-02-25 | 2022-02-25 | Information processing device, information processing method, and information processing program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7633958B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20220335310A1 (en) * | 2021-04-14 | 2022-10-20 | International Business Machines Corporation | Detect un-inferable data |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109753742A (en) | 2019-01-11 | 2019-05-14 | 哈尔滨工业大学(威海) | An aero-engine fault diagnosis method and system based on unbalanced samples |
| WO2020244771A1 (en) | 2019-06-06 | 2020-12-10 | NEC Laboratories Europe GmbH | Diversity-aware weighted majority vote classifier for imbalanced datasets |
| JP2021536067A (en) | 2018-09-10 | 2021-12-23 | グーグル エルエルシーGoogle LLC | Biased data rejection using machine learning models |
-
2022
- 2022-02-25 JP JP2022028573A patent/JP7633958B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021536067A (en) | 2018-09-10 | 2021-12-23 | グーグル エルエルシーGoogle LLC | Biased data rejection using machine learning models |
| CN109753742A (en) | 2019-01-11 | 2019-05-14 | 哈尔滨工业大学(威海) | An aero-engine fault diagnosis method and system based on unbalanced samples |
| WO2020244771A1 (en) | 2019-06-06 | 2020-12-10 | NEC Laboratories Europe GmbH | Diversity-aware weighted majority vote classifier for imbalanced datasets |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023124669A (en) | 2023-09-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ratner et al. | Snorkel: rapid training data creation with weak supervision | |
| Ratner et al. | Snorkel: Rapid training data creation with weak supervision | |
| Ming et al. | ProtoSteer: Steering deep sequence model with prototypes | |
| Hamoud et al. | Implementing data-driven decision support system based on independent educational data mart | |
| JP7473389B2 (en) | Learning model generation system and learning model generation method | |
| CN117574921A (en) | A Chinese dental intelligent diagnosis and treatment question and answer method, electronic device and storage medium | |
| CN112352243A (en) | Expert report editor | |
| US12579115B2 (en) | Data health evaluation using generative language models | |
| CN115238816B (en) | User classification method and related equipment based on multivariate data fusion | |
| US20250356112A1 (en) | Artificial intelligence based approach for automatically generating content for a document for an individual | |
| Chishti et al. | Artificial intelligence-based differential diagnosis: development and validation of a probabilistic model to address lack of large-scale clinical datasets | |
| Olari et al. | Data-related practices for creating Artificial Intelligence systems in K-12 | |
| Wolock et al. | A framework for leveraging machine learning tools to estimate personalized survival curves | |
| CN121235062A (en) | Knowledge graph construction method, device, equipment, medium and product based on multi-mode clinical data | |
| Pinol et al. | Rare disease discovery: An optimized disease ranking system | |
| JP7633958B2 (en) | Information processing device, information processing method, and information processing program | |
| Prindle et al. | An open-source probabilistic record linkage process for records with family-level information: Simulation study and applied analysis | |
| Liu et al. | Knowledge-aware deep dual networks for text-based mortality prediction | |
| Lalanne et al. | Biostatistics and computer-based analysis of health data using R | |
| CN112820400A (en) | Disease diagnosis method, device and equipment based on medical knowledge map knowledge reasoning | |
| Puga-Gonzalez et al. | Adapting cohort-component methods to a microsimulation: a case study | |
| JP3677006B2 (en) | Information processing apparatus and method | |
| CN114329102B (en) | Data processing method, device, equipment and storage medium | |
| JP2024034528A (en) | Model generation device, document generation device, model generation method, document generation method, and program | |
| CN115331811A (en) | Disease type prediction method and device, electronic equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240307 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20240605 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241112 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250110 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250128 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250207 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7633958 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |