JP7614611B2 - Interpretation method, interpretation device, and program - Google Patents
Interpretation method, interpretation device, and program Download PDFInfo
- Publication number
- JP7614611B2 JP7614611B2 JP2021145237A JP2021145237A JP7614611B2 JP 7614611 B2 JP7614611 B2 JP 7614611B2 JP 2021145237 A JP2021145237 A JP 2021145237A JP 2021145237 A JP2021145237 A JP 2021145237A JP 7614611 B2 JP7614611 B2 JP 7614611B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- learning
- parameters
- output
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、解釈方法、解釈装置、及びプログラムに関する。 The present invention relates to an interpretation method, an interpretation device, and a program.
近年、深層学習の発展により、高性能の機械学習モデル(以下、単に「モデル」ともいう。)を構築できるようになってきている。しかしながら、一般に、複雑な現象を予測するためには複雑なモデルが必要であり、人間にとってそのモデルがどのように予測をしたのかを解釈することは困難である。これに対して、複雑なモデルを解釈するために、そのモデルを局所線形モデルで近似する手法が提案されている(例えば、非特許文献1参照)。 In recent years, advances in deep learning have made it possible to construct high-performance machine learning models (hereinafter simply referred to as "models"). However, in general, complex models are needed to predict complex phenomena, and it is difficult for humans to interpret how the models make predictions. In response to this, a method has been proposed to interpret complex models by approximating the models with locally linear models (see, for example, Non-Patent Document 1).
しかしながら、局所線形モデルでの近似が困難な場合、モデルの適切な解釈ができないという問題がある。 However, when approximation with a locally linear model is difficult, there is a problem in that the model cannot be properly interpreted.
本発明の一実施形態は、上記の点に鑑みてなされたもので、解釈可能なモデルを得ることを目的とする。 One embodiment of the present invention has been made in consideration of the above points, and aims to obtain an interpretable model.
上記目的を達成するため、一実施形態に係る解釈方法は、1以上の特徴を表す特徴量と前記特徴量に対する正解ラベルとを含む学習用データで構成される学習用データセットを用いて、第1のモデルの予測性能が高くなるように、かつ、前記第1のモデルの出力と、前記第1のモデルよりも解釈性が高い第2のモデルの出力とが同じになるように、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する第1の学習手順と、前記学習用データセットを用いて、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習手順と、をコンピュータが実行する。 In order to achieve the above object, an interpretation method according to one embodiment includes a first learning procedure in which a learning dataset is used that is composed of learning data including features representing one or more features and ground truth labels for the features, and the parameters of the first model and the parameters of the second model are learned so that the predictive performance of the first model is high and the output of the first model is the same as the output of a second model that has higher interpretability than the first model, and a second learning procedure in which the parameters of the second model are learned using the learning dataset, such that the output of the first model after learning in the first learning procedure is the same as the output of the second model.
解釈可能なモデルを得ることができる。 You can get an interpretable model.
以下、本発明の一実施形態について説明する。本実施形態では、任意のモデル(以下、「元モデル」ともいう。)と、その学習用データセットと、解釈性が高いモデル(以下、「説明可能モデル」)とが与えられた場合に、元モデルと同等の予測性能を持つ説明可能モデルを得ることができる解釈装置10について説明する。
One embodiment of the present invention will be described below. In this embodiment, an
本実施形態に係る解釈装置10には、学習用データセットD={(xn,yn)|n=1,・・・,N}と、元モデルf(・;θ)と、説明可能モデルg(・;φ)とが与えられる。ここで、xnはn番目の事例の特徴量を表すベクトル、ynはそのラベル(正解ラベル)を表すスカラー値、Nは事例数である。また、元モデルf(・;θ)と説明可能モデルg(・;φ)は、特徴量xを入力したとき、その予測ラベルを出力する関数である。すなわち、予測ラベルを^yとすれば、^y=f(x;θ)、^y=g(x;φ)である。更に、θとφはそれぞれ元モデルと説明可能モデルのパラメータである。なお、特徴量xの各要素は、それに対応する特徴の値を表す。
The
元モデル、説明可能モデルとしては任意のモデルを用いることができるが、説明可能モデルとしては、例えば、局所線形モデルや決定木等といった解釈性が高いモデルを用いることを想定する。元モデルと説明可能モデルで異なる特徴量を入力できてもよいが、その場合は、元モデルの特徴量が、説明可能モデルの特徴量に変換できるものとする。 Any model can be used as the original model and the explainable model, but it is assumed that the explainable model will be a model with high interpretability, such as a locally linear model or a decision tree. Different features may be input to the original model and the explainable model, but in that case, the features of the original model must be convertible to the features of the explainable model.
<解釈装置10のハードウェア構成>
本実施形態に係る解釈装置10のハードウェア構成を図1に示す。図1に示すように、本実施形態に係る解釈装置10は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、プロセッサ105と、メモリ装置106とを有する。これらの各ハードウェアは、それぞれがバス107により通信可能に接続される。
<Hardware Configuration of
The hardware configuration of the
入力装置101は、例えば、キーボードやマウス、タッチパネル、各種物理ボタン等である。表示装置102は、例えば、ディスプレイや表示パネル等である。なお、解釈装置10は、例えば、入力装置101及び表示装置102のうちの少なくとも一方を有していなくてもよい。
The
外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。解釈装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。なお、記録媒体103aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
The external I/
通信I/F104は、解釈装置10を通信ネットワークに接続するためのインタフェースである。プロセッサ105は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。メモリ装置106は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)等の各種記憶装置である。
The communication I/
本実施形態に係る解釈装置10は、図1に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図1に示すハードウェア構成は一例であって、解釈装置10は、例えば、複数のプロセッサ105を有していてもよいし、複数のメモリ装置106を有していてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。
The
<解釈装置10の機能構成>
本実施形態に係る解釈装置10の機能構成を図2に示す。図2に示すように、本実施形態に係る解釈装置10は、学習部201と、解釈部202と、記憶部203とを有する。なお、学習部201及び解釈部202は、例えば、解釈装置10にインストールされた1以上のプログラムがプロセッサ105に実行させる処理により実現される。また、記憶部203は、例えば、メモリ装置106により実現される。ただし、記憶部203は、例えば、解釈装置10と通信ネットワークを介して接続される記憶装置(NAS(Network Attached Storage)、データベースサーバ等)により実現されてもよい。
<Functional configuration of
The functional configuration of the
学習部201は、学習用データセットDを用いて、元モデルf(・;θ)の予測性能が高くなるように、かつ、元モデルf(・;θ)と説明可能モデルg(・;φ)の出力が同じになるように、元モデルf(・;θ)及び説明可能モデルg(・;φ)のパラメータθ及びφを学習する。
The
例えば、説明可能モデルとして局所線形モデルを用いた場合、局所線形モデルは、 For example, if a locally linear model is used as an explainable model, the locally linear model is
上記の式(1)の第1項目は予測精度を高めるためのものであり、第2項目は元モデルf(・;θ)と説明可能モデルg(・;φ)の出力が同じになるようにするためのものである。 The first term in the above equation (1) is intended to improve prediction accuracy, and the second term is intended to ensure that the outputs of the original model f(·;θ) and the explainable model g(·;φ) are the same.
一方で、例えば、説明可能モデルとして決定木等といった局所的ではないモデルを用いた場合、学習部201は、以下の式(2)に示す損失E(θ,φ)を最小化するようにパラメータθ及びφを学習すればよい。
On the other hand, for example, when a non-local model such as a decision tree is used as the explainable model, the
解釈部202は、学習用データセットDを用いて、学習済みの元モデルf(・;θ)の出力と説明可能モデルg(・;φ)とが同じになるように、説明可能モデルg(・;φ)のパラメータφを学習する。すなわち、解釈部202は、元モデルf(・;θ)のパラメータθを固定し、説明可能モデルg(・;φ)のパラメータφのみを学習する。
The
例えば、説明可能モデルとして局所線形モデルを用いた場合、解釈部202は、以下の式(3)に示すw(x;f(・;θ))を計算する。
For example, when a local linear model is used as the explainable model, the
上記の式(3)に示すw(x;f(・;θ))が解釈となる。すなわち、説明可能モデルg(・;φ)により特徴量xから予測ラベル^yを出力した際に、w(x;f(・;θ))の要素のうち、絶対値が最も大きい要素に対応する特徴が、予測に大きな影響を与えた特徴ということになる。例えば、w(x;f(・;θ))のうち、r番目の要素の絶対値が最も大きければ、r番目の特徴が、予測に大きな影響を与えた特徴ということになる。 The interpretation is w(x; f(.; θ)) shown in the above formula (3). In other words, when the predictive label ^y is output from the feature x by the explainable model g(.; φ), the feature corresponding to the element with the largest absolute value among the elements of w(x; f(.; θ)) is the feature that had the greatest impact on the prediction. For example, if the absolute value of the rth element of w(x; f(.; θ)) is the largest, then the rth feature is the feature that had the greatest impact on the prediction.
一方で、例えば、説明可能モデルとして決定木等といった局所的ではないモデルを用いた場合、解釈部202は、以下の式(4)に示すφ(f(・;θ))を計算する。
On the other hand, for example, when a non-local model such as a decision tree is used as the explainable model, the
記憶部203は、解釈装置10に与えられた学習用データセット、元モデルf(・;θ)、及び説明可能モデルg(・;φ)を記憶する。
The
<処理の流れ>
学習時には、本実施形態に係る解釈装置10は以下のStep1-1~Step1-2を実行する。
<Processing flow>
During learning, the
Step1-1:まず、学習部201は、学習用データセットDを用いて、元モデルf(・;θ)の予測性能が高くなるように、かつ、元モデルf(・;θ)と説明可能モデルg(・;φ)の出力が同じになるように、元モデルf(・;θ)及び説明可能モデルg(・;φ)のパラメータθ及びφを学習する。これは、説明可能モデルg(・;φ)として局所線形モデルを用いた場合は上記の式(1)、決定木等の局所的ではないモデルを用いた場合は上記の式(2)によりパラメータθ及びφを学習すればよい。
Step 1-1: First, the
Step1-2:そして、解釈部202は、学習用データセットDを用いて、学習済みの元モデルf(・;θ)の出力と説明可能モデルg(・;φ)とが同じになるように、説明可能モデルg(・;φ)のパラメータφを学習する。これは、説明可能モデルg(・;φ)として局所線形モデルを用いた場合は上記の式(3)、決定木等の局所的ではないモデルを用いた場合は上記の式(4)によりパラメータφを学習すればよい。
Step 1-2: Then, the
以上のStep1-1~Step1-2により、解釈性が高く、かつ、元モデルf(・;θ)と同等の予測性能を持つ説明可能モデルg(・;φ)が得られる。 By performing Step 1-1 to Step 1-2 above, an explainable model g(・;φ) is obtained that is highly interpretable and has predictive performance equivalent to that of the original model f(・;θ).
次に、推論時(予測時)には、本実施形態に係る解釈装置10は以下のStep2-1~Step2-2を実行する。
Next, during inference (prediction), the
Step2-1:まず、解釈部202は、予測対象の特徴量xを用いて、予測ラベル^y=g(・;φ)を計算する。
Step 2-1: First, the
Step2-2:そして、解釈部202は、予測ラベル^yの予測に大きな影響を与えた特徴を特定する。これは、説明可能モデルg(・;φ)として局所線形モデルを用いた場合は上記の式(3)に示すw(x;f(・;θ))、決定木等の局所的ではないモデルを用いた場合は上記の式(2)に示すφ(x;f(・;θ))を用いて、絶対値が最も大きい要素に対応する特徴を、予測に大きな影響を与えた特徴と特定すればよい。なお、絶対値が大きい上位S(Sは予め決められた自然数)個の要素に対応する特徴を、予測に大きな影響を与えた特徴と特定してもよい。
Step 2-2: The
なお、本実施形態では、学習時と推論時を同一の解釈装置10が実行するものとしたが、学習時と推論時が異なる装置で実行されてもよい。
In this embodiment, the
<評価>
以下、2つのデータセットを用いて、本実施形態に係る解釈装置10の評価について説明する。
<Evaluation>
Below, an evaluation of the
Digitsデータセットを用いた場合の評価結果(平均と標準誤差)を以下の表1に示す。 The evaluation results (mean and standard error) when using the Digits dataset are shown in Table 1 below.
Bostonデータセットを用いた場合の評価結果(平均と標準誤差)を以下の表2に示す。 The evaluation results (mean and standard error) when using the Boston dataset are shown in Table 2 below.
上記の表1及び2に示されるように、本実施形態に係る解釈装置10は、既存技術と比較して、同等の予測性能を達成しつつ、解釈の信頼性と安定性を高めることができている。すなわち、本実施形態に係る解釈装置10によって得られる説明可能モデルは、元モデルと同等の予測性能を持ち、かつ、解釈性が高いモデルであるといえる。
As shown in Tables 1 and 2 above, the
[参考文献]
参考文献1:C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.
参考文献2:Harrison, D. and Rubinfeld, D.L. 'Hedonic prices and the demand for clean air', J. Environ. Economics & Management, vol.5, 81-102, 1978.
<実施形態のまとめ>
本明細書には、少なくとも下記各項の解釈方法、解釈装置、及びプログラムが開示されている。
(付記項1)
1以上の特徴を表す特徴量と前記特徴量に対する正解ラベルとを含む学習用データで構成される学習用データセットを用いて、第1のモデルの予測性能が高くなるように、かつ、前記第1のモデルの出力と、前記第1のモデルよりも解釈性が高い第2のモデルの出力とが同じになるように、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する第1の学習手順と、
前記学習用データセットを用いて、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習手順と、
をコンピュータが実行する解釈方法。
(付記項2)
推論対象の特徴量を用いて、前記第2の学習手順で学習後の前記第2のモデルにより前記推論対象の特徴量に対する予測ラベルを計算する予測手順と、
前記第2の学習手順で学習後の前記第2のモデルのパラメータを用いて、前記予測ラベルの計算に対する影響を解釈する解釈手順と、
をコンピュータが実行する付記項1に記載の解釈方法。
(付記項3)
前記解釈手順は、
前記第2の学習手順で学習後の前記第2のモデルのパラメータの要素の中で前記予測ラベルを計算したときの絶対値が大きい上位所定の個数の要素に対応する特徴を、前記予測ラベルの計算に対する影響が大きい特徴と解釈する、付記項2に記載の解釈方法。
(付記項4)
前記第2のモデルは、局所線形モデルであり、
前記第1の学習手順は、
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量に対する正解ラベルとの誤差と、
前記特徴量と該特徴量に対してノイズを付与したノイズ付与後特徴量との類似度と、
前記特徴量の近傍で前記第2のモデルにより前記第1のモデルを近似した場合に前記特徴量を用いて前記第2のモデルにより予測したラベルと、前記ノイズ付与後特徴量を用いて前記第1のモデルにより予測したラベルとの差と、
に基づいて、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する、付記項1乃至3の何れか一項に記載の解釈方法。
(付記項5)
前記第2のモデルは、決定木を含む局所的ではないモデルであり、
前記第1の学習手順は、
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量に対する正解ラベルとの誤差と、
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量を用いて前記第2のモデルにより予測したラベルとの誤差と、
に基づいて、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する、付記項1乃至3の何れか一項に記載の解釈方法。
(付記項6)
前記第2の学習手順は、
前記第1の学習手順で学習後の前記第1のモデルのパラメータを固定した上で、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する、付記項1乃至5の何れか一項に記載の解釈方法。
(付記項7)
1以上の特徴を表す特徴量と前記特徴量に対する正解ラベルとを含む学習用データで構成される学習用データセットを用いて、第1のモデルの予測性能が高くなるように、かつ、前記第1のモデルの出力と、前記第1のモデルよりも解釈性が高い第2のモデルの出力とが同じになるように、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する第1の学習部と、
前記学習用データセットを用いて、前記第1の学習部で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習部と、
を有する解釈装置。
(付記項8)
コンピュータに、付記項1乃至6の何れか一項に記載の解釈方法を実行させるプログラム。
[References]
Reference 1: C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.
Reference 2: Harrison, D. and Rubinfeld, DL 'Hedonic prices and the demand for clean air', J. Environ. Economics & Management, vol.5, 81-102, 1978.
Summary of the embodiment
This specification discloses at least the interpretation method, interpretation device, and program described in the following items.
(Additional Note 1)
a first learning procedure for learning parameters of the first model and the second model, using a learning dataset configured with learning data including features representing one or more features and correct labels for the features, so that the predictive performance of the first model is improved and the output of the first model is the same as the output of a second model having higher interpretability than the first model;
a second learning procedure for learning parameters of the second model using the learning data set such that an output of the first model after learning in the first learning procedure is the same as an output of the second model;
The interpretation method executed by the computer.
(Additional Note 2)
a prediction step of calculating a predicted label for the feature quantity of the inference object by the second model learned in the second learning step using the feature quantity of the inference object;
an interpretation step of interpreting the effect of the second model parameters trained in the second training step on the calculation of the predicted label;
2. The interpretation method according to claim 1, wherein the interpretation method is executed by a computer.
(Additional Note 3)
The interpretation procedure is as follows:
The interpretation method described in Appendix 2, in which features corresponding to a top predetermined number of elements having large absolute values when the predicted label is calculated among the elements of the parameters of the second model after learning in the second learning procedure are interpreted as features having a large influence on the calculation of the predicted label.
(Additional Note 4)
the second model is a locally linear model;
The first learning procedure includes:
an error between a label predicted by the first model using the feature amount and a correct label for the feature amount; and
a similarity between the feature amount and a noise-added feature amount obtained by adding noise to the feature amount; and
a difference between a label predicted by the second model using the feature when the first model is approximated by the second model in the vicinity of the feature and a label predicted by the first model using the noise-added feature; and
The interpretation method according to any one of claims 1 to 3, further comprising learning parameters of the first model and parameters of the second model based on:
(Additional Note 5)
the second model is a non-local model that includes a decision tree;
The first learning procedure includes:
an error between a label predicted by the first model using the feature amount and a correct label for the feature amount; and
an error between a label predicted by the first model using the feature amount and a label predicted by the second model using the feature amount; and
The interpretation method according to any one of claims 1 to 3, further comprising learning parameters of the first model and parameters of the second model based on:
(Additional Note 6)
The second learning procedure includes:
An interpretation method described in any one of appendix 1 to 5, in which parameters of the first model after learning in the first learning procedure are fixed, and parameters of the second model are learned so that the output of the first model after learning in the first learning procedure is the same as the output of the second model.
(Additional Note 7)
a first learning unit that learns parameters of the first model and the second model by using a learning dataset configured with learning data including features representing one or more features and correct labels for the features, so that the predictive performance of the first model is improved and an output of the first model is the same as an output of a second model having higher interpretability than the first model;
a second learning unit that learns parameters of the second model using the learning data set so that an output of the first model after learning by the first learning unit is the same as an output of the second model;
An interpretation device having:
(Additional Note 8)
A program for causing a computer to execute the interpretation method according to any one of claims 1 to 6.
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。 The present invention is not limited to the specifically disclosed embodiments above, and various modifications, changes, and combinations with known technologies are possible without departing from the scope of the claims.
10 解釈装置
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 プロセッサ
106 メモリ装置
107 バス
201 学習部
202 解釈部
203 記憶部
10
103a Recording medium 104 Communication I/F
105
Claims (12)
前記学習用データセットを用いて、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習手順と、
推論対象の特徴量を用いて、前記第2の学習手順で学習後の前記第2のモデルにより前記推論対象の特徴量に対する予測ラベルを計算する予測手順と、
前記第2の学習手順で学習後の前記第2のモデルのパラメータを用いて、前記予測ラベルの計算に対する影響を解釈する解釈手順と、
をコンピュータが実行し、
前記解釈手順は、
前記第2の学習手順で学習後の前記第2のモデルのパラメータの要素の中で前記予測ラベルを計算したときの絶対値が大きい上位所定の個数の要素に対応する特徴を、前記予測ラベルの計算に対する影響が大きい特徴と解釈する、解釈方法。 a first learning procedure for learning parameters of the first model and the second model, using a learning dataset configured with learning data including features representing one or more features and correct labels for the features, so that the predictive performance of the first model is improved and the output of the first model is the same as the output of a second model having higher interpretability than the first model;
a second learning procedure for learning parameters of the second model using the learning data set such that an output of the first model after learning in the first learning procedure is the same as an output of the second model;
a prediction step of calculating a predicted label for the feature quantity of the inference object by the second model learned in the second learning step using the feature quantity of the inference object;
an interpretation step of interpreting the effect of the second model parameters trained in the second training step on the calculation of the predicted label;
The computer executes
The interpretation procedure is as follows:
an interpretation method for interpreting features corresponding to a top predetermined number of elements having the largest absolute values when the predicted label is calculated among the elements of the parameters of the second model after learning in the second learning procedure as features having a large influence on the calculation of the predicted label .
前記学習用データセットを用いて、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習手順と、
をコンピュータが実行し、
前記第2のモデルは、局所線形モデルであり、
前記第1の学習手順は、
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量に対する正解ラベルとの誤差と、
前記特徴量と該特徴量に対してノイズを付与したノイズ付与後特徴量との類似度と、
前記特徴量の近傍で前記第2のモデルにより前記第1のモデルを近似した場合に前記特徴量を用いて前記第2のモデルにより予測したラベルと、前記ノイズ付与後特徴量を用いて前記第1のモデルにより予測したラベルとの差と、
に基づいて、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する、解釈方法。 a first learning procedure for learning parameters of the first model and the second model using a learning dataset configured with learning data including features representing one or more features and correct labels for the features, so that the predictive performance of the first model is improved and the output of the first model is the same as the output of a second model having higher interpretability than the first model;
a second learning procedure for learning parameters of the second model using the learning data set such that an output of the first model after learning in the first learning procedure is the same as an output of the second model;
The computer executes
the second model is a locally linear model;
The first learning procedure includes:
an error between a label predicted by the first model using the feature amount and a correct label for the feature amount; and
a similarity between the feature amount and a noise-added feature amount obtained by adding noise to the feature amount; and
a difference between a label predicted by the second model using the feature when the first model is approximated by the second model in the vicinity of the feature and a label predicted by the first model using the noise-added feature; and
and learning parameters of the first model and parameters of the second model based on the
前記学習用データセットを用いて、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習手順と、
をコンピュータが実行し、
前記第2のモデルは、決定木を含む局所的ではないモデルであり、
前記第1の学習手順は、
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量に対する正解ラベルとの誤差と、
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量を用いて前記第2のモデルにより予測したラベルとの誤差と、
に基づいて、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する、解釈方法。 a first learning procedure for learning parameters of the first model and the second model, using a learning dataset configured with learning data including features representing one or more features and correct labels for the features, so that the predictive performance of the first model is improved and the output of the first model is the same as the output of a second model having higher interpretability than the first model;
a second learning procedure for learning parameters of the second model using the learning data set such that an output of the first model after learning in the first learning procedure is the same as an output of the second model;
The computer executes
the second model is a non-local model that includes a decision tree;
The first learning procedure includes:
an error between a label predicted by the first model using the feature amount and a correct label for the feature amount; and
an error between a label predicted by the first model using the feature amount and a label predicted by the second model using the feature amount; and
and learning parameters of the first model and parameters of the second model based on the
前記第1の学習手順で学習後の前記第1のモデルのパラメータを固定した上で、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する、請求項1乃至3の何れか一項に記載の解釈方法。 The second learning procedure includes:
The interpretation method according to any one of claims 1 to 3, further comprising: fixing parameters of the first model after learning in the first learning procedure; and learning parameters of the second model so that an output of the first model after learning in the first learning procedure is the same as an output of the second model.
前記学習用データセットを用いて、前記第1の学習手順で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習手順と、a second learning procedure for learning parameters of the second model using the learning data set such that an output of the first model after learning in the first learning procedure is the same as an output of the second model;
をコンピュータが実行する解釈方法。The interpretation method executed by the computer.
前記第2の学習手順で学習後の前記第2のモデルのパラメータを用いて、前記予測ラベルの計算に対する影響を解釈する解釈手順と、an interpretation step of interpreting the effect of the second model parameters trained in the second training step on the calculation of the predicted label;
をコンピュータが実行する請求項5に記載の解釈方法。The interpretation method according to claim 5, wherein the interpretation method is executed by a computer.
前記学習用データセットを用いて、前記第1の学習部で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習部と、
推論対象の特徴量を用いて、前記第2の学習部で学習後の前記第2のモデルにより前記推論対象の特徴量に対する予測ラベルを計算する予測部と、
前記第2の学習部で学習後の前記第2のモデルのパラメータを用いて、前記予測ラベルの計算に対する影響を解釈する解釈部と、
を有し、
前記解釈部は、
前記第2の学習部で学習後の前記第2のモデルのパラメータの要素の中で前記予測ラベルを計算したときの絶対値が大きい上位所定の個数の要素に対応する特徴を、前記予測ラベルの計算に対する影響が大きい特徴と解釈する、解釈装置。 a first learning unit that learns parameters of the first model and the second model by using a learning dataset configured with learning data including features representing one or more features and correct labels for the features, so that the predictive performance of the first model is improved and an output of the first model is the same as an output of a second model having higher interpretability than the first model;
a second learning unit that learns parameters of the second model using the learning data set so that an output of the first model after learning by the first learning unit is the same as an output of the second model;
a prediction unit that uses a feature of an inference object to calculate a predicted label for the feature of the inference object by the second model learned by the second learning unit;
an interpretation unit that interprets an effect on the calculation of the predicted label by using parameters of the second model trained by the second training unit;
having
The interpretation unit is
An interpretation device that interprets features corresponding to a top predetermined number of elements having large absolute values when the predicted label is calculated among the elements of the parameters of the second model after learning by the second learning unit as features having a large influence on the calculation of the predicted label .
前記学習用データセットを用いて、前記第1の学習部で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習部と、a second learning unit that learns parameters of the second model using the learning data set so that an output of the first model after learning by the first learning unit is the same as an output of the second model;
を有し、having
前記第2のモデルは、局所線形モデルであり、the second model is a locally linear model;
前記第1の学習部は、The first learning unit includes:
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量に対する正解ラベルとの誤差と、an error between a label predicted by the first model using the feature amount and a correct label for the feature amount; and
前記特徴量と該特徴量に対してノイズを付与したノイズ付与後特徴量との類似度と、a similarity between the feature amount and a noise-added feature amount obtained by adding noise to the feature amount; and
前記特徴量の近傍で前記第2のモデルにより前記第1のモデルを近似した場合に前記特徴量を用いて前記第2のモデルにより予測したラベルと、前記ノイズ付与後特徴量を用いて前記第1のモデルにより予測したラベルとの差と、a difference between a label predicted by the second model using the feature when the first model is approximated by the second model in the vicinity of the feature and a label predicted by the first model using the noise-added feature; and
に基づいて、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する、解釈装置。and learning parameters of the first model and parameters of the second model based on the above.
前記学習用データセットを用いて、前記第1の学習部で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習部と、a second learning unit that learns parameters of the second model using the learning data set so that an output of the first model after learning by the first learning unit is the same as an output of the second model;
を有し、having
前記第2のモデルは、決定木を含む局所的ではないモデルであり、the second model is a non-local model that includes a decision tree;
前記第1の学習部は、The first learning unit includes:
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量に対する正解ラベルとの誤差と、an error between a label predicted by the first model using the feature amount and a correct label for the feature amount; and
前記特徴量を用いて前記第1のモデルにより予測したラベルと、前記特徴量を用いて前記第2のモデルにより予測したラベルとの誤差と、an error between a label predicted by the first model using the feature amount and a label predicted by the second model using the feature amount; and
に基づいて、前記第1のモデルのパラメータと前記第2のモデルのパラメータとを学習する、解釈装置。and learning parameters of the first model and parameters of the second model based on the above.
前記学習用データセットを用いて、前記第1の学習部で学習後の前記第1のモデルの出力と、前記第2のモデルの出力とが同じになるように、前記第2のモデルのパラメータを学習する第2の学習部と、a second learning unit that learns parameters of the second model using the learning data set so that an output of the first model after learning by the first learning unit is the same as an output of the second model;
を有する解釈装置。An interpretation device having:
前記第2の学習部で学習後の前記第2のモデルのパラメータを用いて、前記予測ラベルの計算に対する影響を解釈する解釈部と、an interpretation unit that interprets an effect on the calculation of the predicted label by using parameters of the second model trained by the second training unit;
を有する請求項10に記載の解釈装置。11. The interpretation device according to claim 10, comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021145237A JP7614611B2 (en) | 2021-09-07 | 2021-09-07 | Interpretation method, interpretation device, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021145237A JP7614611B2 (en) | 2021-09-07 | 2021-09-07 | Interpretation method, interpretation device, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023038481A JP2023038481A (en) | 2023-03-17 |
| JP7614611B2 true JP7614611B2 (en) | 2025-01-16 |
Family
ID=85514748
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021145237A Active JP7614611B2 (en) | 2021-09-07 | 2021-09-07 | Interpretation method, interpretation device, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7614611B2 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018150445A1 (en) | 2017-02-14 | 2018-08-23 | 日本電気株式会社 | Model generation system, model generation method, and model generation program |
| JP2020190959A (en) | 2019-05-22 | 2020-11-26 | 日本電気株式会社 | Model generation device, system, parameter computation device, model generation method, parameter computation method, and program |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7293988B2 (en) * | 2019-08-27 | 2023-06-20 | 富士通株式会社 | Learning program, determination processing program, learning device, determination processing device, learning method, and determination processing method |
-
2021
- 2021-09-07 JP JP2021145237A patent/JP7614611B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018150445A1 (en) | 2017-02-14 | 2018-08-23 | 日本電気株式会社 | Model generation system, model generation method, and model generation program |
| JP2020190959A (en) | 2019-05-22 | 2020-11-26 | 日本電気株式会社 | Model generation device, system, parameter computation device, model generation method, parameter computation method, and program |
Non-Patent Citations (1)
| Title |
|---|
| 吉川友也, 外1名, "スパース局所線形モデルのニューラル生成器",人工知能学会全国大会論文集,p.1-4,第34回全国大会(2020) |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023038481A (en) | 2023-03-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Burns et al. | A dataset for interactive vision-language navigation with unknown command feasibility | |
| CN112840361B (en) | Automatic feature subset selection using feature ranking and scalable automatic search | |
| Imani et al. | Fach: Fpga-based acceleration of hyperdimensional computing by reducing computational complexity | |
| KR102780215B1 (en) | Robot process automation apparatus and method for detecting changes thereof | |
| US20150007120A1 (en) | Clustering using n-dimensional placement | |
| WO2017133188A1 (en) | Method and device for determining feature set | |
| CN115244587A (en) | Efficient ground truth annotation | |
| JP2022037955A (en) | A system for selecting a learning model | |
| JP7351544B2 (en) | Method and apparatus for classifying machine learning infrastructure items | |
| JP2018142188A (en) | Analyzing program, analyzing method and analyzing device | |
| WO2022039803A1 (en) | Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning | |
| CN114631099A (en) | Artificial intelligence transparency | |
| JP6160143B2 (en) | Image processing apparatus, image processing method and equipment | |
| Mikula et al. | Evolution of curves on a surface driven by the geodesic curvature and external force | |
| He et al. | Network embedding using deep robust nonnegative matrix factorization | |
| KR20200057835A (en) | Clustring system and method for forecasting item demand of repair parts of military equipment by demand pattern | |
| JP7614611B2 (en) | Interpretation method, interpretation device, and program | |
| CN109614581B (en) | Nonnegative matrix factorization clustering method based on dual local learning | |
| JP7348296B2 (en) | Goal-oriented reinforcement learning method and device for carrying out the same | |
| US20230139396A1 (en) | Using learned physical knowledge to guide feature engineering | |
| CN114297022A (en) | Cloud environment anomaly detection method, device, electronic device and storage medium | |
| Feng et al. | Detection and classification of malware based on FastText | |
| JP7505555B2 (en) | Learning device, learning method, and program | |
| Gushanskiy et al. | Development of a scheme of a hardware accelerator of quantum computing for correction quantum types of errors | |
| Xu et al. | Deep object detection for complex architectural floor plans with efficient receptive fields |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210908 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210908 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231102 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240701 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240702 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240830 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240910 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20241108 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241118 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241210 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241219 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7614611 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |