Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7763643B2 - Learning device, label estimation device and program - Google Patents
[go: Go Back, main page]

JP7763643B2 - Learning device, label estimation device and program - Google Patents

Learning device, label estimation device and program

Info

Publication number
JP7763643B2
JP7763643B2 JP2021192928A JP2021192928A JP7763643B2 JP 7763643 B2 JP7763643 B2 JP 7763643B2 JP 2021192928 A JP2021192928 A JP 2021192928A JP 2021192928 A JP2021192928 A JP 2021192928A JP 7763643 B2 JP7763643 B2 JP 7763643B2
Authority
JP
Japan
Prior art keywords
label
information
sentence
model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021192928A
Other languages
Japanese (ja)
Other versions
JP2023036503A (en
Inventor
有希 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Publication of JP2023036503A publication Critical patent/JP2023036503A/en
Application granted granted Critical
Publication of JP7763643B2 publication Critical patent/JP7763643B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習装置、ラベル推定装置及びプログラムに関する。 The present invention relates to a learning device, a label estimation device, and a program.

検索を容易にする等の理由から、ニュースなどの文章にその文章に関連するラベルを付与することが望ましい場合がある。例えば、感染症の影響で株価が変動した会社のニュースであれば、感染症や、株価、ビジネスなどの用語がラベルとして付与される。 For reasons such as making searches easier, it may be desirable to assign labels related to news articles. For example, if the news is about a company whose stock prices have fluctuated due to the impact of an infectious disease, terms such as infectious disease, stock price, and business may be assigned as labels.

特開2019-53730号公報JP 2019-53730 A

Grigorios, Tsoumakas, Ioannis Katakis, “Multi-Label Classification: An Overview”Grigorios, Tsoumakas, Ioannis Katakis, “Multi-Label Classification: An Overview” Ankit Pal, Muru Selvakumar and Malaikannan Sankarasubbu,“MAGNET: Multi-Label Text Classification using Attention-based Graph Neural Network” arXiv:2003.11644v1Ankit Pal, Muru Selvakumar and Malaikannan Sankarasubbu, “MAGNET: Multi-Label Text Classification using Attention-based Graph Neural Network” arXiv:2003.11644v1 Ashutosh Adhikari, Achyudh Ram, Raphael Tang, and Jimmy Lin,“Rethinking Complex Neural Network Architectures for Document Classification” Proceedings of NAACL-HLT 2019, pages 4046-4051Ashutosh Adhikari, Achyudh Ram, Raphael Tang, and Jimmy Lin, “Rethinking Complex Neural Network Architectures for Document Classification” Proceedings of NAACL-HLT 2019, pages 4046-4051

ラベルは1つの文章に1つが付与されれば充分な場合もあるが、文章は複数の言葉で構成される場合が多いので、付与されるラベルが1つでは不十分な場合もある。すなわち、上述の例に示したような、1つの文章に複数のラベルを付与することが望ましい場合もある。しかしながら、文章に付与すべきラベルの数が増えれば増えるほど、ラベルの推定の作業に要する労力は増大してしまう。 In some cases, it is sufficient to assign one label to a sentence, but since sentences often consist of multiple words, there are cases where a single label is insufficient. In other words, as shown in the example above, it may be desirable to assign multiple labels to a single sentence. However, the more labels that need to be assigned to a sentence, the greater the effort required to estimate the labels.

上記事情に鑑み、本発明は、ラベルの推定する作業に要する労力の増大を抑制する技術を提供することを目的としている。 In light of the above circumstances, the present invention aims to provide technology that reduces the increase in labor required for label estimation work.

本発明の一態様は、文章を示す文章情報と前記文章に付与されるラベルの候補として予め定められた複数のラベルについて前記文章のラベルとして適切である度合を示すラベル適正情報とを含むモデル学習用データを用いた機械学習の方法により、入力された文章情報が示す文章に付与されるべきラベルを推定する数理モデルであるラベル推定モデルを更新するモデル学習部、を備え、前記ラベル適正情報は、前記モデル学習用データの示す文章に対して付与される確率の高さに関する所定の条件を満たすラベルを示す正否情報と、前記文章に付与されるラベルの候補として予め定められた複数の各ラベルのうちの任意の2つの間の共起の確率を示す情報であるラベル共起情報と、に基づいて得られた情報である、学習装置である。 One aspect of the present invention is a learning device that includes a model learning unit that updates a label estimation model, which is a mathematical model that estimates a label to be assigned to a sentence indicated by input sentence information, using a machine learning method that uses model training data that includes sentence information indicating a sentence and label appropriateness information indicating the degree to which a plurality of labels, predetermined as candidate labels to be assigned to the sentence, are appropriate as labels for the sentence. The label appropriateness information is information obtained based on true/false information indicating a label that satisfies a predetermined condition regarding the likelihood of being assigned to the sentence indicated by the model training data, and label co-occurrence information, which is information indicating the probability of co-occurrence between any two of a plurality of labels predetermined as candidate labels to be assigned to the sentence.

本発明の一態様は、処理対象の文章を示す情報である対象情報を取得する対象取得部と、
文章を示す文章情報と前記文章に付与されるラベルの候補として予め定められた複数のラベルについて前記文章のラベルとして適切である度合を示すラベル適正情報とを含むモデル学習用データを用いた機械学習の方法により、入力された文章情報が示す文章に付与されるべきラベルを推定する数理モデルであるラベル推定モデルを更新するモデル学習部、を備え、前記ラベル適正情報は、前記モデル学習用データの示す文章に対して付与される確率の高さに関する所定の条件を満たすラベルを示す正否情報と、前記文章に付与されるラベルの候補として予め定められた複数の各ラベルのうちの任意の2つの間の共起の確率を示す情報であるラベル共起情報と、に基づいて得られた情報である学習装置が得た、学習済みのラベル推定モデルを用いて、前記文章取得部の取得した対象情報が示す文章に付与されるべきラベルを推定する、推定部と、を備えるラベル推定装置である。
One aspect of the present invention is a method for processing a document, comprising: an object acquisition unit that acquires object information that indicates a sentence to be processed;
The label estimation device includes: a model learning unit that updates a label estimation model, which is a mathematical model that estimates a label to be assigned to a sentence indicated by input sentence information, by a machine learning method using model learning data including sentence information that indicates a sentence and label appropriateness information that indicates the degree to which a plurality of labels, which are predetermined as candidate labels to be assigned to the sentence, are appropriate as labels for the sentence; and an estimation unit that estimates a label to be assigned to a sentence indicated by target information acquired by the sentence acquisition unit, using the trained label estimation model obtained by a learning device, which is information obtained based on true/false information that indicates a label that satisfies a predetermined condition regarding the likelihood of being assigned to the sentence indicated by the model learning data, and label co-occurrence information that is information that indicates the probability of co-occurrence between any two of a plurality of labels, which are predetermined as candidate labels to be assigned to the sentence.

本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as the above-mentioned learning device.

本発明の一態様は、上記のラベル推定装置としてコンピュータを機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as the above-mentioned label estimation device.

本発明により、ラベルの推定する作業に要する労力の増大を抑制する技術を提供することが可能となる。 This invention makes it possible to provide technology that reduces the increase in labor required for label estimation work.

実施形態のラベル推定システムを説明する説明図。FIG. 1 is an explanatory diagram illustrating a label estimation system according to an embodiment. 実施形態におけるラベル共起情報の一例を示す図。FIG. 4 is a diagram showing an example of label co-occurrence information according to the embodiment. 実施形態におけるラベル適正情報生成処理の一例を説明する図。5A to 5C are diagrams illustrating an example of label suitability information generation processing according to an embodiment. 実施形態における学習装置1のハードウェア構成の一例を示す図。FIG. 2 is a diagram showing an example of the hardware configuration of a learning device 1 according to an embodiment. 実施形態における制御部11の構成の一例を示す図。FIG. 2 is a diagram showing an example of the configuration of a control unit 11 according to the embodiment. 実施形態における学習装置1が実行する処理の流れの一例を示すフローチャート。10 is a flowchart showing an example of the flow of processing executed by the learning device 1 in the embodiment. 実施形態におけるラベル推定装置2のハードウェア構成の一例を示す図。FIG. 2 is a diagram showing an example of the hardware configuration of a label estimation device 2 according to an embodiment. 実施形態における制御部21の構成の一例を示す図。FIG. 2 is a diagram showing an example of the configuration of a control unit 21 according to the embodiment. 実施形態におけるラベル推定装置2が実行する処理の流れの一例を示すフローチャート。10 is a flowchart showing an example of the flow of processing executed by a label estimation device 2 in the embodiment. 実施形態のラベル推定システムを用いた実験結果の一例を示す第1の図。FIG. 1 is a first diagram showing an example of experimental results using the label estimation system according to the embodiment. 実施形態のラベル推定システムを用いた実験結果の一例を示す第2の図。FIG. 2 is a second diagram showing an example of experimental results using the label estimation system according to the embodiment. 実施形態のラベル推定システムを用いた実験結果の一例を示す第3の図。FIG. 3 is a third diagram showing an example of experimental results using the label estimation system according to the embodiment. 変形例における制御部の構成の一例を示す図。FIG. 10 is a diagram showing an example of the configuration of a control unit in a modified example.

(実施形態)
図1は、実施形態のラベル推定システム100を説明する説明図である。ラベル推定システム100は、文章に付与されるべきラベルを推定するシステムである。ラベル推定システム100は、文章に付与されるべきラベルを推定する数理モデルを機械学習の方法により得る。ラベル推定システム100は、取得した数理モデルを用いて、入力された文章に付与されるべきラベルを推定する。
(Embodiment)
FIG. 1 is an explanatory diagram illustrating a label estimation system 100 according to an embodiment. The label estimation system 100 is a system that estimates a label to be assigned to a sentence. The label estimation system 100 obtains a mathematical model for estimating a label to be assigned to a sentence using a machine learning method. The label estimation system 100 uses the obtained mathematical model to estimate a label to be assigned to an input sentence.

より具体的には、数理モデルの取得を終えたラベル推定システム100は、文章情報が入力された際に、取得した数理モデルを用い、文章情報に基づき文章情報が示す文章に付与されるべきラベルを推定する。文章情報は、文章を示す情報である。より具体的にラベル推定システム100を説明する。ラベル推定システム100は、学習装置1とラベル推定装置2とを備える。 More specifically, when text information is input, the label estimation system 100, having acquired the mathematical model, uses the acquired mathematical model to estimate a label to be assigned to the text indicated by the text information, based on the text information. Text information is information that indicates a text. The label estimation system 100 will be described in more detail. The label estimation system 100 includes a learning device 1 and a label estimation device 2.

学習装置1は、機械学習の方法によりラベル推定モデルを更新することで学習済みラベル推定モデルを得る。ラベル推定モデルは、入力された文章情報に基づき入力された文章情報が示す文章(以下「対象文章」という。)に付与されるべきラベルを推定する数理モデルであって学習に関する所定の終了条件が満たされる前の数理モデルである。 The learning device 1 obtains a trained label estimation model by updating the label estimation model using a machine learning method. The label estimation model is a mathematical model that estimates, based on input text information, the label to be assigned to a sentence indicated by the input text information (hereinafter referred to as the "target sentence"), and is a mathematical model before a predetermined termination condition for learning is satisfied.

より具体的にはラベル推定モデルが推定する結果は、ラベル適正情報である。ラベル適正情報は、ラベル適正度を、ラベル候補それぞれについて示す情報である。ラベル適正度は、ラベルが対象文章のラベルとして適切である度合である。ラベル候補は、対象文章に付与されるラベルの候補として予め定められた複数の各ラベルである。ラベル候補は、例えば“感染症”、“ビジネス”、“スポーツ”、“株価”等の対象文章に関連付けられ得る用語である。 More specifically, the result estimated by the label estimation model is label appropriateness information. Label appropriateness information is information indicating the label appropriateness for each label candidate. Label appropriateness is the degree to which a label is appropriate as a label for the target sentence. Label candidates are each of multiple labels that have been predetermined as candidates for labels to be assigned to the target sentence. Label candidates are terms that can be associated with the target sentence, such as "infectious disease," "business," "sports," and "stock prices."

学習済みラベル推定モデルは、学習に関する所定の終了条件(以下「学習終了条件」という。)が満たされた時点のラベル推定モデルである。学習終了条件は、例えば、学習によるラベル推定モデルの変化が所定の変化より小さいという条件である。学習終了条件は、例えば、学習の回数が所定の回数に達した、という条件であってもよい。 A trained label estimation model is a label estimation model at the point in time when a predetermined termination condition for learning (hereinafter referred to as the "learning termination condition") is met. The learning termination condition is, for example, a condition that the change in the label estimation model due to learning is smaller than a predetermined change. The learning termination condition may also be, for example, a condition that the number of times learning has been performed has reached a predetermined number.

以下、学習装置1が学習済みラベル推定モデルを得る処理をモデル学習処理という。機械学習の方法は、学習済みラベル推定モデルを得ることができればどのような方法であってもよい。機械学習の方法は、例えばCNN(Convolutional Neural Networks)を用いる方法であってもよいし、LSTM(Long short-term memory)を用いる方法であってもよいし、BERT(Bidirectional Encoder Representations from Transformers)を用いる方法であってもよい。 Hereinafter, the process by which the learning device 1 obtains a trained label estimation model is referred to as a model learning process. Any machine learning method may be used as long as it can obtain a trained label estimation model. The machine learning method may, for example, be a method using CNN (Convolutional Neural Networks), a method using LSTM (Long short-term memory), or a method using BERT (Bidirectional Encoder Representations from Transformers).

学習済みラベル推定モデルを得るための機械学習の方法では、文章情報を説明変数として有するデータが用いられる。説明変数に対応する目的変数は、ラベル適正情報を示す。以下、説明変数として文章情報を有し、目的変数としてラベル適正情報を有するデータを、モデル学習用データという。モデル学習用データは学習済みラベル推定モデルの取得に用いられるデータである。すなわちモデル学習用データはラベル推定モデルの学習に用いられるデータである。以下、モデル学習用データの有するラベル適正情報を教師データという。 Machine learning methods for obtaining trained label estimation models use data that has text information as explanatory variables. The objective variable corresponding to the explanatory variables indicates label suitability information. Hereinafter, data that has text information as explanatory variables and label suitability information as objective variables will be referred to as model training data. Model training data is data used to obtain trained label estimation models. In other words, model training data is data used to train label estimation models. Hereinafter, the label suitability information contained in model training data will be referred to as training data.

<ラベル適正情報の表現の具体例>
ラベル適正情報の表現の具体例を説明する。ラベル候補がN個(Nは自然数)であるとき、ラベル適正情報は、例えばN次元のベクトルで表現される。N次元ベクトルの各要素はN個のラベル候補のいずれか1つに対応付けられており、インデックスnの異なる要素は異なるラベル候補に対応付けられている。nは1以上N以下の自然数である。なお、インデクッスnは、ラベル候補を区別する指標であり、なおかつ、N次元ベクトルのn番目の要素を示す指標である。以下、説明の簡単のため、ラベル候補がN個である場合を例にラベル推定システム100を説明する。
<Examples of label appropriateness information>
A specific example of the representation of label appropriateness information will be described. When there are N label candidates (N is a natural number), the label appropriateness information is expressed, for example, as an N-dimensional vector. Each element of the N-dimensional vector corresponds to one of the N label candidates, and elements with different indexes n correspond to different label candidates. n is a natural number between 1 and N. Note that index n is an index that distinguishes between label candidates and also indicates the nth element of the N-dimensional vector. For ease of explanation, the label estimation system 100 will be described below using an example in which there are N label candidates.

ラベル適正情報を表現するN次元ベクトルの各要素は、対応する各ラベル候補のラベル適正度を示す。ラベル適正度は、例えば0以上1以下の値で示される。このような場合、ラベル適正情報を表現するN次元のベクトルの各要素の値は、例えば0に近いほど対応するラベル候補が文章情報の示す文章のラベルとして不適切であることを示す。一方、ラベル適正情報を表現するN次元のベクトルの各要素は、例えば値が1に近いほど対応するラベル候補が文章情報の示す文章のラベルとして適切であることを示す。 Each element of the N-dimensional vector representing label suitability information indicates the label suitability of the corresponding label candidate. Label suitability is expressed, for example, as a value between 0 and 1. In such a case, the closer the value of each element of the N-dimensional vector representing label suitability information is to 0, the less appropriate the corresponding label candidate is as a label for the sentence indicated by the sentence information. On the other hand, the closer the value of each element of the N-dimensional vector representing label suitability information is to 1, the more appropriate the corresponding label candidate is as a label for the sentence indicated by the sentence information.

<モデル学習処理と損失関数とについて>
モデル学習処理についてより詳細に説明する。モデル学習処理は、上述したように、モデル学習用データを用いた機械学習の方法により、学習終了条件が満たされるまでラベル推定モデルを更新する処理である。モデル学習処理では、損失関数を用いて計算された損失を小さくするようにラベル推定モデルの更新が行われる。なお損失関数を用いて計算された損失とは損失関数の値であり、例えばラベル推定モデルの出力と教師データとの不一致度を表す値である。
<Model learning process and loss function>
The model learning process will be described in more detail. As described above, the model learning process is a process of updating the label estimation model by a machine learning method using model learning data until the learning termination condition is met. In the model learning process, the label estimation model is updated so as to reduce the loss calculated using a loss function. Note that the loss calculated using the loss function is the value of the loss function, and is, for example, a value that represents the degree of mismatch between the output of the label estimation model and the training data.

損失関数は、教師データとラベル推定モデルの推定結果との一致度と不一致度とを用いて表現される指標である。損失関数は、例えば以下の式(1)で定義されるバイナリクロスエントロピーであってもよい。 The loss function is an index expressed using the degree of agreement and disagreement between the training data and the estimation results of the label estimation model. The loss function may be, for example, the binary cross-entropy defined by the following equation (1):

は、教師データが示すラベル適正度であってインデクッスnのラベル候補のラベル適正度を示す。y{^}は、ラベル推定モデルによって推定されたラベル適正度であってインデクッスnのラベル候補のラベル適正度を示す。なお、A{^}は、記号Aにサーカムフレックスが付与された記号を示す。したがって、y{^}は、記号yにサーカムフレックスが付与された記号に下付き文字nが付与された記号を意味する。より具体的にはy{^}は以下の式(2)の記号を意味する。 y n is the label appropriateness indicated by the training data and indicates the label appropriateness of the label candidate with index n. y{^} n is the label appropriateness estimated by the label estimation model and indicates the label appropriateness of the label candidate with index n. Note that A{^} indicates a symbol in which a circumflex is added to the symbol A. Therefore, y{^} n means a symbol in which a circumflex is added to the symbol y and a subscript n is added. More specifically, y{^} n means the symbol in the following formula (2).

式(1)における以下の式(3)で表現される項は、ラベル推定モデルの推定結果と教師データとが定性的に一致する場合におけるラベル推定モデルの推定結果と教師データとの間の定量的な違いを示す。 The term expressed in the following equation (3) in equation (1) indicates the quantitative difference between the estimation results of the label estimation model and the training data when the estimation results of the label estimation model and the training data qualitatively match.

式(1)における以下の式(4)で表現される項は、ラベル推定モデルの推定結果と教師データとが定性的に不一致である場合におけるラベル推定モデルの推定結果と教師データとの間の定量的な違いを示す。 The term expressed by the following equation (4) in equation (1) indicates the quantitative difference between the estimation results of the label estimation model and the training data when there is a qualitative mismatch between the estimation results of the label estimation model and the training data.

なお、損失関数を小さくするよう更新の具体的な一例は、式(1)が示す損失関数を用いて、ラベル推定モデルが不正解ラベル情報を推定する確率を増大させないようにラベル推定モデルを更新する処理である。不正解ラベル情報は、定性的に教師データと不一致なラベル適正情報である。 A specific example of updating to reduce the loss function is a process that uses the loss function shown in equation (1) to update the label estimation model so as not to increase the probability that the label estimation model will infer incorrect label information. Incorrect label information is label appropriateness information that qualitatively disagrees with the training data.

ラベル推定装置2は、学習装置1が取得した学習済みラベル推定モデルを用いて、入力された文章情報が示す対象文章に付与されるべきラベルを推定する。より具体的には、ラベル推定装置2は、学習装置1が取得した学習済みラベル推定モデルを用いて、入力された文章情報が示す対象文章に対するラベル候補それぞれのラベル適正度を推定する。 The label estimation device 2 uses the trained label estimation model acquired by the learning device 1 to estimate the label to be assigned to the target sentence indicated by the input text information. More specifically, the label estimation device 2 uses the trained label estimation model acquired by the learning device 1 to estimate the label appropriateness of each label candidate for the target sentence indicated by the input text information.

<モデル学習用データが含むラベル適正情報の生成について>
モデル学習用データが含むラベル適正情報を生成する方法の一例について説明する。ラベル適正情報は、例えば人手又は装置により、正否情報とラベル共起情報とに基づいて生成される。
<Generating label appropriateness information included in model training data>
An example of a method for generating label appropriateness information included in model learning data will be described below. The label appropriateness information is generated, for example, manually or by a device, based on correct/incorrect information and label co-occurrence information.

正否情報は、モデル学習用データが含む文章情報の示す文章に対して付与される確率の高さに関する所定の条件を満たすラベルを示す情報である。すなわち、正否情報は、モデル学習用データの示す文章に対するラベル適正度の高さに関する所定の条件を満たすラベルを示す情報である。ラベル適正度の高さに関する所定の条件(以下「ラベル適正条件」という。)は、例えば、ラベル適正度が最も高い、という条件である。正否情報は、ラベル適正条件を満たすラベルが複数である場合には、複数のラベルを示してもよい。正否情報は、例えば、付与される確率の最も高いラベルに対応する要素の値のみ1であり、他の要素の値が0である、N次元のベクトルで表現される。以下、説明の簡単のためラベル適正条件が、ラベル適正度が最も高い、という条件である場合を例に、ラベル推定システム100を説明する。 The correct/incorrect information is information indicating a label that satisfies a predetermined condition regarding the likelihood of being assigned to a sentence indicated by the sentence information included in the model training data. In other words, the correct/incorrect information is information indicating a label that satisfies a predetermined condition regarding the likelihood of label appropriateness for a sentence indicated by the model training data. The predetermined condition regarding the likelihood of label appropriateness (hereinafter referred to as the "label appropriateness condition") is, for example, the condition that the label appropriateness is the highest. If there are multiple labels that satisfy the label appropriateness condition, the correct/incorrect information may indicate multiple labels. The correct/incorrect information is expressed, for example, as an N-dimensional vector in which only the element corresponding to the label with the highest likelihood of being assigned has a value of 1, and the other elements have values of 0. For simplicity of explanation, the label estimation system 100 will be described below using an example in which the label appropriateness condition is the condition that the label appropriateness is the highest.

ラベル共起情報は、N個のラベル候補のうちの任意の2つのラベル候補の間の共起の確率を示す情報である。共起の確率とは、具体的には、一方のラベル候補が文章中に出現する場合に、他方のラベル候補が文章中に出現する確率である。なお、ラベル共起情報は、同一のラベル候補間の共起の確率を示してもよい。同一のラベル候補間の共起の確率とは自己相関のことなので、同一のラベル候補間の共起の確率は1である。なお、ラベル共起情報は必ずしも同一のラベル候補間の共起の確率を示す必要は無く、このような場合にはラベル共起情報が示す同一のラベル候補間の共起の確率は、例えば0である。 Label co-occurrence information is information that indicates the probability of co-occurrence between any two of N label candidates. Specifically, the probability of co-occurrence is the probability that one label candidate appears in a sentence when the other label candidate appears in the sentence. Note that label co-occurrence information may also indicate the probability of co-occurrence between identical label candidates. Since the probability of co-occurrence between identical label candidates refers to autocorrelation, the probability of co-occurrence between identical label candidates is 1. Note that label co-occurrence information does not necessarily have to indicate the probability of co-occurrence between identical label candidates; in such cases, the probability of co-occurrence between identical label candidates indicated by label co-occurrence information is, for example, 0.

図2は、実施形態におけるラベル共起情報の一例を示す図である。ラベル共起情報は、例えば要素の値が0以上1以下の正定値行列で表現される。図2の例では、縦と横はそれぞれラベル候補を示し、対角成分は自己相関を示す。 Figure 2 shows an example of label co-occurrence information in an embodiment. The label co-occurrence information is expressed, for example, as a positive definite matrix whose elements have values between 0 and 1. In the example of Figure 2, the columns and columns each represent label candidates, and the diagonal elements represent autocorrelation.

図2のラベル共起情報は、より具体的には、ラベル候補の同士のPPMI(Positive Pointwise Mutual Information)スコアを示す行列である。なお、PPMIスコアは以下の式(5)で定義される。 More specifically, the label co-occurrence information in Figure 2 is a matrix showing the PPMI (Positive Pointwise Mutual Information) scores between label candidates. The PPMI score is defined by the following equation (5):

式(5)において、lはインデックスnのラベル候補を示し、lはインデックスmのラベル候補を示す。なお、mは、1以上N以下の整数である。mはnと同じ値であってもよいし異なってもよい。C(l)は、予め用意された複数の所定の文章の集合(以下「事前文章集合」という。)におけるインデクッスnのラベル候補の出現回数を示す。C(l)は、事前文章集合におけるインデクッスmのラベル候補の出現回数を示す。C(l、lm)は、事前文章集合におけるインデックスnのラベル候補とインデクッスmのラベル候補との共起回数を示す。 In formula (5), ln indicates a label candidate for index n, and lm indicates a label candidate for index m. Note that m is an integer between 1 and N. m may be the same as or different from n. C( ln ) indicates the number of times the label candidate for index n appears in a set of multiple predetermined sentences prepared in advance (hereinafter referred to as the "pre-sent sentence set"). C( lm ) indicates the number of times the label candidate for index m appears in the pre-sent sentence set. C( ln , lm) indicates the number of times the label candidate for index n co-occurs with the label candidate for index m in the pre-sent sentence set.

以下、正否情報とラベル共起情報とに基づきラベル適正情報を生成する処理を、ラベル適正情報生成処理という。ラベル適正情報生成処理では、例えば、正否情報を表現するベクトルの要素の値が1であるラベル候補について、他のラベル候補が共起する確率がラベル共起情報を用いて取得される処理が実行される。正否情報を表現するベクトルの要素の値が1のラベル候補が複数の場合には、例えば、要素の値が1の複数のラベル候補について他のラベル候補が共起する確率を取得し、他のラベル候補ごとに共起する確率の和が算出される。ラベル適正情報生成処理では次に、シグモイド関数等の独立変数の値を0以上1以下の所定の値に制限する関数を用いて、他のラベル候補の共起する確率を0以上1以下の値に変換する処理が実行される。 Hereinafter, the process of generating label appropriateness information based on correct/incorrect information and label co-occurrence information is referred to as the label appropriateness information generation process. In the label appropriateness information generation process, for example, for a label candidate whose element of the vector representing the correct/incorrect information has a value of 1, the probability of co-occurrence with other label candidates is obtained using the label co-occurrence information. If there are multiple label candidates whose element of the vector representing the correct/incorrect information has a value of 1, for example, the probability of co-occurrence with other label candidates is obtained for the multiple label candidates whose element has a value of 1, and the sum of the co-occurrence probabilities for each other label candidate is calculated. Next, in the label appropriateness information generation process, a function that limits the value of an independent variable to a predetermined value between 0 and 1, such as a sigmoid function, is used to convert the probability of co-occurrence with other label candidates to a value between 0 and 1.

ラベル適正情報生成処理では、正否情報を表現するベクトルについて、正否情報を表現するベクトルの値が0であった要素の値が、変換後の値に置き換えられる処理(以下「置き換え処理」という。)が実行される。置き換え処理によって要素の値が変更された正否情報が、ラベル適正情報である。 In the label appropriateness information generation process, a process (hereinafter referred to as the "replacement process") is performed in which the element values of the vector representing the correct/incorrect information, which had a value of 0, are replaced with converted values. The correct/incorrect information whose element values have been changed by the replacement process is the label appropriateness information.

図3は、実施形態におけるラベル適正情報生成処理の一例を説明する図である。より具体的には、図3は、ラベル共起情報がラベル候補の同士のPPMIスコアを示す行列(以下「PPMI行列」という。)である場合を例に、ラベル適正情報生成処理の一例を説明する説明図である。 Figure 3 is a diagram illustrating an example of the label appropriateness information generation process in an embodiment. More specifically, Figure 3 is an explanatory diagram illustrating an example of the label appropriateness information generation process in an example where the label co-occurrence information is a matrix indicating the PPMI scores of label candidates (hereinafter referred to as the "PPMI matrix").

図3は画像G1~G5を示す。画像G1は、正否情報の一例を示す。画像G1の正否情報は、ラベル候補として、“スポーツ”、“ビジネス”、”健康”、“ワクチン”及び“感染症”の5つを示す。画像G1は、”ビジネス”と”感染症”とのラベル適正度が最も高いことを示す。図3において、”ビジネス”と”感染症”とは、ラベル適正条件を満たすラベル候補である。 Figure 3 shows images G1 to G5. Image G1 shows an example of correct/incorrect information. The correct/incorrect information for image G1 shows five label candidates: "sports," "business," "health," "vaccine," and "infectious disease." Image G1 shows that "business" and "infectious disease" have the highest label appropriateness. In Figure 3, "business" and "infectious disease" are label candidates that meet the label appropriateness conditions.

画像G2は、PPMI行列の一例を示す。画像G3は、シグモイド関数を示す。画像G4は、PPMI行列の行のうち、ラベル適正条件を満たす行のベクトル和を得る処理を表す。具体的には、ラベル候補が”ビジネス”のラベル候補と共起する確率を示す行と、ラベル候補が”感染症”のラベル候補と共起する確率を示す行と、のベクトル和を得る処理を表す。画像G5は、ラベル適正情報の一例を示す。 Image G2 shows an example of a PPMI matrix. Image G3 shows a sigmoid function. Image G4 shows the process of obtaining the vector sum of rows in the PPMI matrix that satisfy the label appropriateness conditions. Specifically, it shows the process of obtaining the vector sum of rows indicating the probability that a label candidate will co-occur with the label candidate "business" and rows indicating the probability that a label candidate will co-occur with the label candidate "infectious disease." Image G5 shows an example of label appropriateness information.

ラベル適正情報生成処理では、画像G4が示すように、PPMI行列における正解ラベルとラベル候補との間の共起の確率を示す行(以下「主共起行」という。)を足し合わせる処理が実行される。以下、PPMI行列における主共起行を足し合わせる処理を、足し合わせ処理という。図3の例では、”ビジネス”と“感染症”とがそれぞれ正解ラベルであり、”ビジネス”の行と”感染症”の行とを足し合わせる処理が足し合わせ処理である。正解ラベルとは、正否情報を示すN次元ベクトルの要素に対応するラベル候補のうち値が1の要素に対応するラベル候補である。すなわち、正解ラベルとは、ラベル適正条件を満たすラベル候補である。 As shown in image G4, the label appropriateness information generation process involves adding up rows in the PPMI matrix that indicate the probability of co-occurrence between the correct label and label candidates (hereinafter referred to as "major co-occurrence rows"). Hereinafter, the process of adding up major co-occurrence rows in the PPMI matrix is referred to as the addition process. In the example of Figure 3, "business" and "infectious disease" are correct labels, and the process of adding up the "business" row and the "infectious disease" row is the addition process. The correct label is the label candidate that corresponds to an element with a value of 1 among the label candidates corresponding to the elements of the N-dimensional vector that indicates correctness information. In other words, the correct label is the label candidate that satisfies the label appropriateness conditions.

足し合わせ処理の実行により、正解ラベルと共起しやすい不正解ラベルのPPMIスコアを不正解ラベルごとに足し合わせることが行われる。足し合わせの結果得られる情報は、例えばN次元のベクトルで表現される。図3の例あれば、“ビジネス”と共起しやすい不正解ラベルのPPMIスコアと”感染症”と共起しやすい不正解ラベルのPPMIスコアとを足し合わせることが、足し合わせ処理により行われる。 By performing the summation process, the PPMI scores of incorrect labels that tend to co-occur with correct labels are added together for each incorrect label. The information obtained as a result of the summation is expressed, for example, as an N-dimensional vector. In the example of Figure 3, the summation process adds together the PPMI scores of incorrect labels that tend to co-occur with "business" and the PPMI scores of incorrect labels that tend to co-occur with "infectious disease".

不正解ラベルは、正否情報を示すN次元ベクトルの要素に対応するラベル候補のうち値が0の要素に対応するラベル候補である。すなわち、不正解ラベルとは、ラベル候補のうち正解ラベルではないラベル候補である。図3の例では、”スポーツ”、“健康”、”ワクチン”である。 An incorrect label is a label candidate that corresponds to an element with a value of 0 among the label candidates corresponding to the elements of the N-dimensional vector indicating correct/incorrect information. In other words, an incorrect label is a label candidate that is not a correct label. In the example in Figure 3, the incorrect labels are "sports", "health", and "vaccine".

ラベル適正情報生成処理では、次に、足し合わせ処理の実行により得られたN次元のベクトル(以下「足し合わせ結果ベクトル」という。)を画像G3に示すシグモイド関数に入力することにより、足し合わせ結果ベクトルの各要素の値を0以上1以下の値に正規化する処理が実行される。以下、足し合わせ結果ベクトルをシグモイド関数に入力することにより、足し合わせ結果ベクトルの各要素の値を0~1に正規化する処理を、第1正規化処理という。第1正規化処理は以下の式(6)によって定義される。 Next, in the label appropriateness information generation process, the N-dimensional vector obtained by executing the addition process (hereinafter referred to as the "addition result vector") is input into the sigmoid function shown in image G3, whereby the value of each element of the addition result vector is normalized to a value between 0 and 1. Hereinafter, the process of normalizing the value of each element of the addition result vector to a value between 0 and 1 by inputting the addition result vector into the sigmoid function is referred to as the first normalization process. The first normalization process is defined by the following equation (6).

nmはPPMI行列を意味する。σ(・)は、シグモイド関数を表す。 P nm denotes the PPMI matrix, and σ(·) denotes the sigmoid function.

ラベル適正情報生成処理では第1正規化処理の実行後に、得られたスコアSとベクトルyとを足し合わせる処理(以下「平滑化処理」という。)が実行される。ラベル適正情報生成処理では、第1正規化処理の実行後に、以下の式(7)及び(8)によって示される正規化の処理(以下「第2正規化処理」という。)も実行される。 In the label appropriateness information generation process, after the first normalization process is performed, a process of adding the obtained score S n and vector y n (hereinafter referred to as a "smoothing process") is performed. In the label appropriateness information generation process, after the first normalization process is performed, a normalization process (hereinafter referred to as a "second normalization process") shown by the following equations (7) and (8) is also performed.

p´nmはPPMI行列P´におけるn行m列目の要素を意味する。yは、インデックスがmの正解ラベルとラベル候補との間の共起の確率を示す行を示すベクトルである。sは、ベクトルである。αは、平滑化の強度を意味するハイパーパラメータ(0以上1以下の係数)である。αは例えば、スケーリングレートと呼称される0以上1以下の係数である。このように、置き換え処理は、足し合わせ処理、第1正規化処理、平滑化処理及び第2正規化処理を含む。このようにして得られたy´がラベル適正情報の一例である。 p ' nm means the element in the nth row and mth column in the PPMI matrix P'. y m is a vector indicating the row indicating the probability of co-occurrence between the correct label with index m and the label candidate. s n is a vector. α is a hyperparameter (a coefficient between 0 and 1) indicating the strength of smoothing. α is, for example, a coefficient between 0 and 1 called a scaling rate. In this way, the replacement process includes an addition process, a first normalization process, a smoothing process, and a second normalization process. y n ' obtained in this way is an example of label appropriateness information.

図4は、実施形態における学習装置1のハードウェア構成の一例を示す図である。学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。 Figure 4 is a diagram showing an example of the hardware configuration of a learning device 1 in an embodiment. The learning device 1 has a control unit 11 including a processor 91 such as a CPU (Central Processing Unit) and memory 92 connected by a bus, and executes a program. By executing the program, the learning device 1 functions as a device including the control unit 11, input unit 12, communication unit 13, memory unit 14, and output unit 15.

より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。 More specifically, the processor 91 reads the program stored in the storage unit 14 and stores the read program in the memory 92. When the processor 91 executes the program stored in the memory 92, the learning device 1 functions as a device including a control unit 11, an input unit 12, a communication unit 13, a storage unit 14, and an output unit 15.

制御部11は、学習装置1が備える各種機能部の動作を制御する。制御部11は、例えばモデル学習処理を実行する。制御部11は、例えばラベル適正情報生成処理を実行してもよい。上述したようにラベル適正情報生成処理は、人手で行われてもよいが、装置が実行してもよい。以下、学習装置1がラベル適正情報生成処理を実行する場合を例に、ラベル推定システム100を説明する。 The control unit 11 controls the operation of the various functional units included in the learning device 1. The control unit 11 executes, for example, a model learning process. The control unit 11 may also execute, for example, a label appropriateness information generation process. As described above, the label appropriateness information generation process may be performed manually, or may be executed by a device. Below, the label estimation system 100 will be described using an example in which the learning device 1 executes the label appropriateness information generation process.

制御部11は、例えば出力部15の動作を制御する。制御部11は、例えばモデル学習処理の実行により生じた各種情報を記憶部14に記録する。制御部11は、例えば得られたラベル適正情報を記憶部14に記録する。 The control unit 11 controls, for example, the operation of the output unit 15. The control unit 11 records, for example, various information generated by executing the model learning process in the memory unit 14. The control unit 11 records, for example, the obtained label suitability information in the memory unit 14.

入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を学習装置1に接続するインタフェースとして構成されてもよい。入力部12は、学習装置1に対する各種情報の入力を受け付ける。 The input unit 12 includes input devices such as a mouse, keyboard, and touch panel. The input unit 12 may be configured as an interface that connects these input devices to the learning device 1. The input unit 12 accepts various types of information input to the learning device 1.

通信部13は、学習装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば正否情報の送信元の装置である。外部装置は、例えばラベル共起情報の送信元の装置である。外部装置は、例えばモデル学習用データの送信元の装置である。外部装置は、例えばラベル推定装置2である。なお、正否情報、ラベル共起情報及びモデル学習用データのそれぞれは、必ずしも通信部13を介して入力される必要は無く、入力部12に入力されてもよい。 The communication unit 13 includes a communication interface for connecting the learning device 1 to an external device. The communication unit 13 communicates with the external device via wired or wireless connections. The external device is, for example, a device that transmits true/false information. The external device is, for example, a device that transmits label co-occurrence information. The external device is, for example, a device that transmits model training data. The external device is, for example, the label estimation device 2. Note that the true/false information, label co-occurrence information, and model training data do not necessarily need to be input via the communication unit 13, and may be input to the input unit 12.

記憶部14は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は学習装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えばモデル学習処理の実行により生じた各種情報を記憶する。記憶部14は、例えばラベル適正情報を記憶する。記憶部14は、予めラベル推定モデルを記憶する。記憶部14は、得られた学習済みラベル推定モデルを記憶してもよい。 The memory unit 14 is configured using a computer-readable storage medium device such as a magnetic hard disk drive or semiconductor storage device. The memory unit 14 stores various information related to the learning device 1. The memory unit 14 stores information input via the input unit 12 or the communication unit 13, for example. The memory unit 14 stores various information generated by executing a model learning process, for example. The memory unit 14 stores label appropriateness information, for example. The memory unit 14 stores a label estimation model in advance. The memory unit 14 may also store the obtained trained label estimation model.

出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を学習装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えばモデル学習処理の実行結果を表示してもよい。出力部15は、例えばラベル適正情報を表示してもよい。 The output unit 15 outputs various types of information. The output unit 15 is configured to include a display device such as a CRT (Cathode Ray Tube) display, a liquid crystal display, or an organic EL (Electro-Luminescence) display. The output unit 15 may be configured as an interface that connects these display devices to the learning device 1. The output unit 15 outputs information input to the input unit 12, for example. The output unit 15 may display the execution results of the model learning process, for example. The output unit 15 may display label suitability information, for example.

図5は、実施形態における制御部11の構成の一例を示す図である。制御部11は、ラベル適正情報取得部110、モデル学習部120、記憶制御部130、通信制御部140及び出力制御部150を備える。 Figure 5 is a diagram showing an example of the configuration of the control unit 11 in an embodiment. The control unit 11 includes a label appropriateness information acquisition unit 110, a model learning unit 120, a memory control unit 130, a communication control unit 140, and an output control unit 150.

ラベル適正情報取得部110は、ラベル適正情報を取得する。ラベル適正情報取得部110は、入力部12又は通信部13に入力された正否情報及びラベル共起情報に基づき、ラベル適正情報生成処理を実行することでラベル適正情報を取得する。 The label suitability information acquisition unit 110 acquires label suitability information. The label suitability information acquisition unit 110 acquires label suitability information by executing a label suitability information generation process based on the correct/incorrect information and label co-occurrence information input to the input unit 12 or the communication unit 13.

モデル学習部120は、ラベル適正情報と、入力部12又は通信部13に入力されたモデル学習用データとを用いて、学習終了条件が満たされるまでラベル推定モデルを更新する。すなわち、モデル学習部120は、ラベル適正情報と入力部12又は通信部13に入力されたモデル学習用データとを用いてモデル学習処理を実行することで学習済みラベル推定モデルを得る。 The model learning unit 120 updates the label estimation model using the label appropriateness information and the model learning data input to the input unit 12 or the communication unit 13 until the learning termination condition is met. In other words, the model learning unit 120 obtains a learned label estimation model by performing a model learning process using the label appropriateness information and the model learning data input to the input unit 12 or the communication unit 13.

記憶制御部130は、記憶部14に各種情報を記録する。通信制御部140は通信部13の動作を制御する。出力制御部150は、出力部15の動作を制御する。 The memory control unit 130 records various information in the memory unit 14. The communication control unit 140 controls the operation of the communication unit 13. The output control unit 150 controls the operation of the output unit 15.

図6は、実施形態における学習装置1が実行する処理の流れの一例を示すフローチャートである。ラベル適正情報取得部110がラベル適正情報を取得する(ステップS101)。次に、入力部又は通信部13にモデル学習用データが入力される(ステップS102)。次に、モデル学習部120が、モデル学習用データが示す文章情報をラベル推定モデルに入力することで、ラベル適正情報を推定する(ステップS103)。次にモデル学習部120が、モデル学習用データの含むラベル適正情報と、ステップS103の推定結果とに基づき、ラベル推定モデルを更新する(ステップS104)。次に、モデル学習部120が、学習終了条件が満たされたか否かを判定する(ステップS105)。学習終了条件が満たされた場合(ステップS105:YES)、処理が終了する。一方、学習終了条件が満たされない場合(ステップS105:NO)、ステップS102の処理に戻る。 Figure 6 is a flowchart showing an example of the flow of processing executed by the learning device 1 in an embodiment. The label appropriateness information acquisition unit 110 acquires label appropriateness information (step S101). Next, model training data is input to the input unit or communication unit 13 (step S102). Next, the model training unit 120 estimates label appropriateness information by inputting sentence information indicated by the model training data into a label estimation model (step S103). Next, the model training unit 120 updates the label estimation model based on the label appropriateness information included in the model training data and the estimation result of step S103 (step S104). Next, the model training unit 120 determines whether a learning termination condition is satisfied (step S105). If the learning termination condition is satisfied (step S105: YES), the processing ends. On the other hand, if the learning termination condition is not satisfied (step S105: NO), the processing returns to step S102.

学習終了条件が満たされるまで繰り返される、ステップS102からステップS105までの処理が、モデル学習処理の一例である。 The processes from step S102 to step S105, which are repeated until the learning termination condition is met, are an example of a model learning process.

図7は、実施形態におけるラベル推定装置2のハードウェア構成の一例を示す図である。ラベル推定装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。ラベル推定装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。 Figure 7 is a diagram showing an example of the hardware configuration of a label estimation device 2 in an embodiment. The label estimation device 2 has a control unit 21 including a processor 93 such as a CPU and memory 94 connected by a bus, and executes a program. By executing the program, the label estimation device 2 functions as a device including the control unit 21, input unit 22, communication unit 23, memory unit 24, and output unit 25.

より具体的には、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、ラベル推定装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。 More specifically, the processor 93 reads the program stored in the storage unit 24 and stores the read program in the memory 94. When the processor 93 executes the program stored in the memory 94, the label estimation device 2 functions as a device including a control unit 21, an input unit 22, a communication unit 23, a storage unit 24, and an output unit 25.

制御部21は、ラベル推定装置2が備える各種機能部の動作を制御する。制御部21は、例えば学習済みラベル推定モデルを実行する。制御部21は、例えば出力部25の動作を制御する。制御部21は、例えば学習済みラベル推定モデルの実行により生じた各種情報を記憶部24に記録する。 The control unit 21 controls the operation of the various functional units included in the label estimation device 2. The control unit 21, for example, executes a trained label estimation model. The control unit 21, for example, controls the operation of the output unit 25. The control unit 21, for example, records various information generated by the execution of the trained label estimation model in the memory unit 24.

入力部22は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置をラベル推定装置2に接続するインタフェースとして構成されてもよい。入力部22は、ラベル推定装置2に対する各種情報の入力を受け付ける。 The input unit 22 includes input devices such as a mouse, keyboard, and touch panel. The input unit 22 may be configured as an interface that connects these input devices to the label estimation device 2. The input unit 22 accepts input of various information for the label estimation device 2.

通信部23は、ラベル推定装置2を外部装置に接続するための通信インタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は、例えば文章情報の送信元の装置である。外部装置は、例えば学習装置1である。通信部23は、学習装置1との通信により、学習済みラベル推定モデルを取得する。なお、文章情報は、必ずしも通信部23に入力される必要は無く、入力部22に入力されてもよい。 The communication unit 23 includes a communication interface for connecting the label estimation device 2 to an external device. The communication unit 23 communicates with the external device via wired or wireless connections. The external device is, for example, a device that transmits text information. The external device is, for example, the learning device 1. The communication unit 23 acquires a trained label estimation model by communicating with the learning device 1. Note that the text information does not necessarily have to be input to the communication unit 23, but may be input to the input unit 22.

記憶部24は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24はラベル推定装置2に関する各種情報を記憶する。記憶部24は、例えば入力部22又は通信部23を介して入力された情報を記憶する。記憶部24は、例えば学習済みラベル推定モデルの実行により生じた各種情報を記憶する。記憶部24は、学習済みラベル推定モデルを記憶する。 The memory unit 24 is configured using a computer-readable storage medium device such as a magnetic hard disk drive or semiconductor storage device. The memory unit 24 stores various information related to the label estimation device 2. The memory unit 24 stores information input via, for example, the input unit 22 or the communication unit 23. The memory unit 24 stores various information generated by executing, for example, a trained label estimation model. The memory unit 24 stores the trained label estimation model.

出力部25は、各種情報を出力する。出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置をラベル推定装置2に接続するインタフェースとして構成されてもよい。出力部25は、例えば入力部22に入力された情報を出力する。出力部25は、例えば学習済みラベル推定モデルの実行結果を表示してもよい。 The output unit 25 outputs various types of information. The output unit 25 is configured to include a display device such as a CRT display, a liquid crystal display, or an organic EL display. The output unit 25 may be configured as an interface that connects these display devices to the label estimation device 2. The output unit 25 outputs information input to the input unit 22, for example. The output unit 25 may also display the execution results of the trained label estimation model, for example.

図8は、実施形態における制御部21の構成の一例を示す図である。制御部21は、対象取得部210、推定部220、記憶制御部230、通信制御部240及び出力制御部250を備える。対象取得部210は、入力部22又は通信部23に入力された文章情報を取得する。 Figure 8 is a diagram showing an example of the configuration of the control unit 21 in an embodiment. The control unit 21 includes an object acquisition unit 210, an estimation unit 220, a memory control unit 230, a communication control unit 240, and an output control unit 250. The object acquisition unit 210 acquires text information input to the input unit 22 or the communication unit 23.

推定部220は、対象取得部210の取得した文章情報に対して学習済みラベル推定モデルを実行する。推定部220は、学習済みラベル推定モデルの実行により、対象取得部210の取得した文章情報に対するラベル適正情報を推定する。 The estimation unit 220 executes the learned label estimation model on the text information acquired by the object acquisition unit 210. By executing the learned label estimation model, the estimation unit 220 estimates label appropriateness information for the text information acquired by the object acquisition unit 210.

記憶制御部230は、記憶部24に各種情報を記録する。通信制御部240は通信部23の動作を制御する。出力制御部250は、出力部25の動作を制御する。 The memory control unit 230 records various information in the memory unit 24. The communication control unit 240 controls the operation of the communication unit 23. The output control unit 250 controls the operation of the output unit 25.

図9は、実施形態におけるラベル推定装置2が実行する処理の流れの一例を示すフローチャートである。対象取得部210が、入力部22又は通信部23に入力された文章情報を取得する(ステップS201)。次に推定部220が、学習済みラベル推定モデルを実行することで、対象取得部210の取得した文章情報に対するラベル適正情報を推定する(ステップS202)。次に出力制御部250が出力部25の動作を制御して、取得されたラベル適正情報を出力部25に出力させる(ステップS203)。 Figure 9 is a flowchart showing an example of the flow of processing executed by the label estimation device 2 in this embodiment. The object acquisition unit 210 acquires text information input to the input unit 22 or the communication unit 23 (step S201). Next, the estimation unit 220 executes a trained label estimation model to estimate label appropriateness information for the text information acquired by the object acquisition unit 210 (step S202). Next, the output control unit 250 controls the operation of the output unit 25 to cause the output unit 25 to output the acquired label appropriateness information (step S203).

(実験結果)
ここで、ラベル推定システム100を用いた実験の結果について説明する。実験では、データセットとしてマルチラベル分類で用いられるベンチマークが使用された。具体的には、Reuters-21578と、Arxiv Academic Paper Dataset(AAPD)と、20Newsgroupsと、の3つが用いられた。実験では、機械学習のモデルとして自然言語処理で用いられる機械学習のモデルが用いられた。具体的には、BERT(Bidirectional Encoder Representations from Transformers)と、Bi-LSTM(Long Short Term Memory)と、CNN(Convolution Neural Network)とが用いられた。実験では、評価指標として、Micro-f1と、Macro-f1とが用いられた。
(Experimental results)
Here, the results of an experiment using the label estimation system 100 will be described. In the experiment, benchmarks used in multi-label classification were used as datasets. Specifically, three datasets were used: Reuters-21578, the Arxiv Academic Paper Dataset (AAPD), and 20Newsgroups. In the experiment, machine learning models used in natural language processing were used as machine learning models. Specifically, Bidirectional Encoder Representations from Transformers (BERT), Long Short Term Memory (Bi-LSTM), and Convolution Neural Network (CNN) were used. In the experiment, Micro-f1 and Macro-f1 were used as evaluation indices.

図10は、実施形態のラベル推定システム100を用いた実験結果の一例を示す第1の図である。図10における“Method”の欄が“BERT w/ALS”、”LSTM w/ALS”、”CNN w/ALS”である各行は、ラベル推定システム100を用いた結果を示す。“Method”の欄が”BERT only”、”LSTM only”、”CNN only”である各行は、ラベル適正情報を用いず正否情報を用いて得られた学習済みラベル推定モデルによる推定の結果を示す。 Figure 10 is a first diagram showing an example of experimental results using the label estimation system 100 of the embodiment. In Figure 10, the rows with "BERT w/ALS", "LSTM w/ALS", and "CNN w/ALS" in the "Method" column indicate results using the label estimation system 100. The rows with "BERT only", "LSTM only", and "CNN only" in the "Method" column indicate estimation results using a trained label estimation model obtained using correct/incorrect information without using label appropriateness information.

なお、“BERT w/ALS”及び”BERT only”における”BERT”は、実験で用いられた機械学習のモデルがBERTであったことを示す。なお、“LSTM w/ALS”及び”LSTM only”における”LSTM”は、実験で用いられた機械学習のモデルがBi-LSTMであったことを示す。なお、“CNN w/ALS”及び”CNN only”における”CNN”は、実験で用いられた機械学習のモデルがCNNであったことを示す。 Note that "BERT" in "BERT w/ALS" and "BERT only" indicates that the machine learning model used in the experiment was BERT. Note that "LSTM" in "LSTM w/ALS" and "LSTM only" indicates that the machine learning model used in the experiment was Bi-LSTM. Note that "CNN" in "CNN w/ALS" and "CNN only" indicates that the machine learning model used in the experiment was CNN.

”Rueters-21578”の“Macro-f1”は、用いられたデータセットがReuters-21578の場合におけるMacor-f1の値を示す。”Rueters-21578”の“Micro-f1”は、用いられたデータセットがReuters-21578の場合におけるMicor-f1の値を示す。”AAPD”の“Macro-f1”は、用いられたデータセットがAAPDの場合におけるMacor-f1の値を示す。”AAPD”の“Micro-f1”は、用いられたデータセットがAAPDの場合におけるMicor-f1の値を示す。”20Newsgroups”の”Macro-f1”は、用いられたデータセットが20Newsgroupsの場合におけるMacor-f1の値を示す。”20Newsgroups”の”Micro-f1”は、用いられたデータセットが20Newsgroupsの場合におけるMicor-f1の値を示す。 "Macro-f1" in "Rueters-21578" indicates the value of Macor-f1 when the dataset used is Reuters-21578. "Micro-f1" in "Rueters-21578" indicates the value of Micor-f1 when the dataset used is Reuters-21578. "Macro-f1" in "AAPD" indicates the value of Macor-f1 when the dataset used is AAPD. "Micro-f1" in "AAPD" indicates the value of Micor-f1 when the dataset used is AAPD. "Macro-f1" in "20Newsgroups" indicates the value of Macor-f1 when the dataset used is 20Newsgroups. "Micro-f1" in "20Newsgroups" indicates the value of Micor-f1 when the dataset used is 20Newsgroups.

図10の結果は、異なるランダムシードで5回実験が行われた結果を示す。図10における、かっこ内の数値は標準偏差を示す。図10の結果は、CNNやBi-LSTM等の特定の機械学習のモデルによらずラベル推定システム100が高い精度でラベルを推定可能であることを示す。 The results in Figure 10 show the results of five experiments conducted with different random seeds. The numbers in parentheses in Figure 10 indicate standard deviations. The results in Figure 10 demonstrate that the label estimation system 100 can estimate labels with high accuracy regardless of a specific machine learning model such as CNN or Bi-LSTM.

図11は、実施形態のラベル推定システム100を用いた実験結果の一例を示す第2の図である。より具体的には、図11は、低頻度のラベル候補の推定の精度を実験で評価した結果を示す。なお図10は、低頻度のラベル候補と低頻度ではないラベル候補との両者の推定の精度を実験で評価した結果を示す。なお、低頻度のラベル候補とは、複数のラベル候補のうち、データセット内の出現回数の順位が中央より下の順位のラベル候補を意味する。 Figure 11 is a second diagram showing an example of experimental results using the label estimation system 100 of the embodiment. More specifically, Figure 11 shows the results of an experimental evaluation of the accuracy of estimating low-frequency label candidates. Note that Figure 10 shows the results of an experimental evaluation of the accuracy of estimating both low-frequency label candidates and non-low-frequency label candidates. Note that a low-frequency label candidate refers to a label candidate that, among multiple label candidates, is ranked below the median in terms of the number of times it appears in the dataset.

図11における“Method”の欄が“BERT w/ALS”、”LSTM w/ALS”、”CNN w/ALS”である各行は、ラベル推定システム100を用いた結果を示す。“Method”の欄が”BERT only”、”LSTM only”、”CNN only”である各行は、ラベル適正情報を用いず正否情報を用いて得られた学習済みラベル推定モデルによる推定の結果を示す。 In Figure 11, rows with "BERT w/ALS," "LSTM w/ALS," or "CNN w/ALS" in the "Method" column indicate results using the label estimation system 100. Rows with "BERT only," "LSTM only," or "CNN only" in the "Method" column indicate estimation results using a trained label estimation model obtained using correct/incorrect information without using label appropriateness information.

なお、“BERT w/ALS”及び”BERT only”における”BERT”は、実験で用いられた機械学習のモデルがBERTであったことを示す。なお、“LSTM w/ALS”及び”LSTM only”における”LSTM”は、実験で用いられた機械学習のモデルがBi-LSTMであったことを示す。なお、“CNN w/ALS”及び”CNN only”における”CNN”は、実験で用いられた機械学習のモデルがCNNであったことを示す。 Note that "BERT" in "BERT w/ALS" and "BERT only" indicates that the machine learning model used in the experiment was BERT. Note that "LSTM" in "LSTM w/ALS" and "LSTM only" indicates that the machine learning model used in the experiment was Bi-LSTM. Note that "CNN" in "CNN w/ALS" and "CNN only" indicates that the machine learning model used in the experiment was CNN.

”Rueters-21578”の“Macro-f1”は、用いられたデータセットがReuters-21578の場合におけるMacor-f1の値を示す。”Rueters-21578”の“Micro-f1”は、用いられたデータセットがReuters-21578の場合におけるMicor-f1の値を示す。”AAPD”の“Macro-f1”は、用いられたデータセットがAAPDの場合におけるMacor-f1の値を示す。”AAPD”の“Micro-f1”は、用いられたデータセットがAAPDの場合におけるMicor-f1の値を示す。”20Newsgroups”の”Macro-f1”は、用いられたデータセットが20Newsgroupsの場合におけるMacor-f1の値を示す。”20Newsgroups”の”Micro-f1”は、用いられたデータセットが20Newsgroupsの場合におけるMicor-f1の値を示す。 "Macro-f1" in "Rueters-21578" indicates the value of Macor-f1 when the dataset used is Reuters-21578. "Micro-f1" in "Rueters-21578" indicates the value of Micor-f1 when the dataset used is Reuters-21578. "Macro-f1" in "AAPD" indicates the value of Macor-f1 when the dataset used is AAPD. "Micro-f1" in "AAPD" indicates the value of Micor-f1 when the dataset used is AAPD. "Macro-f1" in "20Newsgroups" indicates the value of Macor-f1 when the dataset used is 20Newsgroups. "Micro-f1" in "20Newsgroups" indicates the value of Micor-f1 when the dataset used is 20Newsgroups.

図11の結果は、異なるランダムシードで5回実験が行われた結果を示す。図11における、かっこ内の数値は標準偏差を示す。図11の結果は、CNNやBi-LSTM等の特定の機械学習のモデルによらず、低頻度のラベル候補の推定についても、ラベル推定システム100が高い精度で推定可能であることを示す。 The results in Figure 11 show the results of five experiments conducted using different random seeds. The numbers in parentheses in Figure 11 indicate standard deviations. The results in Figure 11 demonstrate that the label estimation system 100 is capable of highly accurate estimation of low-frequency label candidates, regardless of the use of specific machine learning models such as CNN or Bi-LSTM.

図12は、実施形態のラベル推定システム100を用いた実験結果の一例を示す第3の図である。図12の横軸は、学習回数を示す。図12の縦軸は、Micro-f1の値を示す。”CNN only(train)”は、ラベル適正情報を用いず正否情報を用いて得られた学習済みラベル推定モデルによる学習データの推定の結果を示す。”CNN only(valid)”は、ラベル適正情報を用いず正否情報を用いて得られた学習済みラベル推定モデルによる開発データの推定の結果を示す。”CNN with ALS(train)”は、ラベル推定システム100を用いた学習データの推定の結果を示す。”CNN with ALS(valid)”は、ラベル推定システム100を用いた開発データの推定の結果を示す。なお、開発データとは、1回の学習ごとのラベル推定システム100の推定の精度を測定するための実験における学習で用いられる学習データである。 Figure 12 is a third diagram showing an example of experimental results using the label estimation system 100 of an embodiment. The horizontal axis of Figure 12 represents the number of training rounds. The vertical axis of Figure 12 represents the Micro-f1 value. "CNN only (train)" represents the results of training data estimation using a trained label estimation model obtained using correct/incorrect information without label appropriateness information. "CNN only (valid)" represents the results of development data estimation using a trained label estimation model obtained using correct/incorrect information without label appropriateness information. "CNN with ALS (train)" represents the results of training data estimation using the label estimation system 100. "CNN with ALS (valid)" represents the results of development data estimation using the label estimation system 100. Note that development data refers to training data used in experiments to measure the estimation accuracy of the label estimation system 100 for each training round.

図12の結果は、ラベル適正情報を用いず正否情報を用いた学習よりも、ラベル推定システム100の学習の方が、学習の初期段階で過学習を抑制可能であることを示す。 The results in Figure 12 show that learning using the label estimation system 100 is more effective at suppressing overfitting in the early stages of learning than learning using correct/incorrect information without using label appropriateness information.

このように構成された実施形態における学習装置1は、ラベル適正情報を用いて学習済みラベル推定モデルを得る。そのため、ラベル適正情報ではなく正否情報だけに基づいて学習済みラベル推定モデルを得る装置よりも多くの付与されるべきラベルを高い精度で推定する数理モデルを得ることができる。その結果、学習装置1は、ラベルの推定する作業に要する労力の増大を抑制することができる。 In this embodiment, the learning device 1 configured in this manner obtains a trained label estimation model using label appropriateness information. As a result, it is possible to obtain a mathematical model that estimates more labels to be assigned with high accuracy than a device that obtains a trained label estimation model based only on correct/incorrect information rather than label appropriateness information. As a result, the learning device 1 can suppress an increase in the effort required for the task of estimating labels.

また、このように構成された実施形態におけるラベル推定装置2は、ラベル適正情報を用いて得られた学習済みラベル推定モデルを用いて、文章に付与されるべきラベルを推定する。そのため、ラベル適正情報ではなく正否情報だけに基づいて得られた学習済みラベル推定モデルを得る装置と比べて、より多くの付与されるべきラベルを高い精度で推定することができる。その結果、ラベル推定装置2は、ラベルの推定する作業に要する労力の増大を抑制することができる。 Furthermore, the label estimation device 2 in this embodiment configured estimates labels to be assigned to sentences using a trained label estimation model obtained using label appropriateness information. Therefore, compared to a device that obtains a trained label estimation model based only on correct/incorrect information rather than label appropriateness information, it can estimate more labels to be assigned with high accuracy. As a result, the label estimation device 2 can suppress an increase in the effort required for the task of estimating labels.

(変形例)
なお、上述したように、ラベル適正情報は、人手で生成されてもよい。このような場合、入力部12又は通信部13には、正否情報及びラベル共起情報に代えてラベル適正情報が入力される。このような場合、ラベル適正情報取得部110は、正否情報及びラベル共起情報に基づいてラベル適正情報を取得することに代えて、入力部12又は通信部13に入力されたラベル適正情報を取得することを実行する。
(Modification)
As described above, the label suitability information may be generated manually. In such a case, the label suitability information is input to the input unit 12 or the communication unit 13 instead of the correct/incorrect information and the label co-occurrence information. In such a case, the label suitability information acquisition unit 110 acquires the label suitability information input to the input unit 12 or the communication unit 13, instead of acquiring the label suitability information based on the correct/incorrect information and the label co-occurrence information.

出力制御部250は、推定部220は推定結果のラベル適正情報のうち、予め定められたラベルをジャンルとして出力部25に出力してもよい。 The output control unit 250 may output a predetermined label from the label appropriateness information of the estimation result of the estimation unit 220 as a genre to the output unit 25.

上述したようにラベル適正情報の示すラベル適正度は、一例として、例えば0以上1以下の値で示される。しかしながらラベル適正度は、必ずしも0以上1以下の値で示される必要は無い。したがって、ラベル適正情報を表現するN次元のベクトルの各要素の値は、負の値を含んでもよい。上段の記載でラベル適正情報生成処理の一例を説明したが、そこではシグモイド関数等の独立変数の値を0以上1以下の所定の値に制限する関数を用いる処理を一例として説明した。これは、ラベル適正度が0以上1以下の値で示される場合を例にした処理の一例である。したがって、ラベル適正度が0以上1以下の値でなくてもよい場合には、シグモイド関数等の独立変数の値を0以上1以下の所定の値に制限する関数を用いる処理が行われる必要は無い。 As described above, the label appropriateness indicated by the label appropriateness information is, for example, expressed as a value between 0 and 1. However, the label appropriateness does not necessarily have to be expressed as a value between 0 and 1. Therefore, the values of each element of the N-dimensional vector representing the label appropriateness information may include negative values. An example of the label appropriateness information generation process was explained above, and the process used was an example of a process that uses a function, such as a sigmoid function, that limits the value of an independent variable to a predetermined value between 0 and 1. This is an example of a process that uses an example where the label appropriateness is expressed as a value between 0 and 1. Therefore, if the label appropriateness does not need to be a value between 0 and 1, there is no need to use a function, such as a sigmoid function, that limits the value of an independent variable to a predetermined value between 0 and 1.

制御部21は、更に文章類似度推定部260と重要語句抽出部270とのいずれか一方又は両方を備えてもよい。以下、文章類似度推定部260と重要語句抽出部270とを備える制御部21を制御部21aという。図13は、変形例における制御部21aの構成の一例を示す図である。制御部21aは、文章類似度推定部260と重要語句抽出部270とを備える点で、制御部21と異なる。 The control unit 21 may further include either or both of a sentence similarity estimation unit 260 and a key phrase extraction unit 270. Hereinafter, a control unit 21 including a sentence similarity estimation unit 260 and a key phrase extraction unit 270 will be referred to as a control unit 21a. Figure 13 is a diagram showing an example of the configuration of a control unit 21a in a modified example. The control unit 21a differs from the control unit 21 in that it includes a sentence similarity estimation unit 260 and a key phrase extraction unit 270.

文章類似度推定部260は、2つの文章情報の類似の度合(以下「文章類似度」という。)を推定する。2つの文章情報は少なくとも一方が、対象取得部210の取得した文章情報である。したがって、2つの文章情報は、どちらも対象取得部210の取得した文章情報であってもよいし、一方が対象取得部210の取得した文章情報であって他方が予め記憶部24に記憶済みの文章情報であってもよい。文章類似度推定部260は、2つの文章情報をそれぞれ推定部220に入力し、推定部220にどちらについてもラベル適正情報を推定させる。文章類似度推定部260は、推定部220の推定した2つのラベル適正情報に基づき、ラベル適正情報の一致の度合を2つの文章情報の文章類似度として取得する。文章類似度推定部260は、例えば、2つのラベル適正情報それぞれに対応する各ベクトルの内積の値を文章類似度として取得する。 The text similarity estimation unit 260 estimates the degree of similarity between two pieces of text information (hereinafter referred to as "text similarity"). At least one of the two pieces of text information is text information acquired by the target acquisition unit 210. Therefore, both pieces of text information may be text information acquired by the target acquisition unit 210, or one may be text information acquired by the target acquisition unit 210 and the other may be text information previously stored in the storage unit 24. The text similarity estimation unit 260 inputs each of the two pieces of text information to the estimation unit 220 and causes the estimation unit 220 to estimate label appropriateness information for both pieces of text information. Based on the two pieces of label appropriateness information estimated by the estimation unit 220, the text similarity estimation unit 260 acquires the degree of agreement between the label appropriateness information as the text similarity between the two pieces of text information. For example, the text similarity estimation unit 260 acquires the value of the inner product of each vector corresponding to each of the two pieces of label appropriateness information as the text similarity.

文章類似度推定部260は、取得した文章類似度が所定の度合以上である場合に、2つの文章情報を類似した文章情報であると判定してもよい。このような場合、出力制御部250は、文章類似度推定部260によって類似した文章情報であると判定された2つの文章情報の一方又は両方を出力部25に出力させてもよい。 The text similarity estimation unit 260 may determine that two pieces of text information are similar if the acquired text similarity is equal to or greater than a predetermined level. In such a case, the output control unit 250 may cause the output unit 25 to output one or both of the two pieces of text information determined by the text similarity estimation unit 260 to be similar.

重要語句抽出部270は、日本語自然言語処理オープンソースライブラリのGiNZAを用いて、文章情報の示す文章中の重要語句を取得する。出力制御部250は、重要語句抽出部270の取得した重要語句を出力部25に出力させてもよい。 The key phrase extraction unit 270 uses GiNZA, an open source library for Japanese natural language processing, to acquire key phrases in the text indicated by the text information. The output control unit 250 may cause the output unit 25 to output the key phrases acquired by the key phrase extraction unit 270.

なお、学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。 The learning device 1 may be implemented using multiple information processing devices connected to each other via a network. In this case, the functional units of the learning device 1 may be distributed and implemented across multiple information processing devices.

なお、ラベル推定装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、ラベル推定装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。 The label estimation device 2 may be implemented using multiple information processing devices connected to each other so that they can communicate with each other via a network. In this case, the functional units of the label estimation device 2 may be distributed and implemented across multiple information processing devices.

なお、学習装置1と、ラベル推定装置2と、の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。 All or part of the functions of the learning device 1 and the label estimation device 2 may be implemented using hardware such as an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), or an FPGA (Field Programmable Gate Array). The program may be recorded on a computer-readable recording medium. Examples of computer-readable recording media include portable media such as flexible disks, optical magnetic disks, ROMs, and CD-ROMs, as well as storage devices such as hard disks built into computer systems. The program may also be transmitted via telecommunications lines.

なお、対象取得部210の取得する文章情報は対象情報の一例である。対象取得部210の取得した文章情報の示す文章は処理対象の一例である。 Note that the text information acquired by the object acquisition unit 210 is an example of object information. The text indicated by the text information acquired by the object acquisition unit 210 is an example of a processing object.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The above describes in detail an embodiment of the present invention with reference to the drawings, but the specific configuration is not limited to this embodiment and includes designs that do not deviate from the gist of the present invention.

100…ラベル推定システム、 1…学習装置、 2…ラベル推定装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 110…ラベル適正情報取得部、 120…モデル学習部、 130…記憶制御部、 140…通信制御部、 150…出力制御部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 210…対象取得部、 220…推定部、 230…記憶制御部、 240…通信制御部、 250…出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ、 21a…制御部、 260…文章類似度推定部、 270…重要語句抽出部 100...Label estimation system, 1...Learning device, 2...Label estimation device, 11...Control unit, 12...Input unit, 13...Communication unit, 14...Memory unit, 15...Output unit, 110...Label appropriateness information acquisition unit, 120...Model learning unit, 130...Memory control unit, 140...Communication control unit, 150...Output control unit, 21...Control unit, 22...Input unit, 23...Communication unit, 24...Memory unit, 25...Output unit, 210...Object acquisition unit, 220...Estimation unit, 230...Memory control unit, 240...Communication control unit, 250...Output control unit, 91...Processor, 92...Memory, 93...Processor, 94...Memory, 21a...Control unit, 260...Sentence similarity estimation unit, 270...Key phrase extraction unit

Claims (5)

文章を示す文章情報と前記文章に付与されるラベルの候補として予め定められた複数のラベルについて前記文章のラベルとして適切である度合を示すラベル適正情報とを含むモデル学習用データを用いた機械学習の方法により、入力された文章情報が示す文章に付与されるべきラベルを推定する数理モデルであるラベル推定モデルを更新するモデル学習部、
を備え、
前記ラベル適正情報は、前記モデル学習用データの示す文章に対して付与される確率の高さに関する所定の条件を満たすラベルを示す正否情報と、前記文章に付与されるラベルの候補として予め定められた複数の各ラベルのうちの任意の2つの間の共起の確率を示す情報であるラベル共起情報と、に基づいて得られた情報である、
学習装置。
a model learning unit that updates a label estimation model, which is a mathematical model that estimates a label to be assigned to a sentence indicated by input text information, by a machine learning method using model learning data that includes text information indicating a sentence and label appropriateness information indicating the degree to which a plurality of labels predetermined as candidates for labels to be assigned to the sentence are appropriate as labels for the sentence;
Equipped with
The label appropriateness information is information obtained based on true/false information indicating a label that satisfies a predetermined condition regarding the probability of being assigned to a sentence indicated by the model training data, and label co-occurrence information that is information indicating the probability of co-occurrence between any two of a plurality of labels that are predetermined as candidates for labels to be assigned to the sentence.
Learning device.
前記所定の条件は、モデル学習用データの示す文章に対して付与される確率が最も高い、という条件である、
請求項1に記載の学習装置。
The predetermined condition is a condition that the probability of being assigned to a sentence represented by the model training data is the highest.
The learning device according to claim 1 .
処理対象の文章を示す情報である対象情報を取得する対象取得部と、
文章を示す文章情報と前記文章に付与されるラベルの候補として予め定められた複数のラベルについて前記文章のラベルとして適切である度合を示すラベル適正情報とを含むモデル学習用データを用いた機械学習の方法により、入力された文章情報が示す文章に付与されるべきラベルを推定する数理モデルであるラベル推定モデルを更新するモデル学習部、を備え、前記ラベル適正情報は、前記モデル学習用データの示す文章に対して付与される確率の高さに関する所定の条件を満たすラベルを示す正否情報と、前記文章に付与されるラベルの候補として予め定められた複数の各ラベルのうちの任意の2つの間の共起の確率を示す情報であるラベル共起情報と、に基づいて得られた情報である学習装置が得た、学習済みのラベル推定モデルを用いて、前記対象取得部の取得した対象情報が示す文章に付与されるべきラベルを推定する、推定部と、
を備えるラベル推定装置。
an object acquisition unit that acquires object information that indicates a sentence to be processed;
a model learning unit that updates a label estimation model, which is a mathematical model that estimates a label to be assigned to a sentence indicated by input sentence information, by a machine learning method using model learning data including sentence information indicating a sentence and label appropriateness information indicating the degree to which a plurality of labels predetermined as candidate labels to be assigned to the sentence are appropriate as labels for the sentence, wherein the label appropriateness information is information obtained based on true/false information indicating a label that satisfies a predetermined condition regarding the likelihood of being assigned to the sentence indicated by the model learning data, and label co-occurrence information, which is information indicating the probability of co-occurrence between any two of a plurality of labels predetermined as candidate labels to be assigned to the sentence; and an estimation unit that estimates a label to be assigned to the sentence indicated by the target information acquired by the target acquisition unit, using the trained label estimation model obtained by a learning device, the label appropriateness information being information obtained based on true/false information indicating a label that satisfies a predetermined condition regarding the likelihood of being assigned to the sentence indicated by the model learning data, and label co-occurrence information, which is information indicating the probability of co-occurrence between any two of a plurality of labels predetermined as candidate labels to be assigned to the sentence.
A label estimation device comprising:
請求項1又は2に記載の学習装置としてコンピュータを機能させるためのプログラム。 A program for causing a computer to function as the learning device described in claim 1 or 2. 請求項3に記載のラベル推定装置としてコンピュータを機能させるためのプログラム。 A program for causing a computer to function as the label estimation device described in claim 3.
JP2021192928A 2021-09-02 2021-11-29 Learning device, label estimation device and program Active JP7763643B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021143490 2021-09-02
JP2021143490 2021-09-02

Publications (2)

Publication Number Publication Date
JP2023036503A JP2023036503A (en) 2023-03-14
JP7763643B2 true JP7763643B2 (en) 2025-11-04

Family

ID=85508502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021192928A Active JP7763643B2 (en) 2021-09-02 2021-11-29 Learning device, label estimation device and program

Country Status (1)

Country Link
JP (1) JP7763643B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302111A1 (en) 2010-06-03 2011-12-08 Xerox Corporation Multi-label classification using a learned combination of base classifiers
JP2018185601A (en) 2017-04-25 2018-11-22 富士ゼロックス株式会社 Information processing apparatus and information processing program
CN109918641A (en) 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 Article theme ingredient breakdown method, apparatus, equipment and storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6526607B2 (en) * 2016-08-19 2019-06-05 ヤフー株式会社 Learning apparatus, learning method, and learning program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302111A1 (en) 2010-06-03 2011-12-08 Xerox Corporation Multi-label classification using a learned combination of base classifiers
JP2018185601A (en) 2017-04-25 2018-11-22 富士ゼロックス株式会社 Information processing apparatus and information processing program
CN109918641A (en) 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 Article theme ingredient breakdown method, apparatus, equipment and storage medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白井匡人、三浦孝夫 ,トピックモデルに基づく文書ストリームのマルチラベル分類,電子情報通信学会論文誌D VolumeJ99-D No.4 [online], [text],日本,電子情報通信学会,2016年04月01日,Vol. J99-D, No.4,p.392-p.402,<ISSN: 1881-0225>

Also Published As

Publication number Publication date
JP2023036503A (en) 2023-03-14

Similar Documents

Publication Publication Date Title
US12299579B2 (en) Adversarial pretraining of machine learning models
US20250165792A1 (en) Adversarial training of machine learning models
CN111444320B (en) Text retrieval method and device, computer equipment and storage medium
US20190130249A1 (en) Sequence-to-sequence prediction using a neural network model
CN116097248A (en) System and method for controllable text summarization
US20250272506A1 (en) Methods and systems for retrieval-augmented generation using synthetic question embeddings
CN113128203A (en) Attention mechanism-based relationship extraction method, system, equipment and storage medium
US20250238638A1 (en) System and method for modifying prompts using a generative language model
CN112131363B (en) Automatic question answering method, device, equipment and storage medium
JP2020060970A (en) Context information generation method, context information generation device and context information generation program
JP2023056798A (en) Machine learning program, search program, machine learning device, and method
US12254678B2 (en) Training a neural network using outputs of a corruption neural network
EP4670087A2 (en) IMPROVED TRAINING OF LARGE NEURAL NETWORKS
WO2019092868A1 (en) Information processing device, information processing method, and computer-readable recording medium
JP7163618B2 (en) LEARNING DEVICE, LEARNING METHOD, PROGRAM AND ESTIMATION DEVICE
US20230143721A1 (en) Teaching a machine classifier to recognize a new class
CN118410140A (en) Training method and device for text generator
US20240281705A1 (en) Decoupled optimization of models during pretraining
JPWO2019092867A1 (en) Information processing equipment, information processing methods and programs
JP7763643B2 (en) Learning device, label estimation device and program
US20250165711A1 (en) Constraining output of a generative language model to conform to a grammar
CN117313943A (en) Prediction methods, systems, equipment and storage media for test question accuracy
US12554995B2 (en) Computationally efficient framework for sequence-to-sequence modeling and reinforcement learning with deep history
JP7419615B2 (en) Learning device, estimation device, learning method, estimation method and program
JP7708672B2 (en) Predictor interactive learning system, predictor interactive learning method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20251022

R150 Certificate of patent or registration of utility model

Ref document number: 7763643

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150