JP7673757B2 - ANNOTATION DEVICE, ANNOTATION METHOD, AND ANNOTATION PROGRAM - Google Patents
ANNOTATION DEVICE, ANNOTATION METHOD, AND ANNOTATION PROGRAM Download PDFInfo
- Publication number
- JP7673757B2 JP7673757B2 JP2022569380A JP2022569380A JP7673757B2 JP 7673757 B2 JP7673757 B2 JP 7673757B2 JP 2022569380 A JP2022569380 A JP 2022569380A JP 2022569380 A JP2022569380 A JP 2022569380A JP 7673757 B2 JP7673757 B2 JP 7673757B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning data
- annotators
- classification
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、アノテーション装置、アノテーション方法およびアノテーションプログラムに関する。 The present invention relates to an annotation device, an annotation method, and an annotation program.
従来、機械学習における教師あり学習のためには、学習データとそれに対応する正解ラベルが必要である。多くの研究では、複数名でデータを視聴等してメタデータを付与する作業(アノテーション)が行われている。Traditionally, supervised learning in machine learning requires training data and corresponding correct labels. In many studies, multiple people view the data and assign metadata (annotation).
例えば、音声や動画像に対するアノテーションの場合、作業者(適宜、「アノテータ」)は、提示された数秒~数十秒の音声や動画像を視聴し、仕様に合うようにメタデータを付与する。具体的には、音声からの感情認識の研究開発に向けたアノテーションであれば、聴取した音声に対して最も適切な感情を選択するし、画像に対するオブジェクト検出やオブジェクト認識であれば、オブジェクトの画像内における領域を選択し、オブジェクトに対する説明を付与する。For example, when annotating audio or video, a worker (sometimes called an "annotator") listens to a few to several tens of seconds of the audio or video provided and adds metadata to meet the specifications. Specifically, if the annotation is for research and development of emotion recognition from audio, the worker would select the emotion most appropriate for the audio heard, and if it is object detection or recognition for an image, the worker would select the area of the object in the image and add a description of the object.
従来のアノテーション手法は、作業の比較対象の有無に分けることができる。比較対象がない場合、アノテータは静止画もしくは数秒程度の音声や動画像を視聴して、メタデータを付与する。この手法は、データ視聴回数=総サンプル数Nとなるため、時間コストが低い。また、短時間でも確実に誰もが理解できるタスク(例:文字起こし、オブジェクトへのタグ付け、誰が見聞きしても明らかに怒っている状態等)であれば、正確にアノテーションを行うことができる。Conventional annotation methods can be divided into those that have a comparison target for the task and those that do not. When there is no comparison target, the annotator watches still images or a few seconds of audio or video and assigns metadata. This method has a low time cost because the number of times data is viewed = the total number of samples N. In addition, accurate annotation can be performed for tasks that can be reliably understood by anyone even in a short time (e.g., transcription, tagging objects, or a state in which the person is clearly angry no matter who sees or hears it).
一方、比較対象がある場合、アノテータは長時間(数十秒~数分)の音声や動画像を視聴して連続的かつ相対的な事象の変化に関するメタデータを付与したり(例えば、非特許文献3参照)、複数の音声や動画像を視聴して相対的に順位やスコアを付与したりする(例えば、非特許文献4参照)。この手法は、比較する対象があるため、アノテータ間のブレを低減し、より正確なメタデータを付与できる。On the other hand, when there is something to compare, annotators can listen to audio or video for a long period of time (tens of seconds to several minutes) and assign metadata about continuous and relative changes in events (see, for example, Non-Patent Document 3), or listen to multiple audio or video clips and assign relative rankings or scores (see, for example, Non-Patent Document 4). This method reduces variation between annotators and allows for more accurate metadata to be assigned, since there is something to compare.
しかしながら、上述した従来技術では、機械学習における教師あり学習において、より低コストかつ高精度なアノテーションを行うことができない。なぜならば、比較対象がないアノテーション手法では、短時間の視聴では理解が難しいタスクの場合、正確なアノテーションができず、アノテータ間の付与ラベルのばらつきが大きくなり、アノテーション結果の信頼性が低くなるといった問題がある。However, the above-mentioned conventional techniques cannot perform low-cost and highly accurate annotation in supervised learning in machine learning. This is because annotation methods without a comparison target cannot perform accurate annotation for tasks that are difficult to understand through short viewing, and there is a large variance in the labels assigned by annotators, resulting in low reliability of annotation results.
このような問題に対して、アノテータの品質、回答傾向の考慮、多人数アノテーションでノイズの影響を小さくする等の対応があるが、アノテーションそのものの信頼性を上げるという根本的な解決にはなっていない(例えば、非特許文献1、2参照)。例えば、集中度のアノテーションを行う場合、非常に集中している、または全く集中していない様子、つまり誰が見聞きしても明らかにわかる状態であれば複数アノテータによる投票は一致しやすいが、集中しているのかそうでないのかがわかりにくい状態の場合、正確なアノテーションは難しく、結果として微妙な違いを表現できない。
To address this issue, there are approaches such as taking into consideration the quality of the annotators, answer trends, and reducing the effects of noise by having multiple people annotate, but these do not fundamentally solve the problem of increasing the reliability of the annotation itself (see, for example, Non-Patent
一方、比較対象がないアノテーション手法では、長時間もしくは大量のデータを視聴する必要があり、アノテーションに膨大なコストを要する。例えば、いくつかのデータの組み合わせを同時に視聴する場合、全Nサンプルのデータからn個ずつ選択すると最大NCn個の組み合わせが存在し得る。心理学実験法を参考にアノテーションの品質を保ちつつ組み合わせ数を削減することは可能かもしれないが、そのためにはどの組み合わせを除外するかについては慎重な検討が必要である。 On the other hand, annotation methods without a comparison target require viewing a long time or a large amount of data, which requires huge costs for annotation. For example, when viewing several combinations of data simultaneously, if n pieces of data are selected from all N samples, a maximum of N C n combinations may exist. It may be possible to reduce the number of combinations while maintaining the quality of annotation by referring to psychological experiment methods, but careful consideration is required to determine which combinations to exclude.
上述した課題を解決し、目的を達成するために、本発明に係るアノテーション装置は、機械学習に用いられる第1の学習データを取得する取得部と、前記取得部によって取得された前記第1の学習データを複数のアノテータに配信する第1配信部と、各アノテータによって前記第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類部と、前記分類部によって分類された前記第1の学習データの分類結果を配信する第2配信部とを備えることを特徴とする。In order to solve the above-mentioned problems and achieve the objective, the annotation device of the present invention is characterized in that it comprises an acquisition unit that acquires first learning data to be used in machine learning, a first distribution unit that distributes the first learning data acquired by the acquisition unit to a plurality of annotators, a classification unit that classifies the first learning data based on the reliability of a first correct label that is assigned to the first learning data by each annotator, and a second distribution unit that distributes the classification result of the first learning data classified by the classification unit.
また、本発明に係るアノテーション方法は、アノテーション装置によって実行されるアノテーション方法であって、機械学習に用いられる第1の学習データを取得する取得工程と、前記取得工程によって取得された前記第1の学習データを複数のアノテータに配信する第1配信工程と、各アノテータによって前記第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類工程と、前記分類工程によって分類された前記第1の学習データの分類結果を配信する第2配信工程とを含むことを特徴とする。 The annotation method according to the present invention is an annotation method executed by an annotation device, and is characterized in that it includes an acquisition step of acquiring first learning data to be used in machine learning, a first distribution step of distributing the first learning data acquired by the acquisition step to a plurality of annotators, a classification step of classifying the first learning data based on the reliability of a first correct label assigned to the first learning data by each annotator, and a second distribution step of distributing the classification result of the first learning data classified by the classification step.
また、本発明に係るアノテーションプログラムは、機械学習に用いられる第1の学習データを取得する取得ステップと、前記取得ステップによって取得された前記第1の学習データを複数のアノテータに配信する第1配信ステップと、各アノテータによって前記第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類ステップと、前記分類ステップによって分類された前記第1の学習データの分類結果を配信する第2配信ステップとをコンピュータに実行させることを特徴とする。 The annotation program of the present invention is characterized in that it causes a computer to execute an acquisition step of acquiring first learning data to be used in machine learning, a first distribution step of distributing the first learning data acquired by the acquisition step to a plurality of annotators, a classification step of classifying the first learning data based on the reliability of a first correct label assigned to the first learning data by each annotator, and a second distribution step of distributing the classification result of the first learning data classified by the classification step.
本発明では、機械学習における教師あり学習において、より低コストかつ高精度なアノテーションを行うことができる。 The present invention enables lower-cost and more accurate annotation in supervised learning in machine learning.
以下に、本発明に係るアノテーション装置、アノテーション方法およびアノテーションプログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。 Below, an annotation device, an annotation method, and an annotation program according to the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to the embodiments described below.
〔第1の実施形態〕
以下に、本実施形態に係るアノテーションシステムの構成、アノテーション装置の構成、アノテーション処理の具体例、アノテーション処理の流れ、データの分類処理の流れを順に説明し、最後に本実施形態の効果を説明する。
First Embodiment
The configuration of the annotation system according to this embodiment, the configuration of the annotation device, a specific example of the annotation process, the flow of the annotation process, and the flow of the data classification process will be described below in this order, and finally the effects of this embodiment will be described.
[アノテーションシステムの構成]
図1を用いて、本実施形態に係るアノテーションシステム(適宜、本システム)100の構成を詳細に説明する。図1は、第1の実施形態に係るアノテーションシステムの一例を示す図である。アノテーションシステム100は、サーバ等のアノテーション装置10、各種端末等のアノテータ20(20A、20B、20C)および各種データベース30(30A、30B、30C)を有する。
[Configuration of annotation system]
The configuration of an annotation system (or "this system" as appropriate) 100 according to this embodiment will be described in detail with reference to Fig. 1. Fig. 1 is a diagram showing an example of an annotation system according to a first embodiment. The
ここで、アノテーション装置10とアノテータ20とデータベース30とは、図示しない所定の通信網を介して、有線または無線により通信可能に接続される。なお、図1に示したアノテーションシステム100には、複数台のアノテーション装置10が含まれてもよい。Here, the
まず、アノテーション装置10は、各種データベース30から、研究や開発に必用な学習データを第1の学習データとして取得する(ステップS1)。ここで、取得する学習データとは、音声、画像、動画等のデータであって、当該研究や開発の目的に応じた媒体、規模で取得される。First, the
次に、アノテーション装置10は、取得した第1の学習データをアノテータ20に配信する(ステップS2)。ここで、アノテータ20は、配信された学習データにそれぞれ正解ラベルを付与する端末および当該端末のユーザであるが、特に限定されない。アノテータ20は、別途作成された特定の正解ラベルを付与できる機械学習モデルであってもよい。Next, the
続いて、アノテータ20は、配信された第1の学習データに正解ラベル(第1の正解ラベル)を付与する(ステップS3)。また、アノテーション装置10は、正解ラベルを付与された第1の学習データを取得する(ステップS4)。Next, the annotator 20 assigns a correct label (first correct label) to the distributed first learning data (step S3). The
その後、アノテーション装置10は、第1の正解ラベルをもとに第1の学習データを分類する(ステップS5)。このとき、アノテーション装置10は、アノテータ20から取得した回答に基づいて、信頼できる正解データを付与された学習データを基準点(適宜、「基準データ」)Sとして選定する。また、アノテーション装置10は、基準点S以外の学習データをさらに、正確に正解ラベルを付与しやすいデータ(適宜、「データD」)と正確に正解ラベルを付与しにくいデータ(適宜、「データE」)とに分類する。Thereafter, the
さらに、アノテーション装置10は、分類した第1の学習データから第2の学習データを生成する(ステップS6)。このとき、アノテーション装置10は、発信源が同一である基準点S、データEおよびデータDを含むデータ群を生成する。なお、第1の学習データの分類や第2の学習データの生成については後述する。Furthermore, the
そして、アノテーション装置10は、生成した第2の学習データをアノテータ20に配信する(ステップS7)。このとき、アノテーション装置10は、第2の学習データのデータ群を配信するときに、基準点Sを視聴した後、データE、データDを視聴するように、各データをアノテータ20に配信する。また、アノテータ20は、配信された第2の学習データに正解ラベル(第2の正解ラベル)を付与する(ステップS8)。最後に、アノテーション装置10は、正解ラベルを付与された第2の学習データを取得する(ステップS9)。Then, the
本実施形態に係るアノテーションシステム100では、アノテーション装置10が、正解ラベルを付与したい事象の信頼できるデータをデータ群に含めて、かつそれを明示する。このため、アノテータ20がそれらのデータを比較対象として活用できるようになり、より正確なアノテーションを実現することができる。In the
[アノテーション装置の構成]
図2を用いて、本実施形態に係るアノテーション装置10の構成を詳細に説明する。図2は、本実施形態に係るアノテーション装置の構成例を示すブロック図である。アノテーション装置10は、入力部11、出力部12、通信部13、記憶部14および制御部15を有する。
[Configuration of annotation device]
The configuration of the
入力部11は、当該アノテーション装置10への各種情報の入力を司る。入力部11は、例えば、マウスやキーボード等であり、当該アノテーション装置10への設定情報等の入力を受け付ける。また、出力部12は、当該アノテーション装置10からの各種情報の出力を司る。出力部12は、例えば、ディスプレイ等であり、当該アノテーション装置10に記憶された設定情報等を出力する。The input unit 11 is responsible for inputting various types of information to the
通信部13は、他の装置との間でのデータ通信を司る。例えば、通信部13は、各通信装置との間でデータ通信を行う。また、通信部13は、図示しないオペレータの端末との間でデータ通信を行うことができる。The
記憶部14は、制御部15が動作する際に参照する各種情報や、制御部15が動作した際に取得した各種情報を記憶する。ここで、記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等である。なお、図2の例では、記憶部14は、アノテーション装置10の内部に設置されているが、アノテーション装置10の外部に設置されてもよいし、複数の記憶部が設置されていてもよい。The memory unit 14 stores various information referenced when the
記憶部14は、後述するデータベース30から取得した第1の学習データ、アノテータ20から取得した第1の正解ラベルが付与された第1の学習データ、制御部15の分類部15cが分類した分類結果、生成部15dが生成した第2の学習データ、アノテータ20から取得した第2の正解ラベルが付与された第2の学習データ等の他、アノテータ20の情報として、ユーザ名や機械学習モデルの識別番号等を記憶する。The memory unit 14 stores the first learning data obtained from the database 30 described below, the first learning data to which a first correct answer label obtained from the annotator 20 has been assigned, the classification results classified by the classification unit 15c of the
制御部15は、当該アノテーション装置10全体の制御を司る。制御部15は、取得部15a、第1配信部15b、分類部15c、生成部15dおよび第2配信部15eを有する。ここで、制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路である。The
取得部15aは、機械学習に用いられる第1の学習データを取得する。例えば、取得部15aは、音声、画像または動画を含む第1の学習データを取得する。また、取得部15aは、データベース30から第1の学習データを取得する。また、取得部15aは、アノテータ20から正解ラベルが付与された学習データを取得する。さらに、取得部15aは、第1の学習データ、正解ラベルが付与された学習データ等を記憶部14に格納する。The acquisition unit 15a acquires first learning data used for machine learning. For example, the acquisition unit 15a acquires first learning data including audio, images, or videos. The acquisition unit 15a also acquires the first learning data from the database 30. The acquisition unit 15a also acquires learning data to which a correct answer label has been assigned from the annotator 20. The acquisition unit 15a further stores the first learning data, the learning data to which a correct answer label has been assigned, etc. in the memory unit 14.
第1配信部15bは、取得部15aによって取得された第1の学習データを複数のアノテータ20に配信する。例えば、第1配信部15bは、第1の正解ラベルとして、所定の数字を付与させる形式の第1の学習データを配信する。また、第1配信部15bは、アノテータ20として、機械学習モデルに第1の学習データを配信する。なお、第1の学習データおよび第1の正解ラベルの詳細な処理については後述する。The
分類部15cは、各アノテータによって第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、第1の学習データを分類する。例えば、分類部15cは、第1の学習データを、信頼度として第1の正解ラベルの分散に基づいて、基準データ、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類する。また、分類部15cは、第1の学習データを、信頼度として第1の正解ラベルの事後確率に基づいて分類する。さらに、分類部15aは、第1の正解ラベルの信頼度の計算結果、信頼度に基づく分類結果を記憶部14に格納する。The classification unit 15c classifies the first learning data based on the reliability of the first correct label assigned to the first learning data by each annotator. For example, the classification unit 15c classifies the first learning data into reference data, data to which the correct label is easily assigned accurately, and data to which the correct label is difficult to assign accurately, based on the variance of the first correct label as the reliability. The classification unit 15c also classifies the first learning data based on the posterior probability of the first correct label as the reliability. Furthermore, the classification unit 15a stores the calculation result of the reliability of the first correct label and the classification result based on the reliability in the storage unit 14.
ここで、信頼度とは、アノテータ20が人である場合は、ある学習データに対する各アノテータの正解ラベルの数値の分散であるが、特に限定されない。信頼度に用いる指標は、数値のばらつきを表わすものであればよく、数値のばらつきが小さいほど正解ラベルの信頼度が高い。また、信頼度とは、アノテータ20が機械学習モデルである場合は、ある学習データに対する機械学習モデルの推定結果となる数値の事後確率であるが、特に限定されない。信頼度に用いる指標は、機械学習モデルの推定結果の精度を表わすものであればよく、推定結果の精度が大きいほど正解ラベルの信頼度が高い。Here, when the annotator 20 is a human, the reliability is the variance of the numerical values of the correct labels of each annotator for certain training data, but is not particularly limited thereto. The index used for the reliability may be one that represents the variance of the numerical values, and the smaller the variance of the numerical values, the higher the reliability of the correct labels. Also, when the annotator 20 is a machine learning model, the reliability is the posterior probability of the numerical values that are the estimation results of the machine learning model for certain training data, but is not particularly limited thereto. The index used for the reliability may be one that represents the accuracy of the estimation results of the machine learning model, and the higher the accuracy of the estimation results, the higher the reliability of the correct labels.
生成部15dは、分類結果として、基準データであって極値の異なる複数の基準データ、正確に正解ラベルを付与しやすいデータ、および正確に正解ラベルを付与しにくいデータを含み、かつ、各データの発生源が同一のデータ群である第2の学習データを生成する。さらに、生成部15dは、第2の学習データ等の分類結果を記憶部14に格納する。The generating unit 15d generates, as a classification result, second learning data that includes a plurality of reference data having different extreme values, data that is easy to accurately assign a correct answer label to, and data that is difficult to accurately assign a correct answer label to, and the data are a data group whose source is the same. Furthermore, the generating unit 15d stores the classification result of the second learning data, etc., in the memory unit 14.
ここで、極値とは、例えば、正解ラベルとして、集中度等の特定の状態の度合いを5段階{1,2,3,4,5}の数字で判定させる形式の学習データであった場合、最小の数字「1」と最大の数字「5」であるが、特に限定されない。極値は、アノテータ20が極端な状態であると明確に判定できることを示す数字であればよく、事前に正解ラベルとして設定された数字の範囲の最小値または最大値に限られない。Here, the extreme values are, for example, the minimum number "1" and the maximum number "5" in the case of learning data in a format in which the degree of a particular state such as concentration is judged as a correct label using a number on a 5-point scale {1, 2, 3, 4, 5}, but are not particularly limited thereto. The extreme values are not limited to the minimum or maximum value of the range of numbers set in advance as the correct label, as long as they are numbers that indicate that the annotator 20 can clearly judge that the state is extreme.
第2配信部15eは、分類部15cによって分類された第1の学習データの分類結果を配信する。例えば、第2配信部15eは、極値の異なる複数の基準データを最初に配信する。また、第2配信部15eは、分類結果を第1の学習データを配信した複数のアノテータ、または第1の学習データを配信した複数のアノテータ以外の所定のアノテータに配信する。The
ここで、分類結果とは、付与された正解ラベルの信頼度に基づいて分類部15cによって分類された第1の学習データであり、例えば、基準点S(基準データ)、データE(正確に正解ラベルを付与しやすいデータ)およびデータD(正確に正解ラベルを付与しにくいデータ)の3分類がラベリングされた学習データであるが、特に限定されない。分類結果は、正解ラベルの信頼度がラベリングされた学習データであってもよいし、生成部15dによって選定された学習データであってもよい。Here, the classification result is the first learning data classified by the classification unit 15c based on the reliability of the assigned correct answer label, and is, for example, learning data labeled with three categories: reference point S (reference data), data E (data to which it is easy to assign an accurate correct answer label), and data D (data to which it is difficult to assign an accurate correct answer label), but is not particularly limited thereto. The classification result may be learning data labeled with the reliability of the correct answer label, or may be learning data selected by the generation unit 15d.
[アノテーション処理の具体例]
図3~図5を用いて、本実施形態に係るアノテーション装置10のアノテーション処理の具体例を説明する。図3は、第1の実施形態に係る学習データの一例を示す図である。図4は、第1の実施形態に係る第1の学習データと第1の正解ラベルの一例を示す図である。図5は、第1の実施形態に係る第2の学習データと第2の正解ラベルの一例を示す図である。
[Specific example of annotation processing]
A specific example of the annotation process of the
(第1のアノテーション処理)
第1に、第1の学習データの取得から、第1の正解ラベルの付与された第1の学習データの取得までの、第1のアノテーション処理について説明する。まず、図3を用いて、アノテーション装置10がデータベース30等から取得する第1の学習データについて説明する。ここで、取得する第1の学習データは、音声、画像、動画等のデータであって、研究や開発の目的に応じた媒体、規模で取得されたデータである。例えば、音声からの集中度推定の実現に向けてアノテーションを行う場合、アノテーション装置10は、データベース30の中で音声データを記憶する音声データベースから音声データを取得する。
(First annotation process)
First, the first annotation process from acquisition of the first learning data to acquisition of the first learning data to which the first correct answer label is assigned will be described. First, the first learning data acquired by the
図3は、音声データを保持するデータセットXを示した図であり、データセットXには、{x0,x1,x2,x3,x4,・・・xN}の音声データが含まれる。なお、図3に示した音声データは、音声波形を時間経過と音声信号強度との関係として表したものである。 Fig. 3 shows a data set X that holds voice data, and the data set X includes voice data { x0 , x1 , x2 , x3 , x4 , ... xN }. The voice data shown in Fig. 3 represents a voice waveform as a relationship between the passage of time and the voice signal strength.
以降の説明では、音声データを第1の学習データとして用いたアノテーション処理について説明するが、学習データの種類は特に限定されない。第1の学習データは、音声データ以外にも、画像データ、動画データ、またはそれらの組み合わせであってもよい。さらに、第1の学習データは、上記の音声データ等を数値化、テキスト化したデータであってもよい。In the following explanation, annotation processing using audio data as the first training data will be described, but the type of training data is not particularly limited. The first training data may be image data, video data, or a combination thereof in addition to audio data. Furthermore, the first training data may be data obtained by digitizing or converting the above-mentioned audio data, etc., into text.
次に、図4を用いて、アノテーション装置10がアノテータ20に配信する第1の学習データと、アノテーション装置10がアノテータ20から取得する第1の学習データに付与された第1の正解ラベルについて説明する。例えば、音声からの集中度推定の実現に向けてアノテーションを行う場合、アノテーション装置10は、5段階の集中度(「1」:集中していない、「2」:やや集中していない、「3」:どちらとも言えない(フラット)、「4」:やや集中している、「5」:集中している)を事前に設定し、データセットXが保持する各音声データに対して、どの集中度が最も適しているかの正解ラベルを付与させる第1の学習データをアノテータ20に配信する。Next, the first learning data that the
なお、アノテーション装置10は、音声からの集中度推定の実現に向けてアノテーションを行う場合、例えば、授業中の教師と生徒の発問と対話に関する音声データから、発問された生徒が授業に集中していたか、集中していなかったか、また、どのくらい集中していたか等を5段階で判定するための学習データを配信する。また、アノテーション装置10は、画像データや動画データから集中度に関する正解ラベルを付与する場合は、授業中の画像や動画から、生徒の表情等をアノテータ20に読み取らせ、集中度を判定するための学習データを配信してもよい。When
そして、アノテーション装置10は、アノテータ20によって正解ラベルを付与された第1の学習データを取得する。図3では、「アノテータ01」~「アノテータ03」のデータセットXの音声データ「x0」~「xN」に対する正解ラベルが示されている(図4「ANNOT1(X)」参照)。例えば、音声データx0についての「アノテータ01」~「アノテータ03」が付与した正解ラベルは、それぞれ、「2」、「1」、「1」である。
Then, the
(第2のアノテーション処理)
第2に、第1の正解ラベルの付与された第1の学習データの分類から、第2の正解ラベルの付与された第2の学習データの取得までの、第2のアノテーション処理について説明する。まず、図4を用いて、アノテータ20から取得した正解ラベルの信頼度に基づく、第1の学習データの分類処理の具体例について説明する。アノテーション装置10は、各音声データに付与された正解ラベルの平均および分散の数値を算出する。
(Second annotation process)
Secondly, the second annotation process from classification of the first learning data assigned with the first correct label to acquisition of the second learning data assigned with the second correct label will be described. First, a specific example of classification process of the first learning data based on the reliability of the correct label acquired from the annotator 20 will be described with reference to Fig. 4. The
図4において、x0では、平均「1.3」、分散「0.3」(分散小)である。同様にして、x1では、平均「5」、分散「0」(全アノテータの回答が一致)、x2では、平均「1」、分散「0」(全アノテータの回答が一致)、x3では、平均「3.3」、分散「0.3」(分散小)、x4では、平均「4.0」、分散「1.0」(分散大)、xNでは、平均「1.6」、分散「1.3」(分散大)である。 In Fig. 4, x0 has a mean of 1.3 and a variance of 0.3 (small variance). Similarly, x1 has a mean of 5 and a variance of 0 (all annotators' answers match), x2 has a mean of 1 and a variance of 0 (all annotators' answers match), x3 has a mean of 3.3 and a variance of 0.3 (small variance), x4 has a mean of 4.0 and a variance of 1.0 (large variance), and xN has a mean of 1.6 and a variance of 1.3 (large variance).
このとき、アノテーション装置10は、アノテータ20から取得した回答から、信頼できる正解データを付与された学習データを基準点Sとして選定する。図4の例では、全アノテータの回答が一致していて、かつ、付与された正解ラベルの数値が極値であるものとして、x1(極値「5」)およびx2(極値「1」)を選定する。
At this time, the
また、アノテーション装置10は、基準点S以外の学習データをさらに、正確に正解ラベルを付与しやすいデータをデータDとして、また正確に正解ラベルを付与しにくいデータをデータEとして分類する。例えば、アノテーション装置10は、信頼度の閾値を設けて、分散1.0以上であればデータDに分類し、そうでなければデータEに分類する。図4の例では、アノテーション装置10は、x0とx3は分散1.0未満なのでデータEに分類し、x4とxNは分散1.0以上なのでデータDに分類する。
Furthermore, the
なお、アノテーション装置10は、正解ラベルとして、別途作成された機械学習モデルによる推定結果を用いる場合は、例えば、推定結果となる数値の事後確率が80%以上である学習データを基準点S、事後確率が50%以上で80%未満である学習データをデータE、事後確率が50%未満である学習データをデータDとして分類する。また、アノテーション装置10は、学習データの分類数や閾値等の分類方式を、静的に、または動的に変更することができる。When the
続いて、図5を用いて、第1の学習データの分類に基づく、第2の学習データの生成処理および配信処理の具体例について説明する。アノテーション装置10は、基準点S、データEおよびデータDの3種類のデータを含むデータ群を第2の学習データとして生成する。このとき、基準点Sについてはそれぞれの極値である「1」および「5」のデータが必ず含まれるようにする。また、各データ群のデータの発生源(話者、動画像に映る人物、オブジェクト等)は同一のものとする。
Next, a specific example of the generation and distribution process of the second learning data based on the classification of the first learning data will be described with reference to FIG. 5. The
例えば、アノテーション装置10は、データ群{p0,p1,・・・pM}を要素とするデータ群集合Pを生成する。ここで、データ群p0には、{x0,x1,x2,x3,x4,xN}(図3、図4参照)が要素として含まれ、データ群pMには、{xa,xb,xc,xd,xe,xf}(図3、図4では図示せず)が要素として含まれるものとする。図5の例では、アノテーション装置10は、データ群p0として、基準点S{x1,x2}、データE{x0,x3}、データD{x4,xN}を選定し、データ群pMとして、基準点S{xa,xb}、データE{xc,xd}、データD{xe,xf}を選定している。
For example, the
なお、各データ群内のデータの個数や選定方法は、上述したように異なる極値である基準点Sを含み、かつ同一の発生源である条件を満たせば、任意に変更することができる。例えば、データの個数は、一定の範囲内でランダムな個数としてもよい。また、含まれるデータは、データEとデータDを2つずつ用意して、それぞれのアノテーションの結果の平均値が「1」または「5」寄りになるようにしてもよい。 The number of data in each data group and the selection method can be changed arbitrarily as long as they include reference points S that are different extreme values as described above and satisfy the condition of being from the same source. For example, the number of data may be a random number within a certain range. Also, the included data may be two each of data E and data D, and the average value of each annotation result may be closer to "1" or "5".
その後、アノテーション装置10は、上記のように選定したデータ群を第2の学習データとしてアノテータ20に配信する。このとき、アノテーション装置10は、第2の学習データのデータ群を配信するときに、データ群ごとに、最初に基準点Sを配信し、その後、データE、データDをアノテータ20に配信する。図5の例では、アノテーション装置10は、データ群p0の配信に際して、基準点S{x1,x2}、データE{x0,x3}、データD{x4,xN}の順に配信し、データ群pMの配信に際して、基準点S{xa,xb}、データE{xc,xd}、データD{xe,xf}の順に配信している。
Thereafter, the
なお、アノテーション装置10は、アノテータ20にデータE、データDの順にデータを視聴するようにデータ視聴順を指示してもよい。また、アノテーション装置10は、データE、データDをランダムに視聴するように配信してもよい。さらに、アノテーション装置10は、最初に配信した基準点Sについては、配信と同時に正解ラベルを提示し、アノテータ20に正解ラベルを付与しないように指示してもよいし、学習データの分類に関わらず、全ての学習データに正解ラベルを付与するように指示してもよい。The
最後に、アノテーション装置10は、アノテータ20によって正解ラベルを付与された第2の学習データを取得する。図5の例では、アノテーション装置10は、各データ群について、基準点Sを除くデータE、データDの正解ラベルをアノテータごとに取得しており、例えば、「アノテータ01」について、データ群p0の{x0,x3,x4,xN}の学習データに対して、順に{1,4,3,2}の正解ラベルを取得し、データ群pMの{xc,xd,xe,xf}の学習データに対して、順に{2,4,3,3}の正解ラベルを取得している(図5「ANNOT2(X)」参照)。
Finally, the
なお、第2の学習データに付与された正解ラベルの最終的な処理については、特に限定されない。アノテーション装置10は、学習データごとに多数決をとり、最も多い正解ラベルを最終的な正解ラベルとして決定してもよいし、数値の平均点を計算し、その数値を最終的な正解ラベルとして決定してもよい。Note that there is no particular limitation on the final processing of the correct labels assigned to the second training data. The
[アノテーション処理の流れ]
図6を用いて、本実施形態に係るアノテーション処理の流れを詳細に説明する。図6は、第1の実施形態に係るアノテーション処理の流れの一例を示すフローチャートである。
[Annotation process flow]
The flow of annotation processing according to this embodiment will be described in detail with reference to Fig. 6. Fig. 6 is a flowchart showing an example of the flow of annotation processing according to the first embodiment.
まず、アノテーション装置10の取得部15aは、データベース30等から音声、画像、動画等を含む第1の学習データを取得する(ステップS101)。このとき、取得部15aは、記憶部14から第1の学習データを取得してもよい。また、取得部15aは、データベース30や記憶部14から取得した音声データ等の元データを加工し、学習データとして適切なサイズに分割したり、適切な分類をしたりしてもよい。さらに、取得部15aは、入力部11を介して外部から音声データ等を取得してもよい。First, the acquisition unit 15a of the
次に、第1配信部15bは、第1の学習データをアノテータ20に配信する(ステップS102)。このとき、第1配信部15bは、第1の学習データに応じて配信するアノテータ20を選定してもよい。また、取得部15aは、アノテータ20によって第1の正解ラベルを付与された第1の学習データを取得する(ステップS103)。Next, the
そして、分類部15cは、第1の正解ラベルの信頼度をもとに第1の学習データを分類する(ステップS104)。また、生成部15dは、分類された第1の学習データから第2の学習データを生成する(ステップS105)。続いて、第2配信部15eは、第2の学習データをアノテータ20に配信する(ステップS106)。Then, the classification unit 15c classifies the first learning data based on the reliability of the first correct label (step S104). The generation unit 15d generates second learning data from the classified first learning data (step S105). Next, the
なお、第2配信部15eは、第1の学習データを配信したアノテータ20以外のアノテータに第2の学習データを配信することもできる。例えば、第2配信部15eは、第1の学習データを人であるアノテータに配信し、第2の学習データを機械学習モデルであるアノテータに配信することもできる。In addition, the
最後に、取得部15aは、アノテータ20によって第2の正解ラベルを付与された第2の学習データを取得し(ステップS107)、処理が終了する。なお、取得された第2の正解ラベルの精度が十分でない場合は、ステップS104~S107の処理を再度行ってもよい。Finally, the acquisition unit 15a acquires the second learning data to which the second correct answer label has been assigned by the annotator 20 (step S107), and the process ends. Note that if the accuracy of the acquired second correct answer label is not sufficient, the processes of steps S104 to S107 may be performed again.
[第1の学習データの分類処理の流れ]
図7を用いて、本実施形態に係る第1の学習データの分類処理の流れを詳細に説明する。図7は、第1の実施形態に係る第1の学習データの分類処理の流れの一例を示すフローチャートである。まず、アノテーション装置10の取得部15aは、アノテータ20から第1の学習データに付与された第1の正解ラベルを取得する(ステップS201)。次に、分類部15cは、アノテータ20が人である場合(ステップS202:アノテータは人)、ステップS203~S205の処理に基づいて、ステップS208~S210の分類処理を行う。
[Flow of classification process of first learning data]
The flow of the classification process of the first learning data according to the present embodiment will be described in detail with reference to Fig. 7. Fig. 7 is a flowchart showing an example of the flow of the classification process of the first learning data according to the first embodiment. First, the acquisition unit 15a of the
分類部15cは、全アノテータの回答が一致し(ステップS203:肯定)、その回答が極値である場合(ステップS204:肯定)、その正解ラベルを付与された第1の学習データを基準点Sに分類する(ステップS208)。また、分類部15cは、アノテータ20の回答に一致しないものが含まれる場合(ステップS203:否定)、またアノテータ20の回答が極値ではない場合(ステップS204:否定)、ステップS205の処理を行う。If the answers of all annotators match (step S203: YES) and the answers are extreme values (step S204: YES), the classification unit 15c classifies the first learning data to which the correct answer label has been assigned as the reference point S (step S208). If the answers of the annotator 20 include ones that do not match (step S203: NO) or if the answers of the annotator 20 are not extreme values (step S204: NO), the classification unit 15c performs the process of step S205.
分類部15cは、アノテータ20の回答の分散が1.0以上である場合(ステップS205:肯定)、その正解ラベルを付与された第1の学習データをデータEに分類する(ステップS209)。また、アノテータ20の回答の分散が1.0未満である場合(ステップS205:否定)、その正解ラベルを付与された第1の学習データをデータDに分類する(ステップS210)。分類部15cは、ステップS208~S210の分類処理が終了した場合、処理を終了する。If the variance of the annotator 20's answer is 1.0 or more (step S205: Yes), the classification unit 15c classifies the first learning data to which the correct answer label has been assigned as data E (step S209). If the variance of the annotator 20's answer is less than 1.0 (step S205: No), the classification unit 15c classifies the first learning data to which the correct answer label has been assigned as data D (step S210). When the classification process of steps S208 to S210 is completed, the classification unit 15c ends the process.
一方、分類部15cは、アノテータ20が機械学習モデルである場合(ステップS202:アノテータは機械学習モデル)、ステップS206~S207の処理に基づいて、ステップS208~S210の分類処理を行う。分類部15cは、アノテータ20の推定結果となる値の事後確率が80%以上である場合(ステップS206:肯定)、その正解ラベルを付与された第1の学習データを基準点Sに分類する(ステップS208)。On the other hand, if the annotator 20 is a machine learning model (step S202: annotator is a machine learning model), the classification unit 15c performs classification processing of steps S208 to S210 based on the processing of steps S206 to S207. If the posterior probability of the value that is the estimated result of the annotator 20 is 80% or more (step S206: Yes), the classification unit 15c classifies the first learning data to which the correct label has been assigned as the reference point S (step S208).
また、分類部15cは、アノテータ20の推定結果となる値の事後確率が80%未満であり(ステップS206:否定)、その事後確率が50%以上である場合(ステップS207:肯定)、その正解ラベルを付与された第1の学習データをデータEに分類する(ステップS209)。また、分類部15cは、アノテータ20の推定結果となる値の事後確率が50%未満である場合(ステップS207:否定)、その正解ラベルを付与された第1の学習データをデータDに分類する(ステップS210)。分類部15cは、ステップS208~S210の分類処理が終了した場合、処理を終了する。Furthermore, if the posterior probability of the value that is the estimation result of the annotator 20 is less than 80% (step S206: negative) and the posterior probability is 50% or more (step S207: positive), the classification unit 15c classifies the first learning data to which the correct label has been assigned as data E (step S209). Furthermore, if the posterior probability of the value that is the estimation result of the annotator 20 is less than 50% (step S207: negative), the classification unit 15c classifies the first learning data to which the correct label has been assigned as data D (step S210). When the classification process of steps S208 to S210 is completed, the classification unit 15c ends the process.
[第1の実施形態の効果]
第1に、上述した本実施形態に係るアノテーション処理では、機械学習に用いられる第1の学習データを取得し、取得した第1の学習データを複数のアノテータに配信し、各アノテータによって第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類し、分類した第1の学習データの分類結果を配信する。このため、本処理では、機械学習における教師あり学習において、より低コストかつ高精度なアノテーションを行うことができる。
[Effects of the First Embodiment]
First, in the annotation process according to the present embodiment described above, first learning data used in machine learning is acquired, the acquired first learning data is distributed to a plurality of annotators, the first learning data is classified based on the reliability of the first correct answer labels respectively assigned to the first learning data by each annotator, and the classification results of the classified first learning data are distributed. Therefore, in this process, annotation can be performed at a lower cost and with higher accuracy in supervised learning in machine learning.
第2に、上述した本実施形態に係るアノテーション処理では、音声、画像または動画を含む第1の学習データを取得し、第1の正解ラベルとして、所定の数字を付与させる形式の第1の学習データを配信し、第1の学習データを、信頼度として第1の正解ラベルの分散に基づいて、基準データ、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類する。このため、本処理では、機械学習における教師あり学習において、比較対象がない場合であっても信頼性の高い正解ラベルの付与を可能とし、より低コストかつ高精度なアノテーションを行うことができる。 Secondly, in the annotation process according to the present embodiment described above, first learning data including audio, images or videos is acquired, the first learning data is distributed in a format in which a predetermined number is assigned as a first correct label, and the first learning data is classified into reference data, data that is easy to accurately assign a correct label to, or data that is difficult to accurately assign a correct label to, based on the variance of the first correct label as the reliability. Therefore, in the present process, in supervised learning in machine learning, it is possible to assign a highly reliable correct label even in the absence of a comparison target, and annotation can be performed at a lower cost and with higher accuracy.
第3に、上述した本実施形態に係るアノテーション処理では、アノテータとして、機械学習モデルに第1の学習データを配信し、第1の学習データを、信頼度として第1の正解ラベルの事後確率に基づいて分類する。このため、本処理では、機械学習における教師あり学習において、アノテータが人でない場合であっても信頼性の高い正解ラベルの付与を可能とし、より低コストかつ高精度なアノテーションを行うことができる。 Thirdly, in the annotation process according to the present embodiment described above, the annotator distributes first learning data to the machine learning model, and classifies the first learning data based on the posterior probability of the first correct label as the reliability. Therefore, in this process, in supervised learning in machine learning, even if the annotator is not human, it is possible to assign a highly reliable correct label, and annotation can be performed at a lower cost and with higher accuracy.
第4に、上述した本実施形態に係るアノテーション処理では、分類結果として、基準データであって極値の異なる複数の基準データ、正確に正解ラベルを付与しやすいデータ、および正確に正解ラベルを付与しにくいデータを含み、かつ、各データの発生源が同一のデータ群である第2の学習データを生成し、複数の基準データを最初に配信する。このため、本処理では、機械学習における教師あり学習において、比較対象がない場合であっても信頼性が高く、効率的な正解ラベルの付与を可能とし、より低コストかつ高精度なアノテーションを行うことができる。 Fourth, in the annotation process according to the present embodiment described above, as a classification result, second learning data is generated that is a data group that includes multiple reference data with different extreme values, data that is easy to accurately assign a correct answer label, and data that is difficult to accurately assign a correct answer label to, and each data source is the same, and the multiple reference data are distributed first. Therefore, in supervised learning in machine learning, this process enables reliable and efficient assignment of correct answer labels even in the absence of a comparison target, and can perform annotation at a lower cost and with higher accuracy.
第5に、上述した本実施形態に係るアノテーション処理では、分類結果を第1の学習データを配信した複数のアノテータ、または第1の学習データを配信した複数のアノテータ以外の所定のアノテータに配信する。このため、本処理では、機械学習における教師あり学習において、比較対象がない場合であっても信頼性が高く、効率的で、より柔軟な正解ラベルの付与を可能とし、より低コストかつ高精度なアノテーションを行うことができる。Fifth, in the annotation process according to the present embodiment described above, the classification results are distributed to the multiple annotators who distributed the first learning data, or to a specific annotator other than the multiple annotators who distributed the first learning data. Therefore, in supervised learning in machine learning, this process enables reliable, efficient, and more flexible assignment of correct answer labels even in the absence of a comparison target, and enables annotation to be performed at lower cost and with higher accuracy.
〔システム構成等〕
上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Each component of each device shown in the figures according to the above embodiment is a functional concept, and does not necessarily have to be physically configured as shown in the figures. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figures, and all or a part of them can be functionally or physically distributed and integrated in any unit according to various loads, usage conditions, etc. Furthermore, each processing function performed by each device can be realized in whole or in any part by a CPU and a program analyzed and executed by the CPU, or can be realized as hardware using wired logic.
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Furthermore, among the processes described in the above embodiments, all or part of the processes described as being performed automatically can be performed manually, or all or part of the processes described as being performed manually can be performed automatically by a known method. In addition, the information including the processing procedures, control procedures, specific names, various data and parameters shown in the above documents and drawings can be changed as desired unless otherwise specified.
〔プログラム〕
また、上記実施形態において説明したアノテーション装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
〔program〕
It is also possible to create a program in which the processing executed by the
図8は、プログラムを実行するコンピュータを示す図である。図8に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU(Central Processing Unit)1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
Figure 8 is a diagram showing a computer that executes a program. As illustrated in Figure 8, the computer 1000 has, for example, a
メモリ1010は、図8に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図8に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図8に例示するように、ディスクドライブ1100に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図8に例示するように、例えば、マウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図8に例示するように、例えばディスプレイ1130に接続される。
The
ここで、図8に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ1090に記憶される。8, the hard disk drive 1090 stores, for example, an
また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。In addition, the various data described in the above embodiment are stored as program data, for example, in
なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。In addition, the
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。The above embodiments and their variations are included in the scope of the invention and its equivalents described in the claims, as well as in the technology disclosed in this application.
10 アノテーション装置
11 入力部
12 出力部
13 通信部
14 記憶部
15 制御部
15a 取得部
15b 第1配信部
15c 分類部
15d 生成部
15e 第2配信部
20、20A、20B、20C アノテータ
30、30A、30B、30C データベース
100 アノテーションシステム
REFERENCE SIGNS
Claims (14)
前記取得部によって取得された前記第1の学習データを複数のアノテータに配信する第1配信部と、
各アノテータによって前記第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類部と、
前記分類部によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する第2配信部と
を備え、
前記取得部は、音声、画像または動画を含む前記第1の学習データを取得し、
前記第1配信部は、前記第1の正解ラベルとして、所定の数字を付与させる形式の前記第1の学習データを配信し、
前記分類部は、前記第1の学習データを、前記信頼度として前記第1の正解ラベルの分散に基づいて、基準データ、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類することを特徴とするアノテーション装置。 an acquisition unit that acquires first learning data to be used in machine learning;
a first distribution unit that distributes the first learning data acquired by the acquisition unit to a plurality of annotators;
a classification unit that classifies the first training data based on a reliability of a first correct label that is assigned to each of the first training data by each annotator;
a second distribution unit that distributes a classification result of the first learning data classified by the classification unit to the plurality of annotators or a predetermined annotator other than the plurality of annotators ;
The acquisition unit acquires the first learning data including audio, images, or videos,
The first distribution unit distributes the first learning data in a format in which a predetermined number is assigned as the first correct label;
The classification unit classifies the first learning data into reference data, data that is easy to accurately assign a correct label, or data that is difficult to accurately assign a correct label based on the variance of the first correct label as the reliability.
前記分類部は、前記第1の学習データを、前記信頼度として前記第1の正解ラベルの事後確率に基づいて分類することを特徴とする請求項1に記載のアノテーション装置。 The first distribution unit distributes the first training data to a machine learning model as the annotator;
The annotation device according to claim 1 , wherein the classification unit classifies the first learning data based on a posterior probability of the first correct label as the reliability.
前記第2配信部は、前記複数の基準データを最初に配信することを特徴とする請求項1に記載のアノテーション装置。 a generation unit that generates second learning data as the classification result, the second learning data including a plurality of reference data having different extreme values, the data to which the correct label is easily assigned accurately, and the data to which the correct label is difficult to assign accurately, the second learning data being generated from a same data group;
The annotation device according to claim 1 , wherein the second distribution unit distributes the plurality of reference data first.
機械学習に用いられる第1の学習データを取得する取得工程と、
前記取得工程によって取得された前記第1の学習データを複数のアノテータに配信する第1配信工程と、
各アノテータによって前記第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類工程と、
前記分類工程によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する第2配信工程と
を含み、
前記取得工程は、音声、画像または動画を含む前記第1の学習データを取得し、
前記第1配信工程は、前記第1の正解ラベルとして、所定の数字を付与させる形式の前記第1の学習データを配信し、
前記分類工程は、前記第1の学習データを、前記信頼度として前記第1の正解ラベルの分散に基づいて、基準データ、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類することを特徴とするアノテーション方法。 An annotation method performed by an annotation device, comprising:
An acquisition step of acquiring first learning data to be used in machine learning;
a first distribution step of distributing the first training data acquired by the acquisition step to a plurality of annotators;
a classification step of classifying the first training data based on the reliability of a first correct label assigned to each of the first training data by each annotator;
a second distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ,
The acquiring step acquires the first learning data including audio, an image, or a video;
The first distribution step distributes the first learning data in a format in which a predetermined number is assigned as the first correct label;
The annotation method is characterized in that the classification step classifies the first learning data into reference data, data that is easy to accurately assign a correct label, or data that is difficult to accurately assign a correct label based on the variance of the first correct label as the reliability.
前記取得ステップによって取得された前記第1の学習データを複数のアノテータに配信する第1配信ステップと、
各アノテータによって前記第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類ステップと、
前記分類ステップによって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する第2配信ステップと
をコンピュータに実行させ、
前記取得ステップは、音声、画像または動画を含む前記第1の学習データを取得し、
前記第1配信ステップは、前記第1の正解ラベルとして、所定の数字を付与させる形式の前記第1の学習データを配信し、
前記分類ステップは、前記第1の学習データを、前記信頼度として前記第1の正解ラベルの分散に基づいて、基準データ、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類することを特徴とするアノテーションプログラム。 An acquisition step of acquiring first learning data used in machine learning;
a first distribution step of distributing the first training data acquired by the acquisition step to a plurality of annotators;
a classification step of classifying the first training data based on a reliability of a first correct label assigned to each of the first training data by each annotator;
a second distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ;
The acquiring step acquires the first learning data including audio, an image, or a video;
The first distribution step distributes the first learning data in a format in which a predetermined number is assigned as the first correct label;
The classification step classifies the first learning data into reference data, data that is easy to accurately assign a correct label, or data that is difficult to accurately assign a correct label based on the variance of the first correct label as the reliability.
前記分類部によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信部と
を備え、
前記信頼度は、前記第1の正解ラベルのばらつきを表すことを特徴とするアノテーション装置。 a classification unit that classifies first learning data used in machine learning based on the reliability of first correct labels that are respectively assigned by a plurality of annotators to the first learning data;
a distribution unit that distributes a classification result of the first learning data classified by the classification unit to the plurality of annotators or a predetermined annotator other than the plurality of annotators ,
The annotation device, wherein the reliability represents a variance of the first correct label.
前記分類部によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信部と
を備え、
前記分類結果には、前記信頼度に基づいて選定された基準データを含むことを特徴とするアノテーション装置。 a classification unit that classifies first learning data used in machine learning based on the reliability of first correct labels that are respectively assigned by a plurality of annotators to the first learning data;
a distribution unit that distributes a classification result of the first learning data classified by the classification unit to the plurality of annotators or a predetermined annotator other than the plurality of annotators ,
An annotation device characterized in that the classification result includes reference data selected based on the reliability.
前記分類部によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信部と
を備え、
前記分類結果には、前記第1の学習データを、前記信頼度に基づいて、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類したものを含むことを特徴とするアノテーション装置。 a classification unit that classifies first learning data used in machine learning based on the reliability of first correct labels that are respectively assigned by a plurality of annotators to the first learning data;
a distribution unit that distributes a classification result of the first learning data classified by the classification unit to the plurality of annotators or a predetermined annotator other than the plurality of annotators ,
The annotation device, characterized in that the classification result includes classification of the first learning data into data that is easy to accurately assign a correct label to, or data that is difficult to accurately assign a correct label to, based on the reliability.
機械学習に用いられる第1の学習データに、複数のアノテータによってそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類工程と、
前記分類工程によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信工程と
を含み、
前記信頼度は、前記第1の正解ラベルのばらつきを表すことを特徴とするアノテーション方法。 An annotation method performed by an annotation device, comprising:
a classification step of classifying first learning data used for machine learning based on the reliability of first correct labels respectively assigned by a plurality of annotators to the first learning data;
a distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ,
The annotation method, wherein the reliability represents a variance of the first correct label.
機械学習に用いられる第1の学習データに、複数のアノテータによってそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類工程と、
前記分類工程によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信工程と
を含み、
前記分類結果には、前記信頼度に基づいて選定された基準データを含むことを特徴とするアノテーション方法。 An annotation method performed by an annotation device, comprising:
a classification step of classifying first learning data used for machine learning based on the reliability of first correct labels respectively assigned by a plurality of annotators to the first learning data;
a distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ,
An annotation method, characterized in that the classification result includes reference data selected based on the reliability.
機械学習に用いられる第1の学習データに、複数のアノテータによってそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類工程と、
前記分類工程によって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信工程と
を備え、
前記分類結果には、前記第1の学習データを、前記信頼度に基づいて、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類したものを含むことを特徴とするアノテーション方法。 An annotation method performed by an annotation device, comprising:
a classification step of classifying first learning data used for machine learning based on the reliability of first correct labels respectively assigned by a plurality of annotators to the first learning data;
a distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ,
The annotation method, characterized in that the classification result includes classification of the first learning data into data that is easy to accurately assign a correct label to, or data that is difficult to accurately assign a correct label to, based on the reliability.
前記分類ステップによって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信ステップと
をコンピュータに実行させ、
前記信頼度は、前記第1の正解ラベルのばらつきを表すことを特徴とするアノテーションプログラム。 a classification step of classifying first learning data used for machine learning based on the reliability of first correct labels respectively assigned by a plurality of annotators to the first learning data;
a distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ;
The annotation program, wherein the reliability represents a variance of the first correct label.
前記分類ステップによって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信ステップと
をコンピュータに実行させ、
前記分類結果には、前記信頼度に基づいて選定された基準データを含むことを特徴とするアノテーションプログラム。 a classification step of classifying first learning data used for machine learning based on the reliability of first correct labels respectively assigned by a plurality of annotators to the first learning data;
a distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ;
The annotation program, wherein the classification result includes reference data selected based on the reliability.
前記分類ステップによって分類された前記第1の学習データの分類結果を前記複数のアノテータ、または前記複数のアノテータ以外の所定のアノテータに配信する配信ステップと
をコンピュータに実行させ、
前記分類結果には、前記第1の学習データを、前記信頼度に基づいて、正確に正解ラベルを付与しやすいデータ、または正確に正解ラベルを付与しにくいデータに分類したものを含むことを特徴とするアノテーションプログラム。 a classification step of classifying first learning data used for machine learning based on the reliability of first correct labels respectively assigned by a plurality of annotators to the first learning data;
a distribution step of distributing the classification result of the first learning data classified by the classification step to the plurality of annotators or a predetermined annotator other than the plurality of annotators ;
The annotation program, characterized in that the classification result includes classification of the first learning data into data that is easy to accurately assign a correct label to, or data that is difficult to accurately assign a correct label to, based on the reliability.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024154367A JP7823699B2 (en) | 2020-12-15 | 2024-09-06 | Annotation device, annotation method, and annotation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2020/046835 WO2022130516A1 (en) | 2020-12-15 | 2020-12-15 | Annotation device, annotation method, and annotation program |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024154367A Division JP7823699B2 (en) | 2020-12-15 | 2024-09-06 | Annotation device, annotation method, and annotation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2022130516A1 JPWO2022130516A1 (en) | 2022-06-23 |
| JP7673757B2 true JP7673757B2 (en) | 2025-05-09 |
Family
ID=82059222
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022569380A Active JP7673757B2 (en) | 2020-12-15 | 2020-12-15 | ANNOTATION DEVICE, ANNOTATION METHOD, AND ANNOTATION PROGRAM |
| JP2024154367A Active JP7823699B2 (en) | 2020-12-15 | 2024-09-06 | Annotation device, annotation method, and annotation program |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024154367A Active JP7823699B2 (en) | 2020-12-15 | 2024-09-06 | Annotation device, annotation method, and annotation program |
Country Status (2)
| Country | Link |
|---|---|
| JP (2) | JP7673757B2 (en) |
| WO (1) | WO2022130516A1 (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20130346409A1 (en) | 2012-06-22 | 2013-12-26 | California Institute Of Technology | Systems and Methods for the Determining Annotator Performance in the Distributed Annotation of Source Data |
| JP2019521443A (en) | 2016-06-30 | 2019-07-25 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | Cell annotation method and annotation system using adaptive additional learning |
| US20200152316A1 (en) | 2018-11-09 | 2020-05-14 | Lunit Inc. | Method for managing annotation job, apparatus and system supporting the same |
| JP2020144755A (en) | 2019-03-08 | 2020-09-10 | 日立オートモティブシステムズ株式会社 | Arithmetic logic unit |
| US20200342165A1 (en) | 2019-04-26 | 2020-10-29 | Figure Eight Technologies, Inc. | Management of annotation jobs |
-
2020
- 2020-12-15 JP JP2022569380A patent/JP7673757B2/en active Active
- 2020-12-15 WO PCT/JP2020/046835 patent/WO2022130516A1/en not_active Ceased
-
2024
- 2024-09-06 JP JP2024154367A patent/JP7823699B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20130346409A1 (en) | 2012-06-22 | 2013-12-26 | California Institute Of Technology | Systems and Methods for the Determining Annotator Performance in the Distributed Annotation of Source Data |
| JP2019521443A (en) | 2016-06-30 | 2019-07-25 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | Cell annotation method and annotation system using adaptive additional learning |
| US20200152316A1 (en) | 2018-11-09 | 2020-05-14 | Lunit Inc. | Method for managing annotation job, apparatus and system supporting the same |
| JP2020144755A (en) | 2019-03-08 | 2020-09-10 | 日立オートモティブシステムズ株式会社 | Arithmetic logic unit |
| US20200342165A1 (en) | 2019-04-26 | 2020-10-29 | Figure Eight Technologies, Inc. | Management of annotation jobs |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2022130516A1 (en) | 2022-06-23 |
| JPWO2022130516A1 (en) | 2022-06-23 |
| JP7823699B2 (en) | 2026-03-04 |
| JP2024164314A (en) | 2024-11-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Anikin et al. | Perceptual and acoustic differences between authentic and acted nonverbal emotional vocalizations | |
| Martín-Morató et al. | What is the ground truth? reliability of multi-annotator data for audio tagging | |
| CN113722474B (en) | Text classification method, device, equipment and storage medium | |
| US20190147760A1 (en) | Cognitive content customization | |
| Fung et al. | ROC speak: semi-automated personalized feedback on nonverbal behavior from recorded videos | |
| Goldman et al. | Improvisation experience predicts how musicians categorize musical structures | |
| US20220051670A1 (en) | Learning support device, learning support method, and recording medium | |
| Ramakrishnan et al. | Toward automated classroom observation: Predicting positive and negative climate | |
| Barrow et al. | Subjective ratings of age-of-acquisition: Exploring issues of validity and rater reliability | |
| CN110516979A (en) | A personalized learning evaluation method and device | |
| JP6751816B2 (en) | New training data set generation method and new training data set generation device | |
| CN111915111A (en) | Interactive quality evaluation method, device and terminal equipment for online classroom | |
| MacIntyre | The idiodynamic method | |
| CN111309903A (en) | Data processing method and device, storage medium and electronic equipment | |
| Law et al. | Automatic voice emotion recognition of child-parent conversations in natural settings | |
| Alhinti et al. | The Dysarthric expressed emotional database (DEED): An audio-visual database in British English | |
| Harvill et al. | Quantifying emotional similarity in speech | |
| Mileva | Multimodal person evaluation: First impressions from faces, voices, and names. | |
| Singh et al. | A survey on: personality prediction from multimedia through machine learning | |
| Zhang et al. | On rater reliability and agreement based dynamic active learning | |
| Gupta et al. | REDE-Detecting human emotions using CNN and RASA | |
| JP7673757B2 (en) | ANNOTATION DEVICE, ANNOTATION METHOD, AND ANNOTATION PROGRAM | |
| Dadiz et al. | Analysis of depression based on facial cues on a captured motion picture | |
| CN121071570A (en) | Behavior data analysis method and system based on intelligent perception | |
| Okada et al. | Predicting performance of collaborative storytelling using multimodal analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230330 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240507 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240708 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240906 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241224 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250325 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250407 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7673757 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |