Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7635641B2 - Teacher data creation device, teacher data creation method, and teacher data creation program - Google Patents
[go: Go Back, main page]

JP7635641B2 - Teacher data creation device, teacher data creation method, and teacher data creation program - Google Patents

Teacher data creation device, teacher data creation method, and teacher data creation program Download PDF

Info

Publication number
JP7635641B2
JP7635641B2 JP2021094106A JP2021094106A JP7635641B2 JP 7635641 B2 JP7635641 B2 JP 7635641B2 JP 2021094106 A JP2021094106 A JP 2021094106A JP 2021094106 A JP2021094106 A JP 2021094106A JP 7635641 B2 JP7635641 B2 JP 7635641B2
Authority
JP
Japan
Prior art keywords
data
classification information
teacher
teacher data
data creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021094106A
Other languages
Japanese (ja)
Other versions
JP2022186072A (en
Inventor
駿人 寺中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2021094106A priority Critical patent/JP7635641B2/en
Publication of JP2022186072A publication Critical patent/JP2022186072A/en
Application granted granted Critical
Publication of JP7635641B2 publication Critical patent/JP7635641B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムに関する。 The present invention relates to a teacher data creation device, a teacher data creation method, and a teacher data creation program.

近年、電子メールのスパムフィルターやウェブページ上の有害な文章のフィルター等を始めとして、さまざまな用途に用いられる文章分類等の自動化の開発が進められている。特に、機械学習を用いた、文章分類等のアルゴリズムの開発が促進されている。 In recent years, there has been progress in the development of automated text classification for a variety of applications, including spam filters for emails and filters for harmful text on web pages. In particular, there has been progress in the development of algorithms for text classification using machine learning.

上記技術に関連し、下記特許文献1には次の先行技術が開示されている。特定の分野に関する参照データの第1の特徴ベクトルを算出する。第1の特徴ベクトルから、当該特定の分野に関するデータを収集に用いる、検索語の組合せ等の検索条件を生成する。当該検索条件をもとに当該特定の分野に関するデータを文書データベースから収集する。収集されたデータの第2の特徴ベクトルを算出する。第2の特徴ベクトルと第1の特徴ベクトルの類似度を算出する。そして、収集されたデータから、当該類似度が所定の範囲内にあるデータを、機械学習に用いる教師データとして抽出する。 In relation to the above technology, the following prior art is disclosed in Patent Document 1 below: A first feature vector of reference data relating to a specific field is calculated. From the first feature vector, search conditions, such as a combination of search terms, used to collect data relating to the specific field are generated. Data relating to the specific field is collected from a document database based on the search conditions. A second feature vector of the collected data is calculated. The similarity between the second feature vector and the first feature vector is calculated. Then, from the collected data, data whose similarity falls within a predetermined range is extracted as training data to be used in machine learning.

また、特許文献2には次の先行技術が開示されている。複数の教示クラスのいずれかに教示された複数の教師画像を当該教示クラスとともに記憶する。複数の教示クラスから選択される教師画像の集合を訓練画像群として、互いに異なる集合である所定数の訓練画像群を選択する。各訓練画像群を用いて学習することでそれぞれ構築される分類器を用いて各教師画像を当該複数の教示クラスのいずれかにそれぞれ分類する。そして、各教師画像において当該所定数の訓練画像群を用いて各分類器により分類される各クラスの分類率が最も多く分類されるクラスが、各教師画像の教示クラスと異なる場合に当該教師画像を特定教師画像として特定して各クラスの当該分類率とともに表示する。これにより、表示される各クラスの分類率に基づいてユーザーにより特定教師画像の教示クラスが修正されることで、教師画像に教示された誤った教示クラスを修正できる。 Patent Document 2 also discloses the following prior art. A plurality of teacher images taught to one of a plurality of teaching classes are stored together with the teaching class. A set of teacher images selected from the plurality of teaching classes is set as a training image group, and a predetermined number of training image groups, which are mutually different sets, are selected. Each teacher image is classified into one of the plurality of teaching classes using a classifier constructed by learning using each training image group. Then, when the class with the highest classification rate of each class classified by each classifier using the predetermined number of training image groups in each teacher image is different from the teaching class of each teacher image, the teacher image is identified as a specific teacher image and displayed together with the classification rate of each class. In this way, the user can correct the teaching class of the specific teacher image based on the classification rate of each displayed class, thereby correcting the erroneous teaching class taught by the teacher image.

特開2018-124617号公報JP 2018-124617 A 特開2017-162232号公報JP 2017-162232 A

しかし、特許文献1に記載された先行技術は、各文章に一貫性のあるラベル付与がされた教師データを作成できないという問題がある。また、特許文献2に記載された先行技術は、教師画像に教示される教示クラスの精度が分類器の精度に依存するという問題がある。また、各分類器の学習に必要な比較的大量な教師画像等があらかじめ必要になるという問題もある。 However, the prior art described in Patent Document 1 has a problem in that it is not possible to create training data in which each sentence is consistently labeled. In addition, the prior art described in Patent Document 2 has a problem in that the accuracy of the training classes taught to the training images depends on the accuracy of the classifier. There is also a problem in that a relatively large number of training images, etc., required for training each classifier, are required in advance.

本発明はこのような問題を解決するためになされたものである。すなわち、ラベル付与済の教師データの数量によらず、一貫性のあるラベル付与がされた教師データの作成が可能な、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムを提供することを目的とする。 The present invention has been made to solve such problems. In other words, the objective is to provide a teacher data creation device, a teacher data creation method, and a teacher data creation program that are capable of creating teacher data with consistent labels, regardless of the amount of labeled teacher data.

本発明の上記課題は、以下の手段によって解決される。 The above-mentioned problems of the present invention are solved by the following means.

(1)データを分類する分類器の学習に使用される教師データを作成するための教師データ作成装置であって、入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力する出力制御部と、前記第1データに付与する前記分類情報を受け付ける受付部と、受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成する教師データ作成部と、を有する教師データ作成装置。 (1) A teacher data creation device for creating teacher data used to train a classifier that classifies data, the teacher data creation device having an output control unit that outputs second data similar to input first data and classification information assigned to the second data, a reception unit that receives the classification information to be assigned to the first data, and a teacher data creation unit that assigns the received classification information to the first data to create the teacher data.

(2)前記出力制御部は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、上記(1)に記載の教師データ作成装置。 (2) The teacher data creation device described in (1) above, wherein the output control unit further outputs the similarity of the second data to the first data together with the second data and the classification information.

(3)前記第1データおよび前記第2データは、文章データである、上記(1)または(2)に記載の教師データ作成装置。 (3) The teacher data creation device described in (1) or (2) above, wherein the first data and the second data are text data.

(4)前記出力制御部は、前記第1データを特徴ベクトルに変換する変換部と、前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力する出力部と、を有する、上記(1)~(3)のいずれかに記載の教師データ作成装置。 (4) The teacher data creation device described in any of (1) to (3) above, wherein the output control unit has a conversion unit that converts the first data into a feature vector, and an output unit that outputs the second data whose feature vector is similar to the feature vector into which the first data is converted, and the classification information assigned to the second data.

(5)前記変換部は、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、上記(4)に記載の教師データ作成装置。 (5) The teacher data creation device described in (4) above, in which the conversion unit converts the first data into the feature vector using a trained model generated by unsupervised learning using the data.

(6)前記第2データは、過去に前記教師データ作成部により前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、上記(1)~(5)のいずれかに記載の教師データ作成装置。 (6) The teacher data creation device according to any one of (1) to (5) above, wherein the second data is data to which the classification information has been previously assigned by the teacher data creation unit, and which constitutes the teacher data together with the classification information.

(7)前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、前記受付部において前記分類情報を受け付けるための誘導情報とともにさらに出力する、上記(1)~(6)のいずれかに記載の教師データ作成装置。 (7) The teacher data creation device according to any one of (1) to (6) above, wherein the output control unit further outputs the classification information previously received by the reception unit together with guidance information for receiving the classification information in the reception unit.

(8)前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、選択可能に出力し、前記受付部は、前記出力制御部が選択可能に出力した前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(1)~(7)のいずれかに記載の教師データ作成装置。 (8) The teacher data creation device according to any one of (1) to (7) above, wherein the output control unit outputs the classification information previously received by the reception unit in a selectable manner, and the reception unit receives the classification information selected from the classification information selectably output by the output control unit as the classification information to be assigned to the first data.

(9)前記出力制御部は、過去に前記受付部が受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、前記受付部は、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(8)に記載の教師データ作成装置。 (9) The teacher data creation device described in (8) above, in which the output control unit further outputs a selection object for enabling reception of additional classification information other than the classification information previously received by the reception unit, and an input field for inputting the additional classification information, and the reception unit receives the classification information inputted into the input field by selecting the selection object as the classification information to be assigned to the first data.

(10)教師データ作成装置により実行される方法であって、データを分類する分類器の学習に使用される教師データを作成するための教師データ作成方法であって、入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力するステップ(a)と、前記第1データに付与する前記分類情報を受け付けるステップ(b)と、受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成するステップ(c)と、を有する教師データ作成方法。 (10) A method executed by a teacher data creation device, the teacher data creation method for creating teacher data to be used for training a classifier that classifies data, the teacher data creation method having the steps of (a) outputting second data similar to input first data and classification information assigned to the second data, (b) accepting the classification information to be assigned to the first data, and (c) assigning the accepted classification information to the first data to create the teacher data.

(11)前記ステップ(a)は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、上記(10)に記載の教師データ作成方法。 (11) The method for creating training data described in (10) above, in which step (a) further outputs the similarity of the second data to the first data together with the second data and the classification information.

(12)前記第1データおよび前記第2データは、文章データである、上記(10)または(11)に記載の教師データ作成方法。 (12) The teacher data creation method described in (10) or (11) above, in which the first data and the second data are text data.

(13)前記ステップ(a)は、前記第1データを特徴ベクトルに変換するステップ(d)と、前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力するステップ(e)と、を有する、上記(10)~(12)のいずれかに記載の教師データ作成方法。 (13) A method for creating teacher data described in any of (10) to (12) above, wherein the step (a) includes a step (d) of converting the first data into a feature vector, and a step (e) of outputting the second data, the feature vector of which is similar to the feature vector into which the first data is converted, and the classification information assigned to the second data.

(14)前記ステップ(d)においては、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、上記(13)に記載の教師データ作成方法。 (14) In the step (d), the first data is converted into the feature vector by a trained model generated by unsupervised learning using the data. The training data creation method described in (13) above.

(15)前記第2データは、過去に前記ステップ(c)において前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、上記(10)~(14)のいずれかに記載の教師データ作成方法。 (15) The teacher data creation method according to any one of (10) to (14) above, in which the second data is data to which the classification information was previously assigned in step (c) and which, together with the classification information, constitutes the teacher data.

(16)前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、前記ステップ(b)において前記分類情報を受け付けるための誘導情報とともにさらに出力する、上記(10)~(15)のいずれかに記載の教師データ作成方法。 (16) The teaching data creation method according to any one of (10) to (15) above, wherein in step (a), the classification information previously accepted in step (b) is further output together with guidance information for accepting the classification information in step (b).

(17)前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、選択可能に出力し、前記ステップ(b)は、前記ステップ(a)において選択可能に出力された前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(10)~(16)のいずれかに記載の教師データ作成方法。 (17) The teacher data creation method according to any one of (10) to (16), in which in the step (a), the classification information previously accepted in the step (b) is output in a selectable manner, and in the step (b), the classification information selected from the classification information selectably output in the step (a) is accepted as the classification information to be assigned to the first data.

(18)前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、前記ステップ(b)においては、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(17)に記載の教師データ作成方法。 (18) The teacher data creation method described in (17) above, further comprising: in step (a), outputting a selection object for enabling the acceptance of additional classification information other than the classification information previously accepted in step (b) and an input field for inputting the additional classification information; and in step (b), accepting the classification information entered in the input field by selecting the selection object as the classification information to be assigned to the first data.

(19)上記(10)から上記(18)のいずれかに記載の教師データ作成方法を、コンピューターに実行させるための教師データ作成プログラム。 (19) A teacher data creation program for causing a computer to execute the teacher data creation method described in any one of (10) to (18) above.

入力された第1データに類似する第2データ、および第2データに付与された分類情報を出力し、第1データに付与する分類情報を受け付け、受け付けられた分類情報を第1データに付与して、前記教師データを作成する。これにより、ラベル付与済の教師データの数量によらず、一貫性のあるラベル付与がされた教師データを作成できる。 The system outputs second data similar to the input first data and classification information assigned to the second data, accepts classification information to be assigned to the first data, and assigns the accepted classification information to the first data to create the teacher data. This makes it possible to create teacher data with consistent labels assigned regardless of the quantity of teacher data to which labels have been assigned.

教師データ作成システムの構成を示す図である。FIG. 1 is a diagram showing the configuration of a teacher data creation system. 教師データ作成装置のブロック図である。FIG. 2 is a block diagram of a teacher data creation device. 教師データ作成装置の制御部の機能ブロック図である。FIG. 2 is a functional block diagram of a control unit of the teacher data creation device. 出力制御部により操作表示部に出力される出力画面を示す図である。13 is a diagram showing an output screen output to an operation display unit by an output control unit. FIG. 教師データを用いた分類器の学習時の制御部の機能を示すブロック図である。FIG. 2 is a block diagram showing the functions of a control unit when a classifier is trained using training data. 教師データを用いて学習された学習済みの分類器による分類時の制御部の機能を示すブロック図である。FIG. 2 is a block diagram showing the functions of a control unit during classification using a trained classifier trained using training data. 教師データ作成システムの動作を示すフローチャートである。4 is a flowchart showing the operation of the teacher data creation system.

以下、図面を参照して、本発明の実施形態に係る、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムについて説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。 Below, a teacher data creation device, a teacher data creation method, and a teacher data creation program according to an embodiment of the present invention will be described with reference to the drawings. Note that in the drawings, identical elements are given the same reference numerals, and duplicate explanations will be omitted. Also, the dimensional ratios in the drawings have been exaggerated for the convenience of explanation, and may differ from the actual ratios.

図1は、教師データ作成システム10の構成を示す図である。図2は、教師データ作成装置100のブロック図である。教師データ作成装置100は、複数の装置により構成されてもよい。例えば、記憶部120の一部または全部は、インターネット等のネットワーク上に配置された複数のサーバーによって仮想的に構築されるクラウドサーバーにより構成され得る。 Figure 1 is a diagram showing the configuration of the teacher data creation system 10. Figure 2 is a block diagram of the teacher data creation device 100. The teacher data creation device 100 may be composed of multiple devices. For example, a part or all of the memory unit 120 may be composed of a cloud server that is virtually constructed by multiple servers located on a network such as the Internet.

教師データ作成システム10は、教師データ作成装置100および入力装置200を含み得る。 The teacher data creation system 10 may include a teacher data creation device 100 and an input device 200.

入力装置200は、機械学習に用いる教師データ(以下、単に「教師データ」と称する)を作成する際に、正解クラスラベル(以下、単に「ラベル」と称する)が付与されるデータ(以下、「入力データ」とも称する)を入力するための装置であり、必要に応じて設置される。以下、説明を簡単にするために、入力データは文章データであるものとして説明する。教師データは、入力データにラベルが付与されることで作成される。すなわち、教師データは、入力データとラベルとの組合せにより構成される。なお、説明の都合上、これから作成される教師データと、既に作成されている既存の教師データとを区別するために、既存の教師データは、「教師文章データ」(入力データに対応)とラベルとの組合せとして以下説明する。既存の教師データは、操作表示部140において受け付けられたラベルが入力データに付与されることで過去に作成された教師データであり得る。 The input device 200 is a device for inputting data (hereinafter also referred to as "input data") to which a correct class label (hereinafter simply referred to as "label") is assigned when creating training data (hereinafter simply referred to as "training data") used in machine learning, and is installed as necessary. For simplicity of explanation, the input data will be described as text data. Training data is created by assigning a label to the input data. In other words, training data is composed of a combination of input data and a label. For convenience of explanation, in order to distinguish training data to be created from existing training data that has already been created, the existing training data will be described below as a combination of "training text data" (corresponding to the input data) and a label. The existing training data may be training data that was previously created by assigning a label accepted by the operation display unit 140 to the input data.

教師データは、文章データ(データ)を分類する分類器の学習(機械学習)に使用される。分類器は、例えばニューラルネットワークのモデルであり得る。分類器による文章データの分類は、具体的には、分類器に文章データが入力されたときに、当該文章データが分類されるべきクラスが出力されることに対応する。 The training data is used to train (machine learning) a classifier that classifies text data (data). The classifier may be, for example, a neural network model. Specifically, the classification of text data by a classifier corresponds to the output of a class into which text data should be classified when text data is input to the classifier.

入力装置200は、教師データ作成装置100のみにより入力データが取得できる場合は省略され得る。 The input device 200 may be omitted if input data can be obtained only by the teacher data creation device 100.

入力データは、文章のデータ(以下、「文章データ」とも称する)であり得る。入力データには、文章データの他、音声、音、画像(文字の画像以外を含む)等が含まれ得る。以下、説明を簡単にするために、入力データは文章データであるものとして説明する。 The input data may be text data (hereinafter also referred to as "text data"). In addition to text data, the input data may include voice, sound, images (including images other than text images), etc. For simplicity of explanation, the following description will be given assuming that the input data is text data.

入力装置200は、文章データ等の入力データを取得可能な装置である。入力装置200は、例えば、HTML(HyperText Markup Language)データに含まれる文章のコンテンツをテキストデータ(文章データ)に変換し、または当該コンテンツからテキストデータを抽出する装置により構成され得る。入力装置200は、紙媒体に含まれる文章を画像として読み出すスキャナーと、当該画像をテキストデータに変換する文字変換部により構成されてもよい。入力装置200は、音声をテキストデータに変換するためのマイクおよび音声認識装置により構成されてもよい。 The input device 200 is a device capable of acquiring input data such as text data. The input device 200 may be configured, for example, by a device that converts text content contained in HTML (HyperText Markup Language) data into text data (text data) or extracts text data from the content. The input device 200 may be configured by a scanner that reads out text contained in a paper medium as an image, and a character conversion unit that converts the image into text data. The input device 200 may be configured by a microphone and a voice recognition device for converting voice into text data.

図2に示すように、教師データ作成装置100は、制御部110、記憶部120、通信部130、および操作表示部140を備える。これらの構成要素は、バス150を介して互いに接続される。教師データ作成装置100は、例えばコンピューター端末により構成される。 As shown in FIG. 2, the teacher data creation device 100 includes a control unit 110, a memory unit 120, a communication unit 130, and an operation display unit 140. These components are connected to each other via a bus 150. The teacher data creation device 100 is configured, for example, by a computer terminal.

制御部110は、CPU(Central Processing Unit)、およびRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリにより構成され、プログラムに従って教師データ作成装置100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。 The control unit 110 is composed of a CPU (Central Processing Unit) and memories such as RAM (Random Access Memory) and ROM (Read Only Memory), and controls each part of the teacher data creation device 100 and performs calculation processing according to a program. The functions of the control unit 110 will be described in detail later.

記憶部120は、HDD(Hard Disc Drive)、SSD(Solid State Drive)等により構成され、各種プログラムおよび各種データを記憶する。 The storage unit 120 is composed of a hard disk drive (HDD), a solid state drive (SSD), etc., and stores various programs and data.

通信部130は、ネットワークを介して、外部の装置と通信するためのインターフェース回路(例えばLANカード等)である。 The communication unit 130 is an interface circuit (e.g., a LAN card) for communicating with external devices via a network.

操作表示部140は、例えば、タッチパネルにより構成され得る。操作表示部140は、ユーザーからの各種入力を受け付ける。操作表示部140は各種情報を表示する。操作表示部140は、後述するように、入力データに類似する教師文章データ、および当該教師文章データに付与されたラベルを表示する。操作表示部140は受付部を構成する。ラベルは分類情報を構成する。 The operation display unit 140 may be configured, for example, by a touch panel. The operation display unit 140 accepts various inputs from the user. The operation display unit 140 displays various information. As described below, the operation display unit 140 displays teacher sentence data similar to the input data and labels assigned to the teacher sentence data. The operation display unit 140 constitutes a reception unit. The labels constitute classification information.

制御部110の機能について説明する。 The functions of the control unit 110 are explained below.

図3は、制御部110の機能ブロック図である。制御部110は、取得部111、変換部112、類似度算出部113、出力制御部114、および教師データ作成部115として機能する。説明を簡単にするために、図3には、記憶部120および操作表示部140も併せて示されている。出力制御部114は出力部を構成する。 Figure 3 is a functional block diagram of the control unit 110. The control unit 110 functions as an acquisition unit 111, a conversion unit 112, a similarity calculation unit 113, an output control unit 114, and a teacher data creation unit 115. For ease of explanation, FIG. 3 also shows the memory unit 120 and the operation display unit 140. The output control unit 114 constitutes the output unit.

取得部111は、入力装置200から入力データを受信することで取得する。取得部111は、通信部130を介して外部装置から入力データを受信することで取得してもよい。取得部111は、入力データが操作表示部140において入力される場合、入力された入力データを操作表示部140を介して取得してもよい。取得部111は、入力データが記憶部120に記憶される場合、記憶部120から読み出すことで入力データを取得してもよい。 The acquisition unit 111 acquires the input data by receiving it from the input device 200. The acquisition unit 111 may also acquire the input data by receiving it from an external device via the communication unit 130. When the input data is input at the operation display unit 140, the acquisition unit 111 may acquire the input data via the operation display unit 140. When the input data is stored in the memory unit 120, the acquisition unit 111 may acquire the input data by reading it from the memory unit 120.

変換部112は、入力データを特徴ベクトルに変換する。変換部112は、次のように入力データを特徴ベクトルに変換し得る。以下、入力データが日本語の文章データである場合を例に説明する。 The conversion unit 112 converts the input data into a feature vector. The conversion unit 112 may convert the input data into a feature vector as follows. Below, an example will be described in which the input data is Japanese text data.

変換部112は、入力データである文章を語(名詞、動詞、形容詞、副詞、および助詞等)ごとに分ける分かち書きを行う。例えば、分かち書きにより、「吾輩は猫である」という入力データは、「吾輩」、「は」、「猫」、「で」、「ある」の各語に分けられる。分かち書きには、汎用技術である、MeCab、Sudachi等を利用し得る。 The conversion unit 112 performs word segmentation to separate the sentences that are input data into words (nouns, verbs, adjectives, adverbs, particles, etc.). For example, by word segmentation, the input data "I am a cat" is separated into the words "I," "is," "cat," "de," and "aru." For word segmentation, general-purpose technologies such as MeCab and Sudachi can be used.

次に、変換部112は、各語をそれぞれベクトルに変換する分散表現化を行う。分散表現化により、各語はそれぞれ例えば100次元のベクトルに変換される。分散表現化により、各語にそれぞれ対応するベクトルが複数算出される。分散表現化には、汎用技術であるWord2Vec、fastText等を利用し得る。変換部112は、Wikipedia等のオンライン参加型百科事典や、Twitter等のSNSにおいて公衆に利用可能な文章を用いて教師無し学習により生成されたニューラルネットワーク等の学習済みモデルを用いて分散表現化を行い得る。 Next, the conversion unit 112 performs distributed representation, which converts each word into a vector. Through distributed representation, each word is converted into a vector of, for example, 100 dimensions. Through distributed representation, multiple vectors corresponding to each word are calculated. For distributed representation, general-purpose technologies such as Word2Vec and fastText can be used. The conversion unit 112 can perform distributed representation using a trained model such as a neural network generated by unsupervised learning using texts that are publicly available in online interactive encyclopedias such as Wikipedia and SNS such as Twitter.

次に、変換部112は、分散表現化された複数のベクトルから1つの特徴ベクトルを算出する。例えば、特徴ベクトルは、上記複数のベクトルの平均値、総和、または最大値として算出され得る。 Next, the conversion unit 112 calculates one feature vector from the distributed representation of the multiple vectors. For example, the feature vector can be calculated as the average, sum, or maximum value of the multiple vectors.

なお、変換部112は、分かち書き、分散表現化、および特徴ベクトルの算出をそれぞれ行うモジュールが一体化された単一のモジュールにより構成され得る。例えば、変換部112は、文章データ(データ)を用いた教師無し学習により生成された学習済みモデルにより構成され得る。当該学習済みモデルにより入力データが特徴ベクトルに変換され得る。当該学習済みモデルは、公衆に利用可能な文章を用いて教師無し学習により生成されたニューラルネットワーク等の学習済みモデルであり得る。 The conversion unit 112 may be configured as a single module that integrates modules that perform word segmentation, distributed representation, and feature vector calculation. For example, the conversion unit 112 may be configured as a trained model generated by unsupervised learning using text data (data). The trained model may convert input data into a feature vector. The trained model may be a trained model such as a neural network generated by unsupervised learning using publicly available text.

類似度算出部113は、変換部112により算出された特徴ベクトル(入力データの特徴ベクトル)に対する、既存の教師データにそれぞれ含まれる各教師文章データの特徴ベクトルの類似度(以下、単に「類似度」とも称する)をそれぞれ算出する。既存の教師データは、上述したように、教師文章データと当該教師文章データに付与されたラベルとの組合せである。類似度は、例えば、変換部112により算出された特徴ベクトルと、既存の教師データにそれぞれ含まれる各教師文章データとのユークリッド距離またはコサイン距離として算出され得る。既存の教師データは、当該教師データに含まれる教師文章データの特徴ベクトルに対応付けされて、例えば記憶部120に記憶され得る。類似度算出部113は、記憶部120から既存の教師データおよび当該既存の教師データに対応付けされた特徴ベクトルを読み出すことでこれらを利用し得る。 The similarity calculation unit 113 calculates the similarity (hereinafter, simply referred to as "similarity") of the feature vector of each teacher sentence data included in the existing teacher data to the feature vector (feature vector of the input data) calculated by the conversion unit 112. As described above, the existing teacher data is a combination of teacher sentence data and a label assigned to the teacher sentence data. The similarity can be calculated, for example, as the Euclidean distance or cosine distance between the feature vector calculated by the conversion unit 112 and each teacher sentence data included in the existing teacher data. The existing teacher data can be stored, for example, in the storage unit 120 in association with the feature vector of the teacher sentence data included in the teacher data. The similarity calculation unit 113 can use the existing teacher data and the feature vector associated with the existing teacher data by reading them from the storage unit 120.

出力制御部114は、類似度算出部113により算出された類似度が所定の閾値以上の既存の教師データを特定教師データとして、既存の教師データの中から抽出する。所定の閾値は、入力データへの適切なラベル付与の観点から実験等により適当に設定され得る。出力制御部114は、入力データ、特定教師データ、および特定教師データに含まれる教師文章データの類似度を操作表示部140に表示することで出力し得る。なお、出力制御部114は、類似度および/または入力データについては出力しなくてもよい。出力制御部114は、入力データ、特定教師データ、および特定教師データに含まれる教師文章データの類似度を外部の装置等へ送信することで出力してもよい。 The output control unit 114 extracts, from the existing teacher data, existing teacher data whose similarity calculated by the similarity calculation unit 113 is equal to or greater than a predetermined threshold value as specific teacher data. The predetermined threshold value may be appropriately set by experiment or the like from the viewpoint of appropriately labeling the input data. The output control unit 114 may output the similarity between the input data, the specific teacher data, and the teacher sentence data included in the specific teacher data by displaying it on the operation display unit 140. Note that the output control unit 114 does not have to output the similarity and/or the input data. The output control unit 114 may output the similarity between the input data, the specific teacher data, and the teacher sentence data included in the specific teacher data by transmitting it to an external device or the like.

出力制御部114は、既存の教師データに含まれるラベルを、入力データに付与するラベルを誘導するための誘導情報(以下、単に「誘導情報」と称する)とともにさらに出力し得る。出力制御部114は、既存の教師データに含まれるラベルを、入力データに付与するラベルとして選択可能に表示し得る。すなわち、出力制御部114は、過去に操作表示部140において入力データに付与するラベルとして受け付けられたラベルを選択可能に表示し得る。出力制御部114は、既存の教師データに含まれるラベル以外のラベルを、追加ラベル(追加の分類情報)として受け付け可能にするための選択オブジェクト146(図4参照)と、追加ラベルを入力するための入力欄147(図4参照)をさらに出力してもよい。 The output control unit 114 may further output the labels included in the existing teacher data together with guidance information (hereinafter simply referred to as "guidance information") for guiding the label to be assigned to the input data. The output control unit 114 may display the labels included in the existing teacher data selectable as labels to be assigned to the input data. In other words, the output control unit 114 may display labels previously accepted as labels to be assigned to the input data in a selectable manner on the operation display unit 140. The output control unit 114 may further output a selection object 146 (see FIG. 4) for allowing labels other than the labels included in the existing teacher data to be accepted as additional labels (additional classification information), and an input field 147 (see FIG. 4) for inputting the additional label.

図4は、出力制御部114により操作表示部に出力される出力画面141を示す図である。 Figure 4 shows the output screen 141 output to the operation display unit by the output control unit 114.

図4に示す出力画面141の例においては、入力データが、入力文章の欄142に「昼食にスパゲティを召し上がる。」と表示(出力)されている。出力画面141には、特定教師データ(教師文章データおよびラベル)、および類似度が類似文章の欄143に表示されている。類似文章の欄においては、特定教師データに含まれる教師文章データが「文章」の行に、特定教師データに含まれるラベルが「ラベル」の行に、類似度が「類似度」の行に表示されている。例えば、入力文章である「昼食にスパゲティを召し上がる。」に対する教師文章データである「朝食に納豆とご飯を召し上がる。」の類似度は比較的高い90%であり、「昼食にスパゲティを召し上がる。」と「朝食に納豆とご飯を召し上がる。」は特に類似すると判断されていることが判る。なお、初めて教師データを生成する場合等、既存の教師データが生成されておらず、特定教師データが存在しない場合は、特定教師データおよび類似度は表示されない。 In the example of the output screen 141 shown in FIG. 4, the input data is displayed (output) in the input sentence column 142 as "Eat spaghetti for lunch." In the output screen 141, the specific teacher data (teacher sentence data and label) and the similarity are displayed in the similar sentence column 143. In the similar sentence column, the teacher sentence data included in the specific teacher data are displayed in the "sentence" row, the label included in the specific teacher data are displayed in the "label" row, and the similarity is displayed in the "similarity" row. For example, the similarity of the teacher sentence data "Eat natto and rice for breakfast" to the input sentence "Eat spaghetti for lunch" is relatively high at 90%, and it can be seen that "Eat spaghetti for lunch" and "Eat natto and rice for breakfast" are judged to be particularly similar. Note that when teacher data is generated for the first time, when existing teacher data has not been generated and specific teacher data does not exist, the specific teacher data and the similarity are not displayed.

出力画面141には、既存の教師データに含まれるラベルが、誘導情報144とともに表示されている。表示されるラベルは、既存の教師データに含まれるラベルのすべてが表示され得る。図4の例においては、既存の教師データに含まれるラベルとして、「食事」、「排泄」、「睡眠」、および「運動」が表示されている。誘導情報は、類似度が最も高い教師文章データに付与されているラベルに表示され得る。誘導情報は、特定教師データに含まれるラベルのうち最も数が多いラベルに表示されてもよい。既存の教師データに含まれるラベルは、ラベル付与の欄145に表示されている。既存の教師データに含まれるラベルは選択可能なチェックボックスとともに表示されることで選択可能に表示されている。ユーザーは誘導情報144を参考に、チェックボックスをチェックすることによりいずれかのラベルを選択できる。選択されたラベルは、入力データに付与するラベルとして受け付けられる。 The output screen 141 displays the labels included in the existing teacher data together with the guidance information 144. The displayed labels may be all of the labels included in the existing teacher data. In the example of FIG. 4, "meal", "excretion", "sleep", and "exercise" are displayed as the labels included in the existing teacher data. The guidance information may be displayed on the label that is assigned to the teacher sentence data with the highest similarity. The guidance information may be displayed on the label that is the most numerous among the labels included in the specific teacher data. The labels included in the existing teacher data are displayed in the label assignment column 145. The labels included in the existing teacher data are displayed together with selectable check boxes, so that they can be selected. The user can select one of the labels by checking the check box with reference to the guidance information 144. The selected label is accepted as the label to be assigned to the input data.

出力画面141には、既存の教師データに含まれるラベル以外のラベルを、追加ラベルとして受け付け可能にするための選択オブジェクト146と、追加ラベルを入力するための入力欄147がさらに表示されている。選択オブジェクト146は、「追加」の文字と選択可能なチェックボックスとにより構成され、当該チェックボックスがチェックされることで、入力欄147への追加ラベルのユーザーによる入力が可能になる。入力欄147に入力された追加ラベルは、入力データに付与するラベル(以下、「付与ラベル」とも称する)として受け付けられる。 The output screen 141 further displays a selection object 146 for allowing labels other than those contained in the existing training data to be accepted as additional labels, and an input field 147 for inputting the additional label. The selection object 146 is composed of the word "add" and a selectable check box, and checking the check box allows the user to input an additional label into the input field 147. The additional label entered into the input field 147 is accepted as a label to be assigned to the input data (hereinafter also referred to as an "assigned label").

出力画面141には、「前の文章」ボタン148、および「次の文章」ボタン149がさらに表示され得る。「前の文章」ボタン148が選択されると、直前にラベルが付与された入力データ(教師文章データ)が「入力文章」の欄142に表示される。これにより、直前にラベルが付与された入力データに付与されているラベルの変更が可能になる。「次の文章」ボタン149が選択されると、次に取得部111により取得された入力データが「入力文章」の欄142に表示される。当該入力データに類似する教師文章データおよび当該教師文章データに付与されたラベルが類似度とともに表示される。また、既存の教師データに含まれるラベル等が表示される。 The output screen 141 may further display a "previous sentence" button 148 and a "next sentence" button 149. When the "previous sentence" button 148 is selected, the input data (teacher sentence data) to which a label was most recently assigned is displayed in the "input sentence" column 142. This makes it possible to change the label assigned to the input data to which a label was most recently assigned. When the "next sentence" button 149 is selected, the input data next acquired by the acquisition unit 111 is displayed in the "input sentence" column 142. Teacher sentence data similar to the input data and the labels assigned to the teacher sentence data are displayed together with the degree of similarity. In addition, labels and the like included in existing teacher data are displayed.

図3を再度参照して説明を継続する。教師データ作成部115は、操作表示部140に表示された出力画面141においてユーザーにより入力された付与ラベルを入力データに付与して教師データ(新教師データ)を作成する。 The explanation will be continued by referring again to FIG. 3. The teacher data creation unit 115 creates teacher data (new teacher data) by adding labels input by the user on the output screen 141 displayed on the operation display unit 140 to the input data.

作成された教師データを用いた分類器の学習、および学習済みの分類器による文章データの分類について説明する。以下、説明を簡単にするために、分類器117がニューラルネットワークのモデルである場合を例に説明する。 We will explain how to train a classifier using the created training data, and how to classify text data using the trained classifier. For simplicity's sake, we will use an example in which the classifier 117 is a neural network model.

図5は、教師データを用いた分類器117の学習時の制御部110の機能を示すブロック図である。図5に示す制御部110の機能は、制御部110がプログラムを実行することで実現され得る。 Figure 5 is a block diagram showing the functions of the control unit 110 when the classifier 117 learns using training data. The functions of the control unit 110 shown in Figure 5 can be realized by the control unit 110 executing a program.

制御部110は、分類器117およびロス算出部118として機能する。分類器117は、教師データを用いて学習される。より詳細には、分類器117は、教師データを構成する、教師文章データおよび当該教師文章データに付与されたラベル(教師クラス)の組合せを用いて学習される。ロス算出部118は、教師文章データが分類器117に入力されたときに分類器117により分類(推定)される分類結果(クラス)と、教師文章データに付与されたラベルとの差をクラスロスとして算出する。分類結果は、クラスごとの尤度であり得る。クラスロスは、教師文章データに付与されたラベルのクラスの、分類器117による分類結果における尤度を1から減算することで算出され得る。分類器117は、算出されたクラスロスが小さくなるようにバックプロパゲーションにより学習される。 The control unit 110 functions as a classifier 117 and a loss calculation unit 118. The classifier 117 is trained using teacher data. More specifically, the classifier 117 is trained using a combination of teacher text data and labels (teacher classes) assigned to the teacher text data, which constitute the teacher data. The loss calculation unit 118 calculates the difference between the classification result (class) classified (estimated) by the classifier 117 when the teacher text data is input to the classifier 117 and the label assigned to the teacher text data as the class loss. The classification result may be the likelihood for each class. The class loss may be calculated by subtracting the likelihood of the class of the label assigned to the teacher text data in the classification result by the classifier 117 from 1. The classifier 117 is trained by backpropagation so that the calculated class loss becomes small.

図6は、教師データを用いて学習された学習済みの分類器117による分類時(推定時)の制御部110の機能を示すブロック図である。図6に示す制御部110の機能は、制御部110がプログラムを実行することで実現され得る。 Figure 6 is a block diagram showing the functions of the control unit 110 during classification (estimation) by a trained classifier 117 that has been trained using training data. The functions of the control unit 110 shown in Figure 6 can be realized by the control unit 110 executing a program.

制御部110は、学習済みの分類器117として機能し得る。分類器117は、分類対象の文章データが入力されたときに分類結果(クラス)を出力することで、文章データを分類する。分類結果は、クラスごとの尤度であり得る。これにより、分類結果において尤度が最も高いクラスに文章データが分類されたことになる。 The control unit 110 can function as a trained classifier 117. The classifier 117 classifies the text data by outputting a classification result (class) when text data to be classified is input. The classification result can be the likelihood for each class. As a result, the text data is classified into the class with the highest likelihood in the classification result.

図7は、教師データ作成システム10の動作を示すフローチャートである。本フローチャートは、プログラムに従い、教師データ作成装置100の制御部110により実行され得る。 Figure 7 is a flowchart showing the operation of the teacher data creation system 10. This flowchart can be executed by the control unit 110 of the teacher data creation device 100 in accordance with a program.

制御部110は、入力データを取得したかどうか判断する(S101)。制御部110は、入力データを取得していないと判断した場合は(S101:NO)、ステップS101を再度実行する。 The control unit 110 determines whether input data has been acquired (S101). If the control unit 110 determines that input data has not been acquired (S101: NO), it executes step S101 again.

制御部110は、入力データを取得したと判断した場合は(S101:YES)、入力データを特徴ベクトルに変換する(S102)。 When the control unit 110 determines that input data has been acquired (S101: YES), it converts the input data into a feature vector (S102).

制御部110は、既存の教師データと、当該既存の教師データに含まれる教師文章データの特徴ベクトルを記憶部120から読み出す(S103)。 The control unit 110 reads out the existing teacher data and the feature vectors of the teacher sentence data contained in the existing teacher data from the memory unit 120 (S103).

制御部110は、入力データの特徴ベクトルを算出し、入力データの特徴ベクトルに対する、各教師文章データの特徴ベクトルの類似度を算出する(S104)。 The control unit 110 calculates the feature vector of the input data and calculates the similarity of the feature vector of each teaching sentence data to the feature vector of the input data (S104).

制御部110は、類似度が所定の閾値以上の教師文章データを含む既存の教師データを特定教師データとして抽出する(S105)。 The control unit 110 extracts existing teacher data that includes teacher sentence data whose similarity is equal to or greater than a predetermined threshold as specific teacher data (S105).

制御部110は、特定教師データおよび類似度を出力する(S106)。 The control unit 110 outputs the specific teacher data and the similarity (S106).

制御部110は、既存の教師データに含まれる各ラベルを選択可能に誘導情報とともに操作表示部140に表示すること等により出力する(S107)。ユーザーは、表示された、特定教師データおよび類似度、ならびに、既存の教師データに含まれる各ラベルおよび誘導情報を参考にして、特定教師データと一貫性のあるラベル付与を行うことができる。 The control unit 110 outputs each label included in the existing teacher data by, for example, displaying it on the operation display unit 140 together with guidance information in a selectable manner (S107). The user can assign labels that are consistent with the specific teacher data by referring to the displayed specific teacher data and similarity, as well as each label and guidance information included in the existing teacher data.

制御部110は、操作表示部140において表示された、既存の教師データに含まれる各ラベルのうちのいずれかが選択されたこと等により入力データに付与する付与ラベルが取得されたかどうか判断する(S108)。制御部110は、入力データに付与する付与ラベルが取得されていないと判断した場合は(S108:NO)、ステップS108を再度実行する。 The control unit 110 determines whether an assigned label to be assigned to the input data has been obtained by, for example, selecting one of the labels contained in the existing teacher data displayed on the operation display unit 140 (S108). If the control unit 110 determines that an assigned label to be assigned to the input data has not been obtained (S108: NO), it executes step S108 again.

制御部110は、入力データに付与する付与ラベルが取得されたと判断した場合は(S108:YES)、付与ラベルを入力データに付与して教師データ(新教師データ)を作成する(S109)。 If the control unit 110 determines that an assigned label to be assigned to the input data has been obtained (S108: YES), it assigns the assigned label to the input data to create teacher data (new teacher data) (S109).

実施形態は、以下の効果を奏する。 The embodiment provides the following advantages:

入力された第1データに類似する第2データ、および第2データに付与された分類情報を出力し、第1データに付与する分類情報を受け付け、受け付けられた分類情報を第1データに付与して、前記教師データを作成する。これにより、ラベル付与済の教師データの数量によらず、一貫性のあるラベル付与がされた教師データを作成できる。また、教師データとして分類済みデータが増えるほど第1データに類似する第2データ数が増えるため、教師データの一貫性を向上できる。また、第1データに類似する第2データが出力されるため、ラベル付与におけるヒューマンエラーを抑制できる。 The system outputs second data similar to the input first data and classification information assigned to the second data, accepts classification information to be assigned to the first data, and assigns the accepted classification information to the first data to create the teacher data. This makes it possible to create teacher data with consistent labels assigned regardless of the amount of teacher data to which labels have been assigned. Furthermore, the more data classified as teacher data there is, the more second data similar to the first data there is, so the consistency of the teacher data can be improved. Furthermore, because second data similar to the first data is output, human error in labeling can be suppressed.

さらに、第2データおよび分類情報とともに、第2データの第1データに対する類似度をさらに出力する。これにより、教師データの精度を向上できる。 Furthermore, the similarity of the second data to the first data is output together with the second data and the classification information. This makes it possible to improve the accuracy of the training data.

さらに、第1データおよび第2データを文章データとする。これにより、より効果的に一貫性のあるラベル付与がされた教師データを作成できる。 Furthermore, the first data and the second data are text data. This makes it possible to create training data that is more effectively and consistently labeled.

さらに、第1データを特徴ベクトルに変換し、第1データが変換された特徴ベクトルに特徴ベクトルが類似する第2データ、および第2データに付与された分類情報を出力する。これにより、より簡単に高精度かつ一貫性のある教師データを作成できる。 The system further converts the first data into a feature vector, and outputs second data whose feature vector is similar to the feature vector into which the first data was converted, and classification information added to the second data. This makes it easier to create highly accurate and consistent training data.

さらに、教師無し学習により生成された学習済みモデルにより、第1データを特徴ベクトルに変換する。これにより、より簡単かつ低コストで一貫性のある教師データを作成できる。 Furthermore, the first data is converted into a feature vector using a trained model generated by unsupervised learning. This makes it easier and less costly to create consistent training data.

さらに、第2データを、過去に教師データ作成部により分類情報が付与されたことで分類情報とともに教師データをなすデータとする。これにより、より簡単かつ効果的に一貫性のある教師データを作成できる。 Furthermore, the second data is data that, together with the classification information, constitutes teacher data due to the classification information having been previously assigned to the second data by the teacher data creation unit. This makes it possible to create consistent teacher data more easily and effectively.

さらに、過去に受け付けた分類情報を、分類情報を受け付けるための誘導情報とともにさらに出力する。これにより、入力された第1データに、より簡単かつ短時間に分類情報を付与できる。 Furthermore, previously accepted classification information is output together with guidance information for accepting more classification information. This makes it possible to assign classification information to the input first data more easily and quickly.

さらに、過去に受け付けた分類情報を選択可能に出力し、選択可能に出力した分類情報のうち、選択された分類情報を、第1データに付与する分類情報として受け付ける。これにより、さらに簡単にラベル付与ができるとともに、ラベル付与におけるヒューマンエラーを抑制できる。 Furthermore, previously accepted classification information is output in a selectable manner, and selected classification information from the selectable output classification information is accepted as classification information to be assigned to the first data. This makes it easier to assign labels and reduces human error in label assignment.

さらに、過去に受け付けた分類情報以外の追加の分類情報を受け付け可能にするための選択オブジェクトと、追加の分類情報を入力するための入力欄とをさらに出力し、選択オブジェクトが選択されて入力欄に入力された分類情報を、第1データに付与する分類情報として受け付ける。これにより、より柔軟にラベル付与ができる。 Furthermore, a selection object for enabling reception of additional classification information other than the classification information previously received, and an input field for inputting the additional classification information are further output, and the classification information inputted into the input field after the selection object is selected is accepted as the classification information to be assigned to the first data. This allows for more flexible label assignment.

以上に説明した、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムは、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な教師データ作成等が備える構成を排除するものではない。 The teacher data creation device, teacher data creation method, and teacher data creation program described above are intended to describe the main configurations in order to explain the features of the above-mentioned embodiments, but are not limited to the above-mentioned configurations and can be modified in various ways within the scope of the claims. Furthermore, configurations that are typically used for creating teacher data, etc. are not excluded.

例えば、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。 For example, some steps in the above-described flowchart may be omitted and other steps may be added. Also, some of the steps may be executed simultaneously, or one step may be divided into multiple steps and executed.

また、上述したシステムにおける各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその教師データ作成装置等の装置のソフトウエアに組み込まれてもよい。 The means and methods for performing various processes in the above-mentioned system can be realized by either a dedicated hardware circuit or a programmed computer. The above-mentioned programs may be provided by a computer-readable recording medium such as a USB memory or a DVD (Digital Versatile Disc)-ROM, or may be provided online via a network such as the Internet. In this case, the programs recorded on the computer-readable recording medium are usually transferred to and stored in a storage unit such as a hard disk. The above-mentioned programs may be provided as standalone application software, or may be incorporated as a function into the software of a device such as the teacher data creation device.

10 教師データ作成システム、
100 教師データ作成装置、
110 制御部、
111 取得部、
112 変換部、
113 類似度算出部、
114 出力制御部、
115 教師データ作成部、
117 分類器、
118 ロス算出部、
120 記憶部、
130 通信部、
140 操作表示部、
200 入力装置、
201 画像、
202 解析対象。
10. Teacher data creation system,
100 Teacher data creation device,
110 control unit,
111 Acquisition unit,
112 conversion unit,
113 Similarity calculation unit,
114 Output control unit,
115 Teacher data creation unit,
117 Classifier,
118 loss calculation unit,
120 memory unit,
130 Communication department,
140 Operation display unit,
200 Input device,
201 images,
202 Object of analysis.

Claims (19)

データを分類する分類器の学習に使用される教師データを作成するための教師データ作成装置であって、
入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力する出力制御部と、
前記第1データに付与する前記分類情報を受け付ける受付部と、
受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成する教師データ作成部と、
を有する教師データ作成装置。
A training data creation device for creating training data used for training a classifier that classifies data, comprising:
an output control unit that outputs second data similar to the input first data and classification information assigned to the second data;
a reception unit that receives the classification information to be assigned to the first data;
a teacher data creation unit that creates the teacher data by adding the received classification information to the first data;
A teacher data creation device having the above structure.
前記出力制御部は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、請求項1に記載の教師データ作成装置。 The teacher data creation device according to claim 1, wherein the output control unit further outputs the similarity of the second data to the first data together with the second data and the classification information. 前記第1データおよび前記第2データは、文章データである、請求項1または2に記載の教師データ作成装置。 The teacher data creation device according to claim 1 or 2, wherein the first data and the second data are text data. 前記出力制御部は、
前記第1データを特徴ベクトルに変換する変換部と、
前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力する出力部と、を有する、請求項1~3のいずれか一項に記載の教師データ作成装置。
The output control unit is
A conversion unit that converts the first data into a feature vector;
The teacher data creation device according to any one of claims 1 to 3, further comprising: an output unit that outputs the second data, the feature vector of which is similar to the feature vector into which the first data is converted, and the classification information assigned to the second data.
前記変換部は、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、請求項4に記載の教師データ作成装置。 The teacher data creation device according to claim 4, wherein the conversion unit converts the first data into the feature vector using a trained model generated by unsupervised learning using the data. 前記第2データは、過去に前記教師データ作成部により前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、請求項1~5のいずれか一項に記載の教師データ作成装置。 The teacher data creation device according to any one of claims 1 to 5, wherein the second data is data to which the classification information has been previously assigned by the teacher data creation unit, and which constitutes the teacher data together with the classification information. 前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、前記受付部において前記分類情報を受け付けるための誘導情報とともにさらに出力する、請求項1~6のいずれか一項に記載の教師データ作成装置。 The teacher data creation device according to any one of claims 1 to 6, wherein the output control unit further outputs the classification information previously accepted by the acceptance unit together with guidance information for accepting the classification information in the acceptance unit. 前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、選択可能に出力し、
前記受付部は、前記出力制御部が選択可能に出力した前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項1~7のいずれか一項に記載の教師データ作成装置。
The output control unit outputs the classification information previously accepted by the acceptance unit in a selectable manner;
The teacher data creation device according to any one of claims 1 to 7, wherein the reception unit receives the selected classification information from the classification information selectably output by the output control unit as the classification information to be assigned to the first data.
前記出力制御部は、過去に前記受付部が受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、
前記受付部は、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項8に記載の教師データ作成装置。
the output control unit further outputs a selection object for enabling reception of additional classification information other than the classification information previously received by the reception unit, and an input field for inputting the additional classification information;
The teacher data creation device according to claim 8 , wherein the reception unit receives the classification information inputted into the input field when the selected object is selected as the classification information to be assigned to the first data.
教師データ作成装置により実行される方法であって、
データを分類する分類器の学習に使用される教師データを作成するための教師データ作成方法であって、
入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力するステップ(a)と、
前記第1データに付与する前記分類情報を受け付けるステップ(b)と、
受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成するステップ(c)と、
を有する教師データ作成方法。
A method executed by a teacher data creation device,
A method for creating training data for use in training a classifier that classifies data, comprising the steps of:
(a) outputting second data similar to the input first data and classification information assigned to the second data;
(b) receiving the classification information to be assigned to the first data;
(c) adding the received classification information to the first data to create the teacher data;
A method for creating teacher data comprising the steps of:
前記ステップ(a)は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、請求項10に記載の教師データ作成方法。 The teaching data creation method according to claim 10, wherein step (a) further outputs the similarity of the second data to the first data together with the second data and the classification information. 前記第1データおよび前記第2データは、文章データである、請求項10または11に記載の教師データ作成方法。 The teacher data creation method according to claim 10 or 11, wherein the first data and the second data are text data. 前記ステップ(a)は、
前記第1データを特徴ベクトルに変換するステップ(d)と、
前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力するステップ(e)と、を有する、請求項10~12のいずれか一項に記載の教師データ作成方法。
The step (a) comprises:
(d) converting the first data into a feature vector;
The teacher data creation method according to any one of claims 10 to 12, further comprising a step (e) of outputting the second data whose feature vector is similar to the feature vector into which the first data is converted, and the classification information assigned to the second data.
前記ステップ(d)においては、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、請求項13に記載の教師データ作成方法。 The teaching data creation method according to claim 13, wherein in step (d), the first data is converted into the feature vector by a trained model generated by unsupervised learning using the data. 前記第2データは、過去に前記ステップ(c)において前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、請求項10~14のいずれか一項に記載の教師データ作成方法。 The teacher data creation method according to any one of claims 10 to 14, wherein the second data is data to which the classification information was previously assigned in step (c) and which constitutes the teacher data together with the classification information. 前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、前記ステップ(b)において前記分類情報を受け付けるための誘導情報とともにさらに出力する、請求項10~15のいずれか一項に記載の教師データ作成方法。 The teaching data creation method according to any one of claims 10 to 15, wherein in step (a), the classification information previously accepted in step (b) is further output together with guidance information for accepting the classification information in step (b). 前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、選択可能に出力し、
前記ステップ(b)は、前記ステップ(a)において選択可能に出力された前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項10~16のいずれか一項に記載の教師データ作成方法。
In the step (a), the classification information previously received in the step (b) is output in a selectable manner;
The teacher data creation method according to any one of claims 10 to 16, wherein the step (b) accepts the selected classification information from the classification information output in a selectable manner in the step (a) as the classification information to be assigned to the first data.
前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、
前記ステップ(b)においては、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項17に記載の教師データ作成方法。
In the step (a), a selection object for enabling reception of additional classification information other than the classification information previously received in the step (b) and an input field for inputting the additional classification information are further output;
18. The teacher data creation method according to claim 17, wherein in the step (b), the classification information entered in the input field when the selected object is selected is accepted as the classification information to be assigned to the first data.
請求項10から請求項18のいずれか一項に記載の教師データ作成方法を、コンピューターに実行させるための教師データ作成プログラム。 A teacher data creation program for causing a computer to execute the teacher data creation method according to any one of claims 10 to 18.
JP2021094106A 2021-06-04 2021-06-04 Teacher data creation device, teacher data creation method, and teacher data creation program Active JP7635641B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021094106A JP7635641B2 (en) 2021-06-04 2021-06-04 Teacher data creation device, teacher data creation method, and teacher data creation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021094106A JP7635641B2 (en) 2021-06-04 2021-06-04 Teacher data creation device, teacher data creation method, and teacher data creation program

Publications (2)

Publication Number Publication Date
JP2022186072A JP2022186072A (en) 2022-12-15
JP7635641B2 true JP7635641B2 (en) 2025-02-26

Family

ID=84441935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021094106A Active JP7635641B2 (en) 2021-06-04 2021-06-04 Teacher data creation device, teacher data creation method, and teacher data creation program

Country Status (1)

Country Link
JP (1) JP7635641B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (en) 2016-12-22 2018-07-05 キヤノン株式会社 Information processor, information processing method, and program
CN112819099A (en) 2021-02-26 2021-05-18 网易(杭州)网络有限公司 Network model training method, data processing method, device, medium and equipment

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6890764B2 (en) * 2019-09-27 2021-06-18 楽天グループ株式会社 Teacher data generation system, teacher data generation method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (en) 2016-12-22 2018-07-05 キヤノン株式会社 Information processor, information processing method, and program
CN112819099A (en) 2021-02-26 2021-05-18 网易(杭州)网络有限公司 Network model training method, data processing method, device, medium and equipment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
近藤杏祐, 外7名,"マルチモーダルセンシングによる状況内評価のラベリング支援手法",インタラクション2020論文集,2020年03月02日,p.1103-1108

Also Published As

Publication number Publication date
JP2022186072A (en) 2022-12-15

Similar Documents

Publication Publication Date Title
JP6799800B2 (en) Semantic information generation method, semantic information generation device, and program
KR102542914B1 (en) Multilingual translation device and multilingual translation method
US12267305B2 (en) Privacy preserving document analysis
KR102258000B1 (en) Method and server for providing image tlanslation service through linkage with a plurality of user terminals
KR102410715B1 (en) Apparatus and method for analyzing sentiment of text data based on machine learning
JP7618201B2 (en) Text classifier and background knowledge representation generator for identifying answers, and training device and computer program
US12210566B1 (en) Apparatus and method for generation of an integrated data file
JP7367139B2 (en) Data search method and system
JP6509391B1 (en) Computer system
JP7635641B2 (en) Teacher data creation device, teacher data creation method, and teacher data creation program
CN119649894A (en) Gene regulation network prediction model generation method, device, server and medium
KR102215259B1 (en) Method of analyzing relationships of words or documents by subject and device implementing the same
JP7283112B2 (en) Information processing device, information processing method and program
CN112528897A (en) Portrait age estimation method, Portrait age estimation device, computer equipment and storage medium
CN117932016A (en) Dialogue generation method, related device, equipment and storage medium
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
JP2023023810A (en) Fill-in-the-blank question creation device, fill-in-the-blank question creation method, and program
CN112347253A (en) Method and device for establishing text information recognition model and terminal equipment
JP2021174117A (en) Learning device, representative image extraction device and program
US20260010657A1 (en) Information processing apparatus, selection method, and non-transitory computer-readable storage medium
EP4524808A1 (en) Apparatus and method for generation of an integrated data file
US20260011163A1 (en) Information processing apparatus, analysis method, and non-transitory computer-readable recording medium
US20250086518A1 (en) Apparatus for post action planning and method of use
Kurpicz-Briki Processing Written Language
KR20260041946A (en) System for generating and inserting recommended images in accordance with the original text of the article and method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250127

R150 Certificate of patent or registration of utility model

Ref document number: 7635641

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150