Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7052866B2 - 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム - Google Patents
[go: Go Back, main page]

JP7052866B2 - 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム - Google Patents

自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム Download PDF

Info

Publication number
JP7052866B2
JP7052866B2 JP2020514039A JP2020514039A JP7052866B2 JP 7052866 B2 JP7052866 B2 JP 7052866B2 JP 2020514039 A JP2020514039 A JP 2020514039A JP 2020514039 A JP2020514039 A JP 2020514039A JP 7052866 B2 JP7052866 B2 JP 7052866B2
Authority
JP
Japan
Prior art keywords
certainty
feature
estimation model
estimation
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020514039A
Other languages
English (en)
Other versions
JPWO2019202941A1 (ja
Inventor
厚志 安藤
歩相名 神山
哲 小橋川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019202941A1 publication Critical patent/JPWO2019202941A1/ja
Application granted granted Critical
Publication of JP7052866B2 publication Critical patent/JP7052866B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Description

この発明は、複数の独立した特徴量を用いてラベル分類を行う推定モデルを学習する技術に関する。
音声からパラ言語情報(例えば、発話意図が疑問か平叙か)を推定する技術が求められている。パラ言語情報は、例えば、音声翻訳の高度化(例えば、「明日」という日本語の発話に対して、疑問意図「明日?」と理解して「Is it tomorrow?」と英語に翻訳したり、平叙意図「明日。」と理解して「It is tomorrow.」と英語に翻訳したりと、フランクな発話に対しても発話者の意図を正しく理解した日英翻訳ができる)などに応用可能である。
音声からパラ言語情報を推定する技術の例として、音声からの疑問推定技術が非特許文献1,2に示されている。非特許文献1では、音声の短時間ごとの声の高さなどの韻律特徴の時系列情報に基づいて疑問か平叙かを推定する。非特許文献2では、韻律特徴の発話統計量(平均、分散など)に加えて、言語特徴(どの単語が表れたか)に基づいて疑問か平叙かを推定する。どちらの技術でも、発話ごとの特徴量と教師ラベル(パラ言語情報の正解値、例えば疑問、平叙の2値)との組から深層学習等の機械学習技術を用いてパラ言語情報推定モデルを学習し、そのパラ言語情報推定モデルに基づいて推定対象発話のパラ言語情報を推定する。
これらの従来技術では、教師ラベルが付与された少数の発話からモデル学習を行う。これは、パラ言語情報の教師ラベル付与は人間が行う必要があり、教師ラベルが付与された発話の収集にコストが掛かるためである。しかしながら、モデル学習のための発話が少ない場合、パラ言語情報の特徴(例えば疑問発話に特有な韻律パターンなど)が正しく学習できず、パラ言語情報の推定精度が低下するおそれがある。そこで、教師ラベル(2値に限らず、多値であってもよい)が付与された少数の発話に加え、教師ラベルが付与されていない大量の発話をモデル学習に利用することが行われている。このような学習手法は、半教師あり学習と呼ばれる。
半教師あり学習の代表的手法として、自己訓練(self-training)が挙げられる(非特許文献3参照)。自己訓練は、少数の教師ラベルありデータから学習した推定モデルで教師なしデータのラベルを推定し、推定されたラベルを教師ラベルとして再学習する手法である。このとき、教師ラベルの確信度が高い(例えば、ある教師ラベルの事後確率が90%以上など)発話のみを学習する。
Y. Tang, Y. Huang, Z. Wu, H. Meng, M. Xu, L. Cai, "Question detection from acoustic features using recurrent neural network with gated recurrent unit,"Proc. ICASSP, pp. 6125-6129, 2016. K. Boakye, B. Favre, D. Hakkini-Tur, "Any Questions? Automatic Question Detection in Meetings," Proc. ASRU, pp. 485-489, 2009. D. Yarowsky, "Unsupervised word sense disambiguation rivaling supervised methods,"Proc. ACL, pp. 189-196, 1995.
しかしながら、パラ言語情報推定モデルの学習に自己訓練を単純に導入しても推定精度を向上させることは難しい。なぜなら、パラ言語情報は複雑な要因に基づいて教師ラベルが決定されるためである。例えば、図1に示すように、疑問意図かどうかは、韻律特徴(声のトーンが疑問調であるか)と言語特徴(文として疑問調であるか)のどちらかだけ疑問意図の特徴を示していた場合でも、両方とも疑問意図の特徴を示していた場合でも、同じ「疑問」の教師ラベルとなる。このような複雑な発話に対して自己訓練を行う場合、少数の教師ラベルあり発話から学習した推定モデルでは複雑さが正しく学習されず確信度の推定誤りが生じやすい。つまり、学習すべきでない発話を自己訓練してしまうことが増え、自己訓練による推定精度向上が困難となる。
この発明の目的は、このような技術的課題に鑑みて、大量の教師ラベルなしデータを利用して効果的に推定モデルの自己訓練を行うことである。
上記の課題を解決するために、この発明の第一の態様の自己訓練データ選別装置は、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した特徴量それぞれから所定のラベルごとに確信度を推定する推定モデルを記憶する推定モデル記憶部と、教師ラベルなしデータから抽出した特徴量から推定モデルを用いてラベルごとの確信度を推定する確信度推定部と、特徴量から選択した1つの特徴量を学習対象として、教師ラベルなしデータから得たラベルごとの確信度が学習対象の特徴量に対して特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して学習対象の自己訓練データとして選別するデータ選別部と、を含み、確信度閾値は、学習対象とする特徴量に対応する確信度閾値より、学習対象としない特徴量に対応する確信度閾値の方が高く設定されている。
上記の課題を解決するために、この発明の第二の態様の推定モデル学習装置は、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した特徴量それぞれから所定のラベルごとに確信度を推定する推定モデルを記憶する推定モデル記憶部と、教師ラベルなしデータから抽出した特徴量から推定モデルを用いてラベルごとの確信度を推定する確信度推定部と、特徴量から選択した1つの特徴量を学習対象として、教師ラベルなしデータから得たラベルごとの確信度が学習対象の特徴量に対して特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して学習対象の自己訓練データとして選別するデータ選別部と、学習対象の自己訓練データを用いて学習対象の特徴量に対応する推定モデルを再学習する推定モデル再学習部と、を含み、確信度閾値は、学習対象とする特徴量に対応する確信度閾値より、学習対象としない特徴量に対応する確信度閾値の方が高く設定されている。
この発明によれば、大量の教師ラベルなしデータを利用して効果的に推定モデルの自己訓練を行うことができる。その結果、例えば、音声からパラ言語情報を推定する推定モデルの推定精度が向上する。
図1は、韻律特徴および言語特徴とパラ言語情報との関係性を説明するための図である。 図2は、本発明と従来技術とのデータ選別の違いを説明するための図である。 図3は、推定モデル学習装置の機能構成を例示する図である。 図4は、推定モデル学習部の機能構成を例示する図である。 図5は、パラ言語情報推定部の機能構成を例示する図である。 図6は、推定モデル学習方法の処理手続きを例示する図である。 図7は、自己訓練データ選別規則を例示する図である。 図8は、パラ言語情報推定装置の機能構成を例示する図である。 図9は、パラ言語情報推定方法の処理手続きを例示する図である。 図10は、推定モデル学習装置の機能構成を例示する図である。 図11は、推定モデル学習方法の処理手続きを例示する図である。 図12は、推定モデル学習装置の機能構成を例示する図である。 図13は、推定モデル学習方法の処理手続きを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
本発明のポイントは、パラ言語情報の特性を考慮して「確実に学習すべき発話」を選別する点にある。上述したように、自己訓練の課題は、学習すべきでない発話を自己訓練に利用するおそれがある点である。したがって、「確実に学習すべき発話」を検出し、その発話だけを自己訓練に利用すれば、この課題を解決することができる。
学習すべき発話の検出にはパラ言語情報の特性を利用する。図1に示したように、パラ言語情報の特性として、韻律特徴と言語特徴のどちらかだけでも推定できることが挙げられる。これを利用し、本発明では韻律特徴と言語特徴のそれぞれでモデル学習を行い、韻律特徴の推定モデルと言語特徴の推定モデルで共に確信度が高かった発話(図1において、韻律特徴と言語特徴で共に「疑問らしさあり」の確信度が高い、または、共に「疑問らしさなし」の確信度が高い発話の集合)だけを自己訓練に利用する。パラ言語情報のように、韻律特徴と言語特徴のどちらかだけで推定可能な情報であれば、このような二つの側面からのデータ選別により、学習すべき発話をより正確に選別することができる。
具体的な例を図2に示す。一般的な自己訓練手法では、韻律特徴や言語特徴などの区別をせず、自己訓練に利用する発話を選別する。本発明では、韻律特徴と言語特徴のどちらに対しても確信度が高い発話(例えば、両方の特徴に対して疑問らしさが共に高い最上段の発話と、平叙らしさが共に高い最下段の発話)だけを選別し、自己訓練に利用する。また自己訓練の際には、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとを別々に自己訓練する。これにより、韻律特徴のみに基づく推定モデルでは語尾上がりなどの特徴を、言語特徴のみに基づく推定モデルでは疑問詞(例えば「どれ」「どんな」)などの特徴を学習できる。パラ言語情報推定の際には、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとの推定結果に基づいて最終的な推定を行う(例えば、どちらかの推定モデルで疑問と判定された場合は疑問とし、どちらの推定モデルでも疑問と判定されなかった場合は平叙とする)ことで、韻律特徴と言語特徴のどちらかだけがパラ言語情報の特徴を表す発話であっても、高精度に推定を行うことができる。
さらに本発明では、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルのそれぞれの自己訓練において、異なる確信度の閾値を用いる点を特徴とする。一般に自己訓練では、確信度が高い発話を利用すると、自己訓練に利用した発話のみに特化した推定モデルができてしまい、推定精度が向上しにくい。一方で、確信度が低い発話を利用すると、多様な発話を学習させられるが、確信度の推定を誤った発話(学習すべきでない発話)を学習に利用するおそれが増す。本発明では、自己訓練の対象と同じ特徴では確信度の閾値を低くし、自己訓練の対象と異なる特徴では確信度の閾値を高くするように確信度の閾値を設定する(例えば、韻律特徴のみに基づく推定モデルを自己訓練する際には、韻律特徴のみに基づく推定モデルの推定結果で確信度が0.5以上、言語特徴のみに基づく推定モデルの推定結果で確信度が0.8以上の発話を利用するが、言語特徴のみに基づく推定モデルを自己訓練する際には、韻律特徴のみに基づく推定モデルの推定結果で確信度が0.8以上、言語特徴のみに基づく推定モデルの推定結果で確信度が0.5以上の発話を利用する)。これにより、確信度の推定を誤った発話を取り除きながら、多様な発話を自己訓練に用いることができる。
具体的には、以下の手順で推定モデルの自己訓練を行う。
手順1.教師ラベルが付与された少数の発話からパラ言語情報推定モデルの学習を行う。このとき、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルの二つを別々に学習する。
手順2.教師ラベルが付与されていない多数の発話に対し、学習すべき発話の選別を行う。選別方法は次の通りとする。韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルのそれぞれを用いて教師ラベルが付与されていない発話のパラ言語情報を確信度付きで推定する。一方の特徴で確信度が一定以上の発話のうち、もう一方の特徴でも確信度が一定以上の発話を学習すべき発話とみなす。例えば、韻律特徴のみに基づく推定モデルで一定以上の確信度があり、その中で言語特徴のみに基づく推定モデルでも一定以上の確信度があった発話、かつ、推定結果のパラ言語情報ラベルが同一の発話だけを、韻律特徴のみに基づく推定モデルで学習すべき発話とみなす。このとき、モデル学習の対象と同じ特徴では確信度の閾値を低くし、モデル学習の対象と異なる特徴では確信度の閾値を高くするように確信度の閾値を設定する。例えば、韻律特徴のみに基づく推定モデルを学習するときには、韻律特徴のみに基づく推定モデルの確信度の閾値を低くし、言語特徴のみに基づく推定モデルの確信度の閾値を高くする。
手順3.選別した発話を用いて、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとを改めて学習する。このときの教師ラベルは、手順2で推定したパラ言語情報の結果を利用する。
[第一実施形態]
第一実施形態の推定モデル学習装置1は、図3に例示するように、教師ラベルあり発話記憶部10a、教師ラベルなし発話記憶部10b、韻律特徴推定モデル学習部11a、言語特徴推定モデル学習部11b、韻律特徴パラ言語情報推定部12a、言語特徴パラ言語情報推定部12b、韻律特徴データ選別部13a、言語特徴データ選別部13b、韻律特徴推定モデル再学習部14a、言語特徴推定モデル再学習部14b、韻律特徴推定モデル記憶部15a、および言語特徴推定モデル記憶部15bを備える。推定モデル学習装置1が備える各処理部のうち、韻律特徴推定モデル学習部11a、言語特徴推定モデル学習部11b、韻律特徴パラ言語情報推定部12a、言語特徴パラ言語情報推定部12b、韻律特徴データ選別部13a、言語特徴データ選別部13b、韻律特徴推定モデル記憶部15a、および言語特徴推定モデル記憶部15bにより、自己訓練データ選別装置9を構成することができる。韻律特徴推定モデル学習部11aは、図4に例示するように、韻律特徴抽出部111aおよびモデル学習部112aを備える。言語特徴推定モデル学習部11bは、同様に、言語特徴抽出部111bおよびモデル学習部112bを備える。韻律特徴パラ言語情報推定部12aは、図5に例示するように、韻律特徴抽出部121aおよびパラ言語情報推定部122aを備える。言語特徴パラ言語情報推定部12bは、同様に、言語特徴抽出部121bおよびパラ言語情報推定部122bを備える。この推定モデル学習装置1が、図6に例示する各ステップの処理を行うことにより第一実施形態の推定モデル学習方法が実現される。
推定モデル学習装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。推定モデル学習装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。推定モデル学習装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。推定モデル学習装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。推定モデル学習装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
以下、図6を参照して、第一実施形態の推定モデル学習装置1が実行する推定モデル学習方法について説明する。
教師ラベルあり発話記憶部10aには、少量の教師ラベルあり発話が記憶されている。教師ラベルあり発話は、人間の発話を収録した音声データ(以下、単に「発話」と呼ぶ)と、その発話を分類するパラ言語情報の教師ラベルとを関連付けたデータである。本形態では、教師ラベルは2値(疑問、平叙)とするが、3値以上の多値であっても構わない。発話に対する教師ラベルの付与は、人手で行ってもよいし、周知のラベル分類技術を用いて行ってもよい。
教師ラベルなし発話記憶部10bには、大量の教師ラベルなし発話が記憶されている。教師ラベルなし発話は、人間の発話を収録した音声データであり、パラ言語情報の教師ラベルが付与されていないものである。
ステップS11aにおいて、韻律特徴推定モデル学習部11aは、教師ラベルあり発話記憶部10aに記憶されている教師ラベルあり発話を用いて、韻律特徴のみに基づいてパラ言語情報を推定する韻律特徴推定モデルを学習する。韻律特徴推定モデル学習部11aは、学習した韻律特徴推定モデルを韻律特徴推定モデル記憶部15aへ記憶する。韻律特徴推定モデル学習部11aは、韻律特徴抽出部111aおよびモデル学習部112aを用いて、以下のように韻律特徴推定モデルを学習する。
ステップS111aにおいて、韻律特徴抽出部111aは、教師ラベルあり発話記憶部10aに記憶されている発話から韻律特徴を抽出する。韻律特徴は、例えば、基本周波数、短時間パワー、メル周波数ケプストラム係数(Mel-frequency Cepstral Coefficients、MFCC)、ゼロ交差率、調波成分と雑音成分のエネルギー比(Harmonics-to-Noise-Ratio、HNR)、メルフィルタバンク出力、のいずれか一つ以上の特徴量を含むベクトルである。また、これらの時間ごと(フレームごと)の時系列値であってもよいし、これらの発話全体の統計量(平均、分散、最大値、最小値、勾配など)であってもよい。韻律特徴抽出部111aは、抽出した韻律特徴をモデル学習部112aへ出力する。
ステップS112aにおいて、モデル学習部112aは、韻律特徴抽出部111aが出力する韻律特徴と教師ラベルあり発話記憶部10aに記憶されている教師ラベルとに基づいて、韻律特徴からパラ言語情報を推定する韻律特徴推定モデルを学習する。推定モデルは、例えばディープニューラルネットワーク(Deep Neural Network、DNN)であってもよいし、サポートベクターマシン(Support Vector Machine、SVM)であってもよい。また、時間ごとの時系列値を特徴ベクトルとして用いる場合、長短期記憶再帰型ニューラルネットワーク(Long Short-Term Memory Recurrent Neural Networks、LSTM-RNNs)などの時系列推定モデルを用いてもよい。モデル学習部112aは、学習した韻律特徴推定モデルを韻律特徴推定モデル記憶部15aへ記憶する。
ステップS11bにおいて、言語特徴推定モデル学習部11bは、教師ラベルあり発話記憶部10aに記憶されている教師ラベルあり発話を用いて、言語特徴のみに基づいてパラ言語情報を推定する言語特徴推定モデルを学習する。言語特徴推定モデル学習部11bは、学習した言語特徴推定モデルを言語特徴推定モデル記憶部15bへ記憶する。言語特徴推定モデル学習部11bは、言語特徴抽出部111bおよびモデル学習部112bを用いて、以下のように言語特徴推定モデルを学習する。
ステップS111bにおいて、言語特徴抽出部111bは、教師ラベルあり発話記憶部10aに記憶されている発話から言語特徴を抽出する。言語特徴の抽出には、音声認識技術により取得した単語列または音素認識技術により取得した音素列を利用する。言語特徴はこれらの単語列または音素列を系列ベクトルとして表現したものであってもよいし、発話全体での特定単語の出現数などを表すベクトルとしてもよい。言語特徴抽出部111bは、抽出した言語特徴をモデル学習部112bへ出力する。
ステップS112bにおいて、モデル学習部112bは、言語特徴抽出部111bが出力する言語特徴と教師ラベルあり発話記憶部10aに記憶されている教師ラベルとに基づいて、言語特徴からパラ言語情報を推定する言語特徴推定モデルを学習する。学習する推定モデルは、モデル学習部112aと同様である。モデル学習部112bは、学習した言語特徴推定モデルを言語特徴推定モデル記憶部15bへ記憶する。
ステップS12aにおいて、韻律特徴パラ言語情報推定部12aは、教師ラベルなし発話記憶部10bに記憶されている教師ラベルなし発話から、韻律特徴推定モデル記憶部15aに記憶されている韻律特徴推定モデルを用いて、韻律特徴のみに基づくパラ言語情報を推定する。韻律特徴パラ言語情報推定部12aは、パラ言語情報の推定結果を韻律特徴データ選別部13aおよび言語特徴データ選別部13bへ出力する。韻律特徴パラ言語情報推定部12aは、韻律特徴抽出部121aおよびパラ言語情報推定部122aを用いて、以下のようにパラ言語情報を推定する。
ステップS121aにおいて、韻律特徴抽出部121aは、教師ラベルなし発話記憶部10bに記憶されている発話から韻律特徴を抽出する。韻律特徴の抽出方法は、韻律特徴抽出部111aと同様である。韻律特徴抽出部121aは、抽出した韻律特徴をパラ言語情報推定部122aへ出力する。
ステップS122aにおいて、パラ言語情報推定部122aは、韻律特徴抽出部121aが出力する韻律特徴を韻律特徴推定モデル記憶部15aに記憶されている韻律特徴推定モデルに入力し、韻律特徴に基づくパラ言語情報の確信度を求める。ここで、パラ言語情報の確信度とは、例えば推定モデルにDNNを用いる場合であれば、教師ラベルごとの事後確率を用いる。また、例えば推定モデルにSVMを用いる場合であれば、識別平面からの距離を用いる。確信度は、「パラ言語情報のもっともらしさ」を表す。例えば推定モデルにDNNを用い、ある発話の事後確率が「疑問:0.8、平叙:0.2」であったとき、疑問の確信度は0.8、平叙の確信度は0.2となる。パラ言語情報推定部122aは、求めた韻律特徴に基づくパラ言語情報の確信度を韻律特徴データ選別部13aおよび言語特徴データ選別部13bへ出力する。
ステップS12bにおいて、言語特徴パラ言語情報推定部12bは、教師ラベルなし発話記憶部10bに記憶されている教師ラベルなし発話から、言語特徴推定モデル記憶部15bに記憶されている言語特徴推定モデルを用いて、言語特徴のみに基づくパラ言語情報を推定する。言語特徴パラ言語情報推定部12bは、パラ言語情報の推定結果を韻律特徴データ選別部13aおよび言語特徴データ選別部13bへ出力する。言語特徴パラ言語情報推定部12bは、言語特徴抽出部121bおよびパラ言語情報推定部122bを用いて、以下のようにパラ言語情報を推定する。
ステップS121bにおいて、言語特徴抽出部121bは、教師ラベルなし発話記憶部10bに記憶されている発話から言語特徴を抽出する。言語特徴の抽出方法は、言語特徴抽出部111bと同様である。言語特徴抽出部121bは、抽出した言語特徴をパラ言語情報推定部122bへ出力する。
ステップS122bにおいて、パラ言語情報推定部122bは、言語特徴抽出部121bが出力する言語特徴を言語特徴推定モデル記憶部15bに記憶されている言語特徴推定モデルに入力し、言語特徴に基づくパラ言語情報の確信度を求める。求めるパラ言語情報の確信度は、パラ言語情報推定部122aと同様である。パラ言語情報推定部122bは、求めた言語特徴に基づくパラ言語情報の確信度を韻律特徴データ選別部13aおよび言語特徴データ選別部13bへ出力する。
ステップS13aにおいて、韻律特徴データ選別部13aは、韻律特徴パラ言語情報推定部12aが出力する韻律特徴に基づくパラ言語情報の確信度と、言語特徴パラ言語情報推定部12bが出力する言語特徴に基づくパラ言語情報の確信度とを用いて、教師ラベルなし発話記憶部10bに記憶されている教師ラベルなし発話から、韻律特徴に基づく推定モデルを再学習するための自己訓練データ(以下、「韻律特徴自己訓練データ」と呼ぶ)を選別する。データ選別は、発話ごとに求めた韻律特徴に基づくパラ言語情報の確信度と言語特徴に基づくパラ言語情報の確信度との閾値処理により行う。閾値処理とは、すべてのパラ言語情報(疑問、平叙)の確信度それぞれに対し、閾値よりも高いかどうかを判定する処理である。確信度の閾値は、韻律特徴に関する確信度閾値(以下、「韻律特徴向け韻律特徴確信度閾値」と呼ぶ)と言語特徴に関する確信度閾値(以下、「韻律特徴向け言語特徴確信度閾値」と呼ぶ)とを予め設定しておく。また、韻律特徴向け韻律特徴確信度閾値は、韻律特徴向け言語特徴確信度閾値よりも低い値を設定する。例えば、韻律特徴向け韻律特徴確信度閾値を0.6とし、韻律特徴向け言語特徴確信度閾値を0.8とする。韻律特徴データ選別部13aは、選別した韻律特徴自己訓練データを韻律特徴推定モデル再学習部14aへ出力する。
図7に自己訓練データの選別規則を示す。ステップS131において、韻律特徴に基づく確信度の中に韻律特徴確信度閾値を上回るものがあるかを判定する。閾値を上回る確信度がなければ(No)、その発話は自己訓練に利用しない。閾値を上回る確信度があれば(Yes)、ステップS132において、言語特徴に基づく確信度の中に言語特徴確信度閾値を上回るものがあるかを判定する。閾値を上回る確信度がなければ(No)、その発話は自己訓練に利用しない。閾値を上回る確信度があれば(Yes)、ステップS133において、韻律特徴確信度閾値を上回る韻律特徴に基づく確信度をもつパラ言語情報ラベルと、言語特徴確信度閾値を上回る言語特徴に基づく確信度をもつパラ言語情報ラベルとが同一であるかを判定する。閾値を上回る確信度をもつパラ言語情報ラベルが同一でなければ(No)、その発話は自己訓練に利用しない。閾値を上回る確信度をもつパラ言語情報ラベルが同一であれば(Yes)、その発話にパラ言語情報を教師ラベルとして付加し、自己訓練データとして選別する。
例えば、韻律特徴確信度閾値を0.6とし、言語特徴確信度閾値を0.8とする。ある発話Aの韻律特徴に基づく確信度が「疑問:0.3、平叙:0.7」かつ言語特徴に基づく確信度が「疑問:0.1、平叙:0.9」のとき、韻律特徴に基づく確信度は「平叙」が閾値を上回り、言語特徴に基づく確信度も「平叙」が閾値を上回る。そのため、発話Aは教師ラベルを「平叙」として自己訓練に利用する。一方、ある発話Bの韻律特徴に基づく確信度が「疑問:0.1、平叙:0.9」かつ言語特徴に基づく確信度が「疑問:0.8、平叙:0.2」のとき、韻律特徴に基づく確信度は「平叙」が閾値を上回り、言語特徴に基づく確信度は「疑問」が閾値を上回る。この場合、閾値を上回る確信度をもつパラ言語情報ラベルが一致しないため、発話Bは教師ラベルなしとして自己訓練に利用しない。
ステップS13bにおいて、言語特徴データ選別部13bは、韻律特徴パラ言語情報推定部12aが出力する韻律特徴に基づくパラ言語情報の確信度と、言語特徴パラ言語情報推定部12bが出力する言語特徴に基づくパラ言語情報の確信度とを用いて、教師ラベルなし発話記憶部10bに記憶されている教師ラベルなし発話から、言語特徴に基づく推定モデルを再学習するための自己訓練データ(以下、「言語特徴自己訓練データ」と呼ぶ)を選別する。データ選別の方法は、韻律特徴データ選別部13aと同様であるが、閾値処理に用いる閾値が異なる。言語特徴データ選別部13bの閾値は、韻律特徴に関する確信度閾値(以下、「言語特徴向け韻律特徴確信度閾値」と呼ぶ)と言語特徴に関する確信度閾値(以下、「言語特徴向け言語特徴確信度閾値」と呼ぶ)とを予め設定しておく。また、言語特徴向け言語特徴確信度閾値は、言語特徴向け韻律特徴確信度閾値よりも低い値を設定する。例えば、言語特徴向け韻律特徴確信度閾値を0.8とし、言語特徴向け言語特徴確信度閾値を0.6とする。言語特徴データ選別部13bは、選別した言語特徴自己訓練データを言語特徴推定モデル再学習部14bへ出力する。
言語特徴データ選別部13bが用いる自己訓練データの選別規則は、図7に示した韻律特徴データ選別部13aが用いる自己訓練データの選別規則から韻律特徴と言語特徴とを入れ替えた形とする。
ステップS14aにおいて、韻律特徴推定モデル再学習部14aは、韻律特徴データ選別部13aが出力する韻律特徴自己訓練データを用いて、韻律特徴推定モデル学習部11aと同様にして、韻律特徴のみに基づいてパラ言語情報を推定する韻律特徴推定モデルを再学習する。韻律特徴推定モデル再学習部14aは、再学習済みの韻律特徴推定モデルにより韻律特徴推定モデル記憶部15aに記憶されている韻律特徴推定モデルを更新する。
ステップS14bにおいて、言語特徴推定モデル再学習部14bは、言語特徴データ選別部13bが出力する言語特徴自己訓練データを用いて、言語特徴推定モデル学習部11bと同様にして、言語特徴のみに基づいてパラ言語情報を推定する言語特徴推定モデルを再学習する。言語特徴推定モデル再学習部14bは、再学習済みの言語特徴推定モデルにより言語特徴推定モデル記憶部15bに記憶されている言語特徴推定モデルを更新する。
図8は、再学習済みの韻律特徴推定モデルおよび言語特徴推定モデルを用いて、入力された発話からパラ言語情報を推定するパラ言語情報推定装置である。このパラ言語情報推定装置5は、図8に示すように、韻律特徴推定モデル記憶部15a、言語特徴推定モデル記憶部15b、韻律特徴抽出部51a、言語特徴抽出部51b、およびパラ言語情報推定部52を備える。このパラ言語情報推定装置5が、図9に例示する各ステップの処理を行うことによりパラ言語情報推定方法が実現される。
韻律特徴推定モデル記憶部15aには、推定モデル学習装置1により再学習済みの韻律特徴推定モデルが記憶されている。言語特徴推定モデル記憶部15bには、推定モデル学習装置1により再学習済みの言語特徴推定モデルが記憶されている。
ステップS51aにおいて、韻律特徴抽出部51aは、パラ言語情報推定装置5に入力された発話から韻律特徴を抽出する。韻律特徴の抽出方法は、韻律特徴抽出部111aと同様である。韻律特徴抽出部51aは、抽出した韻律特徴をパラ言語情報推定部52へ出力する。
ステップS51bにおいて、言語特徴抽出部51bは、パラ言語情報推定装置5に入力された発話から言語特徴を抽出する。言語特徴の抽出方法は、言語特徴抽出部111bと同様である。言語特徴抽出部51bは、抽出した言語特徴をパラ言語情報推定部52へ出力する。
ステップS52において、パラ言語情報推定部52は、まず、韻律特徴抽出部51aが出力する韻律特徴を韻律特徴推定モデル記憶部15aに記憶されている韻律特徴推定モデルに入力し、韻律特徴に基づくパラ言語情報の確信度を求める。次に、言語特徴抽出部51bが出力する言語特徴を言語特徴推定モデル記憶部15bに記憶されている言語特徴推定モデルに入力し、言語特徴に基づくパラ言語情報の確信度を求める。そして、韻律特徴に基づくパラ言語情報の確信度と言語特徴に基づくパラ言語情報の確信度とを用いて、所定のルールに基づいて、入力された発話のパラ言語情報を推定する。所定のルールとは、例えば、パラ言語情報の確信度がどちらか一方でも「疑問」の事後確率が高い場合は「疑問」とし、どちらも「平叙」の事後確率が高い場合は「平叙」とするルールとしてもよいし、例えば、韻律特徴に基づくパラ言語情報の事後確率の重み付け和と言語特徴に基づくパラ言語情報の事後確率の重み付け和とを比較して、重み付け和が高い方を最終的なパラ言語情報の推定結果としてもよい。
[第二実施形態]
第二実施形態では、二つの側面からのデータ選別に基づく自己訓練を再帰的に行う。すなわち、自己訓練で強化した推定モデルを用いて学習すべき発話を選別し、選別した発話を用いて推定モデルを強化し、・・・を繰り返す。このループ処理を繰り返すことで、より推定精度が向上した韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとを構築することができる。各ループ処理を行った際にループ終了判定を実施し、推定モデルがこれ以上改善しないと判断された場合にループ処理を終了する。このことにより、確実に学習すべき発話だけを選別することを維持しつつ、学習すべき発話のバリエーションを増やすことができ、さらにパラ言語情報推定モデルの推定精度を向上させることができる。
第二実施形態の推定モデル学習装置2は、図10に例示するように、第一実施形態の推定モデル学習装置1が備える各処理部に加えて、ループ終了判定部16を備える。この推定モデル学習装置2が、図11に例示する各ステップの処理を行うことにより第二実施形態の推定モデル学習方法が実現される。
以下、図11を参照して、第二実施形態の推定モデル学習装置2が実行する推定モデル学習方法について、第一実施形態の推定モデル学習方法との相違点を中心に説明する。
ステップS16において、ループ終了判定部16は、ループ処理を終了するか否かを判定する。例えば、韻律特徴推定モデルと言語特徴推定モデルが両方ともループ処理前後で同じ推定モデルとなった(すなわち、両方の推定モデルが改善されなかった)場合、または、ループ処理済回数が規定数(例えば10回)を超える場合、ループ処理を終了する。同じ推定モデルとなったか否かの判断は、ループ処理前後の推定モデルのパラメータを比較する、または、評価用データに対する推定精度がループ処理前後で一定以上向上したかを評価することで行うことができる。ループ処理を終了しない場合には、ステップS121a,S121bへ処理を戻し、再学習した推定モデルを用いて再度自己訓練データの選別を行う。なお、ループ処理済回数の初期値は0とし、ループ終了判定部16を一度実行する度にループ処理済回数に1を加算する。
第一実施形態のように、学習すべき発話の選別とそれを用いたモデルの再学習を一度行うことで、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルの推定精度は向上する。この推定精度が向上した推定モデルを用いて再度学習すべき発話の選別を行うことで、新たな学習すべき発話を検出することができる。新たな学習すべき発話を用いて再学習することで、モデルの推定精度がさらに向上する。
[第三実施形態]
第三実施形態では、第二実施形態の再帰的な自己訓練において、韻律特徴確信度閾値または言語特徴確信度閾値またはその両方を、ループ処理済回数に応じて下げるように変更する。このことにより、ループ処理済回数が少なくモデル学習が十分に行われていない段階では推定誤りが少ない発話を、ループ処理済回数が増えてモデル学習がある程度行われてきた段階ではより多様な発話を自己訓練に利用することができる。その結果、パラ言語情報推定モデルの学習が安定し、モデルの推定精度を向上させることができる。
第三実施形態の推定モデル学習装置3は、図12に例示するように、第二実施形態の推定モデル学習装置2が備える各処理部に加えて、確信度閾値決定部17を備える。この推定モデル学習装置3が、図13に例示する各ステップの処理を行うことにより第三実施形態の推定モデル学習方法が実現される。
以下、図13を参照して、第三実施形態の推定モデル学習装置3が実行する推定モデル学習方法について、第二実施形態の推定モデル学習方法との相違点を中心に説明する。
ステップS17aにおいて、確信度閾値決定部17は、韻律特徴向け韻律特徴確信度閾値、韻律特徴向け言語特徴確信度閾値、言語特徴向け韻律特徴確信度閾値、および言語特徴向け言語特徴確信度閾値をそれぞれ初期化する。各確信度閾値の初期値は、予め設定されているものとする。韻律特徴データ選別部13aは、確信度閾値決定部17が初期化した韻律特徴向け韻律特徴確信度閾値および韻律特徴向け言語特徴確信度閾値を用いて韻律特徴自己訓練データの選別を行う。同様に、言語特徴データ選別部13bは、確信度閾値決定部17が初期化した言語特徴向け韻律特徴確信度閾値および言語特徴向け言語特徴確信度閾値を用いて言語特徴自己訓練データの選別を行う。
ステップS17bにおいて、確信度閾値決定部17は、ループ終了判定部16がループ処理を終了しないと判定した場合、韻律特徴向け韻律特徴確信度閾値、韻律特徴向け言語特徴確信度閾値、言語特徴向け韻律特徴確信度閾値、および言語特徴向け言語特徴確信度閾値をループ処理済回数に応じてそれぞれ更新する。確信度閾値の更新は、以下の式に基づく。なお、^は累乗を表す。閾値減衰係数は、予め設定されているものとする。
(韻律特徴向け韻律特徴確信度閾値)=(韻律特徴向け韻律特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
(韻律特徴向け言語特徴確信度閾値)=(韻律特徴向け言語特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
(言語特徴向け韻律特徴確信度閾値)=(言語特徴向け韻律特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
(言語特徴向け言語特徴確信度閾値)=(言語特徴向け言語特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
韻律特徴データ選別部13aは、次のループ処理において、確信度閾値決定部17が更新した韻律特徴向け韻律特徴確信度閾値および韻律特徴向け言語特徴確信度閾値を用いて韻律特徴自己訓練データの選別を行う。同様に、言語特徴データ選別部13bは、次のループ処理において、確信度閾値決定部17が更新した言語特徴向け韻律特徴確信度閾値および言語特徴向け言語特徴確信度閾値を用いて言語特徴自己訓練データの選別を行う。
上述の各実施形態では、人間の発話を記憶した音声データから韻律特徴と言語特徴とを抽出し、各特徴のみに基づいてパラ言語情報を推定する推定モデルを自己訓練する構成を説明した。しかしながら、本発明はこのような二種類の特徴のみを用い、二種類のパラ言語情報のみを分類する構成に限定されず、入力データから複数の独立した特徴量を用いて複数のラベル分類を行う技術に適宜応用することができる。
本発明では、パラ言語情報の推定に韻律特徴と言語特徴とを用いた。韻律特徴と言語特徴とは独立した特徴量であり、各特徴量単独でパラ言語情報の推定がある程度できる。例えば、話す言葉と声のトーンは全く別々に変えることができ、それら単体だけでも疑問かどうかはある程度推定することができる。本発明は、このように複数の独立した特徴量であれば、他の特徴量の組み合わせであっても適用することができる。ただし、一つの特徴量を細分化すると特徴量間の独立性が損なわれるため、推定精度が低下すると共に、誤って確信度が高いと推定される発話が増えるおそれがあることには注意されたい。
パラ言語情報の推定に用いる特徴量は3つ以上であってもよい。例えば、韻律特徴と言語特徴に加えて、顔(表情)に関する特徴量に基づいてパラ言語情報を推定する推定モデルを学習し、すべての特徴量が確信度閾値を超える発話を自己訓練データとして選別するように構成してもよい。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルを記憶する推定モデル記憶部と、
    教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定する確信度推定部と、
    上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別するデータ選別部と、
    を含み、
    上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
    上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
    自己訓練データ選別装置。
  2. 請求項1記載の自己訓練データ選別装置であって、
    上記複数の独立した特徴量は、発話音声から抽出する韻律特徴と言語特徴とである、
    自己訓練データ選別装置。
  3. 教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルを記憶する推定モデル記憶部と、
    教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定する確信度推定部と、
    上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別するデータ選別部と、
    上記学習対象の自己訓練データを用いて上記学習対象の特徴量に対応する上記推定モデルを再学習する推定モデル再学習部と、
    を含み、
    上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
    上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
    推定モデル学習装置。
  4. 請求項に記載の推定モデル学習装置であって、
    上記確信度推定部と上記データ選別部と上記推定モデル再学習部とを実行することを1回のループ処理として、上記ループ処理を実行した回数に応じて上記確信度閾値の値が下がるように上記確信度閾値を決定する確信度閾値決定部をさらに含む、
    推定モデル学習装置。
  5. 推定モデル記憶部に、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルが記憶されており、
    上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
    確信度推定部が、教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定し、
    データ選別部が、上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別し、
    上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
    自己訓練データ選別方法。
  6. 推定モデル記憶部に、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルが記憶されており、
    上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
    確信度推定部が、教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定し、
    データ選別部が、上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別し、
    推定モデル再学習部が、上記学習対象の自己訓練データを用いて上記学習対象の特徴量に対応する上記推定モデルを再学習し、
    上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
    推定モデル学習方法。
  7. 請求項1または2に記載の自己訓練データ選別装置としてコンピュータを機能させるためのプログラム。
  8. 請求項またはに記載の推定モデル学習装置としてコンピュータを機能させるためのプログラム。
JP2020514039A 2018-04-18 2019-03-28 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム Active JP7052866B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018080044 2018-04-18
JP2018080044 2018-04-18
PCT/JP2019/013689 WO2019202941A1 (ja) 2018-04-18 2019-03-28 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2019202941A1 JPWO2019202941A1 (ja) 2021-03-25
JP7052866B2 true JP7052866B2 (ja) 2022-04-12

Family

ID=68240087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020514039A Active JP7052866B2 (ja) 2018-04-18 2019-03-28 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム

Country Status (3)

Country Link
US (1) US20210166679A1 (ja)
JP (1) JP7052866B2 (ja)
WO (1) WO2019202941A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4704077A1 (en) 2024-08-27 2026-03-04 Ricoh Company, Ltd. Speech processing apparatus, system, method, and carrier medium

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6992725B2 (ja) * 2018-10-22 2022-01-13 日本電信電話株式会社 パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
JP7206898B2 (ja) * 2018-12-25 2023-01-18 富士通株式会社 学習装置、学習方法および学習プログラム
US11322135B2 (en) * 2019-09-12 2022-05-03 International Business Machines Corporation Generating acoustic sequences via neural networks using combined prosody info
KR20210106814A (ko) * 2020-02-21 2021-08-31 삼성전자주식회사 뉴럴 네트워크 학습 방법 및 장치
US20230206085A1 (en) * 2020-06-05 2023-06-29 Nippon Telegraph And Telephone Corporation Processing device, processing method and processing program
US20230281394A1 (en) * 2020-07-15 2023-09-07 Sony Group Corporation Information processing device and information processing method
CN114004328A (zh) * 2020-07-27 2022-02-01 华为技术有限公司 Ai模型更新的方法、装置、计算设备和存储介质
JP7041374B2 (ja) 2020-09-04 2022-03-24 ダイキン工業株式会社 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル
JP6997401B1 (ja) * 2020-09-04 2022-01-17 ダイキン工業株式会社 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル
US20250201250A1 (en) * 2022-03-17 2025-06-19 Nec Corporation Sound classification apparatus, sound classification method, and computer-readable recording medium
CN120220654B (zh) * 2025-05-28 2025-08-05 杭州秋果计划科技有限公司 语音识别模型训练方法、装置和计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOAKYE, Kofi et al.,Any Questions? Automatic Question Detection in Meetings,Proceedings of the 2009 IEEE Workshop on Automatic Speech Recognition & Understanding,2009年11月13日,pp.485-489
GUAN, Donghai et al.,Activity Recognition Based on Semi-supervised Learning,Proceedings the 13th IEEE International Conference on Embedded and Real-Time Computing Systems and A,2007年08月21日
小薮駿 他,"複数の分類器に基づく半教師あり学習を用いた文献からの蛋白質間相互作用抽出",情報処理学会研究報告,2012年06月28日,Vol.2012-BIO-29, No.15,pp.1-8

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4704077A1 (en) 2024-08-27 2026-03-04 Ricoh Company, Ltd. Speech processing apparatus, system, method, and carrier medium

Also Published As

Publication number Publication date
WO2019202941A1 (ja) 2019-10-24
JPWO2019202941A1 (ja) 2021-03-25
US20210166679A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
JP7052866B2 (ja) 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム
Sarikaya et al. Application of deep belief networks for natural language understanding
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
WO2021208719A1 (zh) 基于语音的情绪识别方法、装置、设备及存储介质
US20170372694A1 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN115497465B (zh) 语音交互方法、装置、电子设备和存储介质
CN108475262A (zh) 用于文本处理的电子设备和方法
WO2008001486A1 (en) Voice processing device and program, and voice processing method
CN110298044B (zh) 一种实体关系识别方法
US12045700B1 (en) Systems and methods of generative machine-learning guided by modal classification
CN116881080A (zh) 日志检测方法、装置、电子设备及存储介质
CN118170668A (zh) 一种测试用例生成方法、装置、存储介质和设备
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
Sundarprasad Speech emotion detection using machine learning techniques
CN115238068A (zh) 语音转录文本聚类方法、装置、电子设备和存储介质
Soni et al. Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization
CN114036956A (zh) 一种旅游知识语义分析方法及装置
CN116821691B (zh) 基于任务融合的训练情感识别模型的方法和装置
CN119514531A (zh) 文本特定信息识别判定方法
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
KR102547000B1 (ko) 화자 감정 분석에 기초하여 화자 인증을 개선하는 방법
Lee Principles of spoken language recognition
JP7540494B2 (ja) 学習装置、方法およびプログラム
US12394406B2 (en) Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220314

R150 Certificate of patent or registration of utility model

Ref document number: 7052866

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350