JP7052866B2

JP7052866B2 - 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム

Info

Publication number: JP7052866B2
Application number: JP2020514039A
Authority: JP
Inventors: 厚志安藤; 歩相名神山; 哲小橋川
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2018-04-18
Filing date: 2019-03-28
Publication date: 2022-04-12
Anticipated expiration: 2039-03-28
Also published as: WO2019202941A1; JPWO2019202941A1; US20210166679A1

Description

この発明は、複数の独立した特徴量を用いてラベル分類を行う推定モデルを学習する技術に関する。

音声からパラ言語情報（例えば、発話意図が疑問か平叙か）を推定する技術が求められている。パラ言語情報は、例えば、音声翻訳の高度化（例えば、「明日」という日本語の発話に対して、疑問意図「明日？」と理解して「Is it tomorrow?」と英語に翻訳したり、平叙意図「明日。」と理解して「It is tomorrow.」と英語に翻訳したりと、フランクな発話に対しても発話者の意図を正しく理解した日英翻訳ができる）などに応用可能である。

音声からパラ言語情報を推定する技術の例として、音声からの疑問推定技術が非特許文献１，２に示されている。非特許文献１では、音声の短時間ごとの声の高さなどの韻律特徴の時系列情報に基づいて疑問か平叙かを推定する。非特許文献２では、韻律特徴の発話統計量（平均、分散など）に加えて、言語特徴（どの単語が表れたか）に基づいて疑問か平叙かを推定する。どちらの技術でも、発話ごとの特徴量と教師ラベル（パラ言語情報の正解値、例えば疑問、平叙の２値）との組から深層学習等の機械学習技術を用いてパラ言語情報推定モデルを学習し、そのパラ言語情報推定モデルに基づいて推定対象発話のパラ言語情報を推定する。

これらの従来技術では、教師ラベルが付与された少数の発話からモデル学習を行う。これは、パラ言語情報の教師ラベル付与は人間が行う必要があり、教師ラベルが付与された発話の収集にコストが掛かるためである。しかしながら、モデル学習のための発話が少ない場合、パラ言語情報の特徴（例えば疑問発話に特有な韻律パターンなど）が正しく学習できず、パラ言語情報の推定精度が低下するおそれがある。そこで、教師ラベル（２値に限らず、多値であってもよい）が付与された少数の発話に加え、教師ラベルが付与されていない大量の発話をモデル学習に利用することが行われている。このような学習手法は、半教師あり学習と呼ばれる。

半教師あり学習の代表的手法として、自己訓練（self-training）が挙げられる（非特許文献３参照）。自己訓練は、少数の教師ラベルありデータから学習した推定モデルで教師なしデータのラベルを推定し、推定されたラベルを教師ラベルとして再学習する手法である。このとき、教師ラベルの確信度が高い（例えば、ある教師ラベルの事後確率が90％以上など）発話のみを学習する。

Y. Tang, Y. Huang, Z. Wu, H. Meng, M. Xu, L. Cai, "Question detection from acoustic features using recurrent neural network with gated recurrent unit,"Proc. ICASSP, pp. 6125-6129, 2016. K. Boakye, B. Favre, D. Hakkini-Tur, "Any Questions? Automatic Question Detection in Meetings," Proc. ASRU, pp. 485-489, 2009. D. Yarowsky, "Unsupervised word sense disambiguation rivaling supervised methods,"Proc. ACL, pp. 189-196, 1995.

しかしながら、パラ言語情報推定モデルの学習に自己訓練を単純に導入しても推定精度を向上させることは難しい。なぜなら、パラ言語情報は複雑な要因に基づいて教師ラベルが決定されるためである。例えば、図１に示すように、疑問意図かどうかは、韻律特徴（声のトーンが疑問調であるか）と言語特徴（文として疑問調であるか）のどちらかだけ疑問意図の特徴を示していた場合でも、両方とも疑問意図の特徴を示していた場合でも、同じ「疑問」の教師ラベルとなる。このような複雑な発話に対して自己訓練を行う場合、少数の教師ラベルあり発話から学習した推定モデルでは複雑さが正しく学習されず確信度の推定誤りが生じやすい。つまり、学習すべきでない発話を自己訓練してしまうことが増え、自己訓練による推定精度向上が困難となる。

この発明の目的は、このような技術的課題に鑑みて、大量の教師ラベルなしデータを利用して効果的に推定モデルの自己訓練を行うことである。

上記の課題を解決するために、この発明の第一の態様の自己訓練データ選別装置は、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した特徴量それぞれから所定のラベルごとに確信度を推定する推定モデルを記憶する推定モデル記憶部と、教師ラベルなしデータから抽出した特徴量から推定モデルを用いてラベルごとの確信度を推定する確信度推定部と、特徴量から選択した１つの特徴量を学習対象として、教師ラベルなしデータから得たラベルごとの確信度が学習対象の特徴量に対して特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して学習対象の自己訓練データとして選別するデータ選別部と、を含み、確信度閾値は、学習対象とする特徴量に対応する確信度閾値より、学習対象としない特徴量に対応する確信度閾値の方が高く設定されている。

上記の課題を解決するために、この発明の第二の態様の推定モデル学習装置は、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した特徴量それぞれから所定のラベルごとに確信度を推定する推定モデルを記憶する推定モデル記憶部と、教師ラベルなしデータから抽出した特徴量から推定モデルを用いてラベルごとの確信度を推定する確信度推定部と、特徴量から選択した１つの特徴量を学習対象として、教師ラベルなしデータから得たラベルごとの確信度が学習対象の特徴量に対して特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して学習対象の自己訓練データとして選別するデータ選別部と、学習対象の自己訓練データを用いて学習対象の特徴量に対応する推定モデルを再学習する推定モデル再学習部と、を含み、確信度閾値は、学習対象とする特徴量に対応する確信度閾値より、学習対象としない特徴量に対応する確信度閾値の方が高く設定されている。

この発明によれば、大量の教師ラベルなしデータを利用して効果的に推定モデルの自己訓練を行うことができる。その結果、例えば、音声からパラ言語情報を推定する推定モデルの推定精度が向上する。

図１は、韻律特徴および言語特徴とパラ言語情報との関係性を説明するための図である。図２は、本発明と従来技術とのデータ選別の違いを説明するための図である。図３は、推定モデル学習装置の機能構成を例示する図である。図４は、推定モデル学習部の機能構成を例示する図である。図５は、パラ言語情報推定部の機能構成を例示する図である。図６は、推定モデル学習方法の処理手続きを例示する図である。図７は、自己訓練データ選別規則を例示する図である。図８は、パラ言語情報推定装置の機能構成を例示する図である。図９は、パラ言語情報推定方法の処理手続きを例示する図である。図１０は、推定モデル学習装置の機能構成を例示する図である。図１１は、推定モデル学習方法の処理手続きを例示する図である。図１２は、推定モデル学習装置の機能構成を例示する図である。図１３は、推定モデル学習方法の処理手続きを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

本発明のポイントは、パラ言語情報の特性を考慮して「確実に学習すべき発話」を選別する点にある。上述したように、自己訓練の課題は、学習すべきでない発話を自己訓練に利用するおそれがある点である。したがって、「確実に学習すべき発話」を検出し、その発話だけを自己訓練に利用すれば、この課題を解決することができる。

学習すべき発話の検出にはパラ言語情報の特性を利用する。図１に示したように、パラ言語情報の特性として、韻律特徴と言語特徴のどちらかだけでも推定できることが挙げられる。これを利用し、本発明では韻律特徴と言語特徴のそれぞれでモデル学習を行い、韻律特徴の推定モデルと言語特徴の推定モデルで共に確信度が高かった発話（図１において、韻律特徴と言語特徴で共に「疑問らしさあり」の確信度が高い、または、共に「疑問らしさなし」の確信度が高い発話の集合）だけを自己訓練に利用する。パラ言語情報のように、韻律特徴と言語特徴のどちらかだけで推定可能な情報であれば、このような二つの側面からのデータ選別により、学習すべき発話をより正確に選別することができる。

具体的な例を図２に示す。一般的な自己訓練手法では、韻律特徴や言語特徴などの区別をせず、自己訓練に利用する発話を選別する。本発明では、韻律特徴と言語特徴のどちらに対しても確信度が高い発話（例えば、両方の特徴に対して疑問らしさが共に高い最上段の発話と、平叙らしさが共に高い最下段の発話）だけを選別し、自己訓練に利用する。また自己訓練の際には、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとを別々に自己訓練する。これにより、韻律特徴のみに基づく推定モデルでは語尾上がりなどの特徴を、言語特徴のみに基づく推定モデルでは疑問詞（例えば「どれ」「どんな」）などの特徴を学習できる。パラ言語情報推定の際には、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとの推定結果に基づいて最終的な推定を行う（例えば、どちらかの推定モデルで疑問と判定された場合は疑問とし、どちらの推定モデルでも疑問と判定されなかった場合は平叙とする）ことで、韻律特徴と言語特徴のどちらかだけがパラ言語情報の特徴を表す発話であっても、高精度に推定を行うことができる。

さらに本発明では、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルのそれぞれの自己訓練において、異なる確信度の閾値を用いる点を特徴とする。一般に自己訓練では、確信度が高い発話を利用すると、自己訓練に利用した発話のみに特化した推定モデルができてしまい、推定精度が向上しにくい。一方で、確信度が低い発話を利用すると、多様な発話を学習させられるが、確信度の推定を誤った発話（学習すべきでない発話）を学習に利用するおそれが増す。本発明では、自己訓練の対象と同じ特徴では確信度の閾値を低くし、自己訓練の対象と異なる特徴では確信度の閾値を高くするように確信度の閾値を設定する（例えば、韻律特徴のみに基づく推定モデルを自己訓練する際には、韻律特徴のみに基づく推定モデルの推定結果で確信度が0.5以上、言語特徴のみに基づく推定モデルの推定結果で確信度が0.8以上の発話を利用するが、言語特徴のみに基づく推定モデルを自己訓練する際には、韻律特徴のみに基づく推定モデルの推定結果で確信度が0.8以上、言語特徴のみに基づく推定モデルの推定結果で確信度が0.5以上の発話を利用する）。これにより、確信度の推定を誤った発話を取り除きながら、多様な発話を自己訓練に用いることができる。

具体的には、以下の手順で推定モデルの自己訓練を行う。

手順１．教師ラベルが付与された少数の発話からパラ言語情報推定モデルの学習を行う。このとき、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルの二つを別々に学習する。

手順２．教師ラベルが付与されていない多数の発話に対し、学習すべき発話の選別を行う。選別方法は次の通りとする。韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルのそれぞれを用いて教師ラベルが付与されていない発話のパラ言語情報を確信度付きで推定する。一方の特徴で確信度が一定以上の発話のうち、もう一方の特徴でも確信度が一定以上の発話を学習すべき発話とみなす。例えば、韻律特徴のみに基づく推定モデルで一定以上の確信度があり、その中で言語特徴のみに基づく推定モデルでも一定以上の確信度があった発話、かつ、推定結果のパラ言語情報ラベルが同一の発話だけを、韻律特徴のみに基づく推定モデルで学習すべき発話とみなす。このとき、モデル学習の対象と同じ特徴では確信度の閾値を低くし、モデル学習の対象と異なる特徴では確信度の閾値を高くするように確信度の閾値を設定する。例えば、韻律特徴のみに基づく推定モデルを学習するときには、韻律特徴のみに基づく推定モデルの確信度の閾値を低くし、言語特徴のみに基づく推定モデルの確信度の閾値を高くする。

手順３．選別した発話を用いて、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとを改めて学習する。このときの教師ラベルは、手順２で推定したパラ言語情報の結果を利用する。

［第一実施形態］
第一実施形態の推定モデル学習装置１は、図３に例示するように、教師ラベルあり発話記憶部１０ａ、教師ラベルなし発話記憶部１０ｂ、韻律特徴推定モデル学習部１１ａ、言語特徴推定モデル学習部１１ｂ、韻律特徴パラ言語情報推定部１２ａ、言語特徴パラ言語情報推定部１２ｂ、韻律特徴データ選別部１３ａ、言語特徴データ選別部１３ｂ、韻律特徴推定モデル再学習部１４ａ、言語特徴推定モデル再学習部１４ｂ、韻律特徴推定モデル記憶部１５ａ、および言語特徴推定モデル記憶部１５ｂを備える。推定モデル学習装置１が備える各処理部のうち、韻律特徴推定モデル学習部１１ａ、言語特徴推定モデル学習部１１ｂ、韻律特徴パラ言語情報推定部１２ａ、言語特徴パラ言語情報推定部１２ｂ、韻律特徴データ選別部１３ａ、言語特徴データ選別部１３ｂ、韻律特徴推定モデル記憶部１５ａ、および言語特徴推定モデル記憶部１５ｂにより、自己訓練データ選別装置９を構成することができる。韻律特徴推定モデル学習部１１ａは、図４に例示するように、韻律特徴抽出部１１１ａおよびモデル学習部１１２ａを備える。言語特徴推定モデル学習部１１ｂは、同様に、言語特徴抽出部１１１ｂおよびモデル学習部１１２ｂを備える。韻律特徴パラ言語情報推定部１２ａは、図５に例示するように、韻律特徴抽出部１２１ａおよびパラ言語情報推定部１２２ａを備える。言語特徴パラ言語情報推定部１２ｂは、同様に、言語特徴抽出部１２１ｂおよびパラ言語情報推定部１２２ｂを備える。この推定モデル学習装置１が、図６に例示する各ステップの処理を行うことにより第一実施形態の推定モデル学習方法が実現される。

推定モデル学習装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。推定モデル学習装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。推定モデル学習装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。推定モデル学習装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。推定モデル学習装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

以下、図６を参照して、第一実施形態の推定モデル学習装置１が実行する推定モデル学習方法について説明する。

教師ラベルあり発話記憶部１０ａには、少量の教師ラベルあり発話が記憶されている。教師ラベルあり発話は、人間の発話を収録した音声データ（以下、単に「発話」と呼ぶ）と、その発話を分類するパラ言語情報の教師ラベルとを関連付けたデータである。本形態では、教師ラベルは２値（疑問、平叙）とするが、３値以上の多値であっても構わない。発話に対する教師ラベルの付与は、人手で行ってもよいし、周知のラベル分類技術を用いて行ってもよい。

教師ラベルなし発話記憶部１０ｂには、大量の教師ラベルなし発話が記憶されている。教師ラベルなし発話は、人間の発話を収録した音声データであり、パラ言語情報の教師ラベルが付与されていないものである。

ステップＳ１１ａにおいて、韻律特徴推定モデル学習部１１ａは、教師ラベルあり発話記憶部１０ａに記憶されている教師ラベルあり発話を用いて、韻律特徴のみに基づいてパラ言語情報を推定する韻律特徴推定モデルを学習する。韻律特徴推定モデル学習部１１ａは、学習した韻律特徴推定モデルを韻律特徴推定モデル記憶部１５ａへ記憶する。韻律特徴推定モデル学習部１１ａは、韻律特徴抽出部１１１ａおよびモデル学習部１１２ａを用いて、以下のように韻律特徴推定モデルを学習する。

ステップＳ１１１ａにおいて、韻律特徴抽出部１１１ａは、教師ラベルあり発話記憶部１０ａに記憶されている発話から韻律特徴を抽出する。韻律特徴は、例えば、基本周波数、短時間パワー、メル周波数ケプストラム係数（Mel-frequency Cepstral Coefficients、MFCC）、ゼロ交差率、調波成分と雑音成分のエネルギー比（Harmonics-to-Noise-Ratio、HNR）、メルフィルタバンク出力、のいずれか一つ以上の特徴量を含むベクトルである。また、これらの時間ごと（フレームごと）の時系列値であってもよいし、これらの発話全体の統計量（平均、分散、最大値、最小値、勾配など）であってもよい。韻律特徴抽出部１１１ａは、抽出した韻律特徴をモデル学習部１１２ａへ出力する。

ステップＳ１１２ａにおいて、モデル学習部１１２ａは、韻律特徴抽出部１１１ａが出力する韻律特徴と教師ラベルあり発話記憶部１０ａに記憶されている教師ラベルとに基づいて、韻律特徴からパラ言語情報を推定する韻律特徴推定モデルを学習する。推定モデルは、例えばディープニューラルネットワーク（Deep Neural Network、DNN）であってもよいし、サポートベクターマシン（Support Vector Machine、SVM）であってもよい。また、時間ごとの時系列値を特徴ベクトルとして用いる場合、長短期記憶再帰型ニューラルネットワーク（Long Short-Term Memory Recurrent Neural Networks、LSTM-RNNs）などの時系列推定モデルを用いてもよい。モデル学習部１１２ａは、学習した韻律特徴推定モデルを韻律特徴推定モデル記憶部１５ａへ記憶する。

ステップＳ１１ｂにおいて、言語特徴推定モデル学習部１１ｂは、教師ラベルあり発話記憶部１０ａに記憶されている教師ラベルあり発話を用いて、言語特徴のみに基づいてパラ言語情報を推定する言語特徴推定モデルを学習する。言語特徴推定モデル学習部１１ｂは、学習した言語特徴推定モデルを言語特徴推定モデル記憶部１５ｂへ記憶する。言語特徴推定モデル学習部１１ｂは、言語特徴抽出部１１１ｂおよびモデル学習部１１２ｂを用いて、以下のように言語特徴推定モデルを学習する。

ステップＳ１１１ｂにおいて、言語特徴抽出部１１１ｂは、教師ラベルあり発話記憶部１０ａに記憶されている発話から言語特徴を抽出する。言語特徴の抽出には、音声認識技術により取得した単語列または音素認識技術により取得した音素列を利用する。言語特徴はこれらの単語列または音素列を系列ベクトルとして表現したものであってもよいし、発話全体での特定単語の出現数などを表すベクトルとしてもよい。言語特徴抽出部１１１ｂは、抽出した言語特徴をモデル学習部１１２ｂへ出力する。

ステップＳ１１２ｂにおいて、モデル学習部１１２ｂは、言語特徴抽出部１１１ｂが出力する言語特徴と教師ラベルあり発話記憶部１０ａに記憶されている教師ラベルとに基づいて、言語特徴からパラ言語情報を推定する言語特徴推定モデルを学習する。学習する推定モデルは、モデル学習部１１２ａと同様である。モデル学習部１１２ｂは、学習した言語特徴推定モデルを言語特徴推定モデル記憶部１５ｂへ記憶する。

ステップＳ１２ａにおいて、韻律特徴パラ言語情報推定部１２ａは、教師ラベルなし発話記憶部１０ｂに記憶されている教師ラベルなし発話から、韻律特徴推定モデル記憶部１５ａに記憶されている韻律特徴推定モデルを用いて、韻律特徴のみに基づくパラ言語情報を推定する。韻律特徴パラ言語情報推定部１２ａは、パラ言語情報の推定結果を韻律特徴データ選別部１３ａおよび言語特徴データ選別部１３ｂへ出力する。韻律特徴パラ言語情報推定部１２ａは、韻律特徴抽出部１２１ａおよびパラ言語情報推定部１２２ａを用いて、以下のようにパラ言語情報を推定する。

ステップＳ１２１ａにおいて、韻律特徴抽出部１２１ａは、教師ラベルなし発話記憶部１０ｂに記憶されている発話から韻律特徴を抽出する。韻律特徴の抽出方法は、韻律特徴抽出部１１１ａと同様である。韻律特徴抽出部１２１ａは、抽出した韻律特徴をパラ言語情報推定部１２２ａへ出力する。

ステップＳ１２２ａにおいて、パラ言語情報推定部１２２ａは、韻律特徴抽出部１２１ａが出力する韻律特徴を韻律特徴推定モデル記憶部１５ａに記憶されている韻律特徴推定モデルに入力し、韻律特徴に基づくパラ言語情報の確信度を求める。ここで、パラ言語情報の確信度とは、例えば推定モデルにDNNを用いる場合であれば、教師ラベルごとの事後確率を用いる。また、例えば推定モデルにSVMを用いる場合であれば、識別平面からの距離を用いる。確信度は、「パラ言語情報のもっともらしさ」を表す。例えば推定モデルにDNNを用い、ある発話の事後確率が「疑問：0.8、平叙：0.2」であったとき、疑問の確信度は0.8、平叙の確信度は0.2となる。パラ言語情報推定部１２２ａは、求めた韻律特徴に基づくパラ言語情報の確信度を韻律特徴データ選別部１３ａおよび言語特徴データ選別部１３ｂへ出力する。

ステップＳ１２ｂにおいて、言語特徴パラ言語情報推定部１２ｂは、教師ラベルなし発話記憶部１０ｂに記憶されている教師ラベルなし発話から、言語特徴推定モデル記憶部１５ｂに記憶されている言語特徴推定モデルを用いて、言語特徴のみに基づくパラ言語情報を推定する。言語特徴パラ言語情報推定部１２ｂは、パラ言語情報の推定結果を韻律特徴データ選別部１３ａおよび言語特徴データ選別部１３ｂへ出力する。言語特徴パラ言語情報推定部１２ｂは、言語特徴抽出部１２１ｂおよびパラ言語情報推定部１２２ｂを用いて、以下のようにパラ言語情報を推定する。

ステップＳ１２１ｂにおいて、言語特徴抽出部１２１ｂは、教師ラベルなし発話記憶部１０ｂに記憶されている発話から言語特徴を抽出する。言語特徴の抽出方法は、言語特徴抽出部１１１ｂと同様である。言語特徴抽出部１２１ｂは、抽出した言語特徴をパラ言語情報推定部１２２ｂへ出力する。

ステップＳ１２２ｂにおいて、パラ言語情報推定部１２２ｂは、言語特徴抽出部１２１ｂが出力する言語特徴を言語特徴推定モデル記憶部１５ｂに記憶されている言語特徴推定モデルに入力し、言語特徴に基づくパラ言語情報の確信度を求める。求めるパラ言語情報の確信度は、パラ言語情報推定部１２２ａと同様である。パラ言語情報推定部１２２ｂは、求めた言語特徴に基づくパラ言語情報の確信度を韻律特徴データ選別部１３ａおよび言語特徴データ選別部１３ｂへ出力する。

ステップＳ１３ａにおいて、韻律特徴データ選別部１３ａは、韻律特徴パラ言語情報推定部１２ａが出力する韻律特徴に基づくパラ言語情報の確信度と、言語特徴パラ言語情報推定部１２ｂが出力する言語特徴に基づくパラ言語情報の確信度とを用いて、教師ラベルなし発話記憶部１０ｂに記憶されている教師ラベルなし発話から、韻律特徴に基づく推定モデルを再学習するための自己訓練データ（以下、「韻律特徴自己訓練データ」と呼ぶ）を選別する。データ選別は、発話ごとに求めた韻律特徴に基づくパラ言語情報の確信度と言語特徴に基づくパラ言語情報の確信度との閾値処理により行う。閾値処理とは、すべてのパラ言語情報（疑問、平叙）の確信度それぞれに対し、閾値よりも高いかどうかを判定する処理である。確信度の閾値は、韻律特徴に関する確信度閾値（以下、「韻律特徴向け韻律特徴確信度閾値」と呼ぶ）と言語特徴に関する確信度閾値（以下、「韻律特徴向け言語特徴確信度閾値」と呼ぶ）とを予め設定しておく。また、韻律特徴向け韻律特徴確信度閾値は、韻律特徴向け言語特徴確信度閾値よりも低い値を設定する。例えば、韻律特徴向け韻律特徴確信度閾値を0.6とし、韻律特徴向け言語特徴確信度閾値を0.8とする。韻律特徴データ選別部１３ａは、選別した韻律特徴自己訓練データを韻律特徴推定モデル再学習部１４ａへ出力する。

図７に自己訓練データの選別規則を示す。ステップＳ１３１において、韻律特徴に基づく確信度の中に韻律特徴確信度閾値を上回るものがあるかを判定する。閾値を上回る確信度がなければ（Ｎｏ）、その発話は自己訓練に利用しない。閾値を上回る確信度があれば（Ｙｅｓ）、ステップＳ１３２において、言語特徴に基づく確信度の中に言語特徴確信度閾値を上回るものがあるかを判定する。閾値を上回る確信度がなければ（Ｎｏ）、その発話は自己訓練に利用しない。閾値を上回る確信度があれば（Ｙｅｓ）、ステップＳ１３３において、韻律特徴確信度閾値を上回る韻律特徴に基づく確信度をもつパラ言語情報ラベルと、言語特徴確信度閾値を上回る言語特徴に基づく確信度をもつパラ言語情報ラベルとが同一であるかを判定する。閾値を上回る確信度をもつパラ言語情報ラベルが同一でなければ（Ｎｏ）、その発話は自己訓練に利用しない。閾値を上回る確信度をもつパラ言語情報ラベルが同一であれば（Ｙｅｓ）、その発話にパラ言語情報を教師ラベルとして付加し、自己訓練データとして選別する。

例えば、韻律特徴確信度閾値を0.6とし、言語特徴確信度閾値を0.8とする。ある発話Ａの韻律特徴に基づく確信度が「疑問：0.3、平叙：0.7」かつ言語特徴に基づく確信度が「疑問：0.1、平叙：0.9」のとき、韻律特徴に基づく確信度は「平叙」が閾値を上回り、言語特徴に基づく確信度も「平叙」が閾値を上回る。そのため、発話Ａは教師ラベルを「平叙」として自己訓練に利用する。一方、ある発話Ｂの韻律特徴に基づく確信度が「疑問：0.1、平叙：0.9」かつ言語特徴に基づく確信度が「疑問：0.8、平叙：0.2」のとき、韻律特徴に基づく確信度は「平叙」が閾値を上回り、言語特徴に基づく確信度は「疑問」が閾値を上回る。この場合、閾値を上回る確信度をもつパラ言語情報ラベルが一致しないため、発話Ｂは教師ラベルなしとして自己訓練に利用しない。

ステップＳ１３ｂにおいて、言語特徴データ選別部１３ｂは、韻律特徴パラ言語情報推定部１２ａが出力する韻律特徴に基づくパラ言語情報の確信度と、言語特徴パラ言語情報推定部１２ｂが出力する言語特徴に基づくパラ言語情報の確信度とを用いて、教師ラベルなし発話記憶部１０ｂに記憶されている教師ラベルなし発話から、言語特徴に基づく推定モデルを再学習するための自己訓練データ（以下、「言語特徴自己訓練データ」と呼ぶ）を選別する。データ選別の方法は、韻律特徴データ選別部１３ａと同様であるが、閾値処理に用いる閾値が異なる。言語特徴データ選別部１３ｂの閾値は、韻律特徴に関する確信度閾値（以下、「言語特徴向け韻律特徴確信度閾値」と呼ぶ）と言語特徴に関する確信度閾値（以下、「言語特徴向け言語特徴確信度閾値」と呼ぶ）とを予め設定しておく。また、言語特徴向け言語特徴確信度閾値は、言語特徴向け韻律特徴確信度閾値よりも低い値を設定する。例えば、言語特徴向け韻律特徴確信度閾値を0.8とし、言語特徴向け言語特徴確信度閾値を0.6とする。言語特徴データ選別部１３ｂは、選別した言語特徴自己訓練データを言語特徴推定モデル再学習部１４ｂへ出力する。

言語特徴データ選別部１３ｂが用いる自己訓練データの選別規則は、図７に示した韻律特徴データ選別部１３ａが用いる自己訓練データの選別規則から韻律特徴と言語特徴とを入れ替えた形とする。

ステップＳ１４ａにおいて、韻律特徴推定モデル再学習部１４ａは、韻律特徴データ選別部１３ａが出力する韻律特徴自己訓練データを用いて、韻律特徴推定モデル学習部１１ａと同様にして、韻律特徴のみに基づいてパラ言語情報を推定する韻律特徴推定モデルを再学習する。韻律特徴推定モデル再学習部１４ａは、再学習済みの韻律特徴推定モデルにより韻律特徴推定モデル記憶部１５ａに記憶されている韻律特徴推定モデルを更新する。

ステップＳ１４ｂにおいて、言語特徴推定モデル再学習部１４ｂは、言語特徴データ選別部１３ｂが出力する言語特徴自己訓練データを用いて、言語特徴推定モデル学習部１１ｂと同様にして、言語特徴のみに基づいてパラ言語情報を推定する言語特徴推定モデルを再学習する。言語特徴推定モデル再学習部１４ｂは、再学習済みの言語特徴推定モデルにより言語特徴推定モデル記憶部１５ｂに記憶されている言語特徴推定モデルを更新する。

図８は、再学習済みの韻律特徴推定モデルおよび言語特徴推定モデルを用いて、入力された発話からパラ言語情報を推定するパラ言語情報推定装置である。このパラ言語情報推定装置５は、図８に示すように、韻律特徴推定モデル記憶部１５ａ、言語特徴推定モデル記憶部１５ｂ、韻律特徴抽出部５１ａ、言語特徴抽出部５１ｂ、およびパラ言語情報推定部５２を備える。このパラ言語情報推定装置５が、図９に例示する各ステップの処理を行うことによりパラ言語情報推定方法が実現される。

韻律特徴推定モデル記憶部１５ａには、推定モデル学習装置１により再学習済みの韻律特徴推定モデルが記憶されている。言語特徴推定モデル記憶部１５ｂには、推定モデル学習装置１により再学習済みの言語特徴推定モデルが記憶されている。

ステップＳ５１ａにおいて、韻律特徴抽出部５１ａは、パラ言語情報推定装置５に入力された発話から韻律特徴を抽出する。韻律特徴の抽出方法は、韻律特徴抽出部１１１ａと同様である。韻律特徴抽出部５１ａは、抽出した韻律特徴をパラ言語情報推定部５２へ出力する。

ステップＳ５１ｂにおいて、言語特徴抽出部５１ｂは、パラ言語情報推定装置５に入力された発話から言語特徴を抽出する。言語特徴の抽出方法は、言語特徴抽出部１１１ｂと同様である。言語特徴抽出部５１ｂは、抽出した言語特徴をパラ言語情報推定部５２へ出力する。

ステップＳ５２において、パラ言語情報推定部５２は、まず、韻律特徴抽出部５１ａが出力する韻律特徴を韻律特徴推定モデル記憶部１５ａに記憶されている韻律特徴推定モデルに入力し、韻律特徴に基づくパラ言語情報の確信度を求める。次に、言語特徴抽出部５１ｂが出力する言語特徴を言語特徴推定モデル記憶部１５ｂに記憶されている言語特徴推定モデルに入力し、言語特徴に基づくパラ言語情報の確信度を求める。そして、韻律特徴に基づくパラ言語情報の確信度と言語特徴に基づくパラ言語情報の確信度とを用いて、所定のルールに基づいて、入力された発話のパラ言語情報を推定する。所定のルールとは、例えば、パラ言語情報の確信度がどちらか一方でも「疑問」の事後確率が高い場合は「疑問」とし、どちらも「平叙」の事後確率が高い場合は「平叙」とするルールとしてもよいし、例えば、韻律特徴に基づくパラ言語情報の事後確率の重み付け和と言語特徴に基づくパラ言語情報の事後確率の重み付け和とを比較して、重み付け和が高い方を最終的なパラ言語情報の推定結果としてもよい。

［第二実施形態］
第二実施形態では、二つの側面からのデータ選別に基づく自己訓練を再帰的に行う。すなわち、自己訓練で強化した推定モデルを用いて学習すべき発話を選別し、選別した発話を用いて推定モデルを強化し、・・・を繰り返す。このループ処理を繰り返すことで、より推定精度が向上した韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとを構築することができる。各ループ処理を行った際にループ終了判定を実施し、推定モデルがこれ以上改善しないと判断された場合にループ処理を終了する。このことにより、確実に学習すべき発話だけを選別することを維持しつつ、学習すべき発話のバリエーションを増やすことができ、さらにパラ言語情報推定モデルの推定精度を向上させることができる。

第二実施形態の推定モデル学習装置２は、図１０に例示するように、第一実施形態の推定モデル学習装置１が備える各処理部に加えて、ループ終了判定部１６を備える。この推定モデル学習装置２が、図１１に例示する各ステップの処理を行うことにより第二実施形態の推定モデル学習方法が実現される。

以下、図１１を参照して、第二実施形態の推定モデル学習装置２が実行する推定モデル学習方法について、第一実施形態の推定モデル学習方法との相違点を中心に説明する。

ステップＳ１６において、ループ終了判定部１６は、ループ処理を終了するか否かを判定する。例えば、韻律特徴推定モデルと言語特徴推定モデルが両方ともループ処理前後で同じ推定モデルとなった（すなわち、両方の推定モデルが改善されなかった）場合、または、ループ処理済回数が規定数（例えば１０回）を超える場合、ループ処理を終了する。同じ推定モデルとなったか否かの判断は、ループ処理前後の推定モデルのパラメータを比較する、または、評価用データに対する推定精度がループ処理前後で一定以上向上したかを評価することで行うことができる。ループ処理を終了しない場合には、ステップＳ１２１ａ，Ｓ１２１ｂへ処理を戻し、再学習した推定モデルを用いて再度自己訓練データの選別を行う。なお、ループ処理済回数の初期値は０とし、ループ終了判定部１６を一度実行する度にループ処理済回数に１を加算する。

第一実施形態のように、学習すべき発話の選別とそれを用いたモデルの再学習を一度行うことで、韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルの推定精度は向上する。この推定精度が向上した推定モデルを用いて再度学習すべき発話の選別を行うことで、新たな学習すべき発話を検出することができる。新たな学習すべき発話を用いて再学習することで、モデルの推定精度がさらに向上する。

［第三実施形態］
第三実施形態では、第二実施形態の再帰的な自己訓練において、韻律特徴確信度閾値または言語特徴確信度閾値またはその両方を、ループ処理済回数に応じて下げるように変更する。このことにより、ループ処理済回数が少なくモデル学習が十分に行われていない段階では推定誤りが少ない発話を、ループ処理済回数が増えてモデル学習がある程度行われてきた段階ではより多様な発話を自己訓練に利用することができる。その結果、パラ言語情報推定モデルの学習が安定し、モデルの推定精度を向上させることができる。

第三実施形態の推定モデル学習装置３は、図１２に例示するように、第二実施形態の推定モデル学習装置２が備える各処理部に加えて、確信度閾値決定部１７を備える。この推定モデル学習装置３が、図１３に例示する各ステップの処理を行うことにより第三実施形態の推定モデル学習方法が実現される。

以下、図１３を参照して、第三実施形態の推定モデル学習装置３が実行する推定モデル学習方法について、第二実施形態の推定モデル学習方法との相違点を中心に説明する。

ステップＳ１７ａにおいて、確信度閾値決定部１７は、韻律特徴向け韻律特徴確信度閾値、韻律特徴向け言語特徴確信度閾値、言語特徴向け韻律特徴確信度閾値、および言語特徴向け言語特徴確信度閾値をそれぞれ初期化する。各確信度閾値の初期値は、予め設定されているものとする。韻律特徴データ選別部１３ａは、確信度閾値決定部１７が初期化した韻律特徴向け韻律特徴確信度閾値および韻律特徴向け言語特徴確信度閾値を用いて韻律特徴自己訓練データの選別を行う。同様に、言語特徴データ選別部１３ｂは、確信度閾値決定部１７が初期化した言語特徴向け韻律特徴確信度閾値および言語特徴向け言語特徴確信度閾値を用いて言語特徴自己訓練データの選別を行う。

ステップＳ１７ｂにおいて、確信度閾値決定部１７は、ループ終了判定部１６がループ処理を終了しないと判定した場合、韻律特徴向け韻律特徴確信度閾値、韻律特徴向け言語特徴確信度閾値、言語特徴向け韻律特徴確信度閾値、および言語特徴向け言語特徴確信度閾値をループ処理済回数に応じてそれぞれ更新する。確信度閾値の更新は、以下の式に基づく。なお、＾は累乗を表す。閾値減衰係数は、予め設定されているものとする。
（韻律特徴向け韻律特徴確信度閾値）＝（韻律特徴向け韻律特徴確信度閾値初期値）×（閾値減衰係数）＾（ループ処理回数）
（韻律特徴向け言語特徴確信度閾値）＝（韻律特徴向け言語特徴確信度閾値初期値）×（閾値減衰係数）＾（ループ処理回数）
（言語特徴向け韻律特徴確信度閾値）＝（言語特徴向け韻律特徴確信度閾値初期値）×（閾値減衰係数）＾（ループ処理回数）
（言語特徴向け言語特徴確信度閾値）＝（言語特徴向け言語特徴確信度閾値初期値）×（閾値減衰係数）＾（ループ処理回数）
韻律特徴データ選別部１３ａは、次のループ処理において、確信度閾値決定部１７が更新した韻律特徴向け韻律特徴確信度閾値および韻律特徴向け言語特徴確信度閾値を用いて韻律特徴自己訓練データの選別を行う。同様に、言語特徴データ選別部１３ｂは、次のループ処理において、確信度閾値決定部１７が更新した言語特徴向け韻律特徴確信度閾値および言語特徴向け言語特徴確信度閾値を用いて言語特徴自己訓練データの選別を行う。

上述の各実施形態では、人間の発話を記憶した音声データから韻律特徴と言語特徴とを抽出し、各特徴のみに基づいてパラ言語情報を推定する推定モデルを自己訓練する構成を説明した。しかしながら、本発明はこのような二種類の特徴のみを用い、二種類のパラ言語情報のみを分類する構成に限定されず、入力データから複数の独立した特徴量を用いて複数のラベル分類を行う技術に適宜応用することができる。

本発明では、パラ言語情報の推定に韻律特徴と言語特徴とを用いた。韻律特徴と言語特徴とは独立した特徴量であり、各特徴量単独でパラ言語情報の推定がある程度できる。例えば、話す言葉と声のトーンは全く別々に変えることができ、それら単体だけでも疑問かどうかはある程度推定することができる。本発明は、このように複数の独立した特徴量であれば、他の特徴量の組み合わせであっても適用することができる。ただし、一つの特徴量を細分化すると特徴量間の独立性が損なわれるため、推定精度が低下すると共に、誤って確信度が高いと推定される発話が増えるおそれがあることには注意されたい。

パラ言語情報の推定に用いる特徴量は３つ以上であってもよい。例えば、韻律特徴と言語特徴に加えて、顔（表情）に関する特徴量に基づいてパラ言語情報を推定する推定モデルを学習し、すべての特徴量が確信度閾値を超える発話を自己訓練データとして選別するように構成してもよい。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルを記憶する推定モデル記憶部と、
教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定する確信度推定部と、
上記特徴量から選択した１つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別するデータ選別部と、
を含み、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
自己訓練データ選別装置。
請求項１記載の自己訓練データ選別装置であって、
上記複数の独立した特徴量は、発話音声から抽出する韻律特徴と言語特徴とである、
自己訓練データ選別装置。
教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルを記憶する推定モデル記憶部と、
教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定する確信度推定部と、
上記特徴量から選択した１つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別するデータ選別部と、
上記学習対象の自己訓練データを用いて上記学習対象の特徴量に対応する上記推定モデルを再学習する推定モデル再学習部と、
を含み、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
推定モデル学習装置。
請求項３に記載の推定モデル学習装置であって、
上記確信度推定部と上記データ選別部と上記推定モデル再学習部とを実行することを１回のループ処理として、上記ループ処理を実行した回数に応じて上記確信度閾値の値が下がるように上記確信度閾値を決定する確信度閾値決定部をさらに含む、
推定モデル学習装置。
推定モデル記憶部に、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルが記憶されており、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
確信度推定部が、教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定し、
データ選別部が、上記特徴量から選択した１つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別し、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
自己訓練データ選別方法。
推定モデル記憶部に、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルが記憶されており、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
確信度推定部が、教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定し、
データ選別部が、上記特徴量から選択した１つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別し、
推定モデル再学習部が、上記学習対象の自己訓練データを用いて上記学習対象の特徴量に対応する上記推定モデルを再学習し、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
推定モデル学習方法。
請求項１または２に記載の自己訓練データ選別装置としてコンピュータを機能させるためのプログラム。
請求項３または４に記載の推定モデル学習装置としてコンピュータを機能させるためのプログラム。