JP6500375B2 - Voice processing apparatus, voice processing method, and program - Google Patents
Voice processing apparatus, voice processing method, and program Download PDFInfo
- Publication number
- JP6500375B2 JP6500375B2 JP2014187535A JP2014187535A JP6500375B2 JP 6500375 B2 JP6500375 B2 JP 6500375B2 JP 2014187535 A JP2014187535 A JP 2014187535A JP 2014187535 A JP2014187535 A JP 2014187535A JP 6500375 B2 JP6500375 B2 JP 6500375B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- degree
- audio signal
- voice
- diversity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 137
- 238000003672 processing method Methods 0.000 title claims description 13
- 230000005236 sound signal Effects 0.000 claims description 221
- 238000004364 calculation method Methods 0.000 claims description 118
- 238000009826 distribution Methods 0.000 claims description 64
- 238000000034 method Methods 0.000 description 43
- 238000001514 detection method Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 22
- 239000000203 mixture Substances 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、音声信号から話者の個人性や発話された言語等の属性情報を認識する音声処理装置、音声処理方法、およびプログラムに関する。 The present invention relates to a voice processing apparatus, a voice processing method, and a program for recognizing attribute information such as a speaker's individuality and a spoken language from a voice signal.
音声信号から、音声を発した話者を特定するための個人性を表す音響的特徴や、音声が伝える言語を表す音響的特徴を抽出する音声処理装置が知られている。また、これらの音響的特徴を用いて音声信号から話者を推定する話者認識装置や、言語を推定する言語認識装置が知られている。 A speech processing apparatus is known which extracts, from a speech signal, acoustic features representing individuality for specifying a speaker who has made speech, and acoustic features representing a language that the speech conveys. Also, a speaker recognition device that estimates a speaker from a speech signal using these acoustic features, and a language recognition device that estimates a language are known.
この種の音声処理装置を用いる話者認識装置では、音声処理装置が音声信号から抽出した音響特徴と、音響特徴の出現傾向の話者依存性を表現する話者モデルとの類似度を評価し、その評価に基づき話者を選択する。話者認識装置は、例えば、最も類似度が高いと評価された話者モデルの話者を選択する。このとき、話者認識装置に入力される音声信号に、音の種類が一部欠落したり雑音が混入したりすることによってその音響特徴に歪みが生じると、話者モデルが有する音響特徴との間に差異が生じて、話者認識の精度が低下することがある。以下の先行技術文献には、話者認識の精度低下を抑制する技術が記載されている。 In a speaker recognition apparatus using this kind of speech processing apparatus, the speech processing apparatus evaluates the similarity between the acoustic feature extracted from the speech signal and the speaker model that expresses the speaker dependency of the appearance tendency of the acoustic feature. , Select a speaker based on the evaluation. The speaker recognition apparatus selects, for example, a speaker of a speaker model evaluated as having the highest similarity. At this time, if distortion occurs in the acoustic feature due to a partial loss of sound type or noise mixing in the voice signal input to the speaker recognition device, the acoustic feature of the speaker model There may be differences between them, which may reduce the accuracy of speaker recognition. The following prior art documents describe techniques for suppressing the degradation of the accuracy of speaker recognition.
先行技術文献には、話者認識装置に入力される音声信号の特性に基づいて、話者認識の判定基準を調整する技術が記載されている。 The prior art documents describe techniques for adjusting the criteria for determining the speaker recognition based on the characteristics of the speech signal input to the speaker recognition device.
非特許文献1には、音声信号の量を表す特性として音声信号の継続時間長を測定し、その値に応じて話者認識結果に当該結果の信頼性を示す信頼度を付与することにより、話者認識の誤りを抑制する技術が記載されている。また、特許文献1には、音声信号の多様性を表す特性として音声信号に含まれる有声音と無声音の比率や音声信号に含まれる繰り返し発話区間の比率を算出し、その値を話者認識結果の信頼度として用いて話者認識の判定閾値をシフトさせることにより、話者認識精度の低下を抑制する技術が記載されている。
In
特許文献2には、DB(データベース)が有する複数の声質特徴と入力から算出された重みを用いて各声質間の距離を算出する。当該声質の距離を用いて各声質の声質空間上での座標を算出し、表示部に算出された声質空間上の座標へ当該声質に対する話者属性情報を表示する技術が記載されている。特許文献3には、発声者の音声の特徴量に基づいて当該発声者の正当性、すなわちあらかじめ登録された正規の利用者であるか否か、を判定する話者認証のための装置であり、混合モデルの確定に必要な登録区間を区分した各単位区間について特徴ベクトルの算定と更新混合モデルの更新とを順次に実行する技術が記載されている。
In
しかしながら、先行技術文献に記載の技術には、前述の信頼度が適切に求められていないため話者認識精度の低下を十分に抑制できない場合があるという問題があった。 However, in the technique described in the prior art document, there is a problem that the reduction in the speaker recognition accuracy may not be sufficiently suppressed because the above-mentioned reliability is not properly obtained.
非特許文献1に記載の技術は、話者認識装置に入力された音声信号の継続時間長が大きいほど、その音声信号に含まれる音の種類の欠落や偏りが少なく、話者認識結果の信頼性が高いと仮定している。しかし、同技術は、音声信号に含まれる音の種類を明示的には評価していないため、音声信号の継続時間長が大きくても同じ言葉が繰り返されたりする場合には適切でない。
According to the technique described in Non-Patent
特許文献1に記載の技術は、話者認識装置に入力された音声信号に含まれる音の多様性の大小に応じて話者認識の判定閾値が異なる値になるよう設定する。しかし、同技術は、話者認識装置に入力された音声信号の特性のみを計算し、事前に定めた一律の基準で話者認識の判定基準を調整する。そのため、話者認識装置に入力された音声信号の多様性を表す特性と、各話者モデルの学習時に用いられた各話者の音声信号の多様性を表す特性との間に差異があるとき、話者認識の判定基準を適切に調整できないおそれがある。話者モデルの学習用音声信号を十分に取得できない場合などにこのような問題が起こりうる。
According to the technique described in
特許文献2に記載の技術は、DB(データベース)が有する複数の声質特徴と入力から算出された重みを用いて各声質間の距離を算出する。そして、特許文献2に記載の技術は、当該声質の距離を用いて各声質の声質空間上での座標を算出し、表示部に算出された声質空間上の座標へ当該声質に対する話者属性情報を表示するが、当該表示する座標に対する信頼度を算出していない。また、特許文献3に記載の技術は、混合モデルの確定に必要な登録区間を区分した各単位区間について特徴ベクトルの算定と更新混合モデルの更新とを順次に実行するが、算定される特徴ベクトルと更新される混合モデルに対する信頼度を算出していない。
The technology described in
本発明の目的は、上記の問題を解決し、話者認識結果の信頼度を適切に求めることにより、話者認識の精度低下を抑制する音声処理装置を提供することである。 An object of the present invention is to provide a speech processing apparatus which suppresses the degradation of the accuracy of speaker recognition by solving the above problems and appropriately determining the reliability of the speaker recognition result.
本発明の一態様における音声処理装置は、音声を表す音声信号に基づき、前記音声信号の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出手段と、前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出手段とを備える。 An audio processing device according to one aspect of the present invention includes acoustic diversity calculation means for calculating acoustic diversity representing a degree of variation regarding the type of the audio signal based on an audio signal representing audio, and the acoustic diversity of the audio signal. Calculating the acoustic reliability indicating the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the other audio signal as a reference And a reliability calculation means.
本発明の一態様における音声処理方法は、音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出し、前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する。 The sound processing method according to one aspect of the present invention calculates an acoustic diversity degree indicating a degree of variation regarding the type of sound included in the sound signal based on the sound signal representing the sound, and the sound diversity of the sound signal Based on the degree of difference between the acoustic diversity of another audio signal as a reference, acoustic reliability is calculated that represents the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal.
本発明の一態様におけるプログラムは、音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出処理と、前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出処理とをコンピュータに実行させる。 A program according to one aspect of the present invention includes an acoustic diversity calculation process of calculating acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing audio; Based on the degree of acoustic diversity and the degree of difference between the acoustic diversity of another audio signal as a reference, the audio reliability indicating the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal is calculated The computer is made to execute the sound reliability calculation processing to be performed.
本発明は、話者認識結果の信頼度を適切に求めることにより、話者認識の精度低下を抑制することができる。 The present invention can suppress the degradation of the accuracy of speaker recognition by appropriately determining the reliability of the speaker recognition result.
以下、音声処理装置等および話者認識装置の実施形態について、図面を参照して説明する。なお、各実施形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。 Hereinafter, embodiments of the speech processing device and the like and the speaker recognition device will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in each embodiment performs the same operation | movement, description for the second time may be abbreviate | omitted.
<第1の実施形態>
図1は、第1の実施形態における音声処理装置100のブロック図である。音声処理装置100は、音声モデル記憶部11、音響多様度算出部12、音響多様度記憶部13、および音響信頼度算出部14を備える。
First Embodiment
FIG. 1 is a block diagram of the speech processing apparatus 100 according to the first embodiment. The voice processing device 100 includes a voice
音響多様度算出部12は、音声信号を受理する。ここで、受理とは、例えば、外部の装置からの受信、他の処理装置や他のプログラムからの処理結果の引き渡しのことである。
The acoustic
音声モデル記憶部11は、1つ以上の音声モデルを記憶する。音声モデルは、音声信号に対して、そのモデルとの適合度合いを表す数値情報を算出するための情報を有する。例えば、音声モデルが混合ガウス分布(GMM: Gaussian Mixture Model)である場合、音声処理装置100は、混合ガウス分布が有する平均、分散および混合係数に基づいて、音声信号の出現確率を算出できる。
The voice
音声モデル記憶部11が記憶する音声モデルは、訓練用音声信号を用いて、最尤基準等の一般的な最適化基準に従って訓練された音声モデルである。音声モデルの訓練では、音声認識で一般的に用いられる音響モデルの訓練とは異なり、訓練用音声信号の内容を表す言語情報(単語など)は必要としない。音声モデル記憶部11は、例えば、話者の性別(男性および女性)や録音環境別(屋内および屋外)のように訓練用音声信号を分けて学習した2つ以上の音声モデルを記憶してもよい。
The speech model stored in the speech
音響多様度算出部12は、音声信号を受理し、音声モデル記憶部11に記憶されている1つ以上の音声モデルを参照して、音声信号に含まれる音の種類を表す音響多様度を算出する。そして音響多様度算出部12は、その処理結果を受理した音声信号と併せて出力する。音の種類は、例えば、音声信号を類似度に基づいて自動的にグループ化、すなわちクラスタリング、をして得られる音のまとまり、すなわち音のクラスとして表される。ここで、出力とは、例えば、外部の装置への送信、他の処理装置や他のプログラムへの処理結果の引き渡しのことである。また、出力は、例えば、ディスプレイへの表示、プロジェクタを用いた投影、プリンタでの印字なども含む概念である。
The acoustic
音響多様度算出部12が音声信号xの音響多様度V(x)を算出する方法の一例を説明する。例えば、音声モデルが混合ガウス分布であるとき、混合ガウス分布の各要素分布はそれぞれ異なる音を表している。そこで、音響多様度算出部12は、音声信号xに対して、音声モデルである混合ガウス分布の各要素分布の事後確率を求める。混合ガウス分布のi番目の要素分布の事後確率Pi(x)は、以下の式で計算できる。
An example of a method of calculating the acoustic multiplicity V (x) of the audio signal x by the acoustic
ここで、Nはガウス分布の確率密度関数を表し、θiは混合ガウス分布のi番目の要素分布のパラメタ(平均および分散)、wiは混合ガウス分布のi番目の要素分布の混合係数を表す。このPi(x)は、音声信号xが混合ガウス分布のi番目の要素分布にどの程度属するかを表している。このPi(x)を要素に持つベクトルとして音響多様度V(x)を構成する。例えば、音声モデルである混合ガウス分布の混合数が4であるとき、音響多様度をV(x)=( P1(x),P2(x),P3(x),P4(x))と定める。 Here, N represents the probability density function of the Gaussian distribution, θ i is the parameter (average and variance) of the i-th element distribution of the mixed Gaussian distribution, and w i is the mixing coefficient of the i-th element distribution of the mixed Gaussian distribution Represent. This P i (x) indicates how much the speech signal x belongs to the i-th element distribution of the mixed Gaussian distribution. The acoustic multiplicity V (x) is configured as a vector having this P i (x) as an element. For example, when the mixing number of the mixture Gaussian distribution, which is a speech model, is four, the acoustic diversity is expressed as V (x) = (P 1 (x), P 2 (x), P 3 (x), P 4 (x It defines as).
また、音響多様度算出部12が音声信号xの音響多様度V(x)を算出する方法の他の例を説明する。例えば、音声モデルが混合ガウス分布であるとき、音響多様度算出部12は、音声信号xを短時間音声信号の時系列 {x1,x2,…,xT}に分割し、短時間音声信号それぞれについて、その出現確率が最大となる要素分布番号iをArgmaxi(xt)=N(xt|θi)によって求める。混合ガウス分布のi番目の要素分布が選ばれた回数をCi(x)とすると、これは音声信号xが混合ガウス分布のi番目の要素分布にどの程度属するかを表していると解釈できる。このCi(x)あるいはCi(x)/ΣjCj(x)を要素に持つベクトルとして音響多様度V(x)を構成する。例えば、音声モデルである混合ガウス分布の混合数が4であるとき、音響多様度をV(x)=( C1(x),C2(x),C3(x),C4(x))と定める。
In addition, another example of a method for the acoustic
音響多様度算出部12は、受理した音声信号を区分化した音声信号の音響多様度を算出してもよい。音響多様度算出部12は、例えば、受理した音声信号を一定時間の音声信号に区分化し、区分化の結果であるそれぞれの区分化音声信号について音響多様度を算出してもよい。音響多様度算出部12は、あるいは、音声信号の受理に同期して、音声信号の継続時間長が所定の値を超えるときに、その時点で受理した音声信号の音響多様度を算出してもよい。
The acoustic
音響多様度算出部12は、音声モデル記憶部11に記憶されている2つ以上の音声モデルを参照する場合では、それぞれの音声モデルに基づいて算出した2つ以上の音響多様度を重みづけ加算したものを音響多様度としてもよい。
When referring to two or more speech models stored in the speech
音響多様度算出部12は、確率分布を要素分布とする混合モデルとして構成され音声信号の出現確率分布を表す音声モデルに基づき、その音声信号の音声モデルの要素分布に対する尤度を算出し、その尤度、または、その尤度を全ての要素分布の尤度の和で正規化した値に基づき、その音声信号の音響多様度を算出してもよい。
The acoustic
以上述べたように、音響多様度算出部12は、音声モデル記憶部11に記憶された音声モデルに基づき音響多様度を算出する。音声モデルは1つあるいは少数の混合ガウス分布で表されるため、一般的な音声認識で用いられる音声モデルのように、言語情報、例えば音素などごとに異なる混合ガウス分布を有するものよりも、モデルを構成するパラメタが少ない。同じ理由により、音響多様度の算出にかかる計算量も、一般的な音声認識より少ない。このことから、音響多様度算出部12は、言語情報を用いる特許文献1に記載の技術よりも高速に音響多様度を算出できる。
As described above, the acoustic
音響多様度記憶部13は、1つ以上の音響多様度を表す情報を記憶する。音響多様度記憶部13は、あらかじめ、1つ以上の音声信号について、上述の音響多様度算出部12と同様の方法で算出した音響多様度を記憶する。例えば、音響多様度記憶部13は、話者認識装置が有する話者モデルを学習する際に、各話者モデルの学習に用いる音声信号それぞれについて算出した音響多様度を、各話者と対応付けて記憶する。音声処理装置100は、例えば、3名の話者(A、B、C)の音声信号xA,xB,xCを用いて3つの話者モデルを学習する際に、それぞれの音声信号の音響多様度を算出し、{A,V(xA)},{B,V(xB)},{C,V(xC)}のように表される情報を記憶する。
The acoustic
音響信頼度算出部14は、音響多様度算出部12が出力した音声信号とその音響多様度を受理し、音響多様度記憶部13に記憶されている音響多様度を参照して、音声信号の音響信頼度を算出し、その処理結果を音響多様度算出部12が出力した音声信号および音響多様度と併せて出力する。
The sound
音響信頼度算出部14が音声信号xの音響信頼度R(x)を算出する方法の一例を説明する。例えば、音声信号xの音響多様度V(x)が、上述[数1]の計算結果であるPi(x)を要素に持つ多項分布(ベクトル)であるとする。また、音響多様度記憶部13に記憶されている1つ以上の音響多様度のひとつであるVA=V(xA)も同様の多項分布であるとする。例えば、VAは話者Aの話者モデル学習用音声信号の音響多様度である。これらの2つの多項分布V(x)とVAとの相違度として音響信頼度を構成する。音響信頼度算出部14は、2つの多項分布V(x)とVAとの相違度を表す任意の尺度、例えば、カルバック・ライブラー情報量やコサイン類似度を用いて音響信頼度を定める。例えば、カルバック・ライブラー情報量とは、2つの確率分布の差異を図る尺度である。例えば、以下の式に従って音響信頼度を算出するとき、その値は正の値をとり、2つの多項分布の相違度が小さいほど、大きな値をとる。
An example of a method of calculating the sound reliability R (x) of the audio signal x by the sound
音響信頼度算出部14は、あるいは、音声信号xの音響多様度V(x)のエントロピーを計算して、音響信頼度としてもよい。この場合、音響信頼度R(x)=−ΣiVi(x)logVi(x)は正の値をとり、音声信号xに含まれている音の種類が均一であるとき、最も大きな値をとる。
Alternatively, the sound
音響信頼度算出部14は、受理した音声信号を区分化した音声信号の音響信頼度を算出してもよい。音響信頼度算出部14は、音響多様度算出部12と同様に音声信号を区分化してもよいし、異なる区分化をしてもよい。
The sound
音響信頼度算出部14は、音響多様度記憶部13に記憶されている2つ以上の音響多様度を参照する場合は、それぞれの音響多様度に基づいて算出した2つ以上の結果をそれぞれ出力してもよい。
The acoustic
以上述べたように、音響多様度算出部12が算出する音響多様度により、音声信号に含まれる音の種類のばらつきの程度を表す多様性を表現できる。これにより、例えば、2つの同じ長さの音声信号があり、片方が同じ言葉の繰り返しで、もう一方がそうでないとき、音響多様度を用いて、2つの音声信号にそれぞれ含まれる音の種類が異なるさまを表すことができる。すなわち、同じ言葉の繰り返しの音声信号には音の種類のばらつきの程度が小さいので音響多様度が低くなる。一方、同じ言葉の繰り返しでない音声信号には音の種類のばらつきの程度が大きいので音響多様度が高くなる。音響信頼度算出部14では、音響多様度に基づいて、音の種類に偏りや欠落が少ない音声信号の音響信頼度が高くなるよう算出することによって、話者認識に適した音声信号に高い音響信頼度を与えることができる。
As described above, it is possible to express the diversity representing the degree of the variation of the type of sound included in the audio signal by the acoustic diversity calculated by the acoustic
なお、特許文献1に記載の技術は、音声信号に含まれる音の多様性を表す特性として、音声に含まれる有声音と無声音の比率や繰り返し発話区間の比率を用いている。しかし、これらの特性を計算するためには、音声に対応する記号(有声音、無声音、および単語など)を推定する必要がある。このような記号の推定に用いられる音声認識技術は一般に計算時間を要するため、高速な話者認識処理には適さないという課題がある。
Note that the technology described in
これに対し、第1の実施形態にかかる音響信頼度算出部14は、音響多様度算出部12が算出する、受理音声信号の音響多様度と、音響多様度記憶部13が記憶する、他の音声信号の音響多様度に基づいて、両者の相違度を表す尺度を計算し、計算結果に基づき音響信頼度を求める。音響信頼度算出部14は、例えば、話者認識装置に受理された音声信号と話者モデルの学習に用いた音声信号の、音響多様度の相違に基づいて音響信頼度を算出する。話者認識装置に受理された音声信号と話者モデルとの類似度を評価する際に、話者モデルの学習用音声信号に含まれていない種類の音に基づいて類似度を評価するよりも、話者モデルの学習用音声信号に含まれている種類の音に基づいて類似度を評価する方が、類似度の信頼性が高い。音響信頼度算出部14は、十分な長さの話者モデル学習用音声信号を取得できず、学習用音声信号に含まれる音の種類に偏りや欠落が生じたような場合でも、音響信頼度を精度よく算出することができる。
On the other hand, the sound
音響信頼度算出部14は、音声信号に任意の区分化を施した区分化音声信号について音響信頼度を算出してもよい。これにより、第1の実施形態にかかる音声処理装置100は、非特許文献1に記載の技術である音声信号の継続時間長に基づく計算法よりも精度よく音響信頼度を算出できる。図3を用いて、音響信頼度について説明する。図3のグラフは、音声信号の継続時間長と、その時点での音声信号の音響多様度との関係を示すものである。図3に示す(1)のグラフは、非特許文献1に記載の技術によるものであり、音声信号の継続時間長が30のときに音響信頼度が1であることを示す。非特許文献1に記載の技術では、どのような音声信号に対しても図3に示す(1)のグラフと同様になる。一方で、本発明の一態様における技術では、音声信号に含まれる音の多様性に応じて、当該グラフの様相が異なる。音声信号の多様性が大きい場合は、継続時間長が小さい段階でも音響信頼度は高い値をとり、例えば、図3に示す(2)のグラフのように継続時間長が20のときに音響信頼度が1になることがある。また、音声信号の先頭部分の多様性が小さい場合は、継続時間長が大きくなるまで音響信頼度は高い値とならず、例えば、図3に示す(3)のグラフのように継続時間長が40のときに音響信頼度が1になることがある。このように、第1の実施形態における音声処理装置100は、音響多様性に基づいて音声信号の音響信頼度を算出することで、非特許文献1に記載の技術よりも精度よく音響信頼度を求めることができる。
The sound
音声モデル記憶部11および音響多様度記憶部13は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
Although the voice
音声モデル記憶部11に音声モデルが記憶される過程は問わない。例えば、記録媒体を介して音声モデルが音声モデル記憶部11に記憶されるようになってもよく、通信回線等を介して送信された音声モデルが音声モデル記憶部11に記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音声モデルが音声モデル記憶部11で記憶されるようになってもよい。音響多様度記憶部13についても同様である。
The process in which the speech model is stored in the speech
音響多様度算出部12、音響信頼度算出部14は、例えば、演算装置やメモリ等から実現されうる。音響多様度算出部12等の処理手順は、例えば、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。また、ハードウェア(専用回路)で実現してもよい。
The sound
(第1の実施形態における音声処理装置100の動作)
次に、第1の実施形態における音声処理装置100の動作について、図2のフローチャートを用いて説明する。図2は、音声処理装置100の動作を示すフローチャートである。
(Operation of Voice Processing Device 100 in First Embodiment)
Next, the operation of the speech processing apparatus 100 according to the first embodiment will be described with reference to the flowchart of FIG. FIG. 2 is a flowchart showing the operation of the speech processing apparatus 100.
音声処理装置100は、外部から1つ以上の音声信号を受理し、音響多様度算出部12に提供する(ステップS101)。音響多様度算出部12は、受理した1つ以上の音声信号それぞれについて、音声モデル記憶部11に記憶されている1つ以上の音声モデルを参照し、音響多様度を算出する(ステップS102)。音響信頼度算出部14は、受理した1つ以上の音声信号とその音響多様度それぞれと、必要に応じて音響多様度記憶部13に記憶されている1つ以上の音響多様度とを参照し、音響信頼度を算出する(ステップS103)。音声処理装置100は、外部からの音声信号の受理が終了した場合(ステップS104でYes)、一連の処理を終了する。音声処理装置100は、外部からの音声信号の受理が終了していない場合(ステップS104でNo)、ステップS101へ処理が戻る。
The voice processing apparatus 100 receives one or more voice signals from the outside, and provides the voice diversity calculation unit 12 (step S101). The acoustic
以上で、第1の実施形態における音声処理装置100の動作が終了する。 This is the end of the operation of the speech processing device 100 according to the first embodiment.
(第1の実施形態の効果)
以上、説明したように、第1の実施形態の音声処理装置100によれば、音声信号に対して、音声多様度に基づいて音響信頼度を算出するという、言語情報を利用しない高速な計算方式を用いる。よって音声処理装置100は、音声信号に含まれる音の種類に偏りや欠落がある場合や、音声信号の音響多様度と話者モデル学習用音声信号の音響多様度との差異が大きい場合に、音声信号の音響信頼度を低く見積もることができる。これにより、第1の実施形態の音声処理装置100は話者認識に適さない音声信号に対する話者認識結果の出力を抑制することができ、話者認識精度の低下を抑制できる。
(Effects of the first embodiment)
As described above, according to the speech processing apparatus 100 of the first embodiment, a high-speed calculation method using no speech information, in which sound reliability is calculated for speech signals based on speech diversity. Use Therefore, in the case where there is a bias or omission in the types of sounds included in the audio signal, the audio processing apparatus 100 has a large difference between the audio diversity of the audio signal and the audio diversity of the speaker model learning audio signal. The acoustic reliability of the speech signal can be underestimated. Thus, the speech processing apparatus 100 according to the first embodiment can suppress the output of the speaker recognition result for the speech signal not suitable for the speaker recognition, and can suppress the reduction in the speaker recognition accuracy.
<第2の実施形態>
図4は、第2の実施形態における話者認識装置200のブロック図である。話者認識装置200は、音声区間検出部21、音声処理部22、話者モデル記憶部23、話者認識計算部24、および話者認識出力部25を備える。
Second Embodiment
FIG. 4 is a block diagram of the speaker recognition apparatus 200 in the second embodiment. The speaker recognition apparatus 200 includes a voice
本実施形態における話者認識装置200は、音声信号から特定の属性情報を認識する属性認識装置の一例であり本実施形態は属性認識装置全般に適用可能である。属性認識装置の具体例としてほかに例えば言語認識装置がある。話者認識装置は、音声信号を発した話者を示す情報を認識する。言語認識装置は、音声信号が伝える言語を示す情報を認識する。すなわち本実施形態は話者認識装置、言語認識装置に適用可能である。 The speaker recognition device 200 in the present embodiment is an example of an attribute recognition device that recognizes specific attribute information from a voice signal, and the present embodiment is applicable to all attribute recognition devices. Another example of the attribute recognition device is, for example, a language recognition device. The speaker recognizer recognizes information indicative of the speaker who originated the speech signal. The language recognition device recognizes information indicating the language that the speech signal conveys. That is, the present embodiment is applicable to a speaker recognition apparatus and a language recognition apparatus.
音声区間検出部21は、音声信号を受理し、音声信号に含まれる音声区間を検出してそれを区分化し、その処理結果である区分化音声信号を出力する。ここで、受理とは、例えば、外部の装置からの受信、他の処理装置や他のプログラムからの処理結果の引き渡しのことである。音声区間検出部21は、例えば、音声信号のうち一定時間継続して音量が所定値より小さい区間を無音と判定し、その区間の前後を異なる音声区間と判定して区分化するようにしてもよい。
The voice
音声処理部22は、音声区間検出部21が出力した1つ以上の音声信号を受理し、第1の実施形態の音声処理装置100に相当する音声処理を行って、音声信号の音響信頼度を算出し、処理結果の音響信頼度を出力する。音声処理部22の構成および動作は、第1の実施形態における音声処理装置100の構成および動作と同様であってもよい。例えば音声処理部22は音声処理装置100であってもよい。
The
話者モデル記憶部23は、1つ以上の話者モデルを格納する。話者モデルは、音声信号に対してそのモデルとの適合度合いを表す数値情報(スコア)を付与するための情報を有する。話者認識装置200は、例えば、話者モデルが混合ガウス分布である場合、混合ガウス分布が有する平均、分散、および混合係数に基づいて、音声信号の出現確率をスコアとして算出できる。ここで、各話者に対応する混合ガウス分布は、話者IDが教師ラベルとして与えられた音声信号を用いて、最尤基準や最大事後確率基準等の一般的な基準に従って最適化されたものを用いる。ここで、話者IDとは、話者を識別するための識別子である。
The speaker
話者認識計算部24は、音声区間検出部21が出力した音声信号を受理し、話者モデル記憶部23に記憶されている1つ以上の話者モデルを参照して、音声信号とそれぞれの話者モデルに対する適合度合いを計算し、話者認識結果を計算して話者認識出力部25に出力する。
The speaker
話者認識計算部24が出力する話者認識結果は、例えば、話者認識装置200が話者識別することを目的とする場合は、各話者モデルに基づいて算出したスコア順に並べた話者IDのリストの形式である。また、話者認識計算部24が出力する話者認識結果は、例えば、話者認識装置200が話者照合することを目的とする場合は、照合対象の話者モデルに基づいて算出したスコアに基づいて照合可否の判定情報である。
The speaker recognition result output from the speaker
話者認識出力部25は、話者認識計算部24が出力した話者認識結果と、音声処理部22が出力した音響信頼度とを受理し、話者認識結果を必要に応じて変更して、外部に出力する。ここで、出力とは、例えば、外部の装置への送信、他の処理装置や他のプログラムへの処理結果の引き渡しのことである。また、出力とは、ディスプレイへの表示、プロジェクタを用いた投影、プリンタでの印字なども含む概念である。
The speaker
話者認識出力部25が出力する話者認識結果の作成方法の一例を説明する。例えば、話者認識装置200が話者識別することを目的とする場合、話者認識計算部24から受理した話者認識結果は、前述の通り、話者IDリストで表される。話者認識出力部25は、この話者認識結果に対して、話者IDごとに、音声信号の音響多様度と当該話者IDの話者モデルの学習用音声信号の音響多様度とに基づいて算出した音響信頼度を参照する。その上で、話者認識出力部25は、例えば、当該音響信頼度が所定の値より低い場合にその話者IDを話者認識結果から除く。あるいは、話者認識出力部25は、例えば、当該音響信頼度に一定の係数を乗じて話者認識の結果に、スコアを加える演算などの再計算に基づき算出した値を含める。話者認識出力部25は、当該スコア、すなわち話者認識スコアを含めた話者認識結果を新たな話者認識結果とする。または、話者認識出力部25は、当該新たな話者認識結果を出力する。
An example of a method of creating a speaker recognition result output by the speaker
また、話者認識出力部25が出力する話者認識結果の作成方法の他の一例を説明する。例えば、話者認識装置200が話者照合することを目的とする場合、受理した話者認識結果は、前述の通り、照合可否の判定情報である。話者認識出力部25は、この話者認識結果に対して、音声信号を音響多様度と照合対象話者の話者モデルの学習用音声信号の音響多様度に基づいて算出した音響信頼度を参照する。話者認識出力部25は、例えば、当該音響信頼度が所定の値より低い場合に、照合可否情報に加えて、当該音響信頼度を併せて話者認識結果とする。あるいは、話者認識出力部25は、例えば、当該音響信頼度が所定の値より低い場合に、照合可否情報の代わりに、照合不能であることを示す情報を話者認識結果とする。
In addition, another example of a method of creating a speaker recognition result output by the speaker
話者モデル記憶部23は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The speaker
話者モデル記憶部23に話者モデルが記憶される過程は問わない。例えば、記録媒体を介して話者モデルが話者モデル記憶部23に記憶されるようになってもよく、通信回線等を介して送信された話者モデルが話者モデル記憶部23に記憶されるようになってもよく、あるいは、入力デバイスを介して入力された話者モデルが話者モデル記憶部23で記憶されるようになってもよい。
The process for storing the speaker model in the speaker
音声区間検出部21、音声処理部22、話者認識計算部24、話者認識出力25は、例えば、演算処理装置やメモリ等から実現されうる。音声区間検出部21等の処理手順は、例えば、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。また、ハードウェア(専用回路)で実現してもよい。
The voice
(第2の実施形態における話者認識装置200の動作)
次に、話者認識装置200の動作について、図5のフローチャートを用いて説明する。図5は、話者認識装置200の動作を示すフローチャートである。
(Operation of Speaker Recognition Device 200 in Second Embodiment)
Next, the operation of the speaker recognition apparatus 200 will be described using the flowchart of FIG. FIG. 5 is a flowchart showing the operation of the speaker recognition apparatus 200.
音声区間検出部21は、外部から音声信号を受理し、受理した音声信号について、音声区間検出による区分化を行い、1つ以上の区分化音声信号を音声処理部22および話者認識計算部24に提供する(ステップS201)。音声処理部22は、受理した1つ以上の区分化音声信号について、第1の実施形態の音声処理装置100の音声処理(ステップS101〜ステップS104の処理)を施して音響信頼度を算出し、話者認識出力部25に提供する(ステップS202)。話者認識計算部24は、受理した1つ以上の区分化音声信号に対して、話者モデル記憶部23に記憶されている1つ以上の話者モデルを参照し、話者認識計算を実行し、話者認識出力部25に話者認識結果を提供する(ステップS203)。話者認識出力部25は、音声信号に関する話者認識結果と音響信頼度を受理し、話者認識結果を必要に応じて変更し、その結果を外部に出力し、一連の処理を終了する(ステップS204)。
The voice
以上述べたように、本実施形態の話者認識装置200は、話者認識計算部24が話者認識計算を行った後に、話者認識出力部25が音響信頼度に基づいて話者認識結果を変更するというように動作する。
As described above, in the speaker recognition apparatus 200 according to the present embodiment, after the speaker
(第2の実施形態の効果)
以上、説明したように、第2の実施形態の話者認識装置200によれば、第1の実施形態の音声処理装置(本実施形態では音声処理部22)を利用することにより、入力された音声信号に対して音声多様度に基づく音響信頼度を算出し、音声信号に含まれる音の種類に偏りや欠落がある場合や、音声信号の音響多様度と話者モデル学習用音声信号の音響多様度との差異が大きい場合に、音声信号の音響信頼度を低く見積もることができる。これにより、第2の実施形態の話者認識装置200は話者認識に適さない音声信号に対する話者認識結果の出力を抑制することができ、話者認識精度の低下を抑制できる。
(Effect of the second embodiment)
As described above, according to the speaker recognition apparatus 200 of the second embodiment, the input is performed using the speech processing apparatus of the first embodiment (in the present embodiment, the speech processing unit 22). The sound reliability is calculated based on the voice diversity degree for the voice signal, and when there is a bias or omission in the type of sound included in the voice signal, the acoustic diversity of the voice signal and the sound of the speaker model learning voice signal If the difference between the diversity is large, the acoustic reliability of the audio signal can be underestimated. Thus, the speaker recognition apparatus 200 according to the second embodiment can suppress the output of the speaker recognition result for the voice signal not suitable for the speaker recognition, and can suppress the reduction in the speaker recognition accuracy.
なお、非特許文献1に記載の技術は、音声信号が長いほど、話者認識の計算時間と話者認識結果を出力するまでにかかる応答時間が長くなるため、高速処理を要する利用場面には適さないという課題がある。一方、第2の実施の形態の話者認識装置200は、例えば音声信号に含まれる音の種類に偏りや欠落がある場合や、音声信号の音響多様度と話者モデル学習用音声信号の音響多様度との差異が大きい場合に、音声信号の音響信頼度を低く見積もる。したがって話者認識装置200は、話者認識に適さない音声信号に対する話者認識結果の出力を抑制することができ、高速処理を要する利用場面でも好適である。
In the technique described in
(第2の実施形態の変形例)
第2の実施形態と類似の形態として、音声処理部22が算出した音響信頼度を話者認識計算部24に提供するという構成がある。この構成では、話者認識計算部24が、例えば音響信頼度が所定の値を超えたら話者認識計算を開始するというように、音響信頼度に基づいて話者認識計算を実施するか否かを判定するよう動作する。したがって本実施形態の類似の形態における話者認識装置200は、話者認識にかかる計算を省くことができるという利点を有する。
(Modification of the second embodiment)
A configuration similar to that of the second embodiment is to provide the speaker
<第3の実施形態>
図6は、第3の実施形態における話者モデル学習装置300のブロック図である。話者モデル学習装置300は、音声区間検出部31、音声処理部32、音声モデル記憶部33、話者モデル記憶部34、話者モデル学習部35、および音声信号入力要求部36を備える。
Third Embodiment
FIG. 6 is a block diagram of a speaker model learning device 300 in the third embodiment. The speaker model learning device 300 includes a voice
音声区間検出部31は、第2の実施形態の話者認識装置200の音声区間検出部21と同様に、入力部を介して音声信号を受理し、音声信号に含まれる音声区間を検出して区分化し、その処理結果である区分化音声信号を出力する。音声区間検出部31の構成および動作は、第2の実施形態における音声区間検出部21の構成および動作と同様である。
The voice
音声処理部32は、音声区間検出部31が出力した1つ以上の音声信号を受理し、第1の実施形態の音声処理装置100に相当する音声処理を行って、音声信号の音響多様度を音声処理装置100内の音響多様度記憶部に記憶させる。また、音声信号の音響信頼度を算出し、処理結果の音響信頼度を出力する。音声処理部32の構成および動作は、第1の実施形態における音声処理装置100および第2の実施形態における音声処理部22の、構成および動作と同様である。また、音声処理部32は、例えば、音声処理装置100である。
The
音声モデル記憶部33は、第1の実施形態の音声モデル記憶部11と同様に、1つ以上の音声モデルを記憶する。音声モデルは、例えば、混合ガウス分布である。音声モデル記憶部33の構成および動作は、第1の実施形態における音声モデル記憶部11の構成および動作と同様である。
The speech model storage unit 33 stores one or more speech models, as in the speech
話者モデル記憶部34は、第2の実施形態の話者モデル記憶部23と同様に、1つ以上の話者モデルを格納する。話者モデルは、例えば、混合ガウス分布である。話者モデル記憶部34の構成および動作は、第2の実施形態における話者モデル23の構成および動作と同様である。
The speaker
話者モデル学習部35は、1つ以上の音声信号を受理し、音声モデル記憶部33に記憶されている音声モデルを参照し、両者を用いて話者モデルを作成し、話者モデル記憶部34に記憶させる。音声モデルと話者モデルがともに混合ガウス分布であるとき、話者モデルは、音声モデルを初期モデルとして、音声信号の教師ラベルを話者IDとして、最尤基準や事後確率最大化基準等の一般的な基準に従って最適化されたものを用いる。
The speaker
音声信号入力要求部36は、話者モデル学習装置300に入力された音声信号について音声処理部32が算出した音響信頼度を受理し、音声信号の入力の必要度を表す要求情報を算出し、外部に出力する。ここで、出力とは、例えば、外部の装置への送信、他の処理装置や他のプログラムへの処理結果の引き渡しのことである。また、出力とは、ディスプレイへの表示、プロジェクタを用いた投影、プリンタでの印字なども含む概念である。
The speech signal
音声信号入力要求部36は、例えば、音声処理部32から受理した音響信頼度が所定の値より高い場合に、音声信号の入力停止を示す要求情報を出力する。音声信号入力要求部36が音声信号の入力停止を示す要求情報を出力して、話者に音声信号入力を停止してよい旨を提示することにより、話者が必要以上の音声信号の入力をする負担を軽減できる。
For example, when the sound reliability received from the
音声信号入力要求部36は、例えば、音声処理部32から受理した音響信頼度が所定の値より低い場合に、音声信号の入力継続を示す要求情報を出力する。音声信号入力要求部36が音声信号の入力継続を示す要求情報を出力して、話者に音声信号の入力を続けるよう促す表示を提示することにより、話者が音声信号の入力を早く停止することを抑制できる。
For example, when the sound reliability received from the
音声区間検出部31は、音声信号入力要求部36が出力する要求情報を受理する。音声区間検出部31は、例えば、音声信号の入力停止を示す要求情報を受理したときに、音声区間の検出処理を停止するようにしてもよい。この構成により、話者モデル学習装置300は、話者モデル学習に適した音声信号を必要最低限の継続時間長で取得できるため、少ない計算量で適切な話者モデルを作成できる。
The voice
また、話者モデル学習部35は、例えば、音声区間検出部31が音声信号の入力継続を示す要求情報を受理したときに、話者モデル学習を開始しないようにしてもよい。この構成により、話者モデル学習装置300は、話者モデル学習部35が話者モデル学習に適さない音声信号で話者モデル学習処理を行うことによる計算量を削減できる。
In addition, the speaker
音声モデル記憶部33および話者モデル記憶部34は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
Although the voice model storage unit 33 and the speaker
音声モデル記憶部33に話者モデルが記憶される過程は問わない。例えば、記録媒体を介して音声モデルが音声モデル記憶部33に記憶されるようになってもよく、通信回線等を介して送信された音声モデルが音声モデル記憶部33に記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音声モデルが音声モデル記憶部33で記憶されるようになってもよい。話者モデル記憶部34についても同様である。
There is no limitation on the process in which the speaker model is stored in the speech model storage unit 33. For example, a voice model may be stored in the voice model storage unit 33 via a recording medium, and a voice model transmitted via a communication line or the like is stored in the voice model storage unit 33. Alternatively, the speech model storage unit 33 may store the speech model input through the input device. The same applies to the speaker
音声区間検出部31、音声処理部32、話者モデル学習部35、音声信号入力要求部36は、例えば、演算処理装置やメモリ等から実現されうる。音声区間検出部31等の処理手順は、例えば、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。また、ハードウェア(専用回路)で実現してもよい。
The voice
(第3の実施形態における話者モデル学習装置300の動作)
次に、話者モデル学習装置300の動作について、図7のフローチャートを用いて説明する。図7は、話者モデル学習装置300の動作を示すフローチャートである。
(Operation of Speaker Model Learning Device 300 in Third Embodiment)
Next, the operation of the speaker model learning device 300 will be described using the flowchart of FIG. FIG. 7 is a flowchart showing the operation of the speaker model learning device 300.
音声区間検出部31は、外部から音声信号を受理し、受理した音声信号について、音声区間の検出により区分化を行い、1つ以上の区分化音声信号を出力する(ステップS301)。音声処理部32は、受理した音声信号について、第1の実施形態の音声処理装置100の音声処理(ステップS101〜ステップS104の処理)を施して音響多様度を算出して音声処理装置100内の音響多様度記憶部に記憶し、また、音響信頼度を算出して出力する(ステップS302)。音声信号入力要求部36は、音響信頼度を受理し、音声信号の入力を要求することを示す要求情報を外部に出力する(ステップS303)。音声区間検出部31が音声信号入力要求部36から出力される音声区間検出を停止することを示す要求情報を受理した(検知した)場合(ステップS304でYes)、ステップS301へ処理が戻る。音声区間検出部31が音声信号入力要求部36から出力される音声区間検出を停止することを示す要求情報を受理していない場合(ステップS304でNo)、話者モデル学習部35は、受理した音声信号に対して、音声モデル記憶部33に記憶されている音声モデルを参照し、話者モデルを学習して、話者モデル記憶部34に記憶させ、一連の処理を終了する(ステップS304)。
The voice
また、話者モデル学習装置300は、音声区間検出部31への音声入力が終了したこと、あるいは、音声区間検出部31が音声区間の検出を停止することを示す要求情報を受理したことを検知したとき、その時点で受理した音声信号についてステップS304までの処理を終えたあと、一連の処理を終了する。
In addition, the speaker model learning device 300 detects that the speech input to the speech
(第3の実施形態の効果)
以上、説明したように、第3の実施形態の話者モデル学習装置300によれば、第1の実施形態の音声処理装置を利用することにより、入力された音声信号に対して音声多様度に基づく音響信頼度を算出し、音声信号に含まれる音の種類に偏りや欠落がある場合に、音声信号入力を要求することができる。これにより、話者認識に適する音声信号で話者モデルを学習することができ、話者認識精度の低下を抑制できる音声処理装置を構成できる。
(Effect of the third embodiment)
As described above, according to the speaker model learning device 300 of the third embodiment, by using the voice processing device of the first embodiment, the input voice signal can be converted to voice diversity degree. The sound reliability based on the sound can be calculated, and the sound signal input can be requested when the types of sounds included in the sound signal are biased or missing. As a result, the speaker model can be learned with a voice signal suitable for speaker recognition, and a voice processing device capable of suppressing a reduction in speaker recognition accuracy can be configured.
<第4の実施形態>
第4の実施形態における音声処理装置400の構成について、図面を参照して説明する。図8は、第4の実施形態における音声処理装置400の構成を示すブロック図である。
Fourth Embodiment
The configuration of the speech processing apparatus 400 according to the fourth embodiment will be described with reference to the drawings. FIG. 8 is a block diagram showing the configuration of the speech processing apparatus 400 in the fourth embodiment.
第4の実施形態における音声処理装置400は、音響多様度算出部12と、音響信頼度算出部14とを備える。音響多様度算出部12は、音声を表す音声信号に基づき、音声信号の種類に関するばらつきの程度を表す音響多様度を算出する。音響信頼度算出部14は、音響多様度算出部12が算出した音声信号の音響多様度と、基準となる他の音声信号の音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として音声信号が好適である程度を表す音響信頼度を算出する。
The speech processing device 400 in the fourth embodiment includes an acoustic
上記構成を有する音声処理装置400は、音声を表す音声信号に基づき、音声信号の種類に関するばらつきの程度を表す音響多様度を算出する。音声処理装置400は、音響多様度算出部12が算出した音声信号の音響多様度と、基準となる他の音声信号の音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として音声信号が好適である程度を表す音響信頼度を算出する。したがって、音声処理装置400は、話者認識結果の信頼度を適切に求めることにより、話者認識の精度低下を抑制することができる。
The voice processing apparatus 400 having the above configuration calculates an acoustic diversity degree indicating the degree of variation regarding the type of the voice signal based on the voice signal representing the voice. The voice processing device 400 recognizes specific attribute information from the audio signal based on the degree of difference between the audio diversity of the audio signal calculated by the acoustic
なお、上記第1から第3の実施形態における音響多様度算出部12および音響信頼度算出部14は、第4の実施形態における音響多様度算出部12および音響信頼度算出部14であり、同等の機能を含む。
The sound
以上、実施形態を用いて本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。すなわち、本発明は、以上の実施形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 As mentioned above, although this invention was demonstrated using embodiment, this invention is not limited to the said embodiment. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. That is, it is needless to say that the present invention is not limited to the above embodiments, and various modifications are possible, which are also included in the scope of the present invention.
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。 Some or all of the above embodiments may be described as in the following appendices, but is not limited to the following.
[付記1]
音声を表す音声信号に基づき、前記音声信号の音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出手段と、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出手段と
を備えることを特徴とする音声処理装置。
[Supplementary Note 1]
Acoustic diversity calculation means for calculating an acoustic diversity degree representing a degree of variation regarding the type of sound of the audio signal based on an audio signal representing audio;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference And a sound reliability calculation means for calculating sound reliability.
[付記2]
前記音響信頼度算出手段は、
前記音声信号の前記音響多様度と、他の音声信号の前記音響多様度との相違度を、2つの確率分布間の距離を表す尺度に基づいて算出すること
を特徴とする付記1に記載の音声処理装置。
[Supplementary Note 2]
The acoustic reliability calculation means
The difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal is calculated based on a scale that represents a distance between two probability distributions. Voice processing device.
[付記3]
前記音響多様度算出手段は、
確率分布を要素分布とする混合モデルとして構成され音声信号の出現確率分布を表す音声モデルに基づき、前記音声信号の前記音声モデルの要素分布に対する尤度を算出し、前記尤度、または、前記尤度を全ての要素分布の前記尤度の和で正規化した値に基づき、前記音声信号の音響多様度を算出すること
を特徴とする付記1又は2に記載の音声処理装置。
[Supplementary Note 3]
The acoustic diversity calculation means
The likelihood to the element distribution of the speech model of the speech signal is calculated based on the speech model that is configured as a mixed model in which the probability distribution is an element distribution and represents the appearance probability distribution of the speech signal, the likelihood or the likelihood The speech processing apparatus according to any one of the above 1 to 3, wherein the degree of acoustic multiplicity of the speech signal is calculated based on a value obtained by normalizing the degree with the sum of the likelihoods of all element distributions.
[付記4]
前記音響信頼度算出手段は、
前記音声信号を区分化した信号に基づき、前記音声信号の音響信頼度を算出すること
を特徴とする付記1乃至3のいずれか1つに記載の音声処理装置。
[Supplementary Note 4]
The acoustic reliability calculation means
The sound processing apparatus according to any one of
[付記5]
前記音響信頼度算出手段は、
前記音声信号の前記音響多様度と、前記他の音声信号の前記音響多様度との相違度を、カルバック・ライブラー情報量あるいはコサイン類似度に基づいて算出すること
を特徴とする付記1乃至4のいずれか1つに記載の音声処理装置。
[Supplementary Note 5]
The acoustic reliability calculation means
[付記6]
音声信号入力を要する程度を表す要求情報を外部に出力する音声信号入力要求手段をさらに備え、
前記音声信号入力要求手段は、
前記音声信号の前記音響信頼度に基づき、要求情報を外部に出力するか否か、音声信号入力を停止するか否かを判定すること
を特徴とする付記1乃至5のいずれか1つに記載の音声処理装置。
[Supplementary Note 6]
It further comprises an audio signal input request means for outputting to the outside request information indicating the degree to which an audio signal input is required,
The voice signal input request means
It is determined based on the sound reliability of the audio signal whether or not to output request information to the outside, and whether or not to stop input of the audio signal. Voice processing device.
[付記7]
音声を表す音性信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出手段と、
前記音響多様度が所定の条件を満たした際に、前記音声信号から特定の属性情報を認識する属性認識手段と、を備える音声処理装置。
[Supplementary Note 7]
Acoustic diversity degree calculation means for calculating an acoustic diversity degree that represents the degree of variation regarding the type of sound included in the audio signal, based on a tonality signal representing an audio;
An audio processing device comprising: attribute recognition means for recognizing specific attribute information from the audio signal when the acoustic diversity degree satisfies a predetermined condition.
[付記8]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出手段と、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度算出する音響信頼度算出手段と、
前記音声信号から特定の属性情報を認識する属性認識手段を備え、
前記属性認識手段は前記音声信号の前記音響信頼度が所定の条件を満たす場合に、属性認識処理を開始すること
を特徴とする音声処理装置。
[Supplementary Note 8]
Acoustic diversity degree calculation means for calculating an acoustic diversity degree that indicates the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing an audio;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference Sound reliability calculation means for calculating sound reliability;
And an attribute recognition unit that recognizes specific attribute information from the voice signal;
The voice processing apparatus according to
[付記9]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出手段と、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出手段と、
前記音声信号から特定の属性情報を認識する属性認識手段と、
前記属性認識処理の認識結果を出力する認識結果出力手段を備え、
前記認識結果出力手段は、
前記音響信頼度に基づき、前記認識結果を前記音声信号に対して前記音声モデルとの適合度合いを表す数値情報であるスコアとして算出する、あるいは、前記認識結果を出力すること
を特徴とする付記8に記載の音声処理装置。
[Supplementary Note 9]
Acoustic diversity degree calculation means for calculating an acoustic diversity degree that indicates the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing an audio;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference Sound reliability calculation means for calculating sound reliability;
Attribute recognition means for recognizing specific attribute information from the voice signal;
A recognition result output unit that outputs a recognition result of the attribute recognition process;
The recognition result output unit
Supplementary note 8: The recognition result is calculated as a score that is numerical information indicating the matching degree of the voice signal with the voice model based on the sound reliability, or the recognition result is output. The voice processing device according to
[付記10]
前記特定属性情報を、音声信号を発した話者、あるいは、音声信号を構成する言語を示す情報とする
付記8又は9の音声処理装置。
[Supplementary Note 10]
The voice processing apparatus according to claim 8 or 9, wherein the specific attribute information is information representing a speaker who issued a voice signal or a language that composes the voice signal.
[付記11]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出し、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出すること
を特徴とする音声処理方法。
[Supplementary Note 11]
Based on an audio signal representing an audio, an acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal is calculated;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference A voice processing method characterized by calculating acoustic reliability.
[付記12]
前記音声信号の前記音響多様度と、他の音声信号の前記音響多様度との相違度を、2つの確率分布間の距離を表す尺度に基づいて算出すること
を特徴とする付記11に記載の音声処理方法。
[Supplementary Note 12]
The difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal is calculated based on a scale that represents a distance between two probability distributions. Speech processing method.
[付記13]
確率分布を要素分布とする混合モデルとして構成され音声信号の出現確率分布を表す音声モデルに基づき、前記音声信号の前記音声モデルの要素分布に対する尤度を算出し、前記尤度、または、前記尤度を全ての要素分布の前記尤度の和で正規化した値に基づき、前記音声信号の音響多様度を算出すること
を特徴とする付記11又は12に記載の音声処理方法。
[Supplementary Note 13]
The likelihood to the element distribution of the speech model of the speech signal is calculated based on the speech model that is configured as a mixed model in which the probability distribution is an element distribution and represents the appearance probability distribution of the speech signal, the likelihood or the
[付記14]
前記音声信号を区分化した信号に基づき、前記音声信号の音響信頼度を算出すること
を特徴とする付記11乃至13のいずれか1つに記載の音声処理方法。
[Supplementary Note 14]
The sound processing method according to any one of
[付記15]
前記音声信号の前記音響多様度と、前記他の音声信号の前記音響多様度との相違度を、カルバック・ライブラー情報量あるいはコサイン類似度に基づいて算出すること
を特徴とする付記11乃至14のいずれか1つに記載の音声処理方法。
[Supplementary Note 15]
The difference degree between the acoustic diversity degree of the audio signal and the acoustic diversity degree of the other audio signal is calculated based on the Kullback-Leibler information amount or the cosine similarity. The voice processing method according to any one of the above.
[付記16]
音声信号入力を要する程度を表す要求情報を外部に出力し、
前記音声信号の前記音響信頼度に基づき、要求情報を外部に出力するか否か、音声信号入力を停止するか否かを判定すること
を特徴とする付記11乃至15のいずれか1つに記載の音声処理方法。
[Supplementary Note 16]
Output request information representing the degree to which audio signal input is required,
It is determined based on the sound reliability of the audio signal whether or not to output request information to the outside, and whether or not to stop input of the audio signal. Voice processing method.
[付記17]
音声を表す音性信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出し、
前記音響多様度が所定の条件を満たした際に、前記音声信号から特定の属性情報を認識すること、
を特徴とする音声処理装置。
[Supplementary Note 17]
Based on a tonality signal representing speech, an acoustic diversity indicating the degree of variation regarding the type of sound included in the speech signal is calculated;
Recognizing specific attribute information from the audio signal when the acoustic diversity satisfies a predetermined condition;
A voice processing device characterized by
[付記18]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出し、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出し、
前記音声信号から特定の属性情報を認識し、
前記音声信号の前記音響信頼度が所定の条件を満たす場合に、属性認識処理を開始するか否かを判定すること
を特徴とする音声処理方法。
[Supplementary Note 18]
Based on an audio signal representing an audio, an acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal is calculated;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference Calculate acoustic reliability,
Recognize specific attribute information from the voice signal,
A voice processing method comprising: determining whether to start attribute recognition processing when the acoustic reliability of the voice signal satisfies a predetermined condition.
[付記19]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出し、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出し、
前記音声信号から特定の属性情報を認識し、
前記属性認識処理の認識結果を出力し、
前記音響信頼度に基づき、前記認識結果を前記音声信号に対して前記音声モデルとの適合度合いを表す数値情報であるスコアとして算出する、あるいは、前記認識結果を出力すること
を特徴とする付記18に記載の音声処理方法。
[Supplementary Note 19]
Based on an audio signal representing an audio, an acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal is calculated;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference Calculate acoustic reliability,
Recognize specific attribute information from the voice signal,
Outputting the recognition result of the attribute recognition process;
The recognition result is calculated as a score which is numerical information indicating the matching degree of the voice signal with the voice model based on the sound reliability, or the recognition result is output. The voice processing method described in.
[付記20]
前記特定属性情報を、音声信号を発した話者、あるいは、音声信号を構成する言語を示す情報とする
付記18又は19に記載の音声処理方法。
[Supplementary Note 20]
The voice processing method according to appendix 18 or 19, wherein the specific attribute information is information representing a speaker who issued a voice signal or a language constituting the voice signal.
[付記21]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出処理と、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出処理と
をコンピュータに実行させることを特徴とするプログラム。
[Supplementary Note 21]
Acoustic diversity calculation processing for calculating acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing audio;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference A program for causing a computer to execute sound reliability calculation processing for calculating sound reliability.
[付記22]
前記音響信頼度算出処理は、
前記音声信号の前記音響多様度と、他の音声信号の前記音響多様度との相違度を、2つの確率分布間の距離を表す尺度に基づいて算出すること
を特徴とする付記21に記載のプログラム。
[Supplementary Note 22]
The sound reliability calculation process is
The difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal is calculated based on a scale that represents a distance between two probability distributions. program.
[付記23]
前記音響多様度算出処理は、
確率分布を要素分布とする混合モデルとして構成され音声信号の出現確率分布を表す音声モデルに基づき、前記音声信号の前記音声モデルの要素分布に対する尤度を算出し、前記尤度、または、前記尤度を全ての要素分布の前記尤度の和で正規化した値に基づき、前記音声信号の音響多様度を算出すること
を特徴とする付記21又は22に記載のプログラム。
[Supplementary Note 23]
The acoustic diversity calculation process
The likelihood to the element distribution of the speech model of the speech signal is calculated based on the speech model that is configured as a mixed model in which the probability distribution is an element distribution and represents the appearance probability distribution of the speech signal, the likelihood or the likelihood The program according to
[付記24]
前記音響信頼度算出処理は、
前記音声信号を区分化した信号に基づき、前記音声信号の音響信頼度を算出すること
を特徴とする付記21乃至23のいずれか1つに記載のプログラム。
[Supplementary Note 24]
The sound reliability calculation process is
24. The program according to any one of
[付記25]
前記音響信頼度算出処理は、
前記音声信号の前記音響多様度と、前記他の音声信号の前記音響多様度との相違度を、カルバック・ライブラー情報量あるいはコサイン類似度に基づいて算出すること
を特徴とする付記21乃至24のいずれか1つに記載のプログラム。
[Supplementary Note 25]
The sound reliability calculation process is
The difference between the acoustic diversity of the audio signal and the acoustic diversity of the other audio signal is calculated based on the Kullback-Leibler information amount or the cosine similarity. The program described in any one.
[付記26]
音声信号入力を要する程度を表す要求情報を外部に出力する音声信号入力要求処理をさらに備え、
前記音声信号入力要求処理は、
前記音声信号の前記音響信頼度に基づき、要求情報を外部に出力するか否か、音声信号入力を停止するか否かを判定すること
を特徴とする付記21乃至25のいずれか1つに記載のプログラム。
[Supplementary Note 26]
The system further comprises an audio signal input request process of externally outputting request information indicating the degree to which the audio signal input is required,
The voice signal input request process is
It is determined based on the sound reliability of the audio signal whether or not to output request information to the outside, and whether or not to stop input of the audio signal. Programs.
[付記27]
音声を表す音性信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出処理と、
前記音響多様度が所定の条件を満たした際に、前記音声信号から特定の属性情報を認識する属性認識処理と、
をコンピュータに実行させることを特徴とする音声処理装置。
[Supplementary Note 27]
Acoustic diversity calculation processing for calculating acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal based on a sound signal representing audio;
An attribute recognition process for recognizing specific attribute information from the audio signal when the acoustic diversity degree satisfies a predetermined condition;
A voice processing apparatus characterized by causing a computer to execute.
[付記28]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出処理と、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度算出する音響信頼度算出処理と、
前記音声信号から特定の属性情報を認識する属性認識処理を備え、
前記属性認識処理は前記音声信号の前記音響信頼度が所定の条件を満たす場合に、属性認識処理を開始すること
をコンピュータに実行させることを特徴とするプログラム。
[Supplementary Note 28]
Acoustic diversity calculation processing for calculating acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing audio;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference Sound reliability calculation processing for calculating sound reliability;
And attribute recognition processing for recognizing specific attribute information from the voice signal,
The program is characterized in that the attribute recognition process causes a computer to start the attribute recognition process when the sound reliability of the audio signal satisfies a predetermined condition.
[付記29]
音声を表す音声信号に基づき、前記音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度を算出する音響多様度算出処理と、
前記音声信号の前記音響多様度と、基準となる他の音声信号の前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出処理と、
前記音声信号から特定の属性情報を認識する属性認識処理と、
前記属性認識処理の認識結果を出力する認識結果出力処理をさらに備え、
前記認識結果出力処理は、
前記音響信頼度に基づき、前記認識結果を前記音声信号に対して前記音声モデルとの適合度合いを表す数値情報であるスコアとして算出する、あるいは、前記認識結果を出力すること
を特徴とする付記28に記載のプログラム。
[Supplementary Note 29]
Acoustic diversity calculation processing for calculating acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing audio;
Indicates the degree to which the audio signal is suitable for recognizing specific attribute information from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity of another audio signal as a reference Sound reliability calculation processing for calculating sound reliability;
Attribute recognition processing for recognizing specific attribute information from the voice signal;
It further comprises a recognition result output process for outputting a recognition result of the attribute recognition process,
The recognition result output process is
The recognition result is calculated as a score, which is numerical information indicating the matching degree of the voice signal with the voice model, based on the sound reliability, or the recognition result is output. The program described in.
[付記30]
前記特定属性情報を、音声信号を発した話者、あるいは、音声信号を構成する言語を示す情報とする
付記28又は29に記載のプログラム。
[Supplementary Note 30]
The program according to Appendix 28 or 29, wherein the specific attribute information is information representing a speaker who issued an audio signal or a language that configures the audio signal.
なお、本発明の各態様において使用者に関する情報を取得、利用する場合は、これを適法に行うものとする。 In addition, when acquiring and using the information regarding a user in each aspect of this invention, this shall be performed legally.
10 情報処理装置
11 音声モデル記憶部
12 音響多様度算出部
13 音響多様度記憶部
14 音響信頼度算出部
21 音声区間検出部
22 音声処理部
23 話者モデル記憶部
24 話者認識計算部
25 話者認識出力部
31 音声区間検出部
32 音声処理部
33 音声モデル記憶部
34 話者モデル記憶部
35 話者モデル学習部
36 音声信号入力要求部
41 音響多様度算出部
42 音響信頼度算出部
100 音声処理装置
200 話者認識装置
300 話者モデル学習装置
400 音声処理装置
DESCRIPTION OF
Claims (10)
前記音声信号の前記音響多様度と、特定の属性情報を認識するための話者モデルの学習に用いられる他の音声信号より算出された音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出手段と
を備えることを特徴とする音声処理装置。 Acoustic diversity degree calculation means for calculating an acoustic diversity degree that indicates the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing an audio;
Based on the difference between the acoustic diversity of the voice signal and the acoustic diversity calculated from other voice signals used for learning a speaker model for recognizing specific attribute information , An audio reliability calculation means for calculating an audio reliability representing the degree to which the audio signal is suitable for recognizing attribute information.
前記音声信号の前記音響多様度と、前記他の音声信号の前記音響多様度との相違度を、2つの確率分布間の距離を表す尺度に基づいて算出すること
を特徴とする請求項1に記載の音声処理装置。 The acoustic reliability calculation means
And the acoustic diversity of the audio signal, the degree of difference between the acoustic diversity of the other audio signals, be calculated based on the measure of the distance between two probability distributions to claim 1, wherein A voice processing device as described.
確率分布を要素分布とする混合モデルとして構成され音声信号の出現確率分布を表す音声モデルに基づき、前記音声信号の前記音声モデルの要素分布に対する尤度を算出し、前記尤度、または、前記尤度を全ての要素分布の前記尤度の和で正規化した値に基づき、前記音声信号の音響多様度を算出すること
を特徴とする請求項1又は2に記載の音声処理装置。 The acoustic diversity calculation means
The likelihood to the element distribution of the speech model of the speech signal is calculated based on the speech model that is configured as a mixed model in which the probability distribution is an element distribution and represents the appearance probability distribution of the speech signal, the likelihood or the likelihood The speech processing apparatus according to claim 1 or 2, wherein an acoustic diversity degree of the speech signal is calculated based on a value obtained by normalizing the degree with the sum of the likelihoods of all element distributions.
前記音響信頼度算出手段は、
前記区分化された前記音声信号のそれぞれについて、音響信頼度を算出すること
を特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。 The audio signal is segmented at a predetermined time,
The acoustic reliability calculation means
The audio processing apparatus according to any one of claims 1 to 3, wherein an acoustic reliability is calculated for each of the divided audio signals.
前記音声信号の前記音響多様度と、前記他の音声信号の前記音響多様度との相違度を、カルバック・ライブラー情報量あるいはコサイン類似度に基づいて算出すること
を特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。 The acoustic reliability calculation means
A difference degree between the acoustic diversity degree of the audio signal and the acoustic diversity degree of the other audio signal is calculated based on the Kullback-Leibler information amount or the cosine similarity. The voice processing device according to any one of 4.
前記音声信号入力要求手段は、
前記音声信号の前記音響信頼度に基づき、要求情報を外部に出力するか否かを判定すること
を特徴とする請求項1乃至5のいずれか1項に記載の音声処理装置。 It further comprises an audio signal input request means for outputting to the outside request information indicating the degree to which an audio signal input is required,
The voice signal input request means
The voice processing device according to any one of claims 1 to 5, wherein it is determined whether or not to output request information to the outside based on the sound reliability of the voice signal.
前記音声信号の前記音響多様度と、特定の属性情報を認識するための話者モデルの学習に用いられる他の音声信号より算出された音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出手段と、
前記音声信号から特定の属性情報を認識する属性認識手段と、
前記属性認識手段の認識結果を出力する認識結果出力手段を備え、
前記認識結果出力手段は、
前記音響信頼度に基づき前記音声信号に対して特定の属性情報との適合度合いを表すスコアとして算出された前記認識結果を出力すること、又は、前記音響信頼度に応じた前記認識結果を出力すること
を特徴とする音声処理装置。 Acoustic diversity degree calculation means for calculating an acoustic diversity degree that indicates the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing an audio;
Based on the difference between the acoustic diversity of the voice signal and the acoustic diversity calculated from other voice signals used for learning a speaker model for recognizing specific attribute information , Acoustic reliability calculation means for calculating an acoustic reliability that represents the degree to which the audio signal is suitable for recognizing attribute information;
Attribute recognition means for recognizing specific attribute information from the voice signal;
A recognition result output unit that outputs a recognition result of the attribute recognition unit ;
The recognition result output unit
Outputting the recognition result calculated as a score representing the degree of matching of the audio signal with specific attribute information based on the sound reliability , or outputting the recognition result according to the sound reliability A voice processing device characterized by
前記音声信号の前記音響多様度と、特定の属性情報を認識するための話者モデルの学習に用いられる他の音声信号より算出された前記音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出手段と、
前記音声信号から特定の属性情報を認識する属性認識手段を備え、
前記属性認識手段は前記音声信号の前記音響信頼度が所定の条件を満たす場合に、属性認識処理を開始すること
を特徴とする音声処理装置。 Acoustic diversity degree calculation means for calculating an acoustic diversity degree that indicates the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing an audio;
Identification from the audio signal based on the degree of difference between the acoustic diversity of the audio signal and the acoustic diversity calculated from other audio signals used for learning a speaker model for recognizing specific attribute information Acoustic reliability calculation means for calculating an acoustic reliability that represents the degree to which the audio signal is suitable for recognizing the attribute information of
And an attribute recognition unit that recognizes specific attribute information from the voice signal;
The voice processing apparatus according to claim 1, wherein the attribute recognition unit starts attribute recognition processing when the acoustic reliability of the voice signal satisfies a predetermined condition.
前記音声信号の前記音響多様度と、特定の属性情報を認識するための話者モデルの学習に用いられる他の音声信号より算出された音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出すること
を特徴とする音声処理方法。 Based on an audio signal representing an audio, an acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal is calculated;
Based on the difference between the acoustic diversity of the voice signal and the acoustic diversity calculated from other voice signals used for learning a speaker model for recognizing specific attribute information , A voice processing method, comprising: calculating an acoustic reliability indicating a degree to which the voice signal is suitable as a target for recognizing attribute information.
前記音声信号の前記音響多様度と、特定の属性情報を認識するための話者モデルの学習に用いられる他の音声信号より算出された音響多様度との相違度に基づき、音声信号から特定の属性情報を認識する対象として前記音声信号が好適である程度を表す音響信頼度を算出する音響信頼度算出処理と
をコンピュータに実行させることを特徴とするプログラム。 Acoustic diversity calculation processing for calculating acoustic diversity representing the degree of variation regarding the type of sound included in the audio signal based on an audio signal representing audio;
Based on the difference between the acoustic diversity of the voice signal and the acoustic diversity calculated from other voice signals used for learning a speaker model for recognizing specific attribute information , A program for causing a computer to execute sound reliability calculation processing for calculating sound reliability indicating the degree to which the audio signal is suitable for recognizing attribute information.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014187535A JP6500375B2 (en) | 2014-09-16 | 2014-09-16 | Voice processing apparatus, voice processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014187535A JP6500375B2 (en) | 2014-09-16 | 2014-09-16 | Voice processing apparatus, voice processing method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016061824A JP2016061824A (en) | 2016-04-25 |
| JP6500375B2 true JP6500375B2 (en) | 2019-04-17 |
Family
ID=55797547
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014187535A Active JP6500375B2 (en) | 2014-09-16 | 2014-09-16 | Voice processing apparatus, voice processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6500375B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6908045B2 (en) * | 2016-09-14 | 2021-07-21 | 日本電気株式会社 | Speech processing equipment, audio processing methods, and programs |
| JP6553015B2 (en) * | 2016-11-15 | 2019-07-31 | 日本電信電話株式会社 | Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07271392A (en) * | 1994-03-29 | 1995-10-20 | Nippon Telegr & Teleph Corp <Ntt> | Speaker recognition similarity normalization method and speaker recognition apparatus using this method |
| JP2012118251A (en) * | 2010-11-30 | 2012-06-21 | Canon Inc | Information processing apparatus and operation method thereof |
-
2014
- 2014-09-16 JP JP2014187535A patent/JP6500375B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016061824A (en) | 2016-04-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6464650B2 (en) | Audio processing apparatus, audio processing method, and program | |
| US8374869B2 (en) | Utterance verification method and apparatus for isolated word N-best recognition result | |
| JP6424628B2 (en) | Speaker identification device, speaker identification method, and program for speaker identification | |
| US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
| US12586561B2 (en) | Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
| US9263034B1 (en) | Adapting enhanced acoustic models | |
| US8452596B2 (en) | Speaker selection based at least on an acoustic feature value similar to that of an utterance speaker | |
| JP5229478B2 (en) | Statistical model learning apparatus, statistical model learning method, and program | |
| CN111326148B (en) | Confidence correction and model training method, device, equipment and storage medium thereof | |
| US20090119103A1 (en) | Speaker recognition system | |
| US8880399B2 (en) | Utterance verification and pronunciation scoring by lattice transduction | |
| US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
| WO2022227935A1 (en) | Speech recognition method and apparatus, and device, storage medium and program product | |
| KR102199246B1 (en) | Method And Apparatus for Learning Acoustic Model Considering Reliability Score | |
| CN108780645A (en) | The speaker verification computer system of text transcription adaptation is carried out to universal background model and registration speaker models | |
| KR20210141115A (en) | Method and apparatus for estimating utterance time | |
| US20150379983A1 (en) | Utterance selection for automated speech recognizer training | |
| US20110246185A1 (en) | Voice activity detector, voice activity detection program, and parameter adjusting method | |
| US9053751B2 (en) | Sound and image segment sorting device and method | |
| KR20190012419A (en) | System and method for evaluating speech fluency automatically | |
| JP6500375B2 (en) | Voice processing apparatus, voice processing method, and program | |
| US12266345B2 (en) | Automatic speech generation and intelligent and robust bias detection in automatic speech recognition model | |
| JP2013182261A (en) | Adaptation device, voice recognition device and program | |
| JP5914119B2 (en) | Acoustic model performance evaluation apparatus, method and program | |
| CN106128464A (en) | UBM divides the method for building up of word model, vocal print feature to generate method and device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170809 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180704 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180724 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180913 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190304 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6500375 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |