Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH0752356B2 - Speaker adaptation method - Google Patents
[go: Go Back, main page]

JPH0752356B2 - Speaker adaptation method - Google Patents

Speaker adaptation method

Info

Publication number
JPH0752356B2
JPH0752356B2 JP3216983A JP21698391A JPH0752356B2 JP H0752356 B2 JPH0752356 B2 JP H0752356B2 JP 3216983 A JP3216983 A JP 3216983A JP 21698391 A JP21698391 A JP 21698391A JP H0752356 B2 JPH0752356 B2 JP H0752356B2
Authority
JP
Japan
Prior art keywords
speaker
vector
codebook
correspondence
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3216983A
Other languages
Japanese (ja)
Other versions
JPH0553599A (en
Inventor
浩明 服部
茂樹 嵯峨山
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP3216983A priority Critical patent/JPH0752356B2/en
Publication of JPH0553599A publication Critical patent/JPH0553599A/en
Publication of JPH0752356B2 publication Critical patent/JPH0752356B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】[0001]

【産業上の利用分野】この発明は話者適応化方式に関
し、特に、音声認識分野において、未知話者の発生した
学習サンプルを用いて、標準話者の特徴ベクトルと未知
話者の特徴ベクトルとの対応関係を求め、求められた対
応関係をもとに適応化を行なうような話者適応化方式に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speaker adaptation method, and more particularly, in the field of speech recognition, using training samples generated by an unknown speaker, a feature vector of a standard speaker and a feature vector of an unknown speaker are obtained. It relates to a speaker adaptation method that obtains a correspondence relationship between and performs adaptation based on the obtained correspondence relationship.

【0002】[0002]

【従来の技術】従来、標準話者の音声と未知話者の音声
とをDPマッチングにより時間軸の対応付け,標準話者
の特徴ベクトルと未知話者の特徴ベクトルの対応関係を
求める話者適応化方式においては、学習データにより得
られた対応関係をそのまま用いて適応化を行なってい
る。
2. Description of the Related Art Conventionally, the speech of a standard speaker and the speech of an unknown speaker are matched on the time axis by DP matching, and the correspondence relationship between the feature vector of the standard speaker and the feature vector of the unknown speaker is found in speaker adaptation. In the adaptation method, the correspondence obtained from the learning data is used as it is for adaptation.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、学習用
データが少ない場合には、そこから得られる対応関係に
はデータに依存したばらつきが存在し、対応関係の信頼
度も低くなってしまう。すなわち、学習用データが少な
い場合には、その少ない学習データに偏ってしまい、そ
の偏ったデータに依存して対応関係が依存してしまうと
いう問題点がある。
However, if the amount of learning data is small, the correspondence obtained therefrom will have variations depending on the data, and the reliability of the correspondence will be low. That is, when the amount of learning data is small, there is a problem that the learning data is biased toward the small amount of learning data, and the correspondence relationship depends on the biased data.

【0004】それゆえに、この発明の主たる目的は、学
習から得られた対応付けに含まれるばらつきを吸収する
ために、話者空間の連続性に留意したスムージングを行
ない、より精度のよい対応関係を得ることができるよう
な話者適応化方式を提供することである。
[0004] Therefore, the main object of the present invention is to perform smoothing in consideration of the continuity of the speaker's space in order to absorb variations contained in correspondences obtained from learning, thereby obtaining more accurate correspondences. It is to provide such a speaker adaptation scheme that can be obtained.

【0005】[0005]

【課題を解決するための手段】請求項1に係る発明は、
標準話者の音声をベクトル量子化してコードブックとし
て記憶していて、未知話者の特徴ベクトルが入力された
ことに応じて、該未知話者の特徴ベクトルと標準話者の
特徴ベクトルの対応関係をコードブックを用いて対応付
けし、標準話者の特徴ベクトルに対応付けられた入力話
者の特徴ベクトルの平均を求めることによりコードブッ
クを更新し、対応付けに誤差が含まれていれば、ファジ
ィ関数に基づいて、特徴ベクトルのスムージングを行な
ってコードブックに貯えるようにしたものである。
[Means for Solving the Problems] The invention according to claim 1 is
The speech of a standard speaker is vector-quantized and stored as a codebook, and in response to input of the feature vector of an unknown speaker, the correspondence relationship between the feature vector of the unknown speaker and the feature vector of the standard speaker. are matched using the codebook, and the codebook is updated by calculating the average of the feature vectors of the input speaker matched with the feature vectors of the standard speaker. Based on a fuzzy function, feature vectors are smoothed and stored in a codebook.

【0006】[0006]

【0007】[0007]

【0008】[0008]

【0009】[0009]

【作用】この発明に係る話者適応化方式は、学習サンプ
ルから求められた対応関係にスムージングを行なうこと
によって、少数の学習用データしか得られない場合で
も、精度のよい対応関係を得ることができ、高精度の話
者適応を実現できる。
In the speaker adaptation system according to the present invention, by smoothing the correspondence obtained from the learning samples, even if only a small amount of data for learning is obtained, it is possible to obtain the correspondence with high accuracy. It is possible to achieve highly accurate speaker adaptation.

【0010】[0010]

【発明の実施例】図1はこの発明が適用される音声認識
装置の概略ブロック図である。図1において、音声認識
装置はアンプ1とローパスフィルタ2とA/D変換器3
と処理装置4とから構成される。アンプ1は入力された
音声信号を増幅し、ローパスフィルタ2は増幅された音
声信号から折返し雑音を除去する。A/D変換器3は音
声信号を12kHzのサンプリング信号により、16ビ
ットのデジタル信号に変換する。処理装置4はコンピュ
ータ5と磁気ディスク6と端末類7とプリンタ8とを含
む。コンピュータ5はA/D変換器3から入力された音
声のデジタル信号に基づいて、後述の図2に示した手法
を用いて話者の特徴ベクトル間の適応化を行なう。
DETAILED DESCRIPTION OF THE INVENTION FIG. 1 is a schematic block diagram of a speech recognition apparatus to which the present invention is applied. In FIG. 1, the speech recognition apparatus includes an amplifier 1, a low-pass filter 2, and an A/D converter 3.
and a processing device 4 . An amplifier 1 amplifies an input speech signal, and a low-pass filter 2 removes aliasing noise from the amplified speech signal. The A/D converter 3 converts the audio signal into a 16-bit digital signal using a 12 kHz sampling signal. The processing device 4 includes a computer 5 , a magnetic disk 6 , terminals 7 and a printer 8 . Based on the voice digital signal input from the A/D converter 3, the computer 5 performs adaptation between speaker feature vectors using the method shown in FIG. 2, which will be described later.

【0011】図2はこの発明の一実施例の動作を説明す
るためのフロー図である。標準話者のコードブックCR
は図1に示す磁気ディスク6に記憶されていて、この標
準話者のコードブックCR は変換コードブックCT の初
期値とされる。ステップ(図示ではSPと略称する)S
P1において、未知話者の入力ベクトル列が入力される
と、ステップSP2において未知話者の入力ベクトル列
と標準話者のコード列とを変換コードブックCT を用い
てDTW(動的時間伸縮法)を用いて対応付けが行なわ
れる。
FIG. 2 is a flowchart for explaining the operation of one embodiment of the invention. Standard speaker codebook C R
is stored on the magnetic disk 6 shown in FIG. 1, and this standard speaker's codebook C R is used as the initial value of the transformation codebook C T . Step (abbreviated as SP in the figure) S
At P1, when the input vector sequence of the unknown speaker is input, at step SP2, the input vector sequence of the unknown speaker and the code sequence of the standard speaker are converted into a DTW (dynamic time warping method) using a conversion codebook C T . ) is used to make the correspondence.

【0012】ステップSP3において、ステップSP2
で得られた対応付けから変換コードブックCT を更新す
る。すなわち、標準話者のコードベクトルに対応付けら
れた入力話者のベクトルの平均を求めることにより、変
換コードブックCT を求める。その際、対応付けの既に
求まっているコードベクトルのサブベクトルを用いて、
対応付けの行なわれなかったベクトルの差分ベクトルの
推定が行なわれる。より具体的に説明すると、m番目の
ベクトルCT m に対応付けられた入力ベクトルの集合を
Mとし、集合Mに属する入力ベクトルxの平均値とベク
トルCR m の差分ベクトルVm を次の数1により求め
る。
At step SP3, step SP2
Update the transform codebook C T from the correspondence obtained in . That is, the transformed codebook C T is obtained by calculating the average of the input speaker's vectors associated with the standard speaker's code vectors. At that time, using the sub-vectors of the code vectors for which the correspondence has already been determined,
An estimation of the difference vector of the unmatched vectors is performed. More specifically, let M be the set of input vectors associated with the m-th vector C T m , and let the difference vector V m between the average value of the input vectors x belonging to the set M and the vector C R m be: Calculated by Equation 1.

【0013】[0013]

【数1】 [Number 1]

【0014】Nn =0であるベクトルCR n について、
k >0であるコードベクトルCR k のファジィ級関数
μn,k を求める。ベクトルCR n の差分ベクトルVn
ベクトルCR k の差分ベクトルVk とμn,k を用いて、
次の数2より計算する。
N.n= 0 vector CR. nabout,
N.kA code vector C with >0R. kfuzzy class function of
μn,kAsk for Vector CR. ndifference vector Vnof
Vector CR. kdifference vector Vkand μn,kUsing,
It is calculated from the following formula 2.

【0015】[0015]

【数2】 [Number 2]

【0016】変換コードブックCT の中のすべてのベク
トルCT n を差分ベクトルVを用いて次の数3により更
新する。
[0016] All vectors C T n in the transform codebook C T are updated using the difference vector V according to Equation 3 below.

【0017】[0017]

【数3】 [Number 3]

【0018】上述のごとくして得られた対応関係は、D
TWの枠組みの中で少数単語によって得られるものであ
り、異話者空間の対応関係そのものを表わしているとは
限らず、誤差を含んでいる。一方、話者空間の連続性を
考えると、異話者空間の対応関係も連続的であると考え
るのは自然である。そこで、ステップSP6において、
DTWによる対応に含まれる誤差を吸収し、真の対応関
係を得るため、ファジィ級関数に基づくスムージングを
以下のようにして行なう。すなわち、ステップSP5に
おいてベクトルCR n に対するNk>0であるすべての
ベクトルCR k のファジィ級関数μn,k を求
める。次に、コードベクトルCR n の差分ベクトルを次
の数4によって計算する。
The correspondence obtained as described above is D
It is obtained from a small number of words within the framework of TW, and does not necessarily represent the correspondence in the different speaker space itself, and contains errors. On the other hand, considering the continuity of the speaker space, it is natural to think that the correspondence in the different speaker space is also continuous. Therefore, in step SP6,
In order to absorb the error contained in the DTW correspondence and obtain the true correspondence, smoothing based on the fuzzy series function is performed as follows. That is, in step SP5, the fuzzy series function μ n,k : kn of all vectors C R k for which N k >0 for vectors C R n is obtained. Next, the difference vector of the code vector C R n is calculated by the following equation (4).

【0019】[0019]

【数4】 [Formula 4]

【0020】ここでは、Nk を対応付けの信頼度と考
え、差分ベクトルへの重みとしている。αはNk の寄与
度をμn,k と同じ程度にするための定数であり、βは予
め定められるVn の信頼度である。スムージングされた
差分ベクトルV′n を用いてすべての変換コードブック
を更新する。
[0020] Here, N k is considered as the reliability of the correspondence and is used as a weight for the difference vector. α is a constant for making the contribution of N k the same as μ n,k , and β is the predetermined reliability of V n . Update all transform codebooks with the smoothed difference vector V'n .

【0021】スムージング時にファジィネスを変化させ
ることにより、連続性を考慮する空間を制御できる。す
なわち、ファジィネスが1に近いほど局所的な空間を、
∞に近づくほど大局的な空間を考慮することになる。し
たがって、大量の学習データがあり、対応付けが十分信
頼できる場合には1に近いファジィネスを用い、少量の
学習データしかなく対応付けの信頼性が低い場合には大
きいファジィネスを用いることで、より精度の高い話者
適応が実現できる。
By varying the fuzziness during smoothing, the space in which continuity is taken into account can be controlled. That is, the closer the fuzziness is to 1, the more local the space is.
The closer to ∞, the more global space is considered. Therefore, when there is a large amount of training data and the matching is sufficiently reliable, a fuzzyness close to 1 is used, and when there is only a small amount of training data and the matching is unreliable, a large fuzzyness is used to achieve higher accuracy. high speaker adaptation can be realized.

【0022】[0022]

【発明の効果】以上のように、この発明によれば話者空
間の連続性に留意したスムージングを行なうことによ
り、学習から得られた対応付けに含まれるばらつきを吸
収し、より精度のよい対応関係を得ることができ、少数
の学習用データしか得られない場合にも、高精度の話者
適応が実現できる。
INDUSTRIAL APPLICABILITY As described above, according to the present invention, by performing smoothing while paying attention to the continuity of the speaker's space, variations in correspondences obtained from learning can be absorbed, resulting in more accurate correspondences. A relationship can be obtained, and highly accurate speaker adaptation can be achieved even when only a small amount of training data is obtained.

【図面の簡単な説明】[Brief description of the drawing]

【図1】この発明の一実施例の概略ブロック図である。1 is a schematic block diagram of one embodiment of the present invention; FIG.

【図2】この発明の一実施例の具体的な動作を説明する
ためのフロー図である。
FIG. 2 is a flowchart for explaining specific operations of one embodiment of the present invention;

【符号の説明】[Description of symbols]

1 アンプ 2 ローパスフィルタ 3 A/D変換器 4 処理装置 5 コンピュータ 6 磁気ディスク 7 端末類 8 プリンタ 1 amp 2 Low pass filter 3 A/D converter 4 processing equipment 5 computer 6 magnetic disk 7 Terminals 8 Printer

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 標準話者の音声をベクトル量子化して
コードブックとして記憶していて、 未知話者の特徴ベクトルが入力されたことに応じて、該
未知話者の特徴ベクトルと前記標準話者の特徴ベクトル
の対応関係を前記コードブックを用いて対応付けし、 前記標準話者の特徴ベクトルに対応付けられた前記入力
話者の特徴ベクトルの平均を求めることにより前記コー
ドブックを更新し、 前記対応付けに誤差が含まれていれば、ファジィ関数に
基づいて、特徴ベクトルのスムージングを行なって前記
コードブックに貯えるようにしたことを特徴とする、話
者適応化方式。
[Claim 1] A speech of a standard speaker is vector-quantized and stored as a codebook, and in response to input of a feature vector of an unknown speaker, the feature vector of the unknown speaker and the standard speaker are generated. using the codebook, updating the codebook by obtaining an average of the feature vectors of the input speaker associated with the feature vectors of the standard speaker; A speaker adaptation method characterized in that, if an error is included in the matching, the feature vectors are smoothed based on a fuzzy function and stored in the codebook.
JP3216983A 1991-08-28 1991-08-28 Speaker adaptation method Expired - Fee Related JPH0752356B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3216983A JPH0752356B2 (en) 1991-08-28 1991-08-28 Speaker adaptation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3216983A JPH0752356B2 (en) 1991-08-28 1991-08-28 Speaker adaptation method

Publications (2)

Publication Number Publication Date
JPH0553599A JPH0553599A (en) 1993-03-05
JPH0752356B2 true JPH0752356B2 (en) 1995-06-05

Family

ID=16696983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3216983A Expired - Fee Related JPH0752356B2 (en) 1991-08-28 1991-08-28 Speaker adaptation method

Country Status (1)

Country Link
JP (1) JPH0752356B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050059766A (en) * 2003-12-15 2005-06-21 엘지전자 주식회사 Voice recognition method using dynamic time warping

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6286399A (en) * 1985-10-11 1987-04-20 沖電気工業株式会社 Voice recognition
JPH02146313U (en) * 1989-05-17 1990-12-12
JP2928294B2 (en) * 1989-12-05 1999-08-03 ファナック株式会社 Decimation learning control device
JPH0642155B2 (en) * 1989-12-16 1994-06-01 株式会社エイ・ティ・アール自動翻訳電話研究所 Hidden Markov model learning method

Also Published As

Publication number Publication date
JPH0553599A (en) 1993-03-05

Similar Documents

Publication Publication Date Title
JP4491210B2 (en) Iterative noise estimation method in recursive construction
CN100583243C (en) Method and apparatus for multi-sensory speech enhancement
JPH0361959B2 (en)
JP3154487B2 (en) A method of spectral estimation to improve noise robustness in speech recognition
US5651094A (en) Acoustic category mean value calculating apparatus and adaptation apparatus
JPH05188994A (en) Noise suppressor
JP2768274B2 (en) Voice recognition device
JP2005527002A (en) Method for determining uncertainty associated with noise reduction
US6421641B1 (en) Methods and apparatus for fast adaptation of a band-quantized speech decoding system
CN1584984B (en) Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
JPH0612089A (en) Speech recognition method
JPH0159600B2 (en)
JPS634200B2 (en)
JPH01997A (en) Speech recognition method using vector quantization
JPH067345B2 (en) Speech recognition method using vector quantization
WO2020162238A1 (en) Speech recognition device, speech recognition method, and program
US4918733A (en) Dynamic time warping using a digital signal processor
US6470314B1 (en) Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech
JPS63259687A (en) Voice signal recognition and apparatus for implementing the same
JP2005078077A (en) Method and device to pursue vocal tract resonance using temporal restriction guided by nonlinear predictor and target
US20040220804A1 (en) Method and apparatus for quantizing model parameters
JPH01998A (en) How to normalize spectrograms
TWI622043B (en) Method and device of audio source separation
JPH0752356B2 (en) Speaker adaptation method
JP2000250577A (en) Speech recognition device and learning method used in the device, learning device and recording medium in which the method is programmed and recorded

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19951219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090605

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100605

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees