Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH0642153B2 - Voice recognizer - Google Patents
[go: Go Back, main page]

JPH0642153B2 - Voice recognizer - Google Patents

Voice recognizer

Info

Publication number
JPH0642153B2
JPH0642153B2 JP1331727A JP33172789A JPH0642153B2 JP H0642153 B2 JPH0642153 B2 JP H0642153B2 JP 1331727 A JP1331727 A JP 1331727A JP 33172789 A JP33172789 A JP 33172789A JP H0642153 B2 JPH0642153 B2 JP H0642153B2
Authority
JP
Japan
Prior art keywords
time series
codebook
representative
probability
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1331727A
Other languages
Japanese (ja)
Other versions
JPH03191400A (en
Inventor
均 岩見田
滋 片桐
エリックマクダーモット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR AUDITORY VISUAL PERCEPTION
EI TEI AARU SHICHOKAKU KIKO KENKYUSHO KK
Original Assignee
ATR AUDITORY VISUAL PERCEPTION
EI TEI AARU SHICHOKAKU KIKO KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR AUDITORY VISUAL PERCEPTION, EI TEI AARU SHICHOKAKU KIKO KENKYUSHO KK filed Critical ATR AUDITORY VISUAL PERCEPTION
Priority to JP1331727A priority Critical patent/JPH0642153B2/en
Publication of JPH03191400A publication Critical patent/JPH03191400A/en
Publication of JPH0642153B2 publication Critical patent/JPH0642153B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は音声認識装置に関し、特に、離散型の穏れマ
ルコフモデル(以下、HMMと称する)を用いた音声認
識装置に関する。
Description: TECHNICAL FIELD The present invention relates to a speech recognition apparatus, and more particularly to a speech recognition apparatus using a discrete relaxed Markov model (hereinafter referred to as HMM).

[従来の技術] 第5図は従来のHMMを用いた音声認識装置の原理を示
す図である。第5図を参照して、符号帳作成手段1は多
数の音声特徴ベクトルからこれらを最もよく近似する複
数個の代表ベクトルの集合を求めるものであり、求めた
複数個の代表ベクトルを符号化手段3に与える。符号化
手段3は与えられた複数個の代表ベクトルの集合を符号
帳として音声特徴ベクトルを符号化し、HMM訓練手段
4とHMM認識手段5とに与える。HMM訓練手段4は
複数の音声特徴ベクトル時系列を符号化して得られた複
数の符号時系列を訓練用データとして離散型のHMMを
訓練する。一方、HMM認識手段5は音声特徴ベクトル
時系列を符号化して得られた符号時系列を認識用データ
としてHMM訓練手段で訓練されたHMMで認識を行な
い、認識結果を出力する。
[Prior Art] FIG. 5 is a diagram showing the principle of a conventional speech recognition apparatus using an HMM. With reference to FIG. 5, the codebook creating means 1 finds a set of a plurality of representative vectors that most closely approximates them from a large number of speech feature vectors, and the obtained plurality of representative vectors are encoded by a coding means. Give to 3. The encoding means 3 encodes the speech feature vector using the given set of a plurality of representative vectors as a codebook, and supplies it to the HMM training means 4 and the HMM recognition means 5. The HMM training means 4 trains a discrete HMM by using a plurality of code time series obtained by encoding a plurality of voice feature vector time series as training data. On the other hand, the HMM recognizing means 5 recognizes the code time series obtained by encoding the voice feature vector time series as the recognition data by the HMM trained by the HMM training means, and outputs the recognition result.

[発明が解決しようとする課題] 上述の第5図に示した音声認識装置において、音声特徴
ベクトルに対して正しいカテゴリでの生成確率が大きく
なるように訓練されるが、誤ったカテゴリでの確率を小
さくするような訓練は行なわれない。このため、高い音
声認識性能を得ることができないという問題点があっ
た。
[Problems to be Solved by the Invention] In the speech recognition apparatus shown in FIG. 5 described above, the speech feature vector is trained to have a high generation probability in the correct category, but the probability in the wrong category is increased. There is no training to reduce. Therefore, there is a problem that high voice recognition performance cannot be obtained.

それゆえに、この発明の主たる目的は、高い音声認識性
能を得ることができるような離散型のHMMを用いた音
声認識装置を提供することである。
Therefore, a main object of the present invention is to provide a speech recognition apparatus using a discrete HMM capable of obtaining high speech recognition performance.

[課題を解決するための手段] 第1図はこの発明の原理を示す図であり、多数の音声特
徴ベクトルからこれらを最もよく近似する複数個の代表
ベクトルの集合を求める符号帳作成手段1と、符号帳を
構成している各代表ベクトルにカテゴリ名を付与し、複
数の音声特徴ベクトルを符号化する際に用いられる代表
ベクトルのカテゴリと音声特徴ベクトルのカテゴリとが
一致する個数が増加するように代表ベクトルを逐次的に
更新する符号帳学習手段2と、複数個の代表ベクトルの
集合を符号帳として、入力された音声特徴ベクトルとの
ユークリッド距離が最も近い代表ベクトルの符号番号を
符号時系列として出力する符号化手段3と、複数の音声
特徴ベクトル時系列を符号化して得られた複数の符号時
系列について、その生成確率が最大となるような遷移確
率と出力確率を求め、訓練用データとして離散型のHM
Mを訓練する訓練手段4と、音声特徴ベクトル時系列を
符号化して得られた符号時系列を入力とし、遷移確率と
出力確率とを組合わせて、入力された符号時系列を生成
する確率を計算し、最も生成確率の高い音声を求めて出
力する認識手段5とによって構成される。
[Means for Solving the Problem] FIG. 1 is a diagram showing the principle of the present invention, and is a codebook creating means 1 for obtaining a set of a plurality of representative vectors that most approximates a large number of speech feature vectors. , A category name is given to each representative vector forming the codebook so that the number of coincidences between the representative vector category and the speech feature vector category used when encoding a plurality of speech feature vectors increases. In the codebook learning means 2 for sequentially updating the representative vector, and using a set of a plurality of representative vectors as a codebook, the code number of the representative vector having the closest Euclidean distance to the input speech feature vector is code time series. And a plurality of code time series obtained by coding a plurality of voice feature vector time series, the generation probability becomes maximum. Such transition probabilities and output probabilities are obtained, and discrete HM is used as training data.
The training means 4 for training M and the code time series obtained by coding the voice feature vector time series are input, and the transition probability and the output probability are combined to generate the input code time series. The recognition unit 5 calculates and outputs the voice with the highest generation probability.

[作用] この発明にかかる音声認識装置は、多数の音声特徴ベク
トルからこれらを最もよく近似する複数個の代表ベクト
ルの集合を求め、各代表ベクトルにカテゴリ名を付与
し、複数の音声特徴ベクトルを符号化する際に用いられ
る代表ベクトルのカテゴリと音声特徴ベクトルのカテゴ
リとが一致する個数が増加するように代表ベクトルを逐
次的に更新し、これらの複数個の代表ベクトルの集合を
符号帳として音声特徴ベクトルを符号化し、符号化して
得られた複数の符号時系列を訓練用データとして離散型
のHMMを訓練し、訓練されたHMMで認識を行なう。
[Operation] The speech recognition apparatus according to the present invention obtains a set of a plurality of representative vectors that most approximate these from a large number of speech feature vectors, assigns a category name to each representative vector, and determines a plurality of speech feature vectors. The representative vector is sequentially updated so that the number of coincidences between the category of the representative vector used for encoding and the category of the speech feature vector increases, and the set of these plurality of representative vectors is used as a codebook for speech. A feature vector is encoded, a discrete HMM is trained using a plurality of code time series obtained by encoding as training data, and recognition is performed by the trained HMM.

[発明の実施例] 第2図はこの発明の一実施例の概略ブロツク図である。
この実施例においては、日本語23音韻の音韻認識を行
なう場合について説明する。音韻データ11は各音韻カ
テゴリあたり100個ずつの音韻サンプルからなり、1
つの音韻サンプルは音韻特徴ベクトルの時系列からな
る。音韻特徴ベクトルは、たとえば16次元のパワース
ペクトルである。K−平均クラスタリング手段12は、
学習用の音韻サンプルのすべての音韻特徴ベクトルを、
音韻カテゴリごとにK−平均クラスタリング法を用いて
クラスタリングし、1音韻カテゴリあたり10個ずつの
代表ベクトルを求める。そして、全音韻カテゴリについ
て求めた総計230個の代表ベクトルを符号帳13とす
る。
Embodiment of the Invention FIG. 2 is a schematic block diagram of an embodiment of the present invention.
In this embodiment, the case of performing phoneme recognition of Japanese 23 phonemes will be described. The phoneme data 11 consists of 100 phoneme samples for each phoneme category.
One phoneme sample consists of a time series of phoneme feature vectors. The phonological feature vector is, for example, a 16-dimensional power spectrum. The K-means clustering means 12
All phoneme feature vectors of the phoneme sample for learning,
Clustering is performed for each phoneme category using the K-means clustering method, and 10 representative vectors are obtained for each phoneme category. Then, a total of 230 representative vectors obtained for all phoneme categories is set as the codebook 13.

符号帳13の各代表ベクトルには、それぞれの音韻カテ
ゴリ名が付与される。LVQ学習手段14は、学習ベク
トル量子化法(以下、LVQと称する)を用いて、音韻
特徴ベクトルを符号化する際に用いられる各代表ベクト
ルのカテゴリと音韻特徴ベクトルのカテゴリとが一致す
る個数が増加するように代表ベクトルを逐次的に更新す
る。
Each phoneme category name is given to each representative vector of the codebook 13. The LVQ learning unit 14 uses the learning vector quantization method (hereinafter, referred to as LVQ) to determine the number of coincidences between the category of each representative vector and the category of the phoneme feature vector used when encoding the phoneme feature vector. The representative vector is sequentially updated so as to increase.

第3図は第2図に示したLVQ学習手段14によるLV
Q2学習アルゴリズムを示すフロー図である。ステップ
(図示ではSPと略称する)SP1において、音韻特徴
ベクトルxとのユークリッド距離が最も小さい代表ベク
トルmと、その代表ベクトルのカテゴリ以外のカテゴ
リで最もユークリッド距離が小さい代表ベクトルm
求められる。ステップSP2において、代表ベクトルの
更新を行なうか否かの判定が行なわれる。その条件は、
の属するカテゴリと一致せず、かつmの属するカ
テゴリがxの属するカテゴリと一致することである。ス
テップSP3においては、ステップSP2での条件が成
立した場合のみ、代表ベクトルm,mの更新を行な
う。
FIG. 3 is an LV by the LVQ learning means 14 shown in FIG.
It is a flowchart which shows a Q2 learning algorithm. In step (abbreviated as SP in the drawing) SP1, a representative vector m i having the smallest Euclidean distance to the phoneme feature vector x and a representative vector m j having the smallest Euclidean distance in categories other than the category of the representative vector are obtained. . At step SP2, it is determined whether or not the representative vector is updated. The condition is
That is, it does not match the category to which m i belongs, and the category to which m j belongs matches the category to which x belongs. In step SP3, the representative vectors m i and m j are updated only when the condition in step SP2 is satisfied.

更新は次の式で行なわれる。The update is performed by the following formula.

′=m−a(t)(x−m) m′=m+a(t)(x−m) ここでm′,m′は更新後の代表ベクトルを示し、
a(t)は時間とともに単調減少する関数である(a
(t)>0>)。
m i ′ = m i −a (t) (x−m i ) m j ′ = m j + a (t) (x−m j ), where m i ′ and m j ′ represent the updated representative vectors. ,
a (t) is a function that monotonically decreases with time (a
(T)>0>).

第2図に示したLVQ学習手段14は上述の動作を学習
用の全音韻特徴ベクトルについて行ない、さらにそれを
適当な回数繰り返す。符号化手段15は、全音韻サンプ
ル(音韻特徴ベクトル時系列)について符号化を行な
い、音韻サンプル符号時系列を求める。この符号化は、
入力された特徴ベクトルとのユークリッド距離が最も近
い代表ベクトルの符号番号を出力することによって行な
われる。
The LVQ learning means 14 shown in FIG. 2 performs the above-mentioned operation for all phoneme feature vectors for learning, and repeats it for an appropriate number of times. The encoding means 15 encodes all phoneme samples (phoneme feature vector time series) to obtain phoneme sample code time series. This encoding is
This is performed by outputting the code number of the representative vector having the closest Euclidean distance to the input feature vector.

HMM訓練手段16は、学習用の音韻サンプルの符号時
系列を入力とし、Baum−Welchアルゴリズムを
用いて各音韻モデル17を訓練する。
The HMM training means 16 inputs the code time series of the phoneme samples for learning and trains each phoneme model 17 using the Baum-Welch algorithm.

第4図は音韻モデルの構成を示す図である。第4図を参
照して、sは状態を示し、aは遷移確率を示し、bは出
力確率を示している。たとえば、状態sにおいて、こ
の状態sに留まる確率はa11であり、状態sに遷
移する確率はa12である。また、状態sに留まった
ときあるいは状態sから状態sに遷移したときコー
ドkを出力する確率はbであり、添字の1は状態
から出力された遷移であることを示している。HM
M訓練手段16は各音韻ごとに、入力された各音韻サン
プル符号時系列について、その生成確率が最大となるよ
うな遷移確率aと出力確率bを求め、それらを音韻モデ
ルとして出力する。
FIG. 4 is a diagram showing the structure of a phoneme model. Referring to FIG. 4, s indicates a state, a indicates a transition probability, and b indicates an output probability. For example, in the state s 1 , the probability of staying in the state s 1 is a 11 , and the probability of transiting to the state s 2 is a 12 . Also, the probability of outputting the code k when a transition from or state s 1 time remained state s 1 to the state s 2 is b 1, k, 1 subscript is a transition that is output from the state s 1 Is shown. HM
The M training unit 16 obtains, for each phoneme, a transition probability a and an output probability b that maximize the generation probability of each input phoneme sample code time series, and outputs them as a phoneme model.

HMM認識手段18は認識したい音韻サンプルの符号時
系列を入力とし、前向きパスアルゴリズムを用い、遷移
確率aと出力確率bとを掛合わせて、入力された符号時
系列を生成する確率を全音韻モデルについて計算する。
そして、最も生成確率値が高くなる音韻モデルを求め、
音韻認識結果として出力する。
The HMM recognizing means 18 receives the code time series of the phoneme sample to be recognized as input, uses the forward pass algorithm, and multiplies the transition probability a and the output probability b to calculate the probability of generating the input code time series as a whole phoneme model. Calculate about.
Then, the phoneme model with the highest generation probability value is obtained,
Output as a phoneme recognition result.

[発明の効果] 以上のように、この発明によれば、離散型のHMMを用
いた音声認識装置において、符号帳を構成している各代
表ベクトルにカテゴリ名を付与し、複数の音声特徴ベク
トルを符号化する際に用いられる代表ベクトルのカテゴ
リと音声特徴ベクトルのカテゴリとが一致する個数が増
加するように代表ベクトルを逐次的に更新するようにし
たので、カテゴリ境界をよりよく反映した符号帳を作成
でき、音声認識性能を向上できる。
[Effects of the Invention] As described above, according to the present invention, in a voice recognition device using a discrete HMM, a category name is assigned to each representative vector forming the codebook, and a plurality of voice feature vectors are provided. Since the representative vectors are updated sequentially so that the number of coincidences between the category of the representative vector and the category of the speech feature vector used when encoding the Can be created, and the voice recognition performance can be improved.

【図面の簡単な説明】[Brief description of drawings]

第1図はこの発明の原理を説明するためのブロック図で
ある。第2図はこの発明の一実施例の概略ブロック図で
ある。第3図は第2図に示したLVQ2学習アルゴリズ
ムを示すフロー図である。第4図はHMM音韻モデルを
示す図である。第5図は従来のHMM音声認識装置の原
理を説明するための図である。 図において、1は符号帳作成手段、2は符号帳学習手
段、3は符号化手段、4はHMM訓練手段、5はHMM
認識手段、11は音韻データ、12はK−平均クラスタ
リング手段、13は符号帳、14はLVQ学習手段、1
5は符号化手段、16はHMM訓練手段、17は音韻モ
デル、18はHMM認識手段を示す。
FIG. 1 is a block diagram for explaining the principle of the present invention. FIG. 2 is a schematic block diagram of an embodiment of the present invention. FIG. 3 is a flow chart showing the LVQ2 learning algorithm shown in FIG. FIG. 4 is a diagram showing an HMM phoneme model. FIG. 5 is a diagram for explaining the principle of a conventional HMM voice recognition device. In the figure, 1 is a codebook creating means, 2 is a codebook learning means, 3 is an encoding means, 4 is an HMM training means, and 5 is an HMM.
Recognition means, 11 is phoneme data, 12 is K-means clustering means, 13 is a codebook, 14 is LVQ learning means, 1
Reference numeral 5 is an encoding means, 16 is an HMM training means, 17 is a phoneme model, and 18 is an HMM recognition means.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 エリックマクダーモット 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール視聴覚 機構研究所内 (56)参考文献 日本音響学会講演論文集 平成元年10月 1−1−20 P.39−40 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Eric McDermott, 5 Seiraya, Seika-cho, Soraku-gun, Kyoto Prefecture, Mihiratani, A-R Co., Ltd. (56) References Acoustics Society of Japan October of the first year 1-1-20 P. 39-40

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】多数の音声特徴ベクトルからこれらを最も
よく近似する複数個の代表ベクトルの集合を求める符号
帳作成手段、 前記符号帳作成手段によって求められた複数個の代表ベ
クトルの集合を符号帳として、入力された音声特徴ベク
トルとのユークリッド距離が最も近い代表ベクトルの符
号番号を符号時系列として出力する符号化手段、 前記符号化手段によって複数の音声特徴ベクトル時系列
を符号化して得られた複数の符号時系列について、その
生成確率が最大となるような遷移確率と出力確率を求
め、訓練用データとして離散型の隠れマルコフモデルを
訓練する訓練手段、 前記符号化手段によって音声特徴ベクトル時系列を符号
化して得られた符号時系列を入力とし、前記遷移確率と
出力確率とを組合わせて、入力された符号時系列を生成
する確率を計算し、最も生成確率の高い音声を求めて出
力する認識手段、および 前記符号帳作成手段によって作成された符号帳を構成し
ている各代表ベクトルにカテゴリ名を付与し、複数の音
声特徴ベクトルを符号化する際に用いられる代表ベクト
ルのカテゴリと音声特徴ベクトルのカテゴリとが一致す
る個数が増加するように代表ベクトルを逐次的に更新す
る符号帳学習手段を備えた、音声認識装置。
1. A codebook creating means for finding a set of a plurality of representative vectors that most closely approximate these from a large number of speech feature vectors, and a codebook for the set of a plurality of representative vectors found by the codebook creating means. As coding means for outputting the code number of the representative vector having the closest Euclidean distance to the input speech feature vector as a code time series, and obtained by encoding a plurality of speech feature vector time series by the coding means. For a plurality of code time series, a transition probability and an output probability that maximize the generation probability are obtained, and training means for training a discrete Hidden Markov Model as training data, a speech feature vector time series by the coding means. The code time series obtained by encoding is input, the transition probabilities and output probabilities are combined, and the input code time system is input. Recognizing means for calculating the probability of generating, and obtaining and outputting the voice with the highest generation probability, and a category name is given to each representative vector constituting the codebook created by the codebook creating means, Speech recognition provided with a codebook learning means for sequentially updating the representative vectors so that the number of coincidences between the category of the representative vector used when encoding apparatus.
JP1331727A 1989-12-20 1989-12-20 Voice recognizer Expired - Fee Related JPH0642153B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1331727A JPH0642153B2 (en) 1989-12-20 1989-12-20 Voice recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1331727A JPH0642153B2 (en) 1989-12-20 1989-12-20 Voice recognizer

Publications (2)

Publication Number Publication Date
JPH03191400A JPH03191400A (en) 1991-08-21
JPH0642153B2 true JPH0642153B2 (en) 1994-06-01

Family

ID=18246921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1331727A Expired - Fee Related JPH0642153B2 (en) 1989-12-20 1989-12-20 Voice recognizer

Country Status (1)

Country Link
JP (1) JPH0642153B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536692A (en) * 1999-02-08 2002-10-29 クゥアルコム・インコーポレイテッド Distributed speech recognition system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集平成元年10月1−1−20P.39−40

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536692A (en) * 1999-02-08 2002-10-29 クゥアルコム・インコーポレイテッド Distributed speech recognition system

Also Published As

Publication number Publication date
JPH03191400A (en) 1991-08-21

Similar Documents

Publication Publication Date Title
Hwang et al. Character-level incremental speech recognition with recurrent neural networks
Bahdanau et al. End-to-end attention-based large vocabulary speech recognition
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US5793891A (en) Adaptive training method for pattern recognition
US5241619A (en) Word dependent N-best search method
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
EP0241768B1 (en) Synthesizing word baseforms used in speech recognition
JPH0581918B2 (en)
JPH06175696A (en) Device and method for coding speech and device and method for recognizing speech
US20020087317A1 (en) Computer-implemented dynamic pronunciation method and system
US7454341B1 (en) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system
US8185393B2 (en) Human speech recognition apparatus and method
Huang et al. Improved hidden Markov modeling for speaker-independent continuous speech recognition
JPH0642153B2 (en) Voice recognizer
JPH01204099A (en) Speech recognition device
US6928409B2 (en) Speech recognition using polynomial expansion and hidden markov models
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
JP3216565B2 (en) Speaker model adaptation method for speech model, speech recognition method using the method, and recording medium recording the method
EP0238693B1 (en) Speech recognition system and method using statistical models for words
JP2886118B2 (en) Hidden Markov model learning device and speech recognition device
JP3029803B2 (en) Word model generation device for speech recognition and speech recognition device
JP2005091504A (en) Voice recognition device
JP3144341B2 (en) Voice recognition device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees