Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH045393B2 - - Google Patents
[go: Go Back, main page]

JPH045393B2 - - Google Patents

Info

Publication number
JPH045393B2
JPH045393B2 JP59058175A JP5817584A JPH045393B2 JP H045393 B2 JPH045393 B2 JP H045393B2 JP 59058175 A JP59058175 A JP 59058175A JP 5817584 A JP5817584 A JP 5817584A JP H045393 B2 JPH045393 B2 JP H045393B2
Authority
JP
Japan
Prior art keywords
phoneme
dictionary
word
segmented
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59058175A
Other languages
Japanese (ja)
Other versions
JPS60202495A (en
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP59058175A priority Critical patent/JPS60202495A/en
Publication of JPS60202495A publication Critical patent/JPS60202495A/en
Publication of JPH045393B2 publication Critical patent/JPH045393B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は入力音声と、音素表記された単語辞書
を照合して単語を認識する単語音声認識方法に関
するものである。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.

(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法に実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図とともに説明する。第1図
において、1は入力音声からパラメータの時系列
を作成するパラメータ抽出部、2は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、4は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値(μi)及び各種パラメ
ータ間の共分散行列(Σi)の形で表わした音素標
準パタンを記憶する音素標準パタン部、5は認識
すべき全単語を音素単位の記号例で表記した単語
辞書が記憶されている単語辞書部である。その単
語辞書は、例えば単語「アサヒ」、「シユヒン」は
「ASAHI」、「SJUHIN=」と表記されている。
(Structure of Conventional Example and its Problems) FIG. 1 is a functional block diagram of an example of a conventional word speech recognition method and an apparatus for implementing an embodiment of the word speech recognition method of the present invention. Conventional example first
This will be explained with reference to FIGS. 2 and 3. In Figure 1, 1 is a parameter extraction unit that creates a time series of parameters from input speech, 2 is a probability density calculation unit that calculates the probability density of a phoneme by collating standard patterns of phonemes, and 3 is a segmentation unit for each phoneme. This is a word recognition unit that performs similarity calculations, likelihood calculations, and word similarity calculations. 4 is a phoneme standard pattern section that stores a phoneme standard pattern that represents the distribution of various parameters for each phoneme in the form of an average value (μ i ) for each phoneme and a covariance matrix (Σ i ) between various parameters. , 5 is a word dictionary section that stores a word dictionary in which all words to be recognized are expressed as symbol examples in phoneme units. In the word dictionary, for example, the words "Asahi" and "Syuhin" are written as "ASAHI" and "SJUHIN=".

次に上記従来例の動作について説明する。パラ
メータ抽出部1において、入力音素を10msのフ
レーム毎に分析し、パラメータを抽出して、パラ
メータ時系列を作成する。次に確率密度計算部2
において、フレーム毎に得られたパラメータと音
素標準パタンを照合し、音素の確率密度を算出す
る。次に単語認識部3において、上記パラメータ
と、得られた確率密度値を用いて、各辞書項目毎
に、その辞書項目を構成する辞書音素系列に従つ
て1音素毎に音素のセグメンテーシヨンを行な
い、下記式に従いその音素の種類と、その音素
に対応してセグメンテーシヨンされた区間の尤度
lを計算し、この辞書項目における、各音素の尤
度の平均として類似度を求める。ここで、その音
素をXとし、Xに対応してセグメンテーシヨンさ
れた区間の始端と終端のフレーム番号をNs,Ne
とし、第nフレームにおける各パラメータの値を
oとすると、音素Xの尤度lxは下式で定義され
る。
Next, the operation of the above conventional example will be explained. The parameter extraction unit 1 analyzes input phonemes every 10 ms frame, extracts parameters, and creates a parameter time series. Next, probability density calculation section 2
In this step, the parameters obtained for each frame are compared with the phoneme standard pattern, and the probability density of the phoneme is calculated. Next, the word recognition unit 3 uses the above parameters and the obtained probability density value to perform phoneme segmentation for each phoneme according to the dictionary phoneme sequence that constitutes the dictionary item. Then, the type of phoneme and the likelihood l of the segmented interval corresponding to the phoneme are calculated according to the following formula, and the degree of similarity is determined as the average of the likelihoods of each phoneme in this dictionary entry. Here, let the phoneme be X, and the frame numbers at the start and end of the segmented section corresponding to X are N s , N e
If the value of each parameter in the n-th frame is 〓 o , then the likelihood l x of the phoneme X is defined by the following formula.

φi(〓o)は、ある音素iの確率密度を表わし、
式のように定義される。
φ i (〓 o ) represents the probability density of a certain phoneme i,
It is defined as Eq.

φi(〓o)=1/(2π)N/2|Σi1/2exp
〔−1/2(〓o−〓iT-1Σi(〓o−〓i)〕…… 〓o:nのフレームにおけるN個のパラメータ (ベクトル) 〓i:ある音素iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分
母のサメンシヨンiの範囲は、音素Xが何であ
るかによつて異なり、例えばXが音素Aアの時
はiの範囲は5母音、A、E、I、O、Uとし
ている。以上により得られる単語類似度LM
式に従つて各辞書項目毎に求め、LMが最大
となる辞書項目をもつて、認識単語としてい
た。
φ i (〓 o )=1/(2π) N/2 |Σ i1/2 exp
[-1/2 (〓 o −〓 i ) T-1 Σ i (〓 o −〓 i )]... 〓 o : N parameters (vector) in frame n 〓 i : Parameter of a certain phoneme i Average value (vector) Σ i : Covariance matrix In the equation, the range of the denominator summension i in probability density division differs depending on the phoneme X. For example, when X is the phoneme A, the range of i has five vowels: A, E, I, O, and U. The word similarity L M obtained above was determined for each dictionary item according to the formula, and the dictionary item with the maximum L M was selected as a recognized word.

LMNPj=1 lj/NP …… LM:辞書中のM番目の単語の類似度 lj:辞書音素系列中のj番目の音素の尤度 NP:辞書音素数 第2図は/ASAHI/(朝日)と発声した時の
各音素/A/、/S/、/A/、/H/、/I/
の確率密度φA、φS、φA、φH、φIの時間変化を表
わしている。この場合の辞書単語/ASAHI/に
対する各音素のセグメンテーシヨン及び尤度計算
は、辞書の音素系列/A/、/S/、/A/、/
H/、/I/の順序に従い、第1番目の音素/
A/に対して、φAを用いてセグメンテーシヨン
した区間(a−b)を対応させ式に従い、φA
を用いてlAを計算し、同様にしてlS、lA、lH、lI
求める。
L M = NPj=1 l j /NP ... L M : Similarity of the Mth word in the dictionary l j : Likelihood of the jth phoneme in the dictionary phoneme sequence NP: Number of dictionary phonemes Figure 2 Each phoneme when saying /ASAHI/ (Asahi) /A/, /S/, /A/, /H/, /I/
It represents the time change of the probability densities φ A , φ S , φ A , φ H , and φ I . In this case, the segmentation and likelihood calculation of each phoneme for the dictionary word /ASAHI/ are the dictionary phoneme series /A/, /S/, /A/, /
According to the order of H/, /I/, the first phoneme /
For A/, correspond the segmented interval (a-b) using φ A , and according to the formula, φ A
Calculate l A using , and similarly find l S , l A , l H , and l I.

第3図は/SJUHIN=/(主賓)と発声した
時の各音素/S/、/J/、/U/、/H/、/
I/、/N=/の確率密度φS、φJ、φU、φH、φI
φN=の時間変化を示している。第3図において、
辞書単語/SJUHIN=/に対する各音素のセグ
メンテーシヨンは、辞書音素系列/S/、/
J/、/U/、/H/、/I/、/N=/の順序
に従つて行なうが、第1番目の音素である/S/
のセグメンテーシヨンを行なう場合/S/の確率
密度φSは/U/の始まり付近まで優勢で、続い
て/H/の確率密度φHは/I/の始まり付近ま
で優勢であり、/J/や/U/の区間において本
来大きな値を持つべき/J/や/U/の確率密度
φJやφUはφSφHに比べ小さな値となつている。こ
のため、音素系列中において、第1番目の/S/
のセグメンテーシヨンを本来のセグメンテーシヨ
ン区間である(c−d)を(c−f)と誤るた
め、第2番目以後の音素のセグメンテーシヨンを
誤り、尤度も低くなるため、結果として無声子
音、拗音、無声化又はナマケた発声をし易い母音
及び子音が連続した音素系列を含む単語は誤認識
し易い欠点があつた。
Figure 3 shows the phonemes /S/, /J/, /U/, /H/, / when uttering /SJUHIN=/ (guest of honor).
The probability density of I/, /N=/φ S , φ J , φ U , φ H , φ I ,
It shows the time change of φ N= . In Figure 3,
The segmentation of each phoneme for the dictionary word /SJUHIN=/ is the dictionary phoneme sequence /S/, /
This is done in the order of J/, /U/, /H/, /I/, /N=/, but the first phoneme /S/
When performing segmentation of The probability densities φ J and φ U of /J/ and /U/, which should originally have large values in the interval / and /U/, have smaller values than φ S φ H. Therefore, in the phoneme sequence, the first /S/
Because the original segmentation interval (c-d) is mistaken for (c-f), the segmentation of the second and subsequent phonemes is incorrect, and the likelihood becomes lower, resulting in Words that include voiceless consonants, persistent consonants, vowels that are likely to be voiced unvoiced or are pronounced slowly, and words that contain phoneme sequences with continuous consonants have the disadvantage that they are easily misrecognized.

(発明の目的) 本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
(Objective of the Invention) The present invention is intended to eliminate the drawbacks of the conventional example described above, and aims to improve the accuracy of likelihood calculation, thereby improving the word recognition rate.

(発明の構成) 本発明は、上記目的を達成するために、無声子
音、拗音、無声化母音又は発生のナマケ易い母音
及び子音の4連続音素系列に対しては、上記4連
続音素をまとめてセグメンテーシヨンし、尤度計
算を行うことにより、セグメンテーシヨン及び尤
度計算の精度を向上させる効果を得るものであ
る。
(Structure of the Invention) In order to achieve the above-mentioned object, the present invention, for a 4-consecutive phoneme sequence of a voiceless consonant, a persistent consonant, a devoiced vowel, or a vowel and a consonant whose occurrence is easily sluggish, the above-mentioned 4 continuous phonemes are grouped together. By performing segmentation and calculating the likelihood, it is possible to obtain the effect of improving the accuracy of the segmentation and likelihood calculation.

(実施例の説明) 以下本発明の一実施例について第1図及び第3
図とともに説明する。第1図において、パラメー
タ抽出部1、確率密度計算部2および音素標準パ
タン部4は従来例と同様の構成と機能を持つもの
である。単語辞書部5に記憶されている単語辞書
は、認識すべき単語を音素の記号列で表記してあ
るが従来例と異なるのは、無声子音、拗音、無声
化又はナマケた発声をし易い母音及び子音の4連
続音素系列に対して予め符号をつけてある。
(Description of Embodiment) The following is an embodiment of the present invention shown in FIGS. 1 and 3.
This will be explained with figures. In FIG. 1, a parameter extraction section 1, a probability density calculation section 2, and a phoneme standard pattern section 4 have the same configuration and functions as those of the conventional example. The word dictionary stored in the word dictionary section 5 describes the words to be recognized as phoneme symbol strings, but the difference from the conventional example is that the words to be recognized are represented by voiceless consonants, persistent consonants, and vowels that are easy to be pronounced devoiced or half-voiced. A code is attached in advance to the four consecutive phoneme sequences of consonants and consonants.

本実施例の動作について説明する。先ずパラメ
ータ抽出部1において、入力音声からフレーム毎
のパラメータを得、さらに確率密度計算部2にお
いて、そのパラメータの値を使つて、各音素標準
パタンから得られる確率密度を計算する。ここま
では、前記従来例と同様である。次に単語認識部
において各辞書項目毎にその辞書項目を構成する
辞書音素系列に従つて音素Xのセグメンテーシヨ
ンを行ない、の音素Xとその音素Xに対応してセ
グメンテーシヨンされた区間の尤度lxを計算する
のであるが、無声子音、C1、拗音、J無声化母
音又は発声のナマケた母音V及び子音、C2の4
連続音素系列に対しては、拗音又は母音の確率密
度の値が十分現われないので、上記4連続音素を
まとめてセグメンテーシヨンし、式に従つて4
連続音素分の尤度を求める。
The operation of this embodiment will be explained. First, a parameter extraction section 1 obtains parameters for each frame from the input speech, and a probability density calculation section 2 uses the values of the parameters to calculate probability densities obtained from each phoneme standard pattern. The process up to this point is the same as the conventional example. Next, the word recognition unit performs segmentation of the phoneme X for each dictionary entry according to the dictionary phoneme series that constitutes that dictionary entry, and then segments the phoneme X and the segmented interval corresponding to the phoneme X. To calculate the likelihood l
For continuous phoneme sequences, since the probability density value of persistent consonants or vowels does not appear sufficiently, the above four continuous phonemes are segmented together, and the four continuous phonemes are segmented according to the formula.
Find the likelihood of continuous phonemes.

ここで式と対比して、他の普通の音素の場合
は従来と同様に式を用いて尤度計算を行なう。
第3図において、/SJUH/の部分の各音素の確
率密度の時間変化は/U/の始まり付近まで/
S/の確率密度φSが優勢であり、続いて/H/の
確率密度φHが/I/の始まり付近まで優勢であ
る。従つてφS、φHおよびφIの動きから(c−g)
を/SJUH/のセグメンテーシヨン区間とし、
φS、φHを用いて式から/SJUH/の尤度lSJUH
計算する。
Here, in contrast to the formula, in the case of other ordinary phonemes, the likelihood is calculated using the formula as in the past.
In Figure 3, the probability density of each phoneme in the /SJUH/ portion changes over time until around the beginning of /U/.
The probability density φ S of S/ is dominant, followed by the probability density φ H of /H/ until near the beginning of /I/. Therefore from the movements of φ S , φ H and φ I (c-g)
Let be the segmentation interval of /SJUH/,
The likelihood l SJUH of /SJUH/ is calculated from the formula using φ S and φ H.

本実施例においては、無声子音、拗音、
無声化又は発声のナマケ易い母音及び子音の4
連続音素系列をまとめてセグメンテーシヨン及び
尤度計算を行なうため、辞書単語中に拗音及び無
声化又は発声のナマケ易い母音の連続2音素を含
む単語の認識率が向上する利点がある。
In this example, voiceless consonants, persistent consonants,
4. Vowels and consonants that are easily devoiced or unvoiced
Since segmentation and likelihood calculation are performed on continuous phoneme sequences, there is an advantage that the recognition rate of words containing two consecutive phonemes of vowels that are easily devoiced or unvoiced in dictionary words is improved.

(発明の効果) 本発明は上記のような構成であり、以下に示す
効果が得られるものである。
(Effects of the Invention) The present invention has the above-described configuration, and provides the following effects.

無声子音、拗音、無声化又は発声のナマケ易い
母音及び子音の音素系列のセグメンテーシヨン及
び尤度計算を行なう際、無声子音、拗音、無声化
又は発声のナマケ易い母音及び子音の連続4音素
をまとめてセグメンテーシヨンし尤度計算を行な
うことにより、従来法に比べ精度良くセグメンテ
ーシヨン及び尤度計算を行なうことができる利点
を有する。
When performing segmentation and likelihood calculation of phoneme sequences of voiceless consonants, persistent consonants, vowels and consonants that are easily devoiced or sluggish in pronunciation, four consecutive phonemes of voiceless consonants, obstruent consonants, vowels and consonants that are easy to be devoiced or sluggish in voicing are By performing segmentation and likelihood calculation all at once, there is an advantage that segmentation and likelihood calculation can be performed with higher accuracy than conventional methods.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来及び本発明の一実施例における単
語音声認識方法を説明するための図、第2図は/
ASAHI/(朝日)と発声した場合の各音素φA
φS、φA、φH、φIの時間変化を示す図、第3図
は/SJuHIN=/(主賓)と発声した場合のφS
φJ、φU、φH、φI、φN=の時間変化を示した図であ
る。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
FIG. 1 is a diagram for explaining the word speech recognition method in the conventional method and an embodiment of the present invention, and FIG.
Each phoneme φ A when uttering ASAHI/ (morning sun),
A diagram showing the time changes of φ S , φ A , φ H , and φ I. Figure 3 shows φ S when uttering /SJuHIN=/(chief guest)
FIG. 3 is a diagram showing changes over time in φ J , φ U , φ H , φ I , and φ N= . 1... Parameter extraction section, 2... Probability density calculation section, 3... Word recognition section, 4... Phoneme standard pattern section, 5... Word dictionary section.

Claims (1)

【特許請求の範囲】[Claims] 1 認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形
で表わされた各音素の標準パタンを用いて、入力
音声の単語認識を行なう単語音声認識方法におい
て、入力音声を単語辞書の各辞書項目と照合し、
各辞書項目を構成する辞書音素系列に従い各音素
毎に入力音声をセグメンテーシヨンし、その音素
の標準パタンを用いて、そのセグメンテーシヨン
された音声の区間が、その音素から生成される確
率密度を計算し、セグメンテーシヨンされた音声
の区間に対して、上記確率密度の値を用いて各辞
書項目と入力音声の類似度を求めて、単語を認識
する際、無声子音、拗音、無声化母音又は発声の
ナマケ易い母音及び子音の4連続音素系列に対し
ては上記4連続音素をまとめてセグメンテーシヨ
ンし、尤度計算を行なうことを特徴とする単語音
声認識方法。
1. Word speech recognition that recognizes words in input speech using a word dictionary that describes the words to be recognized as symbol strings in phoneme units and standard patterns for each phoneme that are expressed as distributions of acoustic parameters for each phoneme. In the method, the input speech is matched with each dictionary entry of a word dictionary,
The input speech is segmented for each phoneme according to the dictionary phoneme sequence that constitutes each dictionary item, and the probability density that the segmented speech section is generated from that phoneme is determined by using the standard pattern of that phoneme. is calculated, and for the segmented speech interval, the similarity between each dictionary item and the input speech is determined using the above probability density value. A word speech recognition method characterized in that for a series of four consecutive phonemes of vowels or vowels and consonants that are easy to be uttered, the four consecutive phonemes are segmented together and likelihood calculation is performed.
JP59058175A 1984-03-28 1984-03-28 Word voice recognition Granted JPS60202495A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058175A JPS60202495A (en) 1984-03-28 1984-03-28 Word voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058175A JPS60202495A (en) 1984-03-28 1984-03-28 Word voice recognition

Publications (2)

Publication Number Publication Date
JPS60202495A JPS60202495A (en) 1985-10-12
JPH045393B2 true JPH045393B2 (en) 1992-01-31

Family

ID=13076658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058175A Granted JPS60202495A (en) 1984-03-28 1984-03-28 Word voice recognition

Country Status (1)

Country Link
JP (1) JPS60202495A (en)

Also Published As

Publication number Publication date
JPS60202495A (en) 1985-10-12

Similar Documents

Publication Publication Date Title
JP3444108B2 (en) Voice recognition device
Hirose et al. Accent type recognition and syntactic boundary detection of Japanese using statistical modeling of moraic transitions of fundamental frequency contours
JPH045393B2 (en)
JPH0827638B2 (en) Phoneme-based speech recognition device
JPH0431116B2 (en)
JPH045392B2 (en)
JP3291073B2 (en) Voice recognition method
JPH07113838B2 (en) Speech recognition method
JPH045396B2 (en)
JPH045391B2 (en)
Gong et al. Phoneme-based continuous speech recognition without pre-segmentation
JPH0431115B2 (en)
JPH0412480B2 (en)
JPH0981177A (en) Speech recognition device, dictionary of word components, and method of learning hidden Markov model
JPS60182499A (en) voice recognition device
Watanabe Segmentation-free syllable recognition in continuously spoken Japanese
JPH045397B2 (en)
Haider A digital neural network approach to speech recognition
JPH0412479B2 (en)
JPH045395B2 (en)
Tanaka et al. A speech processing based on syllable identification by using phonological patterns
JPH0155476B2 (en)
Maenobu et al. Speaker-independent word recognition in connected speech on the basis of phoneme recognition
Niimi et al. Speaker adaptation of a code book of vector quantization
JPH045394B2 (en)