JPH045396B2 - - Google Patents
Info
- Publication number
- JPH045396B2 JPH045396B2 JP59058178A JP5817884A JPH045396B2 JP H045396 B2 JPH045396 B2 JP H045396B2 JP 59058178 A JP59058178 A JP 59058178A JP 5817884 A JP5817884 A JP 5817884A JP H045396 B2 JPH045396 B2 JP H045396B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- likelihood
- consonant
- dictionary
- phonemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図により説明する。第1図に
おいて1は入力音声からパラメータの時系列を作
成するパラメータ抽出部、2は音素標準パタンを
照合して、音素の確立密度を算出する確率密度計
算部、3は音素毎のセグメンテーシヨン、尤度計
算、単語類似度計算を行う単語認識部である。ま
た、4は各音素毎の各種パラメータにおける分布
を各音素毎の平均値(〓i)、及び各種パラメータ
間の主分散行列(Σi)の形で表した音素標準パタ
ンを記憶する音素標準パタン部、5は認識すべき
全単語を音素単位の記号列で表記した単語辞書が
記憶されている単語辞書部である。その単語辞書
は、「アサヒ」、「スジ」は「ASAHI」、「SUZI」
等と表記されている。(Constitution of Conventional Example and Problems thereof) FIG. 1 is a functional block diagram of an example of a conventional word speech recognition method and an apparatus for carrying out an embodiment of the word speech recognition method of the present invention. Conventional example first
This will be explained with reference to FIGS. 2 and 3. In Figure 1, 1 is a parameter extraction unit that creates a time series of parameters from input speech, 2 is a probability density calculation unit that compares phoneme standard patterns and calculates the probability density of phonemes, and 3 is a segmentation unit for each phoneme. , a word recognition unit that performs likelihood calculations and word similarity calculations. In addition, 4 is a phoneme standard pattern that stores a phoneme standard pattern that represents the distribution of various parameters for each phoneme in the form of an average value for each phoneme (〓 i ) and a principal variance matrix (Σ i ) between various parameters. Section 5 is a word dictionary section in which a word dictionary in which all words to be recognized are expressed in symbol strings in units of phonemes is stored. The word dictionary is "Asahi", "Suji" is "ASAHI", "SUZI"
etc. is written as.
次に、上記従来例の動作について説明する。 Next, the operation of the above conventional example will be explained.
パラメータ抽出部1において、入力音素を10m
sフレーム毎に分析し、パラメータを抽出してパ
ラメータ時系列を作成する。確率密度計算部2
で、フレーム毎に得られたパラメータと、音素標
準パタンを照合し、そのパラメータの値から、生
成される音素の確率密度を算出する。次に単語認
識部3において、上記パラメータと得られた確率
密度を用いて、各辞書項目毎にその辞書項目を構
成する辞書音素系列に従つて、1音素毎に音素の
セグメンテーシヨンを行ない、下記式に従いそ
の音素と、その音素に対応してセグメンテーシヨ
ンされた区間の尤度lを計算し、その辞書項目に
おける各音素の尤度の平均として類似度を求め
る。ここでその音素をXとし、Xに対応してセグ
メンテーシヨンされた区間の始端と終端のフレー
ム番号をNs,Neとし、第nフレームにおける各
パラメータの値をCnとすると、音素Xの尤度lxは
下式で定義される。 In parameter extraction section 1, the input phoneme is
Analyze every s frames, extract parameters, and create a parameter time series. Probability density calculation section 2
Then, the parameters obtained for each frame are compared with the phoneme standard pattern, and the probability density of the generated phoneme is calculated from the parameter values. Next, in the word recognition unit 3, using the above parameters and the obtained probability density, phoneme segmentation is performed for each phoneme according to the dictionary phoneme sequence that constitutes the dictionary item for each dictionary item, The likelihood l of the phoneme and the segmented interval corresponding to the phoneme is calculated according to the following formula, and the degree of similarity is determined as the average of the likelihoods of each phoneme in the dictionary entry. Here, if the phoneme is X, the frame numbers at the start and end of the segmented section corresponding to X are Ns, Ne, and the value of each parameter in the nth frame is Cn, then the likelihood of phoneme X is l x is defined by the following formula.
φiはある音素iの確率密度を表わし、式のよ
うに定義される。 φ i represents the probability density of a certain phoneme i, and is defined as in the equation.
φi(〓n)=1/(2π)J/2|Σi|1/2exp
〔−1/2(〓n−μi)TΣi -1(〓n−μi)〕……
〓n:第nフレームにおけるJ個のパラメータ
(ベクトル)
μi:ある音素iのパラメータの平均値
(ベクトル)
Σi:共分散行列
式において、確率密度の割り算における分母
のサメンシヨンiの範囲は、音素Xが何であるか
によつて異なり、例えばXが音素A(ア)の時は、i
の範囲は5母音A、E、I、O、Uとしている。
以上により、得られる単語類似度LMを式に従
つて各辞書項目毎に求め、LMが最大となる辞書
項目をもつて認識単語とするのであるが
LM=NP
〓k=1
lk/NP ……
LM:辞書のM番目の単語の類似度
lk:辞書音素系列中のk番目の音素の尤度
NP:辞書音素数
辞書音素系列中に子音C1、C2に挾まれ、無声
化母音又はナマケた発声をし易い母音Vがある場
合、子音C1、無声化母音又は発声のナマケた母
音V、子音C2の/C1VC2/の並びにおける各音素
の種類及びその音素並びに対応して、各々の音素
の確率密度の値を利用して、3音素まとめてセグ
メンテーシヨンを行ない、そのセグメンテーシヨ
ンされた区間に対して尤度lc1vc2を計算する。第
2図は/SUZI/(スジ)と発声した場合の各音
素/S/、/U/、/Z/、/I/の確率密度の
時間変化を表わしている。第2図において、/
U/の区間(b−c)において/U/の確率密度
φUはほとんどなく、代わりに/U/の前半で
は/S/の確率密度φS及び後半では/Z/の確率
密度φZが優勢である。φ i (〓n)=1/(2π) J/2 |Σ i | 1/2 exp [−1/2(〓n−μ i ) T Σ i -1 (〓n−μ i )]...
〓n: J parameters in the n-th frame (vector) μ i : Average value of the parameters of a certain phoneme i (vector) Σ i : Covariance matrix In the formula, the range of the submension i of the denominator in probability density division is: It depends on what the phoneme X is. For example, when X is the phoneme A (a), i
The range is 5 vowels A, E, I, O, and U.
From the above, the obtained word similarity L M is calculated for each dictionary item according to the formula, and the dictionary entry with the maximum L M is recognized as a word. L M = NP 〓 k=1 l k /NP... L M : Similarity of the M-th word in the dictionary l k : Likelihood of the k-th phoneme in the dictionary phoneme series NP: Number of dictionary phonemes Interposed between consonants C 1 and C 2 in the dictionary phoneme series , when there is a devoiced vowel or a vowel V that is easy to pronounce in a half-voiced manner, the type of each phoneme in the consonant C 1 , the devoiced vowel or a vowel V that is half- voiced, the /C 1 VC 2 / arrangement of the consonant C 2 and Using the probability density value of each phoneme corresponding to the phoneme arrangement, segmentation is performed for the three phonemes at once, and the likelihood lc 1 vc 2 is calculated for the segmented interval. FIG. 2 shows the temporal change in the probability density of each phoneme /S/, /U/, /Z/, and /I/ when /SUZI/ is uttered. In Figure 2, /
In the interval (b-c) of U/, there is almost no probability density φ U of /U/, but instead, the probability density φ S of /S/ in the first half of /U/, and the probability density φ Z of /Z/ in the second half. It is dominant.
またφZは/I/の始まり(d)まで優勢で、(d)か
らはφIが優勢となる。従つて区間(a−d)を/
S/、/U/、/Z/を1つにまとめた音素系
列/SUZ/のセグメンテーシヨン区間とし、/
SUZ/のセグメンテーシヨン区間(a−d)に
おいてφS、φZの値を用いて式に従い、尤度lSUZ
を計算する。 Also, φ Z is dominant until the beginning of /I/ (d), and from (d) on, φ I becomes dominant. Therefore, the interval (a-d) is /
Let the segmentation interval of the phoneme sequence /SUZ/ which combines S/, /U/, /Z/ into one, /
In the segmentation interval (a-d) of SUZ/, using the values of φ S and φ Z , the likelihood l SUZ
Calculate.
第3図は/ZUSI/(ズシ)と発声した場合の
各音素/Z/、/U/、/S/、/I/の時間変
化が表わしている。この場合、/U/の区間(f
−g)において/U/の確率密度φUはほとんど
なく、代わりに/U/の前半では/Z/の確率密
度φZ、後半では/S/の確率密度φSが優勢であ
る。またφSは/I/の始まり(h)まで優勢で(h)から
はφIが優勢となる。従つて、区間(e−h)
を、/Z/、/U/、/S/を1つにまとめてそ
れを音素系列/ZUS/のセグメンテーシヨン区
間とし、/ZUS/のセグメンテーシヨン区間
(e−h)においてφZ、φSの値を用いて式に従
つて尤度lZUSを計算するわけであるが、式にお
いては、連続3音素中の第1番目の音素C1の確
率密度と第3番目の音素C2の確率密度の出現す
る順番については考慮していない。従つて第2
図、第3図において3音素分の区間(a−d)及
び(e−h)では、式の条件を満たす
場合、つまり、/SUZ/と/ZUS/の例におい
て3音素分の区間でのφZとφSのフレーム和がほ
とんど同じ場合、/SUZ/の尤度lSUZ及び/
ZUS/の尤度lZUSは点数差がつかないこととな
る。従つて、結果として/SUZ/や/ZUS/の
ように子音、無声化母音又は発声のナマケた母音
及び子音の3連続音素系列において、2つの子音
が入れかわつた音素系列を含む2つの単語の識別
が困難となる欠点があつた。 FIG. 3 shows the temporal changes in the phonemes /Z/, /U/, /S/, and /I/ when uttering /ZUSI/. In this case, the /U/ interval (f
-g), there is almost no probability density φ U of /U/, and instead, the probability density φ Z of /Z/ is dominant in the first half of /U/, and the probability density φ S of /S/ is dominant in the second half. Also, φ S is dominant until the beginning of /I/ (h), and from (h) on, φ I becomes dominant. Therefore, the interval (eh)
, /Z/, /U/, /S/ are combined into one segmentation interval of the phoneme sequence /ZUS/, and in the segmentation interval (e-h) of /ZUS/, φ Z , The likelihood l ZUS is calculated according to the formula using the value of φ S. In the formula, the probability density of the first phoneme C 1 and the third phoneme C 2 of three consecutive phonemes are calculated. The order in which the probability densities appear is not considered. Therefore, the second
In Fig. 3, the intervals (a-d) and (e-h) for three phonemes satisfy the condition of Eq. In other words, in the example of /SUZ/ and /ZUS/, if the frame sums of φ Z and φ S in an interval of three phonemes are almost the same, then the likelihood of /SUZ/ l SUZ and /
Likelihood of ZUS/l There is no difference in scores for ZUS . Therefore, as a result, two words containing a phoneme sequence in which two consonants are replaced in a three-consecutive phoneme sequence of a consonant, a devoiced vowel, or a half-voiced vowel, and a consonant, such as /SUZ/ and /ZUS/. It had a defect that made it difficult to identify.
(発明の目的)
本発明は、上記従来例の欠点を除去するもので
あり、尤時計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。(Objective of the Invention) The present invention is intended to eliminate the drawbacks of the above-mentioned conventional example, and aims to improve the accuracy of occasional calculation, thereby improving the word recognition rate.
(発明の構成)
本発明は、上記目的を達成するために、子音、
無声化母音又は発声のナマケた母音、子音の連続
3音素をまとめてセグメンテーシヨンし、尤度計
算を行なう際、セグメンテーシヨンされた区間内
において、第1番目の子音の特徴を示す部分と、
第2番目の子音の特徴を示す部分の境界を1つ以
上検出し、セグメンテーシヨンされた区間内で、
その各々の境界について、第1番目の子音の特徴
を示す部分及び第2番目の子音の特徴を示す部分
から得られる尤度をもとに、上記連続3音素をま
とめた尤度を、各々の境界について計算し、その
中での最大尤度をその区間の尤度とすることによ
り、尤度計算の精度を向上させるものである。(Structure of the Invention) In order to achieve the above object, the present invention provides consonants,
When segmenting three consecutive phonemes of devoiced vowels, half-voiced vowels, and consonants together and performing likelihood calculations, within the segmented interval, the part that shows the characteristics of the first consonant and ,
Detect one or more boundaries of the part showing the characteristics of the second consonant, and within the segmented interval,
For each boundary, based on the likelihood obtained from the part showing the characteristics of the first consonant and the part showing the characteristics of the second consonant, we calculate the likelihood of summarizing the three consecutive phonemes. The accuracy of the likelihood calculation is improved by calculating the boundary and using the maximum likelihood therein as the likelihood of that section.
(実施例の説明)
以下に本発明の一実施例について図面とともに
説明する。第1図において、音素標準パタンは従
来例と同様である。単語辞書は、認識すべき単語
を音素の記号列で表記してあるが、無声化したり
ナマケた発声をしやすい母音に対して予め符号を
つけてある。またパラメータ抽出により得られる
パラメータ時系列は従来例と同様である。(Description of Embodiment) An embodiment of the present invention will be described below with reference to the drawings. In FIG. 1, the phoneme standard pattern is the same as in the conventional example. In a word dictionary, words to be recognized are expressed as phoneme symbol strings, and vowels that are likely to be devoiced or uttered slowly are given codes in advance. Further, the parameter time series obtained by parameter extraction is the same as in the conventional example.
次に上記実施例の動作について説明する。先ず
パラメータ抽出部1において入力音声からフレー
ム毎のパラメータを得、さらに、確率密度計算部
2で、そのパラメータの値を使つて各音素標準パ
タンから得られる確率密度を計算する。単語認識
部13において各辞書項目毎にその辞書項目を構
成する辞書音素系列に従つて音素Xのセグメンテ
ーシヨンを行ない、その音素Xとその音素Xに対
応してセグメンテーシヨンされた区間の尤度lXを
計算する際に、子音C1、発声のナマケた母音V
及び子音C2のC1VC2/の並びにおける各音素の種
類、及びその音素並びに対応して、各々の音素の
確率密度の値を利用して、3音素まとめてセグメ
ンテーシヨンを行ない、そのセグメンテーシヨン
された区間に対して尤度lC1VC2を計算する。ここ
までは前記従来例と同様である。ここで、尤度
lC1VC2を計算する際に、第1番目の音素C1の確率
密度が優勢な部分の尤度lC1(α)(αはC1の部分
とC2の部分の境界)と、第2番目の子音C2の確
率密度が優勢な部分の尤度lC2(α)を算出し、
式に従いlC1VC2を求める。第2図において、/
SUZ/のセグメンテーシヨン区間(a−d)で、
尤度lSUZを求める際、/S/の確率密度φS及び/
Z/の確率密度φZを用いて、第1番目の子音/
S/の部分と第2番目の子音/Z/の部分の境界
を1つ以上見つける(α=イ、ロ、ハ)。 Next, the operation of the above embodiment will be explained. First, a parameter extractor 1 obtains parameters for each frame from the input speech, and a probability density calculator 2 uses the values of the parameters to calculate the probability density obtained from each phoneme standard pattern. In the word recognition unit 13, segmentation of the phoneme X is performed for each dictionary item according to the dictionary phoneme series that constitutes the dictionary item, and the phoneme X and the likelihood of the segmented interval corresponding to the phoneme X are segmented. When calculating the degree l
and the type of each phoneme in the sequence C 1 VC 2 / of the consonant C 2, the phoneme, and the corresponding probability density value of each phoneme. Calculate the likelihood l C1VC2 for the segmented interval. The process up to this point is the same as the conventional example. Here, the likelihood
When calculating l C1VC2 , the likelihood l C1 (α) of the part where the probability density of the first phoneme C 1 is dominant, and the likelihood of the part where the probability density of the first phoneme C 1 is dominant, Calculate the likelihood l C2 (α) of the part where the probability density of consonant C 2 is dominant,
Find l C1VC2 according to the formula. In Figure 2, /
In the segmentation interval (a-d) of SUZ/,
When calculating the likelihood l SUZ , the probability density φ S of /S/ and /
Using the probability density φ Z of Z/, the first consonant /
Find one or more boundaries between the S/ part and the second consonant /Z/ (α=i, b, ha).
φSを用いて得られる第1番目の子音の部分の尤
度lS(α)と、φZを用いて得られる第2番目の子
音の部分の尤度lZ(α)を求め、ls(α)とlz(α)
をもとに、式により、尤度lSUZ(α)を求める。 Find the likelihood l S (α) of the first consonant part obtained using φ S and the likelihood l Z (α) of the second consonant part obtained using φ Z , and s (α) and l z (α)
Based on , calculate the likelihood l SUZ (α) using the formula.
但し、
Na:境界αのフレーム番号
Ns、Ne:3連続音素系列/C1VC2/のセグメ
ンテーシヨン区間における始端、終端フレーム番
号
φC1、φC2:3連続音素系列/C1VC2/における
音素C1及び音素C2の確率密度
lC1VC2=Max(lC1VC2(α)、α=1〜k)
(kは境界の数) ……
lC1(α)とlC2(α)の和尤度をlC1VC2(α)とする
と、第2図においてαは(イ),(ロ),(ハ)であるから、
式のようになる。 However, Na: frame number of boundary α Ns, Ne: start and end frame numbers in the segmentation section of 3 consecutive phoneme series /C 1 VC 2 / φ C1 , φ C2 : 3 consecutive phoneme series /C 1 VC 2 / Probability density of phoneme C 1 and phoneme C 2 in , l C1VC2 = Max (l C1VC2 (α), α = 1 to k) (k is the number of boundaries) ... sum of l C1 (α) and l C2 (α) If the likelihood is l C1VC2 (α), then α is (a), (b), and (c) in Figure 2, so
It becomes like the formula.
lSUZ(イ)|s(イ)+lZ(イ)
lSUZ(ロ)|s(ロ)+lZ(ロ)
lSUZ(ハ)|s(ハ)+lZ(ハ) ……
これにより、lSUZ(イ)、lSUZ(ロ)、lSUZ(ハ)が各々計
算
されるわけであるが式に従いα=イ、ロ、ハと
してこのlSUZ(イ)、lSUZ(ロ)、lSUZ(ハ)のうちで最も数
値
の高いものを、3連続音素/SUZ/の尤度lSUZと
する。上記のような尤度計算法を用いることによ
り2つの単語/SUZI/と/ZUSI/を容易に識別
できる。l SUZ (A) | s (A) + l Z (A) l SUZ (B) | s (B) + l Z (B) l SUZ (C) | s (C) + l Z (C) ...... As a result, l SUZ (a), l SUZ (b), l SUZ (c) are calculated respectively, and according to the formula α=a, b, c, l SUZ (a), l SUZ (b), l Let the one with the highest numerical value among SUZ (c) be the likelihood l SUZ of the three consecutive phonemes /SUZ/. By using the above-described likelihood calculation method, the two words /SUZI/ and /ZUSI/ can be easily identified.
上記実施例においては、子音、無声化母音又は
発声のナマケた母音及び子音の3連続音素系列の
尤度を精度良く求めることができるため、上記3
連続音素系列中の2つの子音が入れ変わつた音素
系列を含む2つの単語についても認別が容易にで
きるという利点がある。 In the above embodiment, the likelihood of a 3 consecutive phoneme sequence of a consonant, a devoiced vowel, or an unvoiced vowel, and a consonant can be determined with high accuracy.
This method has the advantage that two words including a phoneme sequence in which two consonants in a continuous phoneme sequence are exchanged can be easily recognized.
(発明の効果)
本発明は、子音、無音化母音又は発声のナマケ
た母音、子音の連続3音素まとめてセグメンテー
シヨンし、尤度計算を行なう際、第1番目の子音
の特徴を示す部分と、第2番目の子音の特徴を示
す部分の境界を1つ以上見つけ、その各々につい
て尤度を計算し、最大尤度をその区間の尤度とす
ることにより、従来法に比べて精度良く尤度計算
を行なうことができる利点を有する。(Effects of the Invention) The present invention segments a consonant, a silent vowel or a vowel with a half-voiced sound, and three continuous phonemes of a consonant together, and when performing likelihood calculation, the part that shows the characteristics of the first consonant. By finding one or more boundaries of the part that shows the characteristics of the second consonant, calculating the likelihood for each, and setting the maximum likelihood as the likelihood of that interval, this method is more accurate than conventional methods. It has the advantage of being able to perform likelihood calculations.
第1図は従来及び本発明に一実施例における単
語音声認識方法を説明するための図、第2図は/
SUZI/と発声した場合の各音素/S/、/
U/、/Z/、/I/の確率密度φS、φU、φZ、
φIの時間変化を表わす図、第3図は/ZUSI/と
発声した場合の各音素/Z/、/U/、/
S/、/I/の確率密度φZ、φU、φS、φIの時間
変化を表わす図である。
1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
FIG. 1 is a diagram for explaining a word speech recognition method according to the conventional method and an embodiment of the present invention, and FIG.
Each phoneme /S/, / when saying SUZI/
Probability densities of U/, /Z/, /I/ φ S , φ U , φ Z ,
Figure 3 shows the time change of φ I , and each phoneme /Z/, /U/, / when uttering /ZUSI/ is shown in Figure 3.
FIG. 3 is a diagram showing temporal changes in the probability densities φ Z , φ U , φ S , and φ I of S/ and /I/. 1... Parameter extraction section, 2... Probability density calculation section, 3... Word recognition section, 4... Phoneme standard pattern section, 5... Word dictionary section.
Claims (1)
各辞書項目を構成する辞書音素系列に従い各音素
毎に入力音声をセグメンテーシヨンし、セグメン
テーシヨンされた音素の区間に対して、その音素
の標準パタンとその音素との距離を用いて各辞書
項目と入力音声の類似度を求めて単語を認識する
単語音声認識方法において、子音、無声化母音又
は発声のナマケた母音及び子音の連続3音素につ
いては、上記連続3音素をまとめてセグメンテー
シヨンを行い、セグメンテーシヨンされた区間内
で上記3音素の第1番目の子音の特徴を示す部分
と第2番目の子音の特徴を示す部分の境界を1個
以上検出し、セグメンテーシヨンされた区間内
で、その各々の境界について、第1番目の子音の
特徴を示す部分及び第2番目の子音の特徴を示す
部分から得られる尤度をもとに、上記連続3音素
をまとめた尤度を各々の境界毎に計算し、その中
での最大尤度をその区間の尤度とすることを特徴
とする単語音声認識方法。 2 各音素の標準パタンとして、各音素の音響パ
ラメータの分布形で表された標準パタンを用い、
音素の標準パタンとその音素との距離尺度とし
て、セグメンテーシヨンされた音声の区間がその
音素から生成される確率密度を用いたことを特徴
とする特許請求の範囲第1項記載の単語音声認識
方法。[Claims] 1. Compare input speech with each dictionary item of a word dictionary,
The input speech is segmented for each phoneme according to the dictionary phoneme series that constitutes each dictionary item, and the distance between the standard pattern of the phoneme and the phoneme is used for the segmented phoneme interval to create each dictionary entry. In a word speech recognition method that recognizes words by determining the similarity between items and input speech, for three consecutive phonemes of consonants, devoiced vowels, or half-voiced vowels, and consonants, the three consecutive phonemes are segmented together. Then, within the segmented interval, one or more boundaries between the part showing the characteristics of the first consonant and the part showing the characteristics of the second consonant of the three phonemes are detected, and the segmentation is performed. Within the interval, for each boundary, the likelihood obtained from the part showing the characteristics of the first consonant and the part showing the characteristics of the second consonant, the likelihood that summarizes the three consecutive phonemes. is calculated for each boundary, and the maximum likelihood among them is taken as the likelihood of that section. 2. As a standard pattern for each phoneme, use a standard pattern expressed by the distribution shape of the acoustic parameters of each phoneme,
Word speech recognition according to claim 1, characterized in that the probability density that a segmented speech section is generated from the phoneme is used as a distance measure between the standard pattern of phonemes and the phoneme. Method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058178A JPS60202497A (en) | 1984-03-28 | 1984-03-28 | Word voice recognition |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058178A JPS60202497A (en) | 1984-03-28 | 1984-03-28 | Word voice recognition |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60202497A JPS60202497A (en) | 1985-10-12 |
| JPH045396B2 true JPH045396B2 (en) | 1992-01-31 |
Family
ID=13076742
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59058178A Granted JPS60202497A (en) | 1984-03-28 | 1984-03-28 | Word voice recognition |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60202497A (en) |
-
1984
- 1984-03-28 JP JP59058178A patent/JPS60202497A/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60202497A (en) | 1985-10-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8352263B2 (en) | Method for speech recognition on all languages and for inputing words using speech recognition | |
| Abdo et al. | Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal | |
| JP3444108B2 (en) | Voice recognition device | |
| JPH045396B2 (en) | ||
| JPH08314490A (en) | Word spotting type speech recognition method and device | |
| JPH0431116B2 (en) | ||
| JPH045397B2 (en) | ||
| JP3128251B2 (en) | Voice recognition device | |
| JPH045392B2 (en) | ||
| JPH07113838B2 (en) | Speech recognition method | |
| JPH045393B2 (en) | ||
| JPH0431115B2 (en) | ||
| JPH0412480B2 (en) | ||
| JPS6147999A (en) | Voice recognition system | |
| JP2979912B2 (en) | Voice recognition device | |
| JPH045394B2 (en) | ||
| JPH045391B2 (en) | ||
| JPH045395B2 (en) | ||
| JPH0412479B2 (en) | ||
| Shyu et al. | Combining multi-section Bayesian template with level-building algorithm for robust connected Mandarin digit recognition | |
| JPH0573039B2 (en) | ||
| JPH067359B2 (en) | Voice recognizer | |
| JPH0155477B2 (en) | ||
| Lin | Based on the Sub-syllable Framework for Mandarin Recognition | |
| JPH0155476B2 (en) |