Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH0566596B2 - - Google Patents
[go: Go Back, main page]

JPH0566596B2 - - Google Patents

Info

Publication number
JPH0566596B2
JPH0566596B2 JP59104786A JP10478684A JPH0566596B2 JP H0566596 B2 JPH0566596 B2 JP H0566596B2 JP 59104786 A JP59104786 A JP 59104786A JP 10478684 A JP10478684 A JP 10478684A JP H0566596 B2 JPH0566596 B2 JP H0566596B2
Authority
JP
Japan
Prior art keywords
vowel
string
input
standard
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59104786A
Other languages
Japanese (ja)
Other versions
JPS60249197A (en
Inventor
Satoru Kabasawa
Hidekazu Tsuboka
Yoshiteru Mifune
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59104786A priority Critical patent/JPS60249197A/en
Publication of JPS60249197A publication Critical patent/JPS60249197A/en
Publication of JPH0566596B2 publication Critical patent/JPH0566596B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識装置、特に単語あるいは文節
等音節を連続して発声した音声の認識装置に関す
る。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a speech recognition device, and particularly to a speech recognition device that recognizes speech produced by consecutively uttering syllables such as words or phrases.

(従来例の構成とその問題点) 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果な非常に大きい。
(Constitution of Conventional Example and Its Problems) If voice, which is the most natural means of generating information for humans, can be used as an input means for a human-machine system, the effect would be enormous.

従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。
Conventionally, speech recognition devices based on a specific speaker registration method have been put into practical use. That is, a speaker who intends to use a recognition device converts all the words to be recognized into a series of feature vectors using his/her own voice and registers them as standard patterns in a word dictionary, and then uses the voice uttered during recognition. is similarly converted into a series of feature vectors, which word in the word dictionary is closest is calculated according to a predetermined rule, and the most similar word is taken as the recognition result.

ところが、この方法によると、認識単語数が少
いときは良いが、数百、数千単語といつたように
増加してくると、主として次の三つの問題が無視
し得なくなる。
However, this method is good when the number of recognized words is small, but as the number of words increases to hundreds or thousands of words, the following three problems become impossible to ignore.

(1) 登録時における話者の負担が著しく増大す
る。
(1) The burden on speakers during registration increases significantly.

(2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。
(2) The time required to calculate the similarity or distance between the voice uttered and the standard pattern during recognition increases significantly, and the response speed of the recognition device becomes slow.

(3) 前記単語辞書のために要するメモリが非常に
大きくなる。
(3) The memory required for the word dictionary becomes very large.

以上の欠点を回避するための方法として認識の
単位を子音+母音および母音の単音節(以後それ
ぞれCV,Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行う決
定的な方法は未だ見出されていない。この2つの
問題を解決するために、現在のところ各単音節を
区切つて、発声することが行われており、実用化
されている装置もある。
As a method to avoid the above-mentioned drawbacks, there is a method in which the unit of recognition is a consonant+vowel or a monosyllable of a vowel (hereinafter expressed as CV and V, respectively; C means a consonant and V means a vowel). That is, monosyllables are registered as a series of feature vectors as standard patterns, and input speech converted into a series of feature vectors during recognition is converted into a series of monosyllables by matching with the standard pattern of monosyllables. It is something to do. In Japanese, the number of monosyllables is at most
There are 101 types, and monosyllables correspond to kana characters, so this method converts (recognizes) any Japanese word or sentence into a monosyllable string.
This will solve all of the problems (1) to (3) above. However, problems in this case include articulatory combination and segmentation. Articulatory coupling is a phenomenon in which when syllables are uttered in succession, each syllable is influenced by the syllables before and after it, and the spectral structure changes depending on the syllables connected before and after it. Segmentation is the process of dividing continuously uttered speech into monosyllable units, but a definitive method for doing this reliably has not yet been found. In order to solve these two problems, the current practice is to separate each single syllable and pronounce it, and some devices are in practical use.

しかし、単音節を離散的に発声するのは不自然
であり、話者に緊張を強いるものである。
However, uttering monosyllables discretely is unnatural and puts stress on the speaker.

(発明の目的) 本発明は、認識されるべき単語または文節に対
し、それらの数が多い場合でも小形低価格かつ標
準パターンの登録操作が簡単であつて、認識精度
および処理速度の向上が可能な音声認識装置を実
現することを目的とする。
(Objective of the Invention) The present invention is small, inexpensive, and easy to register standard patterns even when there are a large number of words or phrases to be recognized, and it is possible to improve recognition accuracy and processing speed. The purpose of this research is to realize a speech recognition device that is easy to use.

(発明の構成) 本発明は、V,CV,VV,VCV等の音節を予
め登録しておき、これらを連続発声して入力され
た単語または文節を、単語辞書を用いて、これら
音節列として認識するものであつて、その構成
は、入力音声信号を特徴パタンの系列Aに変換す
る特徴抽出手段と、前記入力信号の定常点を抽出
する定常点抽出手段と、抽出されたそれぞれの定
常点を母音と見做して母音識別して入力母音列X
を得る母音識別手段と、前記母音識別手段で得ら
れる入力母音列Xと認識されるべき単語あるいは
文節の母音列Yn(n=1,2,…,N)とのマツ
チングを行つて前記入力母音列Xに最も近に標準
母音列Ynoを識別する母音列識別手段と、前記入
力母音列Xと前記識別結果母音列Ynoとのマツチ
ング結果に基づいて前記母音列Xと前記識別結果
母音列Ynoの母音の対応関係を決定する母音列対
応決定手段と、前記対応関係に基づいて決定され
た前記入力母音列Xの部分区間に対応した前記
入力信号の部分系列について、前記母音列識別
手段で得られる前記識別結果母音列Ynoのうち前
記部分区間に対応した特定部分Yno=(yno j1,…,
yno j2)(j1<j2)の母音列で定義されるyno j1Cyno j1+1

yno j1+1Cyno j1+2,…,yno j2-1Cyno j2(C:子音)等の
それ
ぞれの音節に対応する標準パタンとのマツチング
を行つて、前記特定部分特徴パタン系列に対応す
る音節列を識別し、識別された音節列に基づいて
単語あるいは文節を判定して認識結果として出力
する判定手段とを備えた音声認識装置であり、認
識されるべき単語または文節に対して、それらの
数が多い場合でも小形低価かつ標準パタンの登録
操作が簡単であつて、認識精度及び処理速度を向
上することのできるものである。
(Structure of the Invention) The present invention registers syllables such as V, CV, VV, VCV in advance, and inputs words or phrases by continuously speaking them as a string of these syllables using a word dictionary. It recognizes the input signal, and its configuration includes feature extraction means for converting an input audio signal into a series A of feature patterns, a steady point extraction means for extracting stationary points of the input signal, and each extracted stationary point. is regarded as a vowel, the vowel is identified, and the input vowel string
and a vowel identification means that matches the input vowel string X obtained by the vowel identification means with the vowel string Y n (n=1, 2,..., N) of the word or phrase to be recognized. a vowel string identification means for identifying a standard vowel string Y no closest to the vowel string X, and a vowel string identifying means for identifying the vowel string vowel string correspondence determining means for determining the correspondence of vowels in the column Y no ; and vowel string identification for a partial sequence of the input signal corresponding to a partial interval of the input vowel string X determined based on the correspondence. Of the identified vowel string Y no obtained by the means, the specific part Y no corresponding to the partial interval Y no = (y no j1 ,...,
y no j1 Cy no j1+1 defined by the vowel string y no j2 ) (j 1 < j 2 )

By performing matching with standard patterns corresponding to each syllable such as y no j1+1 Cy no j1+2 ,..., y no j2-1 Cy no j2 (C: consonant), etc., the specific partial feature pattern series is created. This is a speech recognition device that is equipped with a determination means that identifies a corresponding syllable string, determines a word or phrase based on the identified syllable string, and outputs the result as a recognition result. , even if there are a large number of them, it is small, inexpensive, and easy to register standard patterns, and can improve recognition accuracy and processing speed.

(実施例の説明) 以後、「単語」という言葉は「文節」という言
葉も代表するものとする。
(Description of Examples) Hereinafter, the word "word" will also represent the word "bunsetsu."

さて、第1図は本発明の第1の実施例を示す機
能ブロツク図である。1は音声信号入力端子であ
る。2は特徴抽出部であつて、例えば20チヤネル
のフイルタバンクを用い、1フレームを10msec
とすれば、その出力には10msec毎に20個の数値
(特徴パタン)が得られる。即ち、入力音声信号
は特徴パタンの系列A=(a1,a2,…,a,…,
aL)に変換される。ここで、a=(a1,a2
…,a20)は第フレームで得られる特徴パタ
ン、Lは入力音声のフレーム数である。3は電力
計算部であつて、第フレームの電力をPとす
れば、フレーム毎にP=√2 12 2+…+
a2 20が計算される。4は音声区間検出部であつ
て、このPの変化パタンから入力音声信号の始
終端を検出する。即ち、無音・有音を判別する閾
値を定め、この閾値以上の区間が予め定めた一定
時間(例えば30msec)以上続いたとき、この閾
値を越えた時点を音声の開始時点とし、この閾値
以下の期間が予め定めたある一定時間(例えば
300msec)以上続いたとき、この閾値以下となつ
た時点を音声の終端とする等の方法が可能であ
る。5は母音標準パタン記憶部であつて、各母音
の定常部の特徴パタンを予め記憶しておくもので
ある。6はバツフアメモリで、入力音声信号の特
徴パタンについて音声区間検出部4で検出される
始端から終端までを一時的に記憶するものであ
る。7は定常点検出部であつて、バツフアメモリ
6の内容を読み出し、定常点を検出するものであ
る。定常点の検出は、例えば、各フレームに対し
て前後数フレーム(例えば5フレーム)の特徴パ
タンの分散を計算し、これが最小となるフレーム
として検出できる。即ち、第フレームにおける
この分散をσ2とすると、前記入力信号の特徴パ
タンの系列A=(a1,a2,…,a,…,aL),a
=(a1,a2,…,a20)に対して、 σ220k=1 1+Nq=l-N (aqkk2 (1)k =1/2N+11+Nq=l-N akq (2) N=5 (3) として与えられる。8は定常点(フレーム)記憶
部であつて、前記定常点検出部7で検出された定
常点(フレーム)列を記憶する。9は母音パター
ン比較部であつて、前記定常点(フレーム)記憶
部8で記憶されている前記定常点(フレーム)列
のそれぞれを母音中心フレームと見做して、定常
点(フレーム)の特徴パタンと前記母音標準パタ
ン記憶部5の各母音に対応する標準パタン(特徴
パタン)との距離(または類似度、以下では、
「類似度」は「距離」で代表することとする。即
ち、「距離が小さい」とは「類似度が大きい」と
いうことである)を計算するものである。10は
母音識別部であつて、前記母音パタン比較部9の
出力のうち、最小値を与える前記母音を前記定常
点(フレーム)の母音識別結果とするものであ
る。11は母音・促音判定結果記憶部であつて、
前記母音識別部10で得られた母音列(入力母音
列)、前記音声区間検出部4で検出された無音区
間のうち促音と判定される部分を記憶するもので
ある。ここで、促音の検出は、前記定義に基づく
無音区間の時間長によつて判定されるものであ
る。例えば、この区間が100msec〜250msecを促
音とする等である。さらに、母音・促音判定結果
記憶部11は、後述の母音列識別部15で識別さ
れた母音列も記憶する。12は標準母音列記憶部
であつて、認識されるべき単語、即ち、後述の単
語辞書部22に記憶されている単語の母音列(標
準母音列)(以後、母音列は促音も含むものとす
る)が重複を避けて記憶されている。13は母音
間距離記憶部であつて、前記母音標準パタン記憶
部5で記憶されている前記母音標準パタンを用い
て予め求めた母音間距離が記憶されている。14
は母音列比較部であつて、前記母音・促音判定結
果記憶部11に記憶されている前記入力母音列を
読み出して、前記標準母音列記憶部12で記憶さ
れている各標準母音列とのマツチングを行うもの
である。ここで、マツチングは周知のDPマツチ
ングで行うことが可能である。即ち、n番目の標
準母音列をYn=(yn 1,yn 2,…,yn j,…,yn Jo)、前
記入力母音列をX=(x1,x2,…,xi,…,xI
(Jn,Iはそれぞれ標準母音列の母音数および入
力母音列の定常点の個数)とし、dn(i,j)を
i番目の入力母音xiとj番目の標準母音yn jとの距
離とするとき、 g(i,j)=ming(i−3,j−1)+3・dn
i,j) g(i−2,j−1)+2dn(i,j) g(i−1,j−1)+dn(i,j) g(i−2,j−2)+2dn(i,j) g(i−1,j−2)+dn(i,j) なる漸化式を、gn(1,1)=dn(1,1)として
解けば、XとYnの距離D(X,Yn)は、 D(X,Yn)=g(I,Jn) (5) となる。ここで、dn(i,j)は前記母音間距離
記憶部13の内容のうち前記入力母音列Xのi番
目の母音xiと前記n番目の標準母音列Ynのj番目
の母音yjとの母音間距離を読み出すことにより与
えられる。以上の様にして、前記入力母音列Xと
前記標準母音列Ynの距離D(X,Yn)が求めら
れ、出力される。また、前記母音列比較部14
は、式(4)で与えられるg(i,j)が、格子点
(i−3,j−1),(i−2,j−1),(i−1,
j−1),(i−2),j−2),(i−1,j−2)
のうちのどの格子点からの遷移であるかを順次記
憶し、式(5)が求まつた段階で、始点gn(1,1)
から終点gn(I,Jn)に至つた経路(以後、「最適
パス」と呼ぶことにする)を、式(5)で与えられる
前記距離D(X,Yn)と共に出力する。なお、前
記漸化式(5)については種々の形が提案されてお
り、ここではその一例を示したにすぎない。前記
母音列比較部14では、以上の様にして、前記入
力母音列について、すべての標準母音列Yn(n=
1,2,…,N)とのマツチングを順次行つて距
離および最適パスを出力する。15は母音列識別
部であつて、前記母音列比較部14の出力のう
ち、最小値を与える前記標準母音列Ynoを識別し
て識別結果母音列Ynoとし、Yno及び付帯する最
適パス(識別結果最適パス)を出力する。16は
母音対応決定部であつて、前記識別結果最適パス
を、終点の格子点(I,Jno)より順に逆上り、
前記識別結果最適パス上の格子点(ino,jno)が
前記定常点列の何番目の定常点(即ち母音)に該
当するかを決定する。ところで、第2図は、「A
I ZU WA KA MA TSU」と発声し、前記
定常点検出部7において、8ケの定常点が検出さ
れ、それぞれの定常点について前記母音比較部9
および前記母音識別部10において母音識別し、
「A I U I U I A U」という入力
母音列Xが得られ、前記母音列比較部14および
前記母音列識別部15において「A I U A
A A U」という識別結果母音列Ynoが得ら
れた時の格子点の遷移の様子を示す図である。前
記母音対応決定部16では、この遷移を逆にたど
るわけである。即ち、先ず格子点(I,Jno)=
(8,7)への遷移の始点は格子点(7,5)で
あり、格子点(7,5)へは格子点(5,3)よ
り、格子点(5,3)へは格子点(2,2)よ
り、格子点(2,2)へは格子点(1,1)より
の遷移であることを順にたどりながら、前記識別
結果母音列Ynoの各母音と前記入力母音列Xの各
母音との対応を決定する。即ち、前記入力母音列
Xの第1番目の母音「A」、第2番目の母音
「I」、第5番目の母音「U」、第7番目の母音
「A」、第8番目の母音「U」のそれぞれは、前記
識別結果母音列Ynoの第1番目の母音「A」、第
2番目の母音「I」、第3番目の母音「U」、第5
番目の母音「A」、第7番目の母音「U」に対応
し、前記入力母音列Xの第3番目の母音「U」お
よび第4番目の母音「I」に対応する前記識別結
果母音列Ynoの母音はなく(挿入)、前記識別結
果母音列Ynoの第6番目の母音「A」に対応する
前記入力母音列Xの母音はない(脱落)こと、ま
た、前記入力母音列Xの第6番目の母音「I」に
対応する前記識別結果母音列Ynoの母音はないと
同時に前記識別結果母音列Ynoの第4番目の母音
「A」に対応する前記入力母音列Xの母音もない
(挿入と脱落が同時に発生)ことが決定される。
(ここで、「挿入と脱落が同時に発生」している場
合と、前記識別結果母音列Yno中の「脱落」と決
定された母音が前記入力母音列X中の「挿入」と
決定された母音に前記母音識別部10において誤
識別された場合とは、前記最適パスの遷移状態に
より区別される。即ち、格子点(5,3)から格
子点(7,5)への遷移に関して、第2図の如
く、格子点(5,3)から格子点(7,5)へ直
接遷移する場合が「挿入と脱落が同時に発生」し
た場合であり、格子点(5,3)→格子点(6,
4)→格子点(7,5)と遷移する場合が「格子
点(6,4)において誤識別が発生」した場合で
ある。)以上の様にして決定された前記入力母音
列Xと前記識別結果母音列Ynoの各母音の対応関
係及び前記識別結果母音列Ynoは前記母音・促音
判定結果記憶部11に記憶される。17は特定部
分決定部であつて、前記母音・促音判定結果記憶
部11で記憶されている前記入力母音列Xと前記
識別結果母音列Ynoの各母音の対応関係及び前記
識別結果母音列Ynoを読み出し、前記入力母音列
Xと前記識別結果母音列Ynoとが正しく対応して
いる(識別された)母音(即ち、前記脱落母音、
前記挿入母音、前記誤識別母音以外の母音)の隣
合つた区間、例えば、第2図において、前記入力
母音列の第1番目の母音「A」から第2番目の母
音「I」までの区間、第2番目の母音「I」から
第5番目の母音「U」までの区間、第5番目の母
音から第7番目の母音「A」までの区間、第7番
目の母音「A」から第8番目の母音「U」までの
区間のそれぞれを特定部分と決定する。ただし、
語頭母音が誤つている場合には、語頭から正しく
識別された母音までの区間を前記特定部分とし、
語尾母音が誤つている場合には、正しく識別され
た母音のうち最後尾の母音から語尾母音までの区
間を前記特定部分Yno とする。18は音節標準パ
タン記憶部であつて、V,CV,VV,VCV等の
音節に対する特徴パタンの系列を、V,CVにつ
いては語頭から母音定常部まで、VV,VCVにつ
いては先行母音の定常部から後続母音の定常部ま
でを標準パタンとして予め話者が発声し、登録し
ておく。19は音節パタン比較部であつて、前記
特定部分決定部17において決定された前記特定
部分Yno について、その特定部分を定義する先行
母音yno j1が対応するフレームを始点とし、後続母
音yno j2が対応するフレームを終点とする部分特徴
パターン系列を前記バツフアメモリ6より読み
出して、前記音節標準パタン記憶部18で記憶さ
れているところの、前記特定部分Yno=yno j1,…,
yno j2(j1<j2)で定義されるyno j1Cyno j1+1,yno j1+1C
yno j1+2
…,yno j2-1Cyno j2,yno j1yno j1+1,yno j1+1yno j1+2
…,yno j2-1
yno j2(C:子音)等のそれぞれの音節に対応する標
準パタンを前記特定部分noの母音列に対応する
様に種々組み合わせた音節標準パタン系列(複合
音節標準パタン系列)(例えば、yno j1Cyno j2,yno j1yn
o
j2
yno j1C1yno j1+1C2yno j2,yno j1Cyno j1+1yno j2など)と
のマツチ
ングを行うものである。例えば、第2図におい
て、前記入力母音列の第1番目の母音「A」から
第2番目の母音「I」までの特定部分に対応する
部分特徴パタン系列は、複合音節標準パタン
「A・C・I」(C:子音)とマツチングされる。
これは、周知のDPマツチングで行うことが可能
である。即ち、前記複合音節標準パタン「A・
C・I」に対応する複合音節標準パタン系列をR
=(r1,r2,…,r〓,…,r〓)とし、前記部分特徴
パタン系列1=(a1 1,a1 2,…,a1〓,…,a1〓とし

δ(τ,λ)を前記部分特徴パタン系列1の第τ
番目の特徴パタンa1〓と前記複合音節標準パタン系
列Rの第λ番目の標準特徴パタンr〓との距離とす
るとき、 (τ,λ)=min(τ−1,λ−2)+δ(τ,
λ−1)+δ(τ,λ) (τ−1,λ−1)+δ(τ,λ) (τ−2,λ−1)+δ(τ,λ) (6) なる漸化式を(1,1)=2δ(1,1)として解
けば、1とRの距離Δ(1,R)は、 Δ(1,R)=(Τ,Λ) (7) となる。ここで、δ(τ,λ)は、a〓=(a〓1,a〓2

…,a〓20),r〓=(r〓1,r〓2,…,r〓20)に関し
て、
δ(τ,λ)=20p=1 |a〓〓−r〓〓| (8) で与えられるのが一般的である。また、上記漸化
式も種々の形が提案されており、ここではその一
例を示したにすぎない。以上の様にして、前記部
分特徴パタン系列の先行母音「A」と後続母音
「I」のにはさまれる種々な子音C(Cが無い場合
もあるがこれを含めて子音Cと呼ぶ)をもつ前記
複合音節標準パタン系列Rについての距離が求め
られ、対応する前記複合音節標準パタン系列を構
成する標準音節の番号と共に出力される。以下同
様にして、前記入力母音列の第2番目の母音
「I」と第5番目の母音「U」の特定部分、第5
番目の母音「U」と第7番目の母音「A」の特定
部分、第7番目の母音「A」と第8番目の母音
「U」の特定部分について、それぞれ前記複合音
節標準パタン系列との距離が求められ、対応する
前記複合音節標準パタン系列を構成する標準音節
の番号と共に出力される。20は音節識別部であ
つて、前記特定部分のそれぞれについて、前記音
節パタン比較部19から出力される距離のうち最
小値を求め、最小値を与える前記複合音節標準パ
タン系列を構成する標準音節番号(識別音節番
号)を識別する。21は音節列記憶部であつて、
前記音節識別部20で得られた前記識別音節番号
を記憶する。22は単語辞書部であつて、認識す
べき単語を構成する音節番号の系列を記憶してい
る。例えば、「オオサカ」という単語に対しては、
「OO」,「OSA」,「AKA」という3つの音節の対
応する番号の系列を記憶している。23は単語間
距離計算部であつて、前記音節列記憶部21で記
憶されあいる識別音節番号列と、前記単語辞書部
22で記憶されている単語音節番号列とのマツチ
ングを行う。これは、例えば以下の様になる。即
ち、前記識別音節番号列と前記単語音節番号列で
対応する位置に同じ番号の音節が存在する場合を
「1」とし、違つた番号の音節が存在する場合を
「0」として、前記識別音節番号列に関して和を
求め、単語を構成する音節数で正規化して単語間
距離とする。前記単語間距離23は、前記単語間
距離と対応する単語番号を出力する。24は単語
判定部24であつて、前記単語間距離の最小値を
求め、最小値を与える単語番号を判定結果として
出力する。25は出力端子であり、前記判定結果
は出力端子25より出力される。
Now, FIG. 1 is a functional block diagram showing a first embodiment of the present invention. 1 is an audio signal input terminal. 2 is a feature extraction unit that uses, for example, a 20-channel filter bank and processes one frame for 10 msec.
Then, 20 values (feature patterns) are obtained every 10 msec in the output. That is, the input audio signal is a series of feature patterns A = (a 1 , a 2 , ..., a, ...,
a L ). Here, a=(a 1 , a 2 ,
..., a 20 ) is the feature pattern obtained in the th frame, and L is the number of frames of input audio. 3 is a power calculation unit, and if the power of the th frame is P, then P = √ 2 1 + 2 2 +...+ for each frame.
a 2 20 is calculated. Reference numeral 4 denotes a voice section detecting section, which detects the beginning and end of the input voice signal from the change pattern of P. In other words, a threshold value is set to determine whether there is a sound or not, and when the interval above this threshold continues for a predetermined period of time (e.g. 30 msec), the time when this threshold is exceeded is considered to be the start point of audio, and the time when the sound is below this threshold is A certain period of time (for example,
300 msec) or more, it is possible to use a method such as setting the point in time when the value falls below this threshold as the end of the audio. Reference numeral 5 is a vowel standard pattern storage unit which stores characteristic patterns of the constant portion of each vowel in advance. A buffer memory 6 temporarily stores the characteristic pattern of the input audio signal from the start to the end detected by the audio section detection section 4. Reference numeral 7 denotes a stationary point detection section, which reads out the contents of the buffer memory 6 and detects a stationary point. The stationary point can be detected, for example, by calculating the variance of feature patterns of several frames (for example, 5 frames) before and after each frame, and detecting the frame with the minimum variance. That is, if this variance in the th frame is σ 2 , then the sequence of characteristic patterns of the input signal A = (a 1 , a 2 , ..., a, ..., a L ), a
= (a 1 , a 2 ,…, a 20 ), σ 2 = 20k=1 1+Nq=lN (a qkk ) 2 (1) k = 1/2N+1 1+Nq=lN a kq (2) N=5 (3) Given as follows. A stationary point (frame) storage section 8 stores a stationary point (frame) sequence detected by the stationary point detection section 7. Reference numeral 9 denotes a vowel pattern comparing section, which regards each of the stationary point (frame) strings stored in the stationary point (frame) storage section 8 as a vowel center frame and compares the characteristics of the stationary points (frames). The distance (or similarity, hereinafter, the degree of similarity between the pattern and the standard pattern (characteristic pattern) corresponding to each vowel in the vowel standard pattern storage section 5,
“Similarity” is represented by “distance”. In other words, "small distance" means "high similarity"). Reference numeral 10 denotes a vowel identification section, which takes the vowel that gives the minimum value among the outputs of the vowel pattern comparison section 9 as the vowel identification result of the stationary point (frame). 11 is a vowel/consonant determination result storage unit,
The vowel string (input vowel string) obtained by the vowel identifying section 10 and the portion of the silent section detected by the speech section detecting section 4 that is determined to be a consonant are stored. Here, detection of a consonant is determined based on the time length of the silent section based on the above definition. For example, this section may be set as a consonant for 100 msec to 250 msec. Furthermore, the vowel/consonant determination result storage section 11 also stores vowel strings identified by the vowel string identification section 15, which will be described later. Reference numeral 12 denotes a standard vowel string storage unit which stores the vowel strings (standard vowel strings) of words to be recognized, that is, words stored in the word dictionary unit 22 (described later) (hereinafter, the vowel strings will also include consonants). are stored to avoid duplication. Reference numeral 13 denotes an inter-vowel distance storage section, in which an inter-vowel distance determined in advance using the vowel standard pattern stored in the vowel standard pattern storage section 5 is stored. 14
is a vowel string comparison section that reads out the input vowel string stored in the vowel/consonant determination result storage section 11 and matches it with each standard vowel string stored in the standard vowel string storage section 12. This is what we do. Here, matching can be performed by well-known DP matching. That is, the nth standard vowel string is Y n = (y n 1 , y n 2 , ..., y n j , ..., y n Jo ), and the input vowel string is X = (x 1 , x 2 , ..., x i ,…, x I )
(J n , I are the number of vowels in the standard vowel string and the number of stationary points in the input vowel string, respectively), and d n (i, j) is the i-th input vowel x i and the j-th standard vowel y n j . When the distance is g (i, j) = ming (i-3, j-1) + 3・d n (
i, j) g (i-2, j-1) + 2d n (i, j) g (i-1, j-1) + d n (i, j) g (i-2, j-2) + 2d n (i, j) g (i-1, j-2) + d n (i, j) If we solve the recurrence formula as g n (1, 1) = d n (1, 1), then X and Y The distance D(X, Y n ) of n is D(X, Y n )=g(I, J n ) (5). Here, d n (i, j) is the i-th vowel x i of the input vowel string X and the j-th vowel y of the n-th standard vowel string Y n among the contents of the inter-vowel distance storage section 13. It is given by reading the inter-vowel distance with j . In the manner described above, the distance D (X, Y n ) between the input vowel string X and the standard vowel string Y n is determined and output. Further, the vowel string comparison unit 14
is, g(i, j) given by equation (4) is the grid point (i-3, j-1), (i-2, j-1), (i-1,
j-1), (i-2), j-2), (i-1, j-2)
The starting point g n (1, 1) is sequentially memorized from which grid point the transition is from, and when equation (5) is determined,
The path (hereinafter referred to as the "optimal path") from to the end point g n (I, J n ) is output together with the distance D (X, Y n ) given by equation (5). Note that various forms have been proposed for the recurrence formula (5), and only one example is shown here. As described above, the vowel string comparison unit 14 compares all standard vowel strings Y n (n=
1, 2,...,N) to output the distance and optimal path. 15 is a vowel string identification section, which identifies the standard vowel string Y no that gives the minimum value among the outputs of the vowel string comparison section 14, takes it as the identification result vowel string Y no , and selects Y no and the accompanying optimal path. (identification result optimal path) is output. 16 is a vowel correspondence determination unit which sequentially ascends the identified optimal path from the terminal grid point (I, J no );
It is determined which stationary point (i.e., vowel) in the stationary point sequence the grid point (i no , j no ) on the identification result optimal path corresponds to. By the way, Figure 2 shows "A
``I ZU WA KA MA TSU'', eight stationary points are detected in the stationary point detection unit 7, and the vowel comparison unit 9 detects eight stationary points for each stationary point.
and the vowel identification unit 10 identifies the vowel,
An input vowel string
FIG. 4 is a diagram showing the transition of lattice points when the identification result vowel string Y no "A A U" is obtained. The vowel correspondence determination unit 16 traces this transition in reverse. That is, first, lattice point (I, J no )=
The starting point of the transition to (8,7) is the grid point (7,5), and the transition to the grid point (7,5) is from the grid point (5,3), and the transition to the grid point (5,3) is from the grid point From (2, 2), each vowel in the identification result vowel string Y no and the input vowel string Determine the correspondence with each vowel. That is, in the input vowel string X, the first vowel "A", the second vowel "I", the fifth vowel "U", the seventh vowel "A", and the eighth vowel " Each of "U" is the first vowel "A", the second vowel "I", the third vowel "U", and the fifth vowel of the identified vowel string Y no .
The identified vowel string corresponds to the th vowel "A" and the 7th vowel "U", and corresponds to the 3rd vowel "U" and the 4th vowel "I" of the input vowel string There is no vowel in Y no (insertion), and there is no vowel in the input vowel string X that corresponds to the sixth vowel "A" in the identified vowel string Y no (dropout); There is no vowel in the identification result vowel string Y no corresponding to the sixth vowel "I" in the identification result vowel string Y no , and at the same time there is no vowel in the input vowel string X corresponding to the fourth vowel "A" in the identification result vowel string Y no . It is determined that there are no vowels (insertion and omission occur simultaneously).
(Here, if "insertion and omission occur simultaneously" and if the vowel determined to be "dropped" in the identified vowel string Y no is determined to be "inserted" in the input vowel string A case in which a vowel is incorrectly identified by the vowel identification unit 10 is distinguished by the transition state of the optimal path.In other words, regarding the transition from the lattice point (5, 3) to the lattice point (7, 5), As shown in Figure 2, the case where there is a direct transition from lattice point (5, 3) to lattice point (7, 5) is a case where "insertion and dropout occur simultaneously," and the transition from lattice point (5, 3) to lattice point ( 6,
The case where the transition occurs from 4) to grid point (7, 5) is the case where "misidentification occurs at grid point (6, 4)." ) The correspondence between each vowel in the input vowel string X and the identification result vowel string Y no determined as above and the identification result vowel string Y no are stored in the vowel/consonant determination result storage unit 11. . Reference numeral 17 is a specific part determination unit which determines the correspondence between each vowel in the input vowel string no is read, and the input vowel string X and the identification result vowel string Y no correctly correspond (identified) vowels (i.e., the dropped vowels,
the inserted vowel, the vowel other than the misidentified vowel), for example, in FIG. 2, the interval from the first vowel "A" to the second vowel "I" in the input vowel string , the section from the second vowel "I" to the fifth vowel "U", the section from the fifth vowel to the seventh vowel "A", the section from the seventh vowel "A" to the fifth vowel "A" Each section up to the eighth vowel "U" is determined to be a specific portion. however,
If the initial vowel of a word is incorrect, the section from the beginning of the word to the correctly identified vowel is used as the specific part,
If the word-final vowel is incorrect, the section from the last vowel to the word-final vowel among the correctly identified vowels is set as the specific portion Y no . Reference numeral 18 is a syllable standard pattern storage unit which stores a series of characteristic patterns for syllables such as V, CV, VV, VCV, from the beginning of the word to the constant vowel part for V and CV, and the constant part of the preceding vowel for VV and VCV. to the stationary part of the following vowel is uttered in advance by the speaker as a standard pattern and registered. Reference numeral 19 denotes a syllable pattern comparison unit which, for the specific part Y no determined by the specific part determining unit 17, starts from the frame corresponding to the preceding vowel y no j1 that defines the specific part, and compares the subsequent vowel y no The partial feature pattern sequence ending at the frame corresponding to j2 is read from the buffer memory 6, and the specific portion Y no =y no j1 , . . . stored in the syllable standard pattern storage section 18 is read out.
y no j2 (j 1 < j 2 ) defined by y no j1 Cy no j1+1 , y no j1+1 C
y no j1+2 ,
…, y no j2-1 Cy no j2 , y no j1 y no j1+1 , y no j1+1 y no j1+2 ,
...,y no j2-1
A syllable standard pattern series (compound syllable standard pattern series) in which standard patterns corresponding to each syllable such as y no j2 (C: consonant) are combined in various ways to correspond to the vowel string of the specific part no (for example, y no j1 Cy no j2 ,y no j1 y n
o
j2 ,
y no j1 C 1 y no j1+1 C 2 y no j2 , y no j1 Cy no j1+1 y no j2 , etc.). For example, in FIG. 2, the partial feature pattern sequence corresponding to the specific part from the first vowel "A" to the second vowel "I" in the input vowel string is the compound syllable standard pattern "A・C".・Matched with "I" (C: consonant).
This can be done using the well-known DP matching. That is, the compound syllable standard pattern "A.
The compound syllable standard pattern series corresponding to “C・I” is R
= (r 1 , r 2 , ..., r〓, ..., r〓), and the partial feature pattern sequence 1 = (a 1 1 , a 1 2 , ..., a 1 〓, ..., a 1 〓,
δ(τ, λ) is the τ-th of the partial feature pattern series 1 .
When the distance between the th feature pattern a1〓 and the λth standard feature pattern r〓 of the compound syllable standard pattern series R is (τ, λ)=min(τ-1, λ-2)+δ( τ,
λ−1)+δ(τ,λ) (τ−1,λ−1)+δ(τ,λ) (τ−2,λ−1)+δ(τ,λ) (6) The recurrence formula becomes (1 , 1) = 2δ(1, 1), the distance Δ( 1 , R) between 1 and R becomes Δ( 1 , R) = (T, Λ) (7). Here, δ(τ, λ) is a〓=(a〓 1 , a〓 2

…, a〓 20 ), r〓=(r〓 1 , r〓 2 , …, r〓 20 ),
It is generally given by δ(τ, λ) = 20p=1 |a〓〓−r〓〓| (8). Further, various forms of the above recurrence formula have been proposed, and only one example thereof is shown here. In the above manner, various consonants C (including the consonant C in some cases where there is no C) sandwiched between the preceding vowel "A" and the following vowel "I" in the partial feature pattern series are obtained. The distance for the complex syllable standard pattern series R having the same complex syllable standard pattern series is determined and output together with the numbers of the standard syllables constituting the corresponding complex syllable standard pattern series. Similarly, specific parts of the second vowel "I" and the fifth vowel "U" of the input vowel string, the fifth vowel
The specific parts of the 7th vowel "U" and the 7th vowel "A", and the specific parts of the 7th vowel "A" and the 8th vowel "U", respectively, are compared with the compound syllable standard pattern series. The distance is determined and output together with the number of the standard syllable that constitutes the corresponding complex syllable standard pattern sequence. Reference numeral 20 is a syllable identification unit, which calculates the minimum value of the distances output from the syllable pattern comparison unit 19 for each of the specific portions, and determines the standard syllable number constituting the composite syllable standard pattern sequence that gives the minimum value. (identification syllable number). 21 is a syllable string storage unit,
The identified syllable number obtained by the syllable identifying section 20 is stored. A word dictionary section 22 stores a series of syllable numbers constituting words to be recognized. For example, for the word "Osaka",
It memorizes a sequence of numbers corresponding to the three syllables "OO", "OSA", and "AKA". Reference numeral 23 denotes an inter-word distance calculating section, which performs matching between the identification syllable number string stored in the syllable string storage section 21 and the word syllable number string stored in the word dictionary section 22. For example, this is as follows. That is, the case where a syllable with the same number exists in the corresponding position in the identification syllable number string and the word syllable number string is set as "1", and the case where a syllable with a different number exists is set as "0". The sum of the number strings is calculated and normalized by the number of syllables that make up the word to obtain the distance between words. The inter-word distance 23 outputs a word number corresponding to the inter-word distance. Reference numeral 24 denotes a word determination unit 24, which determines the minimum value of the distance between words and outputs the word number that gives the minimum value as a determination result. 25 is an output terminal, and the determination result is outputted from the output terminal 25.

なお本実施例では、V,VV,CV,VCV等の
音節を単位として認識を行つているが、本発明
は、デミ・シラブル、ダイフオーン等の音声単位
にも適用が可能である。
In this embodiment, recognition is performed in units of syllables such as V, VV, CV, and VCV, but the present invention can also be applied to units of speech such as demi-syllables and diphons.

(発明の効果) 本発明によれば、単音節を連続して発声した場
合でも、定常点を抽出し、定常点を母音と見做し
て母音識別をし、識別された母音の系列と認識す
べき単語を構成する母音列とのマツチングを行つ
て、前記母音列中の誤識別・挿入・脱落等を訂正
して、入力部分パタンとV,CV,VCV,VV等
の音節標準パタンとマツチングすることにより、
比較照合すべき単語と音節標準パタンを適切に限
定することができ、認識率・照合速度において大
幅な改善が得られる。
(Effects of the Invention) According to the present invention, even when a single syllable is uttered in succession, a stationary point is extracted, the stationary point is regarded as a vowel, the vowel is identified, and the identified vowel is recognized as a series. Matching is performed with the vowel strings constituting the word to be used, correcting misidentifications, insertions, omissions, etc. in the vowel strings, and matching the input partial pattern with syllable standard patterns such as V, CV, VCV, VV, etc. By doing so,
The words and syllable standard patterns to be compared and matched can be appropriately limited, resulting in significant improvements in recognition rate and matching speed.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明の一実施例の構成を示すブロ
ツク図、第2図は、母音列比較部の動作を説明す
るための図である。 1……音声信号入力端子、2……特徴抽出部、
3……電力計算部、4……音声区間検出部、5…
…母音標準パタン記憶部、6……バツフアメモ
リ、7……定常点検出部、8……定常点(フレー
ム)記憶部、9……母音パタン比較部、10……
母音識別部、11……母音・促音判定結果記憶
部、12……標準母音列記憶部、13……母音間
距離記憶部、14……母音列比較部、15……母
音列識別部、16……母音対応決定部、17……
特定部分決定部、18……音節標準パタン記憶
部、19……音節パタン比較部、20……音節識
別部、21……音節列記憶部、22……単語辞書
部、23……単語間距離計算部、24……単語判
定部、25……出力端子。
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention, and FIG. 2 is a diagram for explaining the operation of a vowel string comparison section. 1...Audio signal input terminal, 2...Feature extraction unit,
3... Power calculation unit, 4... Voice section detection unit, 5...
... Vowel standard pattern storage unit, 6... Buffer memory, 7... Steady point detection unit, 8... Steady point (frame) storage unit, 9... Vowel pattern comparison unit, 10...
Vowel identification unit, 11... Vowel/consonant determination result storage unit, 12... Standard vowel string storage unit, 13... Vowel distance storage unit, 14... Vowel string comparison unit, 15... Vowel string identification unit, 16 ...Vowel correspondence determination section, 17...
Specific portion determination section, 18...Syllable standard pattern storage section, 19...Syllable pattern comparison section, 20...Syllable identification section, 21...Syllable string storage section, 22...Word dictionary section, 23...Word distance Calculation unit, 24...word determination unit, 25...output terminal.

Claims (1)

【特許請求の範囲】[Claims] 1 入力音声信号を特徴パタンの系列A=(a1
a2,…,a,…,aL)に変換する特徴抽出手段
と、前記入力信号の定常点を抽出する定常点抽出
手段と、抽出されたそれぞれの定常点を母音と見
做して母音識別して入力母音列X=(x1,x2,…,
xi,…,xI)(但し、Iは入力音声の定常点の個
数)を得る母音識別手段と、前記母音識別手段で
得られる入力母音列Xと認識されるべき単語ある
いは文節の母音列(以下、標準母音列と呼ぶ)
Yn=(yn 1,yn 2,…,yn j,…,yn Jn)(但し、n(=
1,2,…,N)は標準母音列のクラス、Jは標
準母音列の個数)とのマツチングを行つて前記入
力母音列Xに最も近い標準母音列Yno(識別結果
母音列)を識別する母音列識別手段と、前記入力
母音列Xと前記識別結果母音列Ynoとのマツチン
グ結果に基づいて前記入力母音列Xと前記識別結
果母音列Ynoの母音の対応関係を決定する母音対
応決定手段と、前記対応関係に基づいて決定され
た前記入力母音列Xの部分区間=(xi1,…,
xi2)(i1<i2)に対応した前記入力信号の特徴パ
タンの部分系列(特定部分特徴パタン系列)=
(at1,…,at2)(t1<t2)について、前記母音列識
別手段で得られる前記識別結果母音列Ynoのうち
前記部分区間に対応した特定部分no=(yno j1
…,yno j2)(j1<j2)の母音列で定義されるyno j1Cyno
j1+
,yno j1+1Cyno j1+2,…,yno j2-1Cyno j2,yno j1yno j1
+1
,yno j1+1
yno j1+2,…,yno j2+1yno j2(C:子音)等のそれぞれ

音節に対応する標準パタンとのマツチングを行つ
て、前記特定部分特徴パタン系列に対応する音節
列を識別し、得られた識別された音節列に基づい
て単語あるいは文節を判定して認識結果として出
力する判定手段とを備えたことを特徴とする音声
認識装置。
1 The input audio signal is converted into a series of feature patterns A=(a 1 ,
a 2 , ..., a, ..., a L ); a steady point extracting means that extracts the stationary points of the input signal; Identify and input vowel string X = (x 1 , x 2 ,...,
x i , ..., x I ) (where I is the number of stationary points of the input speech); and a vowel string of the word or phrase to be recognized as the input vowel string X obtained by the vowel identifying means. (hereinafter referred to as standard vowel string)
Y n = (y n 1 , y n 2 , ..., y n j , ..., y n J n) (however, n (=
1, 2, ..., N) is the class of standard vowel strings, and J is the number of standard vowel strings) to identify the standard vowel string Y no (identification result vowel string) closest to the input vowel string X. a vowel string identifying means for determining a correspondence between vowels in the input vowel string X and the identification result vowel string Y no based on a matching result between the input vowel string X and the identification result vowel string Y no ; a determining means and a partial interval of the input vowel string X determined based on the correspondence relationship=(x i1 ,...,
x i2 ) (i 1 < i 2 ) A partial sequence of the feature pattern of the input signal (specific partial feature pattern sequence) =
(a t1 ,..., a t2 ) (t 1 < t 2 ), of the identified vowel string Y no obtained by the vowel string identification means, the specific portion no corresponding to the partial interval no = (y no j1 ,
…, y no j2 ) (j 1 < j 2 ) y no j1 Cy no defined by the vowel sequence
j1+
1 ,y no j1+1 Cy no j1+2 ,…,y no j2-1 Cy no j2 ,y no j1 y no j1
+1
,y no j1+1
y no j1+2 ,..., y no j2+1 y no j2 (C: consonant), etc., are matched with standard patterns corresponding to each syllable, and a syllable string corresponding to the specific partial feature pattern sequence is obtained. 1. A speech recognition device comprising: a determining means for determining a word or a phrase based on the identified syllable string obtained and outputting the result as a recognition result.
JP59104786A 1984-05-25 1984-05-25 voice recognition device Granted JPS60249197A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59104786A JPS60249197A (en) 1984-05-25 1984-05-25 voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59104786A JPS60249197A (en) 1984-05-25 1984-05-25 voice recognition device

Publications (2)

Publication Number Publication Date
JPS60249197A JPS60249197A (en) 1985-12-09
JPH0566596B2 true JPH0566596B2 (en) 1993-09-22

Family

ID=14390147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59104786A Granted JPS60249197A (en) 1984-05-25 1984-05-25 voice recognition device

Country Status (1)

Country Link
JP (1) JPS60249197A (en)

Also Published As

Publication number Publication date
JPS60249197A (en) 1985-12-09

Similar Documents

Publication Publication Date Title
JP2955297B2 (en) Speech recognition system
JPH0261700A (en) voice recognition device
JPH0566596B2 (en)
JPS60182499A (en) voice recognition device
JP3438293B2 (en) Automatic Word Template Creation Method for Speech Recognition
JP2760096B2 (en) Voice recognition method
JPS6180298A (en) voice recognition device
JPH0736481A (en) Interpolation speech recognition device
Lee Incremental network generation in word recognition
JP3231365B2 (en) Voice recognition device
JPS6312000A (en) Voice recognition equipment
JPS60164800A (en) Voice recognition equipment
JPS60150098A (en) voice recognition device
JPH067359B2 (en) Voice recognizer
JPH045398B2 (en)
JPH0573039B2 (en)
JPH0585918B2 (en)
JPH0552516B2 (en)
JPH10333692A (en) Phoneme table, speech recognition method and recording medium storing speech recognition program
Yanagida et al. Detection and Identification of Plosive Sounds in Japanese Words
JPH0744188A (en) Speech recognition device
JPS6335996B2 (en)
JPH03278097A (en) Speech recognition device
JPH10143189A (en) Voice recognition device
JPH0719159B2 (en) Voice recognizer

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term