JPH0459638B2 - - Google Patents
Info
- Publication number
- JPH0459638B2 JPH0459638B2 JP58132508A JP13250883A JPH0459638B2 JP H0459638 B2 JPH0459638 B2 JP H0459638B2 JP 58132508 A JP58132508 A JP 58132508A JP 13250883 A JP13250883 A JP 13250883A JP H0459638 B2 JPH0459638 B2 JP H0459638B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- time series
- parameter
- unknown
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000605 extraction Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Description
【発明の詳細な説明】
(イ) 産業上の利用分野
本発明は音声を認識する事のできる音声認識装
置な関する。[Detailed Description of the Invention] (a) Industrial Application Field The present invention relates to a speech recognition device capable of recognizing speech.
(ロ) 従来例
従来の音声認識装置は、音声信号からその音声
特徴を示す特徴パラメータの時系列からなる音声
パターンA=(a(1)、a(2)、……)を予め定められ
た複数の音声について抽出しておき、未知の音声
についての特徴パラメータの時系列からなる未知
パターンX=(x(1)、x(2)、……)を各時系列A=
(a(1)、a(2)、……)と比較し、これ等両パターン
の距離D=|A−X|=
〓1
|a(i)−x(i)|が
最小となる時系列Aの音声をこの時の未知の音声
であると判定するものであつた。(b) Conventional example A conventional speech recognition device predetermines a speech pattern A=(a (1) , a (2) , ...) consisting of a time series of feature parameters indicating the speech characteristics from the speech signal. Multiple voices are extracted, and an unknown pattern X = (x (1) , x (2) , ...) consisting of a time series of feature parameters for unknown voices is extracted for each time series A =
(a (1) , a (2) , ...), when the distance between these two patterns D = |A-X|= 〓 1 |a(i)-x(i)| is the minimum The audio of series A was determined to be the unknown audio at this time.
しかしながら、上述の音声の特徴パラメータと
しては音声のスペクトル値の時系列、又は自己相
関係数の時系列等が用いられるが、これ等のパラ
メータは話者の発声状況に依つて多少なりとも変
動する惧れがあり、この為に同じ音声であつても
予め登録された音声と未知の入力音声との両パタ
ーンに大きな距離が生じ、誤認識を招く欠点があ
つた。 However, although time series of voice spectral values, time series of autocorrelation coefficients, etc. are used as the above-mentioned voice characteristic parameters, these parameters vary to some extent depending on the speaking situation of the speaker. For this reason, even if the voices are the same, there is a large distance between the patterns of the pre-registered voice and the unknown input voice, resulting in a drawback of erroneous recognition.
(ハ) 発明の目的
本発明は誤認識の発生を低減した即ち認識率の
向上を図つた音声認識装置を提供するものであ
る。(c) Object of the Invention The present invention provides a speech recognition device that reduces the occurrence of recognition errors, that is, improves the recognition rate.
(ニ) 発明の構成
本発明の音声認識装置は、予め貯えられた登録
音声の特徴パラメータの平均値を示す平均値パラ
メータの時系列とその標準偏差の時系列とを用い
て未知の入力音声の特徴パラメータの時系列に対
して統計的処理を施こし、この入力音声の特徴パ
ラメータを平均値パラメータとの差が定数倍の標
準偏差より大なる時と小なる時の二値状態を示す
“1”、“0”の二値信号の時系列に変換して類似
度を求め、最も類似度が大なる時の登録音声をこ
の時の入力音声と判定するものである。(d) Structure of the Invention The speech recognition device of the present invention recognizes unknown input speech using a time series of average value parameters indicating the average value of feature parameters of registered speech stored in advance and a time series of its standard deviation. Statistical processing is applied to the time series of feature parameters, and the feature parameters of this input voice are set to a binary state of "1", which indicates when the difference from the average value parameter is greater than a standard deviation times a constant, and when it is smaller. ”, “0” are converted into a time series of binary signals to determine the degree of similarity, and the registered voice with the highest degree of similarity is determined to be the input voice at that time.
(ホ) 実施例
第1図に本発明の音声認識装置の一実施例を示
す。同図に於いて、1は音声を電気的な音声信号
に変換するマイクロフオン、2は該マイクロフオ
ン1から得られる音声信号からその音声の特徴を
示す特徴パラメータである周波数スペクトル値を
抽出するパラメータ抽出回路であり、例えば8チ
ヤンネルのバンドパスフイルタが用いられ、音声
帯域(100〜4000Hz)を8分割した周波数スペク
トル値f1、f2、f3、…f8の各8サンプルからなる
時系列で表わされるた音声パターンが得られる。
即ちフイルタ番号をn、サンプル番号をtとした
時の特徴パラメータはfn(t)で表わされ、音声
パターンFは
となる。3は登録モードと認識モードを切り換え
るモード選択スイツチであり、Q側に接続すれば
登録モードとなり、逆にP側に接続すれば認識モ
ードとなる。4は該モード選択スイツチ3をQ側
に接続した登録モード時に上記パラメータ抽出回
路2からの音声パターンが入力される統計処理回
路であり、同一音声を複数回連続して入力する事
に依つて得られる複数の音声パターンに基づい
て、その各特徴パラメータfn(t)が第2図に示
す如き正規分布をなす事として平均値パラメータ
fn(t)からなる
平均値パターン
1(1) 1(2) … 1(8) 2(1)
2(2) … 2(8)
… … … 8(1)
8(2) … 8(8)
を算出すると共にその標準偏差△
fn(t)からな
る標準偏差パターン
△
Ff1(1) f1(2) … f1(8)
f2(1) f2(2) … f2(8)
… … …
f8(1) f8(2) … f8(8)
を算出する。5はメモリ回路であり、例えば異な
るA、B、C、D、Eの複数の登録音声に対して
上記統計処理回路4から得られる平均値パターン
A、、、、を貯える平均値パターンメモ
リ部51と、これに対応づけて標準偏差パターン
△
A、△
B、△
C、△
D、△
Eを貯える芳醇偏差メモリ部5
2と、から構成されている。一方6は上記モード
選択スイツチ3をP側に接続した認識モード時に
上記パラメータ抽出回路2から得られる未知の入
力音声Xに対してその音声パターンXを一時的に
貯えるバツフアメモリである。7は比較手段であ
り、上記バツフアメモリ6の入力音声パターンX
の各パラメータxn(t)から上記メモリ回路5の
平均値パターンメモリ部51の各平均値パターン
A、、……夫々のパラメータn(t)、n
(t)、……を減じる減算器71と、上記メモリ回
路5の標準偏差メモリ部52の各標準偏差パター
ン△
A、△
B、……夫々の標準偏差n(t)、n
(t)、……に定数K例えば、1、又は2を乗算す
る乗算器72と、上記減算器71からの減算値
xn(t)−n(t)、xn(t)−n(t)、……を
夫々上記乗算器72からの乗算値K△
an(t)、K
△
bn(t)、……と比較し|xn(t)−n(t)|
KΔ
an(t)の時“1”を出力し|xn(t)−
n(t)|>K△
an(t)の時“0”を出力する比
較器73とから構成されている。即ち、K=1と
した時、例えばAの登録音声に対して|xn(t)
−n(t)|K△
an(t)の時、第2図に示し
た如き正規分布に基づいてxn(t)がan(t)に
68.3%の確率をもつて類似していると看做される
ので、“1”が与えられ、逆の場合は“0”が与
えられる事となり、未知パターン
Xx1(1) x1(2) … x1(8)
x2(1) x2(2) … x2(8)
… … …
x8(1) x8(2) … x8(8)
は各登録音声に対して、
“1”、“0”の2値信号δで表わされる行列パ
ターン
△=δ11 δ12 … δ18
δ21 δ22 … δ28
… … …
δ81 δ82 … δ88
に変換される。(E) Embodiment FIG. 1 shows an embodiment of the speech recognition device of the present invention. In the figure, 1 is a microphone that converts audio into an electrical audio signal, and 2 is a parameter that extracts a frequency spectrum value, which is a feature parameter indicating the characteristics of the audio, from the audio signal obtained from the microphone 1. This is an extraction circuit that uses, for example, an 8-channel bandpass filter to generate a time series consisting of 8 samples each of frequency spectrum values f 1 , f 2 , f 3 , ... f 8 that are obtained by dividing the audio band (100 to 4000 Hz) into 8. A voice pattern expressed as is obtained.
In other words, when the filter number is n and the sample number is t, the characteristic parameter is expressed as fn(t), and the voice pattern F is becomes. 3 is a mode selection switch for switching between registration mode and recognition mode; when connected to the Q side, the mode is set to registration; when connected to the P side, the switch is set to recognition mode. 4 is a statistical processing circuit to which the voice pattern from the parameter extraction circuit 2 is input in the registration mode when the mode selection switch 3 is connected to the Q side; Based on a plurality of voice patterns, each feature parameter fn(t) forms a normal distribution as shown in FIG. 2, and an average value pattern 1(1) 1(2) ... consisting of average value parameters fn(t) is obtained. 1(8) 2(1) 2(2) … 2(8) … … … 8(1) 8(2) … 8(8) and the standard deviation pattern consisting of its standard deviation △ fn(t) △ Ff 1(1) f 1(2) … f 1(8) f 2(1) f 2(2) … f 2(8) … … … f 8(1) f 8(2) … f 8( 8) . Reference numeral 5 denotes a memory circuit, and an average value pattern memory section 51 stores average value patterns A, . and a mellow deviation memory unit 5 that stores standard deviation patterns △ A, △ B, △ C, △ D, △ E in association with this.
It consists of 2 and. On the other hand, 6 is a buffer memory for temporarily storing the voice pattern X for the unknown input voice X obtained from the parameter extraction circuit 2 during the recognition mode in which the mode selection switch 3 is connected to the P side. 7 is a comparison means, which compares the input audio pattern X of the buffer memory 6.
From each parameter xn(t), each average value pattern A of the average value pattern memory section 51 of the memory circuit 5, . . . respective parameters n(t), n
(t), . . . and the standard deviation patterns ΔA, ΔB, . . . of the standard deviation memory section 52 of the memory circuit 5.
A multiplier 72 that multiplies (t), ... by a constant K, for example, 1 or 2, and a subtracted value from the subtracter 71.
xn(t)-n(t), xn(t)-n(t), ... are the multiplied values K△ an(t), K from the multiplier 72, respectively.
△ Compare with bn(t), ...|xn(t)-n(t)|
Outputs “1” when KΔ an(t) |xn(t)−
The comparator 73 outputs "0" when n(t)|>KΔan(t). That is, when K=1, for example, |xn(t) for the registered voice of A
-n(t) | K△ an(t), xn(t) becomes an(t) based on the normal distribution as shown in Figure 2.
Since they are considered similar with a probability of 68.3%, "1" is given, and in the opposite case, "0" is given, and the unknown pattern Xx 1(1) x 1(2) … x 1(8) x 2(1) x 2(2) … x 2(8) … … … x 8(1) x 8(2) … x 8(8) is for each registered voice “ The matrix pattern represented by the binary signal δ of "1" and "0" is converted into a matrix pattern Δ=δ 11 δ 12 ... δ 18 δ 21 δ 22 ... δ 28 ... ... δ 81 δ 82 ... δ 88 .
8は上記比較手段7から得られる二値信号の行
列パターン△に基づき、その16個の構成要素の総
和
〓i
〓j
δij即ち“1”の存在数を類以度として算
出する認識処理回路であり、A、B、C、D、E
の各登録音声に対してこの類以度が、例えば、
11、2、8、7、3であれば、この時の入力音声
はAであつた事と判定される。 8 is a recognition processing circuit that calculates the sum of its 16 constituent elements 〓 i 〓 j δij, that is, the number of existing "1"s, as a class degree, based on the matrix pattern △ of the binary signal obtained from the comparison means 7. Yes, A, B, C, D, E
For each registered voice, this level or higher is, for example,
11, 2, 8, 7, 3, it is determined that the input voice at this time was A.
而して、モード選択スイツチ3Qに接続した登
録モードに於いては、複数の定めめられた音声を
夫々数回、例えば3回づつ発声入力して、メモリ
回路5に各音声の平均値パターン、、……並
びにその標準偏差パターン△
A、△
B、……を貯えて
おく。そして、モード選択スイツチ3をPに接続
した認識モードに於いて、未知の音声が入力さ
れ、その音声パターンXは比較手段7に依つて上
記平均値パターンA−、B−、……並びに標準偏差パ
ターン△A、△B、……を用いて音声の発声の際の変
動成分を除去した形式2値信号パターンに変換さ
れる。この時音声の許容変動分を決定する為のK
の値を0.5〜2程度に設定しておけば、2値信号
パターンは未知音声パターンと登録音声パターン
との類似性を最適に示すものとなり、これに依つ
て信頼性の高いパターン認識を実行できる。 In the registration mode connected to the mode selection switch 3Q, each of a plurality of predetermined voices is uttered several times, for example, three times each, and the average value pattern of each voice is stored in the memory circuit 5. , . . . and their standard deviation patterns △ A, △ B, . . . are stored. Then, in the recognition mode in which the mode selection switch 3 is connected to P, an unknown voice is input, and the voice pattern The patterns ΔA , ΔB , . At this time, K is used to determine the permissible variation in audio.
By setting the value of 0.5 to 2, the binary signal pattern optimally indicates the similarity between the unknown speech pattern and the registered speech pattern, and highly reliable pattern recognition can be performed based on this. .
以下の説明に於いては、特徴パラメータの時系
列として周波数スペクトル値の時系列からなる音
声パターンを用いたが、この他に自己相関係数で
あるパーコール係数等各種の特徴パラメータの時
系列の使用も可能である。 In the following explanation, a speech pattern consisting of a time series of frequency spectrum values is used as a time series of feature parameters, but in addition to this, time series of various feature parameters such as the Percoll coefficient, which is an autocorrelation coefficient, can be used. is also possible.
(ハ) 発明と効果
本発明の音声認識装置は、以上の説明から明ら
かな如く、予め貯えられた登録音声の特徴パラメ
ータの平均値を示す平均値パラメータの時系列と
その標準偏差の時系列とを用いて未知の入力音声
の特徴パラメータの時系列に対して統計的処理を
施こして“1”、“0”の2値信号の時系列に変換
して類似度を求め、この類似度が最大となる時の
登録音声と判定するものであるので、音声の発声
状況に依る各特徴パラメータの変動分を除去で
き、最適な類似度を導出する事が可能となり、認
識率の大巾な向上が望める。(C) Invention and Effects As is clear from the above description, the speech recognition device of the present invention uses a time series of an average value parameter indicating the average value of feature parameters of registered speech stored in advance and a time series of its standard deviation. is used to perform statistical processing on the time series of the feature parameters of unknown input speech, converting it into a time series of binary signals of "1" and "0" to find the similarity, and calculate the similarity. Since it is determined that the registered voice is the one at the maximum, it is possible to remove variations in each feature parameter depending on the voice utterance situation, and it is possible to derive the optimal degree of similarity, greatly improving the recognition rate. can be expected.
第1図は本発明の音声認識装置の一実施例を示
すブロツク図、第2図は正規分布図であり、1は
マイクロフオン、2はパラメータ抽出回路、4は
統計処理回路、5はメモリ回路、7は比較手段、
8は認識処理回路を夫々示している。
FIG. 1 is a block diagram showing an embodiment of the speech recognition device of the present invention, and FIG. 2 is a normal distribution diagram, where 1 is a microphone, 2 is a parameter extraction circuit, 4 is a statistical processing circuit, and 5 is a memory circuit. , 7 is a means of comparison,
Reference numeral 8 indicates a recognition processing circuit.
Claims (1)
入力された音声の電気信号からその音声の特徴を
示す特徴パラメータの抽出を行なうパラメータ抽
出手段と、予め複数の登録音声毎にその音声の特
徴パラメータの平均値を示す平均値パラメータの
時系列と共に該平均値パラメータの時系列に対応
する標準偏差の時系列を貯えた記憶手段と、上記
パラメータ抽出手段から得られる未知入力音声の
特徴パラメータの時系列に応答して上記記憶手段
から各登録音声毎の平均値パラメータの時系列並
びにその標準偏差の時系列を読み出し、入力音声
の特徴パラメータと平均値パラメータとの誤差値
を定数倍した標準偏差と比較し、この比較結果に
基づいて上記誤差値が定数倍した標準偏差より大
なる時と小なる時の二値状態を示す“1”、“0”
の二値信号を出力する事に依つて、上記未知入力
音声の特徴パラメータの時系列を二値信号の時系
列に変換する比較手段と、該比較手段から得られ
る二値信号の時系列に基づき、登録音声毎の未知
音声に対する類似度を算出し、最も類似度が大な
る時の登録音声をこの時入力された未知音声であ
ると判定する認識処理手段、とからなる音声認識
装置。1. Audio input means for converting audio into electrical signals;
a parameter extracting means for extracting characteristic parameters representing the characteristics of the voice from the electric signal of the input voice; A storage means for storing a time series of standard deviations corresponding to a time series of average value parameters, and a time series for each registered voice from the storage means in response to a time series of characteristic parameters of an unknown input voice obtained from the parameter extraction means. Read out the time series of the average value parameter and the time series of its standard deviation, compare it with the standard deviation obtained by multiplying the error value between the feature parameter of the input voice and the average value parameter by a constant, and based on the result of this comparison, determine that the above error value is a constant. “1” and “0” indicate the binary state when it is larger and smaller than the multiplied standard deviation.
a comparison means for converting the time series of the characteristic parameters of the unknown input voice into a time series of binary signals by outputting a binary signal; , a recognition processing means that calculates the degree of similarity of each registered voice to the unknown voice and determines that the registered voice with the highest degree of similarity is the currently input unknown voice.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58132508A JPS6024595A (en) | 1983-07-20 | 1983-07-20 | Voice recognition equipment |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58132508A JPS6024595A (en) | 1983-07-20 | 1983-07-20 | Voice recognition equipment |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6024595A JPS6024595A (en) | 1985-02-07 |
| JPH0459638B2 true JPH0459638B2 (en) | 1992-09-22 |
Family
ID=15082989
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58132508A Granted JPS6024595A (en) | 1983-07-20 | 1983-07-20 | Voice recognition equipment |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6024595A (en) |
-
1983
- 1983-07-20 JP JP58132508A patent/JPS6024595A/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6024595A (en) | 1985-02-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5091947A (en) | Speech recognition method and apparatus | |
| US5121428A (en) | Speaker verification system | |
| EP0077194B1 (en) | Speech recognition system | |
| EP0757342A2 (en) | User selectable multiple threshold criteria for voice recognition | |
| EP0248609A1 (en) | Speech processor | |
| JP3130524B2 (en) | Speech signal recognition method and apparatus for implementing the method | |
| EP0424071A2 (en) | Speaker recognition | |
| US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
| JP6616182B2 (en) | Speaker recognition device, discriminant value generation method, and program | |
| JP3046029B2 (en) | Apparatus and method for selectively adding noise to a template used in a speech recognition system | |
| JPH0459638B2 (en) | ||
| JPH0430040B2 (en) | ||
| JPH10124084A (en) | Voice processer | |
| JPS6334477B2 (en) | ||
| JPH0461359B2 (en) | ||
| JPS6039695A (en) | Method and apparatus for automatically detecting voice activity | |
| JPH0221598B2 (en) | ||
| JP2002091486A (en) | Speech recognition device, speech recognition method, and recording medium recording speech recognition program | |
| JP2969663B2 (en) | Voice recognition device | |
| JPS62113197A (en) | Voice recognition equipment | |
| JP2001265368A (en) | Speech recognition device and recognition target detection method | |
| JPH0311479B2 (en) | ||
| JPS59185394A (en) | Voice recognition equipment | |
| JPS63266497A (en) | Voice recognition equipment | |
| JPS58159597A (en) | Monosyllabic voice recognition system |