Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPS6332200B2 - - Google Patents
[go: Go Back, main page]

JPS6332200B2 - - Google Patents

Info

Publication number
JPS6332200B2
JPS6332200B2 JP55003871A JP387180A JPS6332200B2 JP S6332200 B2 JPS6332200 B2 JP S6332200B2 JP 55003871 A JP55003871 A JP 55003871A JP 387180 A JP387180 A JP 387180A JP S6332200 B2 JPS6332200 B2 JP S6332200B2
Authority
JP
Japan
Prior art keywords
distance
pattern
compression
vectors
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55003871A
Other languages
Japanese (ja)
Other versions
JPS56101200A (en
Inventor
Hidefumi Ooga
Hidekazu Yabuchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP387180A priority Critical patent/JPS56101200A/en
Publication of JPS56101200A publication Critical patent/JPS56101200A/en
Publication of JPS6332200B2 publication Critical patent/JPS6332200B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声パターンの圧縮方法に関するもの
である。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a method for compressing audio patterns.

登録型の音声認識装置はあらかじめ認識すべき
音声を、認識装置に登録しておき、認識時には、
登録された複数の音声パターンと、入力音声パタ
ーンを比較し、最も類似性のある登録された音声
パターンを求める事により入力音声を認識するも
のである。まず、この様な音声認識装置について
説明する。
With a registration type speech recognition device, the speech to be recognized is registered in the recognition device in advance, and during recognition,
The input voice is recognized by comparing a plurality of registered voice patterns with the input voice pattern and finding the registered voice pattern with the most similarity. First, such a speech recognition device will be explained.

音声信号は第1図Aに示す様にして、音声パタ
ーンに変換される。すなわち、第1図において1
00は、マイク、101は増幅器、102,10
3,104はフイルタバンクである。フイルタバ
ンク102,103,104は、それぞれ、第1
図Bに示すようにバンドパスフイルタ120と、
その出力を整流する整流回路121と、ローパス
フイルタ122より、構成される。バンドパスフ
イルタ120の出力は交流分でありその出力を直
流レベルに変換するのが、整流回路121、ロー
パスフイルタ122である。フイルタバンク10
2,103,104の中心周波数はそれぞれ異な
り、図においては3つのフイルタであるが、実際
は8コ以上設けられている。以下8コのフイルタ
が設けられている場合を例にして説明する。
The audio signal is converted into an audio pattern as shown in FIG. 1A. That is, in Figure 1, 1
00 is a microphone, 101 is an amplifier, 102, 10
3,104 is a filter bank. The filter banks 102, 103, and 104 each have a first
As shown in Figure B, a bandpass filter 120;
It is composed of a rectifier circuit 121 that rectifies the output, and a low-pass filter 122. The output of the band pass filter 120 is an alternating current component, and the rectifier circuit 121 and the low pass filter 122 convert the output to a direct current level. filter bank 10
The center frequencies of filters 2, 103, and 104 are different, and although there are three filters in the figure, there are actually eight or more filters. The following explanation will be given by taking as an example a case where eight filters are provided.

105は取込制御回路112からの制御信号S
によりフイルタ102〜104からの出力18
の内のどれかを選択する選択回路である。106
はアナログ・デイジタル変換器である。発振回路
111からの信号により、一定間隔毎に18
信号のレベルを選択回路105で切り換えなが
ら、A/D変換器106を介してデイジタル信号
に変換して取り込みエリア107に取り込んでい
く。従つて音声信号は、8コのフイルタにより周
波数分析されたものが、一定の間隔毎に取り込み
エリア107に取り込まれることになる。発声さ
れてない場合は18レベルの総和は、ゼロに近
くなり、発声するとその総和は大になる。従つ
て、一定の閾値を設け、このレベルより総和が大
きくなると、取り込みを開始し、総和が小さい状
態が一定の間続くと、そこで取り込みを終了すれ
ば発声された単語の周波数分析されたものが、取
り込みエリア107に取込まれることとなる。こ
の制御をするのが取込制御部112である。
105 is a control signal S from the acquisition control circuit 112
Outputs 1 to 8 from filters 102 to 104
This is a selection circuit that selects one of the following. 106
is an analog-to-digital converter. Using the signal from the oscillation circuit 111, the selection circuit 105 switches the levels of the signals 1 to 8 at regular intervals, converts them into digital signals via the A/D converter 106, and captures them into the capture area 107. Therefore, the audio signal is frequency-analyzed by eight filters and is captured into the capture area 107 at regular intervals. If no voice is being uttered, the sum of levels 1 to 8 will be close to zero, and if utterance is being made, the sum will be large. Therefore, if a certain threshold is set, and the total sum becomes larger than this level, the acquisition will start, and if the total sum continues to be small for a certain period of time, the frequency analysis of the uttered word will be obtained by stopping the acquisition at that point. , will be captured in the capture area 107. The acquisition control unit 112 performs this control.

108は、正規化部であり、ここで同じ時点で
取り込まれた各フイルタからの出力の総和が、一
定になる様に正規化される。つまり a1=(18i=1 i)×K,a2=(28i=1 i)×K……a8=(88i=1 i)×K ……(1) であり、Kは一定の値で、12……8は各フイ
ルタからの出力である。このようにする事により
各フイルタからの出力の総和はKとなり、音声信
号の大きさに全く無関係のものとなる。フイルタ
の数は8コであるのである時点の音声信号は、8
次元のベクトルで示す事が出来る。n番目に取り
込まれた音声信号をaoとすると、ao=(ao1,ao2
Ao3,…,ao8)となり音声信号は、結局a1,a2
a3,……ao……aNのベクトル列で示す事が出来
る。Nは従つて音声信号の取り込み個数を示す事
になる。これを音声パターンと呼ぶ。
108 is a normalization unit, which normalizes the sum of outputs from each filter taken in at the same time to be constant. In other words, a 1 = ( 1 / 8i=1 i) × K, a 2 = ( 2 / 8i = 1 i) × K ... a 8 = ( 8 / 8i = 1 i) × K ... ...(1) where K is a constant value and 1 , 2 ... 8 are the outputs from each filter. By doing this, the sum of the outputs from each filter becomes K, which is completely unrelated to the magnitude of the audio signal. Since the number of filters is 8, the audio signal at a certain point is 8.
It can be shown as a dimensional vector. If the nth captured audio signal is a o , a o = (a o1 , a o2 ,
A o3 ,…, a o8 ), and the audio signal ends up being a 1 , a 2 ,
It can be expressed as a vector sequence of a 3 , ...a o ...a N. Therefore, N indicates the number of audio signals to be captured. This is called a voice pattern.

登録時には、第1図においてeの経路で、登録
エリア110に、音声パターンを格納する。
At the time of registration, the voice pattern is stored in the registration area 110 along the route e in FIG.

認識時にはγの経路で入力音声パターンは距離
計算部109へ出力され、登録エリア内のそれぞ
れの音声パターンとの間で、パターンマツチング
がなされ、距離が求められ、もつとも距離的に近
い標準パターンが入力音声の認識結果として出力
される。
During recognition, the input speech pattern is output to the distance calculation unit 109 along the path γ, and pattern matching is performed between each speech pattern within the registered area to calculate the distance, and the standard pattern that is closest in distance is determined. Output as the recognition result of input speech.

このとき、話す時のスピードの違いにより同じ
単語でも時間的な長さが異るので、時間軸上にお
いてなんらかの正規化が必要である。正規化する
方法として動的計画法を使用して、時間軸を非線
形に伸縮する方法が知られている。
At this time, since the same word has different temporal lengths due to differences in speaking speed, some kind of normalization on the time axis is necessary. As a normalization method, a method is known in which dynamic programming is used to nonlinearly expand or contract the time axis.

先ず、登録パターンa1,a2,a3,…ao,……aN
と、入力パターンb1,b2,b3,…bn,……bMとを
第2図に示す様に、x軸と、y軸に配置した格子
グラフにおいて、径路i軸上で、aoとbnとの距
離d(m,n)を求め、その径路上で定義される
荷重に関して求められたd(m,n)の荷重平均
を以て登録パターンと、入力パターンの間の径路
iに関する距離をD(i)と定義する。
First, registered patterns a 1 , a 2 , a 3 , ...a o , ...a N
and the input patterns b 1 , b 2 , b 3 , ...b n , ...b M are arranged on the x-axis and the y-axis as shown in Fig. 2, and on the path i- axis, Find the distance d (m, n) between a o and b n , and use the weighted average of d (m, n) found with respect to the load defined on that path to find the path between the registered pattern and the input pattern.
The distance regarding i is defined as D( i ).

aoとbnとの距離d(m,n)としては、一般に、
市外地距離と呼ばれるもので定義することが多
い。
Generally, the distance d(m, n) between a o and b n is
It is often defined by something called distance between city limits.

即ち、このときは d(m,n)=‖ao―bn‖=8i=1 |aoi―bni| となる。 That is, in this case, d(m, n)=‖a o −b n ‖= 8i=1 |a oi −b ni |.

ここで ao=(ao1,ao2,…,ao8) bn=(bn1,bn2,…,bn8)である。 Here, a o = (a o1 , a o2 , ..., a o8 ) b n = (b n1 , b n2 , ..., b n8 ).

このとき、前記両パターンを比較する経路とし
ては、第2図に示す様に、様々な経路が考えられ
る。第2図の場合は、例として3本の経路を示し
ているが、この他にも、様々な経路が考えられ
る。この経路の中で、最も距離D(i)の小くな
る経路0を効率よく発見する手法の1つが、動
的計画法を用いたパターンマツチングである。こ
のときの経路0に関する距離が、両パターンの
距離となる(本発明とは、はなれるので、動的計
画法についての説明は省略する)。
At this time, as a route for comparing the two patterns, various routes can be considered as shown in FIG. In the case of FIG. 2, three routes are shown as an example, but various other routes are possible. Among these routes, one method for efficiently finding route 0 with the smallest distance D( i ) is pattern matching using dynamic programming. The distance related to route 0 at this time becomes the distance between both patterns (description of dynamic programming will be omitted since it is separate from the present invention).

以上の様なパターンマツチングを行ない、最も
類似性の小さい登録パターンを選出し、入力パタ
ーンの識別を行なう事となる。
By performing pattern matching as described above, the registered pattern with the least similarity is selected, and the input pattern is identified.

この様な方法の場合、登録エリア110の容
量、及び入力パターンの容量は下記の様になる。
すなわち取り込み間隔をTt秒とし、入力音声の
長さの最大をTi秒とし、フイルタ数をFコとす
ると(Ti/Tt)×Fサンプルが、入力パターンの
記憶のために必要とされるメモリの容量となり、
登録エリアの容量は、この値に認識すべき音声単
語の数Kを乗算したものとなる。またパターンマ
ツチングで要する処理時間は、大略2つのベクト
ル間の距離d(m,n)を計算する時間をTdと
し、格子点1つについて動的計画の漸化式を1回
計算するのに要する時間をTDとすると (Td+TD)×(/Tt)×K×Wになる。W
は、整合の窓と呼ばれる値で、Wは2以上の値で
ある。
In the case of such a method, the capacity of the registration area 110 and the capacity of the input pattern are as follows.
In other words, if the capture interval is Tt seconds, the maximum length of input audio is Ti seconds, and the number of filters is F, then (Ti/Tt) x F samples is the memory required to store the input pattern. The capacity is
The capacity of the registration area is this value multiplied by the number K of speech words to be recognized. In addition, the processing time required for pattern matching is approximately the time required to calculate the distance d (m, n) between two vectors, where Td is the time required to calculate the dynamic programming recurrence formula for one grid point. If the required time is TD, it will be (Td + TD) x (/Tt) x K x W. W
is a value called a matching window, and W is a value of 2 or more.

はTiの平均である。 is the average of Ti.

本発明は、パターン圧縮によつて、登録エリア
の容量、及びパターンマツチングで要する処理時
間を短くしようとするものである。
The present invention aims to reduce the capacity of the registration area and the processing time required for pattern matching through pattern compression.

本発明は、正規化されたパターンにおいて隣り
あう2つのベクトル間の距離を求め、その距離
が、大なる時は、2つのベクトルはそのまま残
し、距離が小なる時は、2つのベクトルの内の一
方、または平均を新たなベクトルとすることによ
つて、パターンを圧縮しようとするものである。
これについての説明を、第3図に示す。音声パタ
ーンをa1,a2,a3,…ao,……aNとした時に(P0
で示す。)a1とa2間のベクトルの距離を求め、そ
の距離d12が、ある閾値Sより大なる時は、a1
a2とも残こしSより小なる時は、a1又は、a2のど
ちらか一方を残す様にする。第3図の場合は、
d1.2がSより大であり、a1,a2を残こす。次にa3
とa4間のベクトルの距離d3.4を求め、図の場合は
d3.4は、Sより小であり、a3を残す。以下、同様
の処理をする。圧縮されたパターン列を、P1
示す。もし、すべてのdo,o+1が、Sより小なる時
は、パターンは、1/2の長さになる。すべての
do,o+1がSより小なる時は、きわめてまれである
ため実際には、1/2以上、1以下の長さになる。
一般に母音部では、do,o+1はSより小さく音声パ
ターンには、ほとんど母音部が含まれるため、圧
縮されない事はまずない。子音部では、変化が激
しく、do,o+1は、大きな値を取り、結果的には、
子音部がそのまま残り、母音部が圧縮されること
となる。
The present invention calculates the distance between two adjacent vectors in a normalized pattern, and when the distance is large, the two vectors are left as is, and when the distance is small, the distance between the two vectors is determined. On the other hand, it attempts to compress the pattern by using the average as a new vector.
An explanation of this is shown in FIG. When the voice patterns are a 1 , a 2 , a 3 , ...a o , ...a N , (P 0
Indicated by ) Find the vector distance between a 1 and a 2 , and when the distance d 1 , 2 is greater than a certain threshold S, a 1 ,
When both a 2 are smaller than the residual S, leave either a 1 or a 2 . In the case of Figure 3,
d 1 . 2 is greater than S, leaving a 1 and a 2 . then a 3
Find the vector distance d 3 . 4 between and a 4 , and in the case of figure
d 3 . 4 is less than S, leaving a 3 . The same process is performed below. The compressed pattern sequence is denoted by P1 . If all d o,o+1 are less than S, the pattern will be 1/2 the length. all
When d o,o+1 is smaller than S, it is extremely rare, so in reality, the length is 1/2 or more and 1 or less.
In general, in the vowel part, d o,o+1 is smaller than S and the speech pattern almost always includes the vowel part, so it is unlikely that it will not be compressed. In the consonant part, the changes are drastic, and d o,o+1 takes a large value, resulting in
The consonant part remains intact and the vowel part is compressed.

上記の様な動作を数回繰り返せば、さらに圧縮
されることになる。第3図のP1のパターン列に、
さらに同様な処理を行ない、P2の圧縮したパタ
ーンを得る。P2のパターン列にさらに圧縮をし、
P3を得る。以下、同様にする。この様にするこ
とにより圧縮される比率はさらに増加していく。
結果的には、隣りあうベクトル間の距離は、すべ
て、Sより大なるパターンとなり、不必要なベク
トルは削除される。
If the above operation is repeated several times, it will be further compressed. In the pattern row of P 1 in Figure 3,
Further similar processing is performed to obtain a compressed pattern of P2 . Further compress the pattern sequence of P 2 ,
Get P3 . Do the same below. By doing this, the compression ratio will further increase.
As a result, the distances between adjacent vectors are all larger than S, and unnecessary vectors are deleted.

しかし実際には、母音部での長さ子音部での長
さ等も、必要な情報量であり、その点を考慮する
と圧縮は、やりすぎない様に注意すべきである。
認識すべき単語により、認識結果と照し合せて実
験により圧縮の回数は決定される。例えば、「キ
イ」(KEY)と、「キ」(KE)を識別しようとし
た場合、圧縮をやりすぎると、「キイ」の「イ」
の部分がなくなつてしまい「キイ」と「キ」との
識別が難しくなる。認識すべき単語の中に、この
様に、母音部を圧縮することによつて、識別が困
難になる様な単語が含まれている場合は、圧縮の
回数は少くすべきであろう。
However, in reality, the length of the vowel part, the length of the consonant part, etc. are also necessary amounts of information, and in consideration of this, care should be taken not to overdo the compression.
Depending on the word to be recognized, the number of compressions is determined through experiments based on the recognition results. For example, if you try to distinguish between "KEY" and "KE", if you compress too much, the "I" of "KEY" will
The ``key'' part is missing, making it difficult to distinguish between ``key'' and ``ki''. If the words to be recognized include words whose vowel parts are compressed in this way, making it difficult to identify them, the number of compressions should be reduced.

閾値Sも、圧縮の回数と同様実験によつて決定
される。
The threshold value S, like the number of compressions, is also determined through experiments.

第4図に本発明の圧縮装置の具体的回路構成の
一例を示す。第5図は、その動作を説明するフロ
ーチヤートである。400はシフトレジスタで、
これには、圧縮されるべき音声パターンa1,a2
…aNが図の様に入つているとする。Eは終りを示
すコードである。401は同様シフトレジスタ
で、これには圧縮されたパターンが格納される。
402,403はシフトクロツクCLK1,CLK2
を発生するもので、これらは制御回路407及
び、圧縮判定回路406からの信号でそれぞれク
ロツクを発生し、シフトレジスタ400,401
をそれぞれ独立にシフトさせる。404は、距離
計算部でシフトレジスタ400のR2,R1段目の
内容から距離dを計算する。405は、終了コー
ドEを検出する回路である。406は、距離dが
閾値Sより大か小かを検出する圧縮判定回路であ
る。
FIG. 4 shows an example of a specific circuit configuration of the compression device of the present invention. FIG. 5 is a flowchart explaining the operation. 400 is a shift register,
This includes the audio patterns a 1 , a 2 ... to be compressed.
...a Suppose that N is entered as shown in the figure. E is a code indicating the end. Similarly, 401 is a shift register in which a compressed pattern is stored.
402 and 403 are shift clocks CLK 1 and CLK 2
These clocks are generated by signals from the control circuit 407 and the compression determination circuit 406, respectively, and the shift registers 400, 401
are shifted independently. A distance calculation unit 404 calculates a distance d from the contents of the first stage R 2 and R of the shift register 400. 405 is a circuit that detects the end code E. 406 is a compression determination circuit that detects whether the distance d is larger or smaller than the threshold value S.

以下その動作を第5図に従つて説明する。 The operation will be explained below with reference to FIG.

終了コード検出部405で、450,451の
動作がなされる。終了コードでない場合は、R1
R2の内容で距離dが距離計算部404で計算さ
れ、それが閾値Sより大か小か、圧縮判定回路4
06で判定される。d<Sの場合には406から
信号でクロツク発生回路402,403はそれぞ
れ1回づつ、クロツクを発生し(452に示す。) R1の内容を401へ移すとともに400を1つ、
右へ、シフトする。次に制御回路407によつて
453の動作により、400をもう1回、右へシ
フトして、次の隣りあうベクトル間の距離が計算
出来る様にする。dSの場合には、454,4
55に示す様にクロツクCLK1,CLK2を2回発
生して、R1,R2の内容を、シフトレジススタ4
01へ移すとともに、シフトレジスタ400を2
回シフトして、次の隣りあうベクトル間の距離計
算が行なえる様に動作する。R1の内容が終了コ
ードEの場合は、終了コードのみシフトレジスタ
401へ移す(456に示す)。R2が終了コード
の場合には、R1,R2の内容をシフトレジスタ4
01へ移す(457,458に示す)。
The end code detection unit 405 performs operations 450 and 451. If not an exit code, R 1 ,
The distance d is calculated by the distance calculation unit 404 based on the contents of R2 , and the compression judgment circuit 404 determines whether it is larger or smaller than the threshold value S.
06 is determined. If d<S, the clock generation circuits 402 and 403 each generate a clock once using a signal from 406 (as shown in 452).The contents of R1 are transferred to 401, and 400 is incremented by one.
Shift to the right. Next, the control circuit 407 shifts 400 to the right once more by the operation 453 so that the distance between the next adjacent vectors can be calculated. For dS, 454,4
As shown in 55, clocks CLK 1 and CLK 2 are generated twice, and the contents of R 1 and R 2 are transferred to shift register register 4.
01 and shift register 400 to 2.
It operates so that the next distance calculation between adjacent vectors can be performed by shifting the vector twice. If the content of R1 is the end code E, only the end code is transferred to the shift register 401 (as shown in 456). If R 2 is an end code, the contents of R 1 and R 2 are transferred to shift register 4.
01 (shown at 457, 458).

以上の様な動作により、圧縮する事が出来る。 Compression can be achieved through the operations described above.

シフトレジスタ401の内容をシフトレジスタ
400へ移しかえて、上記の様な動作を行なえ
ば、さらに圧縮することが出来る。あるいは、シ
フトレジスト401と400を交換する様な回路
構成にしても良い。
If the contents of the shift register 401 are transferred to the shift register 400 and the operations described above are performed, further compression can be achieved. Alternatively, the circuit configuration may be such that the shift resists 401 and 400 are replaced.

なお制御回路407は、圧縮判定回路406か
らの信号を受け453の動作を、402が行なう
様に指令を出すとともに、終了コード検出回路4
05によつて圧縮の動作を終了させ、圧縮終了
を、END信号によつて他の回路へ知らせる。ま
たSTAR信号を受けて、各回路へ動作を開始す
る様に指令を出す。
The control circuit 407 receives a signal from the compression determination circuit 406 and issues a command for the operation 453 to be carried out by the circuit 402, and also sends a command to the end code detection circuit 4.
05, the compression operation is terminated, and the end of the compression is notified to other circuits by the END signal. It also receives the STAR signal and issues commands to each circuit to start operating.

本発明の方法を音声認識装置に使用する場合は
以上述べた様な圧縮する機能を、第1図の正規化
部108の出力の後行なう。登録時には、圧縮さ
れたパターンをそのまま登録しておき入力パター
ンも同様に圧縮して、登録エリアのパターン群と
パターンマツチングを行なう。
When the method of the present invention is used in a speech recognition device, the compression function described above is performed after the output of the normalization unit 108 in FIG. At the time of registration, the compressed pattern is registered as is, the input pattern is similarly compressed, and pattern matching is performed with the pattern group in the registration area.

なお、隣りあう2つのベクトル間の距離が小さ
い場合、第3図、および第4図では、どちらか一
方を残す様にしているが、2つのベクトルの平均
をとつて、1つにしても良い。またSが比較的大
なる時は、2つのベクトルの平均をとる方が、よ
り元のパターンに対して忠実なものとなる。なお
平均方法は、次の様に定義する。
Note that when the distance between two adjacent vectors is small, one of them is left in Figures 3 and 4, but it is also possible to take the average of the two vectors and combine them into one. . Furthermore, when S is relatively large, taking the average of the two vectors is more faithful to the original pattern. The averaging method is defined as follows.

a′oi=aoi+ao+1,i/2 i=フイルタのチヤンネル番号 a′oi=〔ao1,ao2…aoi,…ao,I〕 a′oiが平均されたベクトルである。 a′ oi = a oi + a o+1,i /2 i = filter channel number a′ oi = [a o1 , a o2 …a oi , …a o,I ] a′ oi is the averaged vector .

以上のように本発明の方法によれば登録エリア
の容量を小さくすることが出来る。
As described above, according to the method of the present invention, the capacity of the registration area can be reduced.

さらにパターンマツチングの際の処理時間を短
くすることが出来る。すなわち前述の(Ti/Tt)
が小さくなるので結果的に距離d(m,n)およ
び漸化式を計算する回数が少くなる。圧縮の時に
do,o+1を計算するため、その分だけ増加するが、
一方圧縮によつてパターンマツチングの際のd
(m,n)の計算回数は少なくなり、全体として
処理時間は短くなる。認識語数が多くなる程、圧
縮の効果は大になる。
Furthermore, the processing time for pattern matching can be shortened. In other words, the aforementioned (Ti/Tt)
As a result, the number of times the distance d(m, n) and recurrence formula are calculated becomes smaller. at the time of compression
Since d o,o+1 is calculated, it increases by that amount, but
On the other hand, due to compression, d during pattern matching
The number of calculations for (m, n) is reduced, and the overall processing time is shortened. The greater the number of recognized words, the greater the compression effect.

また子音部のみが異なるようなパターンをより
正確に判別できる。例えば、SAGA(左賀)
KAGA(加賀)の場合最初のSとKしか異なつて
おらず、2つのパターンの距離はきわめて大きく
なる。圧縮すると、母音部での圧縮がなされて、
SAGAのSの占める割合が大きくなる。KAGA
でも、Kの占める割合が大きくなり、結局、2つ
のパターンの距離は小さくなり、より正確にこの
似かよつた音声を識別する事が、出来ることとな
る。
Furthermore, patterns in which only the consonant parts differ can be more accurately discriminated. For example, SAGA
In the case of KAGA, only the first S and K differ, and the distance between the two patterns is extremely large. When compressed, the vowel part is compressed,
The proportion of S in SAGA increases. KAGA
However, as the proportion occupied by K increases, the distance between the two patterns becomes smaller, and it becomes possible to more accurately identify these similar sounds.

なお、本実施例においては、2つの特徴ベクト
ルの違いの程度を距離の概念で説明したのでその
値が大きいときは両者の違いは大きく、その値が
小さいときは両者の相違は小さくなるが、類似度
の概念を用いることも勿論可能であつて、その場
合は両者の似ている程度を表すことになり、その
値が大きいときは両者の相違は小さく、その値が
小さいときは両者の相違は大きいということにな
る。何れの概念を用いようとも本発明の原理の本
質は同じである。
In this example, the degree of difference between two feature vectors was explained using the concept of distance, so when the value is large, the difference between the two is large, and when the value is small, the difference between the two is small. Of course, it is also possible to use the concept of similarity, in which case it would represent the degree to which the two are similar; when the value is large, the difference between the two is small, and when the value is small, the difference between the two is expressed. is large. The essence of the principle of the present invention is the same no matter which concept is used.

【図面の簡単な説明】[Brief explanation of drawings]

第1図Aは音声認識装置の構成を示すブロツク
図、同Bはその一部のブロツク図、第2図は音声
認識におけるパターンマツチングを説明する図、
第3図は本発明における圧縮方法の一例を説明す
る図、第4図は本発明装置の一構成例を示すブロ
ツク図、第5図はその動作を説明するフローチヤ
ートである。 400,401……シフトレジスタ、402,
403……シフトクロツク発生回路、404……
距離計算部、405……終了コード検出部、40
6……圧縮判定部、407……制御部。
FIG. 1A is a block diagram showing the configuration of a speech recognition device, FIG. 1B is a block diagram of a part thereof, and FIG. 2 is a diagram explaining pattern matching in speech recognition.
FIG. 3 is a diagram illustrating an example of the compression method according to the present invention, FIG. 4 is a block diagram illustrating an example of the configuration of the apparatus according to the present invention, and FIG. 5 is a flowchart illustrating its operation. 400, 401...shift register, 402,
403...Shift clock generation circuit, 404...
Distance calculation unit, 405... End code detection unit, 40
6... Compression determination unit, 407... Control unit.

Claims (1)

【特許請求の範囲】[Claims] 1 特徴ベクトルの系列で表わされるパターンを
保持する第1の記憶手段と、重複を許さず、相隣
るベクトル間の距離を計算する距離計算手段と、
この距離計算手段により計算された距離が、予め
定めた閾値を超えるか否かを判定する圧縮判定手
段と、この圧縮判定手段により、前記距離が前記
閾値を超えないときは、その何れか一方または両
者の平均値を前記相隣る2つのベクトルと置き換
え、前記距離が前記閾値を超えるときは、前記相
隣る2つのベクトルをそのまま記憶する第2の記
憶手段とを備え、この第2の記憶手段の内容を前
記第1の記憶手段に転送し、前記諸手段を用いて
同様な処理を繰り返すことにより、前記当初のパ
ターンを構成する特徴ベクトルの数を減ずること
を特徴とするパターン圧縮装置。
1. A first storage means for holding a pattern represented by a series of feature vectors; a distance calculation means for calculating a distance between adjacent vectors without allowing overlap;
compression determining means for determining whether the distance calculated by the distance calculating means exceeds a predetermined threshold; and if the distance does not exceed the threshold, either one or a second storage means for replacing the average value of both with the two adjacent vectors, and storing the two adjacent vectors as they are when the distance exceeds the threshold; A pattern compression device characterized in that the number of feature vectors constituting the original pattern is reduced by transferring the contents of the means to the first storage means and repeating similar processing using the various means.
JP387180A 1980-01-16 1980-01-16 Compacting method of voice pattern Granted JPS56101200A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP387180A JPS56101200A (en) 1980-01-16 1980-01-16 Compacting method of voice pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP387180A JPS56101200A (en) 1980-01-16 1980-01-16 Compacting method of voice pattern

Publications (2)

Publication Number Publication Date
JPS56101200A JPS56101200A (en) 1981-08-13
JPS6332200B2 true JPS6332200B2 (en) 1988-06-28

Family

ID=11569241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP387180A Granted JPS56101200A (en) 1980-01-16 1980-01-16 Compacting method of voice pattern

Country Status (1)

Country Link
JP (1) JPS56101200A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
JPH02501827A (en) * 1986-12-19 1990-06-21 イミュネックス・コーポレーション Human interleukin-4 mutein

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4895109A (en) * 1972-03-14 1973-12-06

Also Published As

Publication number Publication date
JPS56101200A (en) 1981-08-13

Similar Documents

Publication Publication Date Title
US4513436A (en) Speech recognition system
JPH04369696A (en) Voice recognizing method
JPS6332200B2 (en)
JPH0247760B2 (en)
JP3042585B2 (en) Voice recognition device
JPS6140120B2 (en)
JP5388447B2 (en) Sound signal processing apparatus and sound signal processing method for specifying sound generation period
JPH04369698A (en) Voice recognition method
JPH02750B2 (en)
JPH05181498A (en) Pattern recognizer
JPS58149099A (en) Pattern recognition system
JPH0228160B2 (en)
JPH0451037B2 (en)
JP2746803B2 (en) Voice recognition method
JP3083855B2 (en) Voice recognition method and apparatus
JPH01185599A (en) Speech recognizing circuit
JPS5825699A (en) Voice recognition apparatus
JPH0449719B2 (en)
JPH049319B2 (en)
JPS6368899A (en) Voice recognition equipment
JPH0816197A (en) Audio data compression method, audio data compression apparatus using the method, and audio data processing apparatus using the apparatus
JPS5960499A (en) Word voice recognition system
JPS59124388A (en) Word voice recognition processing system
JPS59124390A (en) Candidate reduction voice recognition system
JPH0320759B2 (en)