JPH0458635B2 - - Google Patents
Info
- Publication number
- JPH0458635B2 JPH0458635B2 JP61121870A JP12187086A JPH0458635B2 JP H0458635 B2 JPH0458635 B2 JP H0458635B2 JP 61121870 A JP61121870 A JP 61121870A JP 12187086 A JP12187086 A JP 12187086A JP H0458635 B2 JPH0458635 B2 JP H0458635B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- boundary
- input
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Description
〔産業上の利用分野〕
本発明は音声認識装置における音素標準パター
ンの切り出し方法に関する。
〔従来の技術〕
音声認識は、音声を音響分析してその中に含ま
れる言語的特徴を抽出し、これにより音声に対応
する言語記号の表示に変換する処理であり、原理
的には2種類の方法が知られている。すなわち、
その一つは音声に含まれる言語的特徴に関する標
準パターンを予め記憶しておき、この標準パター
ンと音声入力とを比較して類似性を調べ、その類
似性に基づいて入力された音声入力が標準パター
ンと一致とするかどうかの認識判定を行う方法で
ある。もう一つの方法は、上記の標準パターンを
使うことなく、音声入力の音響分析結果に基づい
て、音素記号の二者択一的な判定を繰り返し行
い、最終的に言語としての認識判定を行う方法で
ある。
上記2つの方法では、一般に標準パターンを用
いる前者の方法が認識結果が良好であり、たとえ
ば、第8図に示す方法により音声入力の単語認識
が行われている。
第8図において、入力された音声入力の周波数
スペクトラム包絡と、相関分析等による駆動音源
の2つの音響的特徴で音響分析された後、予め作
成された音素標準パターンにより音素認識が行わ
れる。この音素認識においては、入力された上記
音響的特徴が音素記号の系列で表され、この音素
記号の系列を予め作成された単語辞書により単語
認識を行い、認識された単語がその単語の言語記
号の形で出力される。
〔発明が解決しようとする問題点〕
上述のように、連続音声認識において音素を認
識の基本単位として用いる場合、予め音素標準パ
ターンを登録用単語音声から切り出す必要があ
り、この音素の切り出しは、従来音声情報処理の
熟練者が視察にて行つていたために、切り出し時
間が長くかかり非常に不便であつた。
〔発明の目的〕
本発明の目的は以上の問題点を解決し、単語音
声から音素標準パターンを人手を介することなく
機械的にかつ迅速に切り出すことができる音素標
準パターンの切り出し方法を提供することにあ
る。
〔発明の構成〕
本発明は、予め複数の話者が発声した単語毎に
音素境界記号を節とする複数の遷移路を有する単
語ネツトワークを記憶手段に記憶する一方、入力
された単語音声の音素境界記号列及び音声分析の
パラメータ系列を抽出し、上記入力された単語音
声の音素境界記号列が上記記憶手段に記憶された
単語ネツトワークのうちの少なくとも1つの遷移
路と一致したとき、上記パラメータ系列を音声認
識を行うための音素標準パターンとして切り出す
ことを特徴とする。
〔実施例〕
第1図は本発明の一実施例である音素標準パタ
ーン切り出し装置のブロツク図であり、本発明は
登録用単語音声から音素標準パターンを切り出す
際にパワー変化及びスペクトル変化等から検出さ
れる音素境界記号を節とする単語ネツトワークを
用いることを特徴とする。
第1図において、まず登録用単語音声X(t)は音
声分析部1に入力され、その音声入力X(t)から、
自己相関係数R(t)及びその変化R′(t)、パワーP
(t)及びその変化P′(t)、並びにケプストラム係数c
(t)が計算される。ここで、音声入力のフレーム周
期を例えば8msecとし、上記tは音声入力のt
番めのフレームを表す。
第2図は第1図の音声分析部1のブロツク図で
あり、第2図において、まず登録用単語音声入力
X(t)は標本化回路11に入力されて、所定の標本
化周波数で標本化され、標本化値S(t)が自己相関
係数計算部12及びパワー計算部13に出力され
る。本実施例の標本化回路11では、1フレーム
あたり256回の標本化を行い、以下、個々の標本
化値を、
S(t)i,1≦i≦256 ……(1)
と表す。
自己相関係数計算部12において、入力された
標本化値S(t)から、分析次数np=24として第3
図の処理フローに基づいて次式の自己相関係数R
(t)iが計算された後、線形予測係数計算部14及
び音韻分類部2に出力される。
R(t)i=1/256256-i
〓k=1
S(t)k
・S(t)k+i,1≦i≦24 ……(2)
ここで添字iは自己相関係数R(t)の次数を表
し、以下において記述される線形予測分析整数A
(t)i及びケプストラム係数c(t)iの各添字iも次
数を表す。
第3図のフローチヤートにおいて、S(I)は
上記標本化値S(t)iを表し、R(I)は上記自己
相関係数をR(t)iを表わす。
線形予測係数計算部14において、入力された
自己相関係数R(t)iから、公知の線形予測分析法
により第4図の処理フローに基づいて線形予測分
析係数A(t)iが算出された後、ケプストラム係数
計算部15に出力される。ケプストラム係数計算
部15においては、入力された線形予測分析係数
A(t)iから次式によりケプストラム係数c(t)iが
算出され、音素切り出し部4及びケプストラム変
化計算部16に出力される。
c(t)i=−A(t)i−1/ii-1
〓k=1
k・c(t)k・A(t)i−k,1≦i≦24 ……(3)
ただし、(3)式において、1次のケプストラム係数
c(t)1は次式で表わされる。
c(t)1=−A(t)1 ……(4)
さらに、ケプストラム変化計算部16におい
て、入力されたケプストラム係数c(t)iから次式
に基づいてケプストラム係数の変化c′(t)iを算出
し、音素境界検出部3に出力される。
c′(t)i=|c(t−4)i−c(t)i| ……(5)
一方、パワー計算部13において、入力された
標本化値S(t)iから次式に基づいてパワーP(t)が
算出された後、音韻分類部2及びパワー変化計算
部17に出力される。
P(t)=1/256256
〓i=1
|S(t)i|2 ……(6)
次に、パワー変化計算部17において、入力さ
れたパワーP(t)から次式に基づいてパワーの変化
P′(t)を算出し、音声境界検出部3に出力される。
P′(t)=7
〓j=1
(j−4)・P(t−7+j) ……(7)
第5図は、第1図の音韻分類部2において音韻
分類する際の領域表であり、横軸Xは、−log(1
−R(t)1)であり、縦軸Yは、logP(t)である。こ
こで、R(t)1は前述の通りt番目のフレームの1
次の自己相関係数である。
第5図において、Yが所定の境界値Y1未満の
領域においては、無音部(・)である。またYが
所定境界値Y1以上かつ所定の境界値Y2以下であ
る領域であつて、Xが所定の境界値X1未満の領
域では無声部(F)、Xが所定の境界値X1以上かつ
所定の境界値X2以下の領域では母音部(V)、Xが
所定の境界値X2を越える領域では鼻音部(N)であ
る。
さらに、YがY2を越える領域であつて、
Y<−m1(X−X1)+Y2 ……(8)
なる領域は無声部(F)であり、
Y≧−m1(X−X1)+Y2 ……(9)
であつてかつ
Y≧m2(X−X2)+Y2 ……(10)
なる領域は母音部(V)であり、
Y<m2(X−X2)+Y2 ……(11)
なる領域は鼻音部(N)である。ここで、m1及びm2
は正の所定値である。
音韻分類部2においては、入力されたパワーP
(t)及び自己相関係数R(t)から、第5図に基づき音
声入力の各フレームの大略的特徴を音韻分類記号
ph(t)の形で音素境界検出部3に出力する。なお、
出力される音韻分類記号ph(t)とそれが表すべき
性質を第1表に示す。
次に、音素境界検出部3では、入力されたパワ
ーの変化P′(t)、ケプストラム係数の変化C′(t)i及
び音韻分類記号ph(t)から、第2表の条件に基づ
いて、第2表の音素境界番号bd(t)が検出され、
音素切り出し部4に出力される。なお、第2表に
おいて、T1、T2及びT3は所定のしきい値であ
る。この音素境界検出部3において、もし境界番
号の間隔が所定のしきい値T4フレーム以内であ
るならば、次式に示す優先度の高い音素境界番号
bd(t)が出力される。
優先度が高い>>>>>優先度が低い……
(12)
第6図は、3名の話者が「あさひ」と発声した
ときの、音韻分類記号列ph(t)と境界番号列bd(t)
の例を示した図である。前述のように、1個の単
語区間は、境界記号から始まり境界記号で終
わる境界記号列bd(t)で記述できる。第6図の境
界記号列bd(t)を、境界記号をノード(節)とす
る単語ネツトワークで表現すると第7図のように
なる。ただしノード間の枝にその区間に存在する
音素を、ノードの上に通し番号を示す。なお、第
7図において示されるように、複数の話者によつ
て作成された1個の単語に対する単語ネツトワー
クにおいては、話者によつて境界記号列bd(t)が
異なるため複数の遷移路が存在する。
第1図において、5は単語ネツトワーク表
(ROM)であり、予め多数の話者が発声した音
素切り出し用単語の音声データを分析して、単語
毎に第7図のような単語ネツトワークを作成し、
単語ネツトワーク表(ROM)5に書き込んでお
く。このネツトワークをメモリ(ROM)上に記
憶させるために第3表の例のようなリスト表現を
用い、第3表に示すように1本の枝を6ワードの
ノード情報で表現する。ノード情報の各ワードの
意味を第3表に、各枝における音素の切り出し位
置とその記号を第4表に示す。
なお、第3表において、分岐条件(最短)とは
分岐条件を満たす境界記号が来るまでのフレーム
間隔の最小値であり、分岐条件(最長)とは分岐
条件を満たす境界記号が来るまでのフレーム間隔
の最大値である。
第3表の例においては、境界記号が、5フレ
ーム以上15フレーム以内に来れば、ノード番号4
に分岐し現在のノードと分岐先のノードを結ぶ区
間の中央のフレームにおけるケプストラム係数c
(t)を音素/a/の標準パターンとして切り出すこ
とを意味する。
音素切り出し部4では、音素切り出し用単語毎
に対応する単語ネツトワークを単語ネツトワーク
表(ROM)5より読み出すとともに、登録用音
声入力を分析した結果音素境界検出部3から出力
される境界記号列bd(t)が入力される。まず、最
初のノードである境界記号から出発して、ノー
ド情報内の分岐条件を満たせば、音素切り出し部
に設けられたポインタを次のノードに遷移させ、
この動作を繰り返す。
入力された境界記号列bd(t)に基づいて、上記
ポインタが単語ネツトワーク表(ROM)5に記
憶された単語ネツトワークに従つて遷移し、単語
の終端を表す境界記号まで遷移することができ
た時のみ、音素の区分に成功したと見なして、単
語ネツトワーク表(ROM)5に書き込まれたノ
ード情報の切り出し位置t0に対するフレームにお
けるケプストラム係数c(t0)を各音素毎に切り
出し、その係数c(t0)を音素の標準パターンと
して音素標準パターン表(RAM)6にストアす
る。
以上説明したように、予め多数の話者が発声し
た音素切り出し用単語の音声データを分析して、
音素境界記号をノードした第7図に示すような単
語ネツトワークを、各ノード間の枝を6ワードで
表わした第3表のノード情報の形で単語ネツトワ
ーク表(ROM)5に書き込んでおき、登録用音
声入力X(t)から分析された境界記号列bd(t)と単
語ネツトワーク表(ROM)5に書き込まれた単
語ネツトワークとを照合して、一致した遷移路が
ある場合、音素の区分に成功したと判断し単語ネ
ツトワーク表(ROM)5に書き込まれたノード
情報の切り出し位置t0に対応するフレームにおけ
るケプストラム係数c(t0)を各音素毎に音素標
準パターンとして切り出すことができる。
[Industrial Application Field] The present invention relates to a method for extracting a standard phoneme pattern in a speech recognition device. [Prior art] Speech recognition is a process of acoustically analyzing speech to extract the linguistic features contained therein, and converting this into a display of linguistic symbols corresponding to the speech.In principle, there are two types of speech recognition: method is known. That is,
One method is to memorize in advance a standard pattern related to the linguistic features contained in speech, compare this standard pattern with the speech input to check for similarities, and based on that similarity, the input speech input is set as the standard pattern. This is a method of recognizing and determining whether or not it matches a pattern. Another method is to repeatedly judge phoneme symbols based on the acoustic analysis results of the speech input without using the standard pattern described above, and finally make a recognition judgment as a language. It is. Among the above two methods, the former method using a standard pattern generally gives good recognition results, and for example, the method shown in FIG. 8 is used to recognize words from voice input. In FIG. 8, after acoustic analysis is performed using the frequency spectrum envelope of the input voice input and two acoustic features of the driving sound source through correlation analysis, etc., phoneme recognition is performed using a phoneme standard pattern created in advance. In this phoneme recognition, the input acoustic features are expressed as a series of phoneme symbols, and this series of phoneme symbols is recognized as a word using a word dictionary created in advance, and the recognized word is the linguistic symbol of the word. is output in the form of [Problems to be Solved by the Invention] As mentioned above, when using phonemes as the basic unit of recognition in continuous speech recognition, it is necessary to cut out a standard phoneme pattern from the registered word speech in advance, and this phoneme cutting is done as follows: Conventionally, inspections were conducted by experts in speech information processing, which took a long time and was extremely inconvenient. [Object of the Invention] An object of the present invention is to solve the above-mentioned problems and to provide a method for extracting a standard phoneme pattern that can mechanically and quickly extract a standard phoneme pattern from a word sound without manual intervention. It is in. [Structure of the Invention] The present invention stores in advance a word network having a plurality of transition paths with phoneme boundary symbols as nodes for each word uttered by a plurality of speakers, while A phoneme boundary symbol string and a speech analysis parameter sequence are extracted, and when the phoneme boundary symbol string of the input word speech matches at least one transition path of the word network stored in the storage means, the It is characterized by extracting a parameter sequence as a standard phoneme pattern for speech recognition. [Example] Fig. 1 is a block diagram of a phoneme standard pattern cutting device which is an example of the present invention. It is characterized by the use of a word network whose nodes are phoneme boundary symbols. In FIG. 1, first, the word speech for registration X(t) is input to the speech analysis section 1, and from the speech input X(t),
Autocorrelation coefficient R(t) and its change R′(t), power P
(t) and its change P′(t), and cepstral coefficient c
(t) is calculated. Here, the frame period of the audio input is assumed to be 8 msec, and the above t is the t of the audio input.
Represents the number frame. FIG. 2 is a block diagram of the speech analysis unit 1 shown in FIG. 1. In FIG. The sampled value S(t) is output to the autocorrelation coefficient calculating section 12 and the power calculating section 13. The sampling circuit 11 of this embodiment performs sampling 256 times per frame, and hereinafter, each sampling value is expressed as S(t)i, 1≦i≦256 (1). In the autocorrelation coefficient calculation unit 12, from the input sampling value S(t), the third
Based on the processing flow in the figure, the autocorrelation coefficient R of the following formula
After (t)i is calculated, it is output to the linear prediction coefficient calculation section 14 and the phoneme classification section 2. R(t)i=1/256 256-i 〓 k=1 S(t)k ・S(t)k+i, 1≦i≦24 ……(2) Here, the subscript i is the autocorrelation coefficient R(t ) represents the order of the linear predictive analysis integer A described below.
Each subscript i of (t)i and cepstral coefficient c(t)i also represents the order. In the flowchart of FIG. 3, S(I) represents the sampled value S(t)i, and R(I) represents the autocorrelation coefficient R(t)i. In the linear prediction coefficient calculation unit 14, a linear prediction analysis coefficient A(t)i is calculated from the input autocorrelation coefficient R(t)i by a known linear prediction analysis method based on the processing flow shown in FIG. After that, it is output to the cepstral coefficient calculation section 15. In the cepstrum coefficient calculation unit 15, a cepstrum coefficient c(t)i is calculated from the input linear prediction analysis coefficient A(t)i using the following equation, and is output to the phoneme extraction unit 4 and the cepstrum change calculation unit 16. c(t)i=-A(t)i-1/i i-1 〓 k=1 k・c(t)k・A(t)i−k, 1≦i≦24 ……(3) However , (3), the first-order cepstrum coefficient c(t) 1 is expressed by the following equation. c(t) 1 = -A(t) 1 ...(4) Furthermore, the cepstrum change calculation unit 16 calculates the change in cepstrum coefficient c′(t )i is calculated and output to the phoneme boundary detection section 3. c'(t)i=|c(t-4)i-c(t)i| ...(5) On the other hand, in the power calculation section 13, from the input sampled value S(t)i, the following equation is calculated. After the power P(t) is calculated based on the power P(t), it is output to the phoneme classification section 2 and the power change calculation section 17. P(t)=1/256 256 〓 i=1 |S(t)i| 2 ...(6) Next, in the power change calculation section 17, the input power P(t) is calculated based on the following formula. power change
P'(t) is calculated and output to the speech boundary detection section 3. P'(t)= 7 〓 j=1 (j-4)・P(t-7+j) ...(7) Figure 5 is an area table for phoneme classification in the phoneme classification section 2 in Figure 1. Yes, the horizontal axis X is −log(1
-R(t) 1 ), and the vertical axis Y is logP(t). Here, R(t) 1 is 1 of the tth frame as described above.
The following autocorrelation coefficient is: In FIG. 5, an area where Y is less than a predetermined boundary value Y1 is a silent part (.). Furthermore, in an area where Y is greater than or equal to the predetermined boundary value Y1 and less than or equal to the predetermined boundary value Y2 , and where X is less than the predetermined boundary value X1 , a silent part (F) is formed, and A region where X is above and below a predetermined boundary value X 2 is a vowel part (V), and a region where X exceeds a predetermined boundary value X 2 is a nasal part (N). Furthermore, the region where Y exceeds Y 2 and where Y<-m 1 (X-X 1 )+Y 2 ...(8) is a silent part (F), and Y≧-m 1 (X- The region where X 1 )+Y 2 ...(9) and Y≧m 2 (X-X 2 )+Y 2 ...(10) is the vowel part (V), and Y<m 2 (X-X 2 ) + Y 2 ...(11) The region is the nasal part (N). Here, m 1 and m 2
is a positive predetermined value. In the phoneme classification section 2, the input power P
(t) and the autocorrelation coefficient R(t), the general characteristics of each frame of speech input are determined by the phoneme classification symbol based on Figure 5.
It is output to the phoneme boundary detection unit 3 in the form of ph(t). In addition,
Table 1 shows the output phoneme classification symbol ph(t) and the properties it should represent. Next, the phoneme boundary detection unit 3 uses the input power change P'(t), cepstral coefficient change C'(t)i, and phoneme classification symbol ph(t) to calculate the , the phoneme boundary number bd(t) in Table 2 is detected,
It is output to the phoneme extraction section 4. Note that in Table 2, T 1 , T 2 and T 3 are predetermined threshold values. In this phoneme boundary detection unit 3, if the interval between boundary numbers is within a predetermined threshold T 4 frames, a phoneme boundary number with a high priority as shown in the following formula
bd(t) is output. High priority >>>>>Low priority...
(12) Figure 6 shows the phonological classification symbol sequence ph(t) and the boundary number sequence bd(t) when three speakers uttered “Asahi”.
It is a figure showing an example. As described above, one word section can be described by a boundary symbol string bd(t) that starts with a boundary symbol and ends with a boundary symbol. When the boundary symbol string bd(t) in FIG. 6 is expressed as a word network with boundary symbols as nodes, the result is as shown in FIG. 7. However, on the branches between nodes, the phonemes that exist in that section are indicated with serial numbers above the nodes. As shown in Fig. 7, in a word network for one word created by multiple speakers, multiple transitions occur because the boundary symbol string bd(t) differs depending on the speaker. A road exists. In Figure 1, numeral 5 is a word network table (ROM), which analyzes the audio data of words for phoneme segmentation uttered by many speakers in advance, and creates a word network for each word as shown in Figure 7. make,
Write it in word network table (ROM) 5. In order to store this network in the memory (ROM), a list representation as shown in Table 3 is used, and one branch is represented by 6 words of node information as shown in Table 3. Table 3 shows the meaning of each word in the node information, and Table 4 shows the extraction positions of phonemes in each branch and their symbols. In Table 3, the branching condition (shortest) is the minimum frame interval until a boundary symbol that satisfies the branching condition arrives, and the branching condition (longest) is the frame interval until a boundary symbol that satisfies the branching condition arrives. This is the maximum value of the interval. In the example in Table 3, if the boundary symbol comes within 5 frames or more and within 15 frames, the node number 4
The cepstral coefficient c in the center frame of the section connecting the current node and the branch destination node
This means cutting out (t) as a standard pattern of the phoneme /a/. The phoneme extraction unit 4 reads out the word network corresponding to each word for phoneme extraction from the word network table (ROM) 5, and analyzes the voice input for registration to generate a boundary symbol string output from the phoneme boundary detection unit 3. bd(t) is input. First, starting from the boundary symbol that is the first node, if the branching condition in the node information is satisfied, the pointer provided in the phoneme extraction section is moved to the next node,
Repeat this action. Based on the input boundary symbol string bd(t), the pointer can transition according to the word network stored in the word network table (ROM) 5, and can transition to the boundary symbol representing the end of the word. Only when it is possible to segment the phoneme, it is assumed that the phoneme has been successfully segmented, and the cepstral coefficient c(t 0 ) in the frame corresponding to the extraction position t 0 of the node information written in the word network table (ROM) 5 is extracted for each phoneme. , and its coefficient c(t 0 ) is stored in the phoneme standard pattern table (RAM) 6 as a standard phoneme pattern. As explained above, by analyzing the audio data of words for phoneme segmentation uttered by many speakers in advance,
A word network with phoneme boundary symbols as nodes, as shown in Figure 7, is written in the word network table (ROM) 5 in the form of the node information in Table 3, where the branches between each node are represented by 6 words. , the boundary symbol string bd(t) analyzed from the registration voice input X(t) is compared with the word network written in the word network table (ROM) 5, and if there is a matching transition path, The cepstral coefficient c(t 0 ) in the frame corresponding to the extraction position t 0 of the node information written in the word network table (ROM) 5 after determining that the phoneme has been successfully segmented is extracted as a phoneme standard pattern for each phoneme. be able to.
【表】【table】
【表】【table】
【表】【table】
【表】【table】
以上詳述したように、予め複数の話者が発声し
単語発声を分析して単語毎に音素境界記号を節と
する複数の遷移路を有する単語ネツトワークを記
憶手段に記憶しておき、入力された単語発声を分
析して音素境界記号列及び音声分析のパラメータ
系列を出力させ、上記入力音素境界記号列が上記
記憶手段に記憶された単語ネツトワークのうちの
少なくとも1つの遷移路と一致したとき、上記パ
ラメータ系列を音声認識を行うための音素の標準
パターンとして切り出すことができるので、人手
を介することなく機械的にかつ迅速に単語音声か
ら音素標準パターンの切り出すことができる。
As detailed above, a word network uttered by multiple speakers is analyzed in advance, and a word network having a plurality of transition paths with phoneme boundary symbols as nodes is stored in a storage means for each word, and the word network is inputted. the input phoneme boundary symbol string matches at least one transition path of the word network stored in the storage means; In this case, since the parameter series can be extracted as a standard pattern of phonemes for speech recognition, the standard pattern of phonemes can be extracted mechanically and quickly from word speech without human intervention.
第1図は本発明の一実施例である音素標準パタ
ーンの切り出し装置のブロツク図、第2図は第1
図の音声分析部のブロツク図、第3図は第2図の
自己相関係数計算部の処理を示すフローチヤー
ト、第4図は第2図の線形予測分析係数計算部の
処理を示すフローチヤート、第5図は第1図の音
韻分類部における分類の領域を示す図、第6図は
3名の話者が「あさひ」と発声したときの音韻分
類記号列と境界番号列を示した図、第7図は第6
図の境界記号列を境界記号をノードとして表現さ
れた単語ネツトワークを示す図、第8図は従来例
の音声認識方法を示すブロツク図である。
FIG. 1 is a block diagram of a phoneme standard pattern extraction device which is an embodiment of the present invention, and FIG.
3 is a flowchart showing the processing of the autocorrelation coefficient calculation section of FIG. 2, and FIG. 4 is a flowchart of the processing of the linear prediction analysis coefficient calculation section of FIG. 2. , Figure 5 is a diagram showing the classification area in the phoneme classification section of Figure 1, and Figure 6 is a diagram showing the phoneme classification symbol string and boundary number string when three speakers utter "Asahi". , Figure 7 is the 6th
FIG. 8 is a block diagram showing a conventional speech recognition method.
Claims (1)
記号を節とする複数の遷移路を有する単語ネツト
ワークを記憶手段に記憶する一方、 入力された単語音声の音素境界記号列及び音声
分析のパラメータ系列を抽出し、 上記入力された単語音声の音素境界記号列が上
記記憶手段に記憶された単語ネツトワークのうち
の少なくとも1つの遷移路と一致したとき、上記
パラメータ系列を音声認識を行うための音素標準
パターンとして切り出すことを特徴とする音素標
準パターンの切り出し方法。[Scope of Claims] 1. A word network having a plurality of transition paths with phoneme boundary symbols as nodes for each word uttered by a plurality of speakers is stored in advance in a storage means, and the phoneme boundaries of input word sounds are stored in advance in a storage means. A symbol string and a speech analysis parameter series are extracted, and when the phoneme boundary symbol string of the input word voice matches at least one transition path of the word network stored in the storage means, the parameter series is extracted. A method for extracting a standard phoneme pattern, characterized in that the standard phoneme pattern is extracted as a standard phoneme pattern for speech recognition.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61121870A JPS62278597A (en) | 1986-05-26 | 1986-05-26 | Extruction of phoneme reference pattern |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61121870A JPS62278597A (en) | 1986-05-26 | 1986-05-26 | Extruction of phoneme reference pattern |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS62278597A JPS62278597A (en) | 1987-12-03 |
| JPH0458635B2 true JPH0458635B2 (en) | 1992-09-18 |
Family
ID=14821966
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61121870A Granted JPS62278597A (en) | 1986-05-26 | 1986-05-26 | Extruction of phoneme reference pattern |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS62278597A (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5356210A (en) * | 1991-03-16 | 1994-10-18 | Alfred Teves Gmbh | Anti-lock hydraulic brake system |
-
1986
- 1986-05-26 JP JP61121870A patent/JPS62278597A/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS62278597A (en) | 1987-12-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3716870B2 (en) | Speech recognition apparatus and speech recognition method | |
| JP2005043666A (en) | Voice recognition device | |
| JP2003316386A (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
| KR101014086B1 (en) | Speech processing apparatus and method, and recording medium | |
| JP4911034B2 (en) | Voice discrimination system, voice discrimination method, and voice discrimination program | |
| US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
| JP7098587B2 (en) | Information processing device, keyword detection device, information processing method and program | |
| JP2955297B2 (en) | Speech recognition system | |
| JP2004325635A (en) | Audio processing device, audio processing method, audio processing program, and program recording medium | |
| KR20040061070A (en) | Apparatus and Method for Speech Recognition in Speech Recognition System | |
| JP3444108B2 (en) | Voice recognition device | |
| JP4950024B2 (en) | Conversation system and conversation software | |
| JP3493849B2 (en) | Voice recognition device | |
| JP2001312293A (en) | Voice recognition method and apparatus, and computer-readable storage medium | |
| JPH0458635B2 (en) | ||
| JP4226273B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| KR100981540B1 (en) | Speech Recognition Method through Silent Model Processing in Continuous Speech Recognition System | |
| JP2010072446A (en) | Articulation feature extraction device, articulation feature extraction method, and articulation feature extraction program | |
| Jalalvand et al. | A classifier combination approach for Farsi accents recognition | |
| JP2001005483A (en) | Word voice recognizing method and word voice recognition device | |
| JP2003345384A (en) | Method, device, and program for voice recognition | |
| Córdoba et al. | PPRLM Optimization for Language Identification in Air Traffic Control Tasks | |
| Roy et al. | Bangla Speech Denoising and Identification using Deep Neural Network | |
| JP3357752B2 (en) | Pattern matching device | |
| JP3231365B2 (en) | Voice recognition device |