Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH077276B2 - 音節認識装置 - Google Patents
[go: Go Back, main page]

JPH077276B2 - 音節認識装置 - Google Patents

音節認識装置

Info

Publication number
JPH077276B2
JPH077276B2 JP1056789A JP5678989A JPH077276B2 JP H077276 B2 JPH077276 B2 JP H077276B2 JP 1056789 A JP1056789 A JP 1056789A JP 5678989 A JP5678989 A JP 5678989A JP H077276 B2 JPH077276 B2 JP H077276B2
Authority
JP
Japan
Prior art keywords
input
time
phoneme
syllable
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1056789A
Other languages
English (en)
Other versions
JPH02235141A (ja
Inventor
伸 神谷
文雄 外川
充宏 斗谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1056789A priority Critical patent/JPH077276B2/ja
Publication of JPH02235141A publication Critical patent/JPH02235141A/ja
Publication of JPH077276B2 publication Critical patent/JPH077276B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 <産業上の利用分野> この発明は、時間遅れ神経回路網を利用した音節認識装
置に関する。
<従来の技術> 従来、時間遅れ神経回路網(以下、TDNNと言う)を用い
た音節スポッティング装置として次のようなものがある
(沢井,アレックス・ワイベル,鹿野:「時間遅れ神経
回路網による音節スポッティングの検討」日本音響学会
講演論文集1988−10)。この音節スポッティング装置
は、入力層と2つの中間層と出力層からなるTDNNで構成
されている。このTDNNの学習用サンプルとして、音節/B
A/を含む単語53語を選出し、音節/BA/の部分15フレーム
(10ms周期)を切り出した音声サンプルを用いている。
また、入力パターンとして、音声信号の16次の高速フー
リエ変換メルスペクトラムを用いている。なお、このTD
NNの出力層のユニットは認識カテゴリ“BA"と“non−B
A"とに対応して2つ設けてある。学習は誤差逆伝播方式
によって行っている。
上記TDNNに対する学習時における教師用データの与え方
は、入力パターンの音素/B/と音素/A/との境界位置とTD
NNの中心位置とのずれが一定時間内にある場合に、出力
層の認識カテゴリ“BA"に割り付けられたユニットに
“1"を与え、認識カテゴリ“non−BA"に割り付けられた
ユニットに“0"を与える。
未知音声信号の入力は、未知音節の上記入力パターン
を、TDNNの入力層の各ユニットに対して3フレームずつ
シフトしながらスキャンして与えることによって行って
いる。そして、出力層の“BA"に割り付けられたユニッ
トの出力値が“non−BA"に割り付けられたユニットの出
力値よりも大きい場合は、入力パターンの音節は/BA/で
あると判定する。逆の場合には、入力パターンのカテゴ
リの音節は/non−BA/であると判定するのである。
<発明が解決しようとする課題> 上述のように、上記従来の音節スポッティング装置は、
TDNNの入力層に入力する入力パターンは、音声信号から
抽出された16次の高速フーリエ変換メルスペクトラムで
あり、出力層から出力される出力データが表すカテゴリ
は“BA"と“non−BA"である。すなわち、TDNNに音声信
号の特徴パターンを入力して直接音節を認識するのであ
る。そのため、TDNNにおける音節認識過程の途中経過
(例えば、各層のユニット間の重みの値)が不明であ
る。また、たとえ分かったとしても、その重みの値が示
す意味は不明である。
したがって、TDNNの学習がなかなか収束しない場合、学
習の未収束の原因が全く不明であるという問題がある。
また、このように学習の未収束の原因が全く不明である
ので学習が収束に向かうように対処できず、学習時間が
必要以上に長くなるという問題がある。
そこで、この発明の目的は、音節認識過程の途中経過を
知ることが可能であると共に、TDNNの学習時間を短縮可
能な音節認識装置を提供することにある。
<課題を解決するための手段> 上記目的を達成するため、この発明の音節認識装置は、
時間遅延手段を有し、順次入力される音響パラメータを
表す信号の時系列とこの音響パラメータを表す信号の時
系列を上記時間遅延手段によって所定時間遅延させた信
号とを組合せた信号を、音素あるいは単音を表す信号の
時系列に変換して出力する第1の時間遅れ神経回路網
と、時間遅延手段を有すると共に、上記第1の時間遅れ
神経回路網から出力される音素あるいは単音を表す信号
の時系列を順次入力し、この順次入力される音素あるい
は単音を表す信号の時系列とこの音素あるいは単音を表
す信号の時系列を上記時間遅延手段によって所定時間遅
延させた信号とを組合せた信号を、音節を表す信号の時
系列に変換して出力する第2の時間遅れ神経回路網を備
えたことを特徴としている。
<作用> 第1の時間遅れ神経回路網に、未知単語から抽出された
音響パラメータを表す信号の時系列が順次入力される。
そうすると、この第1の時間遅れ神経回路網は、順次入
力される音響パラメータを表す信号の時系列とこの音響
パラメータを表す信号の時系列を時間遅延手段によって
所定時間遅延させた信号とを組合せた信号を、音素ある
いは単音を表す信号の時系列に変換して出力する。そし
て、この第1の時間遅れ神経回路網から出力される音素
あるいは単音を表す信号の時系列は、第2の時間遅れ神
経回路網に入力される。
そうすると、この第2の時間遅れ神経回路網は、順次入
力される音素あるいは単音を表す信号の時系列とこの音
素あるいは単音を表す信号の時系列を時間遅延手段によ
って所定時間遅延させた信号とを組合せた信号を、音節
を表す信号の時系列に変換して出力する。したがって、
この第2の時間遅れ神経回路網から出力される音節を表
す信号の時系列によって、音節を認識することができ
る。
その際に、上記第1の時間遅れ神経回路網から出力され
る音素あるいは単音を表す信号を監視することによっ
て、音節認識過程の途中経過(すなわち、音節を構成す
る音素列の認識結果)を知ることが可能である。
<実施例> 以下、この発明を図示の実施例による詳細に説明する。
第1図はこの発明の音節認識装置のブロック図である。
この音節認識装置は大きく分けて直列に接続された2つ
のTDNNから成っている。その一方のTDNNを第1多層パー
セプトロン型ニューラル・ネットワーク(以下、NNと言
う)1で構成し、他方のTDNNを第2NN2で構成する。第1
図における第1NN1および第2NN2は、入力層,中間層,出
力層,各層に含まれるユニットおよび各ユニット間の結
合等を省略し、簡略化して表現してある。
音節は音素の連鎖から構成されている。そこで、本実施
例の音節認識装置においては、音節認識動作の途中経過
を知る手段として認識対象の音節を構成している音素を
用いるのである。すなわち、第1NN1の入力データは音響
パラメータとする一方、認識カテゴリは音素とする。ま
た、第2NN2の入力データは第1NN1の識別カテゴリである
音素を表すデータ(本実施例においては、第1NN1の出力
データ)とする一方、識別カテゴリは音節とするのであ
る。こうすることによって、音節認識動作時において第
1NN1の出力データを監視すれば、第1NNに入力された音
響パラメータに対する音節認識動作の途中経過を知るこ
とができるのである。
上記第1NN1の入力層に入力する学習用サンプルは、発声
内容が既知の単語の音声信号から抽出した特徴パターン
に、パワー等の視察によって音素のラベル付けが行われ
たものを用いる。ここで、1フレームは8ms〜10ms程度
である。また、特徴パターンとしては、例えばmチャン
ネルのバンド・パス・フィルタ群からの出力値、m次の
自己相関係数、m次のケプストラム係数等を用いる。す
なわち、入力データの次数はmとなる。また、第1NN1の
教師データは上述のようにして作成された学習用サンプ
ルのラベルに基づく音素を表すデータを用いる。
上記第1NN1における図示しない入力層はm×(A+1)
個(A:後に詳述する最大遅延フレーム数)のユニットを
有する。入力層の各ユニットは、一端のユニットから順
次(A+1)個のユニットから成るm個のブロックに分
割されており、第i番目(1≦i≦m)のブロックの最
初のユニットには第i次の音響パラメータが入力され
る。また、次のユニットには、第i次の音響パラメータ
を、入力信号を1フレームに相当する時間だけ遅延させ
る遅延素子3によって1フレーム分だけ遅延させた音響
パラメータが入力される。さらに次のユニットには、第
i次の音響パラメータを2個の遅延素子3によって2フ
レーム分だけ遅延させた音響パラメータが入力される。
以下、同様にして、最後のユニットには、第i次の音響
パラメータをA個の遅延素子3によってAフレーム分だ
け遅延させた音響パラメータが入力されるのである。こ
うして、上述のようなnフレーム×m次の入力パターン
が0フレームから順次Aフレームまで遅延されて、入力
層のm×(A+1)個のユニットに1フレームづつ順次
入力される。
一方、上記第1NN1における図示しない出力層はp個(p:
第1NN1によって識別したい音素数)のユニットを有す
る。通常、日本語の音素の種類は約20種類である。出力
層の各ユニットは識別する個々の音素に割り付けられて
いる(調音結合の受けやすい音素に対しては、経験に基
づいて複数のユニットを割り付けてもよい)。すなわ
ち、第1図においては、一端のユニット(第1ユニッ
ト)は音素/a/に割り付けられており、第jユニットは
音素/r/に割り付けられており、第pユニットは音素/b/
に割り付けられている。こうすることによって、第1ユ
ニットが最大出力を呈する場合には、入力された音響パ
ラメータの音素は/a/であると認識し、第jユニットが
最大出力を呈する場合には、入力された音響パラメータ
の音素は/r/であると認識するのである。
また、上記第2NN2における図示しない入力層はp×(B
+1)個(B:後に詳述する最大遅延フレーム数)のユニ
ットを有する。入力層の各ユニットは、第1NN1の場合と
同様に、1端のユニットから順次(B+1)個のユニッ
トから成るp個のブロックに分割されており、第j番目
(1≦j≦p)のブロックの最初のユニットには第1NN1
の出力層の第jユニットからの出力信号が入力される。
また、次のユニットには、第jユニットからの出力信号
を遅延素子3によって1フレーム分だけ遅延させた信号
が入力される。さらに次のユニットには、第jユニット
からの出力信号を2個の遅延素子3によって2フレーム
分だけ遅延させた信号が入力される。以下、同様にし
て、最後のユニットには、第jユニットからの出力信号
をB個の遅延素子3によってBフレーム分だけ遅延させ
た信号が入力されるのである。こうして、上述のような
p個の出力信号列から成る入力パターンが0フレームか
ら順次Bフレームまで遅延されて、入力層のp×(B+
1)個のユニットに順次入力される。
一方、上記第2NN2における図示しない出力層はs個(s:
第2NN2によって識別したい音節数)のユニットを有す
る。通常、日本語の音節の種類は約100種類である。出
力層の各ユニットは識別する個々の音節に割り付けられ
ている。すなわち、第1図においては、第1ユニットは
音節/a/に割り付けられており、第2ユニットは音節/i/
に割り付けられており、第sユニットは音節/syo/に割
り付けられている。こうすることによって、例えば第1
ユニットが最大出力を呈する場合には入力された入力パ
ターンに対する音節は/a/であると認識し、第6ユニッ
トが最大出力を呈する場合には入力された入力パターン
に対する音節は/ka/であると認識し、第sユニットが最
大出力を呈する場合には入力された入力パターンに対す
る音節は/syo/であると認識するのである。
上記構成の音節認識装置は次のようにして学習させる。
第2図は教師データの与え方の説明図である。以下、第
2図に従って、学習データの与え方を詳細に説明する。
第2図(a)は学習用サンプルとしての発声内容が既知
の単語/ふたりの/のパワー曲線であり、第2図(b)
は第2図(a)のパワー曲線に対応する音響パラメータ
(第1NN1の入力層への入力データ)を示し、第2図
(c)は第1NN1の教師データを示し、第2図(d)は第
2NN2の教師データを示す。なお、第2図(b)は音響パ
ラメータを次数とフレーム数とのマトリックスで表現し
てあるが、具体的なデータは省略してある。
上述のように、学習用サンプル/ふたりの/のパワー曲
線の視察によって、フレーム毎に音響パラメータに音素
ラベルが付けられる。この付加された音素ラベルが第2
図(a)の下部にパワー曲線に対応付けて標記してあ
る。この音素ラベルを表すデータが第1NN1の教師データ
となるのである。
この第1NN1の教師データは次のようにして作成される。
すなわち、ある音素ラベルが付けられた音響パラメータ
の1フレームが入力されてからAフレームに相当する時
間が経過した後のフレームにおいては、上記音素に割り
付けられた出力層のユニットに信号“1"を与え、その他
のユニットには信号“0"を与えるようなデータをその音
素の教師データとするのである。例えば、第2図(b)
における音素/h/に対応するフレームf1からAフレーム
に相当する時間が経過した後の第2図(c)におけるフ
レームf2においては、音素/h/に割り付けられたユニッ
トに“1"を与え、その他のユニットには“0"を与えるデ
ータを教師データ(音素/h/の教師データと言う)とす
るのである。
上記第1NN1は学習は、第1NN1単独で次のようにして実行
する。すなわち、学習用サンプル/ふたりの/において
/h/のラベルが付けられた最初のフレーム(第1フレー
ム)の1次の音響パラメータが入力端子4に入力され、
2次の音響パラメータが入力端子5に入力され、i次の
音響パラメータが入力端子6に入力され、m次の音響パ
ラメータが入力端子7に入力される。以下、同様にし
て、各入力端子4〜7には第2フレーム,第3フレーム
……の音響パラメータが順次入力される。
一方、第2図(c)に示すように、上記第1フレームの
音響パラメータが入力されてからAフレーム分の時間が
経過後、音素/h/に割り付けられたユニットに“1"を与
え、その他のユニットに“0"を与える音素/h/の教師デ
ータを3フレームに相当する時間だけ出力層の各ユニッ
トに入力する。以下、同様にして、“0"の教師データ
(すなわち、出力層の総てのユニットに“0"を与える教
師データ)を1フレーム、音素/u/の教師データを4フ
レーム、“0"の教師データを4フレーム……を順次入力
する。
第2図(c)は上述のようにして入力される教師データ
を、音素を行にフレームを列にしたマトリックスで表現
したものである(但し、A=3であり、データ内容は
“1"のみ記入し“0"は省略してある)。また、音素/h/
と/u/との間、音素/a/と/r/との間、音素/i/と/n/との
間および音素/n/と/o/との間に“0"の教師データを挿入
して、前あるいは後の音素による大きな影響を除去する
ようにしている。
ここで、入力層へ入力する音響パラメータを0フレーム
から順次Aフレームまで遅延させ、かつ、出力層への教
師データの入力タイミングを入力端子4〜7への音響パ
ラメータの入力に対してAフレーム分遅延させるのは次
の理由による。すなわち、同一の音素ラベルが付けられ
る音響パラメータであっても調音結合等によって種々の
音響パラメータが存在する。そこで、このような調音結
合等の影響を吸収するため、まずある音素ラベルが付加
された音響パラメータを0フレームから順次Aフレーム
まで遅延させて入力層に入力し、次に上記音素レベルが
付加された最初のフレームの音響パラメータが入力され
てからAフレーム経過した後に教師データを入力するの
である。こうすることにより、同一のラベルでありなが
ら調音結合によって種々に変化した音響パラメータを同
時に第1NN1に入力した状態で(すなわち、多くの情報量
で)、上記ラベルに対応した教師データを入力すること
ができ、調音結合等の影響を吸収できるのである。
上述のようにして学習された上記第1NN1の入力端子4〜
7に未知単語のm次の音響パラメータの時系列を順次入
力すると、この音響パラメータを0フレームから順次A
フレームに相当する時間だけ遅延されたデータが入力層
の各ユニットに入力される。そして、学習後の第1NN1の
構造(すなわち、各層のユニット間の結合の重み)に応
じた出力データが出力層の各ユニットから出力される。
その際に、入力音響パラメータに対応する音素に割り付
けられたユニットが最大値の信号を出力するのである。
このようにして学習が終了した第1NN1の出力層に、第1
図に示すように第2NN2の入力層が接続されて、第2NN2の
学習が実行されるのである。この場合、第1NN1の出力層
の各ユニットからの出力信号の内容を、図示しない表示
装置に表示して、第1NN1の判定結果(すなわち、認識さ
れた音素)を監視できるようにする。
第2NN2の教師データは次のようにして作成される。すな
わち、音節を構成する音素連鎖の最前の音素を表すデー
タが入力されてからBフレームに相当する時間が経過し
た後のフレームにおいては、その音素と次に続く音素と
から構成される音節に割り付けられた出力層のユニット
に信号“1"を与え、その他のユニットには信号“0"を与
えるようなデータを教師データとするのである。例え
ば、第2図(c)に示す音素/h/の教師データにおける
最前のフレームf2からBフレームに相当する時間が経過
した後の第2図(d)のフレームf3においては、音節/h
u/に割り付けられたユニットに“1"を与え、その他のユ
ニットには“0"を与えるデータを音節/hu/の教師データ
とするのである。
上記第2NN2の学習は次のようにして実行する。すなわ
ち、第1NN1の学習の場合と同様に、学習済みの第1NN1の
入力層の各ユニットに、学習用サンプル/ふたりの/の
音響パラメータ時系列および遅延音響パラメータ時系列
が順次入力される。そうすると、第1NN1は既に識別する
音素の境界の学習を終了しているので、第1NN1の出力層
の各ユニットからは、第2図(c)の教師データと略等
しい出力データが出力される。そして、この第1NN1から
出力される第2図(c)の教師データと略等しい出力デ
ータの最初のフレーム(第1フレーム)の音素/h/を表
すデータ(0以上1以下)が入力層の各ユニットに入力
される。以下、同様にして、各ユニットには第2フレー
ム(音素/h/を表すデータ),第3フレーム(音素/h/を
表すデータ),第4フレーム(“0"のデータ)……のデ
ータが順次入力される。一方、上記第1フレームの音素
/h/を表すデータが入力されてからBフレーム分の時間
が経過後、音節/hu/に割り付けられたユニットに“1"を
与え、その他のユニットに“0"を与える音節/hu/の教師
データを1フレームに相当する時間だけ出力層の各ユニ
ットに入力する。さらに、この1フレームに相当する時
間に続いて2フレームに相当する時間だけ音節/hu/の教
師データを入力するのである。
以下、同様にして、“0"の教師データを8フレーム、音
節/ta/の教師データを2フレーム、“0"の教師データを
4フレーム…を順次入力する。
第2図(d)は上述のようにして入力される教師データ
を、音節を行にフレームを列にしたマトリックスで表現
したものである(但し、B=5であり、データ内容は
“1"のみ記入し“0"は省略してある)。
上記第2NN2の学習時において学習がなかなか収束しない
場合には、上記表示装置によって第1NN1の出力層の各ユ
ニットからの出力信号の内容を確認する。その結果、第
1NN1に入力された音響パラメータに対応する音素を表す
データであれば、学習未収束の原因は第2NN2側にあると
して、第2NN2に対して例えばシナプス結合の重み変更等
の何等かの処置を行う。また、入力された音響パラメー
タに対応する音素を表すデータでなければ、学習未収束
の原因は第1NN1側にあるとして、第1NN1の再学習等の処
置を実行する。このように、第1NN1の動作状態を知るこ
とによって、音節認識装置の学習を効率良く行って学習
時間を短縮することができるのである。
ここで、入力層へ入力する音素を表すデータを0フレー
ムから順次Bフレームまで遅延させ、かつ、出力層への
教師データの入力タイミングを入力層への音素を表すデ
ータの入力に対してBフレーム分遅延させるのは次の理
由による。すなわち、例えば音節/hu/は音素/h/と音素/
u/の連鎖から成っている。そこで、第2NN2に音素/h/を
表すデータと音素/u/を表すデータとが入力された状態
で、音声/hu/の教師データを入力しなければならない。
そこで、音素/h/を表すデータを遅延素子3によって1
フレームから順次Bフレームまで遅延させることによっ
て音素/h/を表すデータ保持させ、この状態で次の音素/
u/を表すデータを入力して音素/h/を表すデータと音素/
u/を表すデータとが同時に入力された状態にする。そし
て、この状態で音節/hu/の教師データを入力するのであ
る。したがって、音節/hu/の教師データを入力する時間
は、音素/h/を表すデータと音素/u/を表すデータとが同
時に保持されている数フレームだけでよい。
また、音節/hu/における音素/h/のフレームの連鎖と音
素/u/のフレームの連鎖の境界位置は話者や発声速度等
によって変化する。そこで、第2NN2に入力される音素/h
/を表すデータと音素/u/を表すデータとを遅延させるこ
とによって、音節/hu/の教師データが入力される3フレ
ーム間(第2図(d)参照)において、第2NN2に入力さ
れる音素/h/を表す信号連鎖と音素/u/を表す信号連鎖の
境界位置を変化させる(時間が経過するに従って境界位
置が音節/hu/の前方に移動する)のである。こうするこ
とによって、話者や発声速度による音素/h/と音素/u/の
境界位置の変動を吸収することができるのである。
上述のようにして学習された上記第2NN2の入力層の各ユ
ニットに、未知単語の音素を表すデータの時系列を入力
すると、学習後の第2NN2の構造に応じた出力データが出
力層の各ユニットから出力される。その際に、入力デー
タに対応する音節に割り付けられたユニットが最大値の
信号を出力するのである。
上述のようにして学習された、第1NN1および第2NN2から
構成される音節認識装置は、次のようにして音節を認識
する。
第1図において、第1NN1の入力端子4〜7に未知単語の
m次の音響パラメータを表す信号の時系列が順次入力さ
れると、この入力されたm次の音響パラメータは遅延素
子3によって0フレームから順次Aフレームに相当する
時間まで遅延され、入力層の各ユニットに入力される。
そうすると、第1NN1は、上述のような学習後の構造に応
じて、入力された音響パラメータの時系列を音素を表す
データの時系列に変換して出力層の各ユニットから出力
する。この出力データは、入力された音響パラメータに
対応する音素を表すようなデータである。
このようにして、第1NN1の出力層の各ユニットから出力
された音素を表すデータの時系列は、第2NN2の遅延素子
3によって0フレームから順次Bフレームに相当する時
間まで遅延されて、第2NN2の入力層の各ユニットに入力
される。そうすると、第2NN2は、上述のような学習後の
構造に応じて、入力された音素を表すデータの時系列を
音節を表すデータの時系列に変換して出力層の各ユニッ
トから出力する。この出力データは、入力された音素を
表すデータ列に対応する音節に割り付けられた出力層の
ユニットからの出力信号が最大値になるようなデータで
ある。
すなわち、第2NN2の出力層の各ユニットからの出力デー
タは、第1NN1の入力端子4〜7に入力された未知単語の
m次の音響パラメータ時系列に対応した音節時系列とな
るのである。
その際に、上述のように、第1NN1および第2NN2はTDNN構
造になっている。そのため、第1NN1による音素認識の際
に調音結合等の影響を吸収することができ、第2NN2によ
る音節認識の際に話者や発声速度の影響をある程度吸収
することができる。したがって、話者や発音速度によら
ず正しく音節を認識することができるのである。
また、上記音節認識装置は、上記表示装置によって第1N
N1の出力層の各ユニットからの出力データを監視して音
節認識動作の途中経過を知ることができる。したがっ
て、音節の認識結果が誤っている場合に、音節認識動作
の途中経過(すなわち、音節を構成する音素の認識結
果)を知ることによって、誤認識の原因が第1NN1あるい
は第2NN2のいずれにあるかを知ることができる。すなわ
ち、誤認識の原因に応じて適確に対処することができ、
より正しい音節認識結果を得るようにすることができる
のである。
上述のように、この発明の音節認識装置は直列に接続さ
れた2つのTDNNによって構成され、第1のTDNNは入力さ
れた未知単語の音響パラメータを表す信号の時系列を音
素を表す信号の時系列に変換して出力する一方、第2の
TDNNは第1のTDNNから出力される音素を表す信号の時系
列を入力し、この入力された音素を表す信号の時系列を
音節を表す信号の時系列に変換して出力するようになっ
ている。そのため、第1のTDNNの出力データを監視する
ことによって、音節認識過程の途中経過を知ることが可
能である。したがって、例えばNNの学習がなかなか収束
しない場合や誤認識した場合には、第1のTDNNの出力デ
ータの内容から学習の未収束および誤認識の原因を知る
ことが可能となるのである。
すなわち、この発明の音節認識装置によれば、学習の未
収束および誤認識に対して適確に対処することができ、
学習時間を短縮すると共に、より正しい認識結果を得る
ことができる。
上記実施例においては、時間遅延手段として遅延素子を
用いているがこれに限定されるものではない。
上記実施例においては、NNを学習する際において、まず
第1NN1を学習し、この学習済みの第1NN1と未学習の第2N
N2とを接続して第2NN2の学習を行うようにしている。し
かしながら、この発明はこれに限定されるものではな
く、第1NN1と第2NN2とを夫々単独に学習した後学習済み
の第1NN1と第2NN2とを接続して、さらに学習時間を短縮
するようにしてもよい。
上記実施例においては、第1NN1の分類カテゴリを音素と
している。しかしながら、この発明はこれに限定される
ものではなく単音を分類カテゴリとしてもよい。こうす
ることによって、従来からの音声認識に関する知識を導
入して、ある音素を表す単音のうちの異音を第1NN1の認
識カテゴリの一つとすることができ、より正しい音節認
識を可能にするのである。
上記実施例においては、TDNNを多層パーセプトロン型ニ
ューラル・ネットワークで構成している。しかしなが
ら、この発明はこれに限定されものではなく、コホーネ
ン型ニューラル・ネットワークで構成してもよい。
<発明の効果> 以上より明らかなように、この発明の音節認識装置は、
時間遅延手段を有する第1の時間遅れ神経回路網と時間
遅延手段を有する第2の時間遅れ神経回路網とを備え、
上記第1の時間遅れ神経回路網は、順次入力される音響
パラメータを表す信号の時系列とこの音響パラメータを
表す信号の時系列を所定時間遅延させた信号とを組合せ
た信号を、音素あるいは単音を表す信号に変換して出力
する一方、上記第2の時間遅れ神経回路網は、上記第1
の時間遅れ神経回路網から順次入力される音素あるいは
単音を表す信号の時系列とこの音素あるいは単音を表す
信号の時系列を所定時間遅延させた信号とを組合せた信
号を、音節を表す信号に変換して出力するようにしたの
で、上記第1の時間遅れ神経回路網から出力される音素
あるいは単音を表す信号を監視することによって、音節
認識過程の途中経過(すなわち、音素あるいは単音の認
識結果)を知ることが可能である。
したがって、この発明の音節認識装置によれば、音節認
識過程の途中経過を知ることによって、学習の未収束の
原因を明らかにして適確に対処できるので、学習時間を
短縮することができるようになる。また、音節認識過程
の途中経過を知ることによって、誤認識の原因を明らか
にして適確に対処できるので、より正しい認識結果を得
ることができるようになる。
【図面の簡単な説明】
第1図はこの発明の音節認識装置の一実施例におけるブ
ロック図、第2図は第1図の音節認識装置への音響パラ
メータの一例と教師データの一例を示す図である。 1……第1NN、2……第2NN、3……遅延素子、4,5,6,7
……入力端子。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】時間遅延手段を有し、順次入力される音響
    パラメータを表す信号の時系列とこの音響パラメータを
    表す信号の時系列を上記時間遅延手段によって所定時間
    遅延させた信号とを組合せた信号を、音素あるいは単音
    を表す信号の時系列に変換して出力する第1の時間遅れ
    神経回路網と、 時間遅延手段を有すると共に、上記第1の時間遅れ神経
    回路網から出力される音素あるいは単音を表す信号の時
    系列を順次入力し、この順次入力される音素あるいは単
    音を表す信号の時系列とこの音素あるいは単音を表す信
    号の時系列を上記時間遅延手段によって所定時間遅延さ
    せた信号とを組合せた信号を、音節を表す信号の時系列
    に変換して出力する第2の時間遅れ神経回路網を備えた
    ことを特徴とする音節認識装置。
JP1056789A 1989-03-09 1989-03-09 音節認識装置 Expired - Fee Related JPH077276B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1056789A JPH077276B2 (ja) 1989-03-09 1989-03-09 音節認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1056789A JPH077276B2 (ja) 1989-03-09 1989-03-09 音節認識装置

Publications (2)

Publication Number Publication Date
JPH02235141A JPH02235141A (ja) 1990-09-18
JPH077276B2 true JPH077276B2 (ja) 1995-01-30

Family

ID=13037183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1056789A Expired - Fee Related JPH077276B2 (ja) 1989-03-09 1989-03-09 音節認識装置

Country Status (1)

Country Link
JP (1) JPH077276B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2520331B2 (ja) * 1991-03-25 1996-07-31 株式会社エイ・ティ・アール自動翻訳電話研究所 ニュ―ラルネットワ―クの学習方法
JP7109771B2 (ja) * 2018-03-12 2022-08-01 国立研究開発法人情報通信研究機構 音声認識システム、音声認識方法、学習済モデル

Also Published As

Publication number Publication date
JPH02235141A (ja) 1990-09-18

Similar Documents

Publication Publication Date Title
Gevaert et al. Neural networks used for speech recognition
KR0134158B1 (ko) 음성인식장치
JPS58102299A (ja) 部分単位音声パタン発生装置
JPH0736475A (ja) 音声分析における基準パターン形成方法
JPH0816187A (ja) 音声分析における音声認識方法
EP0453649B1 (en) Method and apparatus for modeling words with composite Markov models
JP2001517325A (ja) 認識システム
EP0118484B1 (en) Lpc word recognizer utilizing energy features
US5751898A (en) Speech recognition method and apparatus for use therein
Tsenov et al. Speech recognition using neural networks
JPH077276B2 (ja) 音節認識装置
GB2240203A (en) Automated speech recognition system
Barnard et al. Real-world speech recognition with neural networks
JPH01276200A (ja) 音声合成装置
Dong et al. L2 prosody assessment by combining acoustic and neural model features
JPH0466999A (ja) 文節境界検出装置
Artières et al. Connectionist and conventional models for free-text talker identification tasks
JP2734828B2 (ja) 確率演算装置及び確率演算方法
Buono et al. Comparison of TDNN and Factorized TDNN Approaches for Indonesian Speech Recognition
Ekpenyong et al. A DNN framework for robust speech synthesis systems evaluation
JP2655902B2 (ja) 音声の特徴抽出装置
Ting et al. Speaker-independent phonation recognition for Malay Plosives using neural networks
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法
Alotaibi et al. A new look at the automatic mapping between Arabic distinctive phonetic features and acoustic cues
JP2515609B2 (ja) 話者認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees