JPH0462598B2

JPH0462598B2 -

Info

Publication number: JPH0462598B2
Application number: JP59238339A
Authority: JP
Inventors: Yasuaki Awanaka; Gichu Oota
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1984-11-14
Filing date: 1984-11-14
Publication date: 1992-10-06
Also published as: JPS61117600A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、音声の単音節を対象とし、子音領域
から母音領域に至る、いわゆる「わたり」の領域
におけるスペクトルの変化量を精度良く定量化し
て、あらかじめ用意した標準特性との類似度を計
算することにより、音声を認識する音声認識装置
に関する。

〔発明の背景〕

従来、単音節の音声を認識するには、最初に入
力信号を子音領域と母音領域に分割し、子音と母
音それぞれのスペクトル、あるいは子音から母音
領域にわたる複数個の時系列スペクトルを求め、
これ等と標準のスペクトル群との類似度を計算す
る方法が行なわれている。

入力信号を子音と母音領域に分割する代表的な
方法の１つは、日本音響学会誌，Vol40，No.２、
P63〜70（1984）に記載されているように、入力
信号のエンベロープを求め、これとエンベロープ
の立上り領域において、あらかじめ用意された標
準エンベロープとシフトマツチングを行なうもの
である。

ここで、その原理を第２図を用いて説明する。
第２図Ａにおける実線１は、単音節信号における
エンベロープの立上り部分を表わしている。この
実線１に対して、あらかじめ標準エンベロープ２
を設定し、これを時間軸上で逐次シフトすること
により、実線１と点線２との間の距離を逐次計算
する。計算された距離は第２図Ｂに示したように
実線３となり、この極小点４が子音領域検出の基
準点になる。ポイント４に相当する標準エンベロ
ープは第２図Ａの２′である。標準エンベロープ
２′から子音の範囲および母音の範囲を求めるこ
とが出来る。

上記のような方法により、単音節の子音領域を
概略設定することが可能である。また、発声速度
や音声波形の個人差なども標準エンベロープを複
数個用意することによつて、対処することが出来
る。

一方、上記の方法の改良案として、特開昭59−
26797号公報に記載されているように、入力音声
ごとのエンベロープ信号の最大値と最小値近傍に
おいて、母音と子音の領域を定める基準値を設定
することによつて、子音と母音領域の分割を行な
つている。第３図は標準エンベロープにおける最
小値Ec，最大値Evの関係を示したものである。

子音が検出されると、子音領域のスペクトルが
求められる。上記の方法を用いると原理的には子
音と母音領域のスペクトルを求めることは容易で
あり、また優れた方法になつている。

ところが、音声エンベロープの最大振幅値は話
者の発声の強さや単音節の種類によつて大きく変
化するため、音声エンベロープの振幅が小さな場
合には、簡単な方法では子音を検出出来なくなる
ことや、音声以外の周囲雑音に埋まつてしまうと
いう問題を生じる。この問題点を第４図により詳
しく説明する。

第４図Ａは比較的振幅の大きな単音節エンベロ
ープ１を分析する例を示している。あらかじめ設
定した振幅の基準値（トリガーレベル）とエンベ
ロープが交叉する時間から、エンベロープの最大
値を示す位置５で示した時間までを子音の領域お
よび子音から母音にいたるわたりの領域とする。

基準振幅値より十分大きな振幅値をもつ第４図
Ａのような音声信号に対しては基準振幅値に達し
た信号から分析を始めるという簡単な方法によつ
て子音領域とそれに続くわたりの領域、母音領域
が信号分析装置へ入力出来ることになる。基準振
幅値とエンベロープが交叉する時点から所定の時
間幅で周波数分析する分析区間をａとすれば、こ
れによつて子音領域が分析される。次にエンベロ
ープの最大値の時点５から所定の時間間隔で分析
する分析区間をｃとすれば、これにより母音領域
が分析されることになる。

これに対して、第４図Ｂのように音声信号の振
幅が小さい場合には子音領域の振幅が基準値より
小さくなり、子音領域の分析は不可能となる。基
準値とエンベロープが交叉する時点から設定可能
な分析区間はｂのようであり、これは子音から母
音領域にいたるわたりの区間における分析とな
る。これに対してＡ図におけるわたり領域の分析
区間はa′である。

上記のように、単音節音声の振幅が小さな場合
には、子音領域の検出が不可能になるか、前記の
ように周囲雑音に埋まるという問題を生じるので
ある。

子音領域から母音領域にいたる特性の変化を抽
出する方法として電子通信学会誌，Vol J65−
Ａ，P1278−1285（1982）に記載されているよう
に時間軸における判別フイルターによつて、「無
声子音性」，「摩擦性」，「無声破裂性」等の子音グ
ループを検出する方法が行なわれている。この方
法は周波数分析フイルター群以外に判別フイルタ
ー群を必要とし、また個々の単音節を識別するた
めには単音節の個数分フイルターを用意する必要
がある。

〔発明の目的〕

本発明の目的は、前記のような入力音声信号の
子音から母音領域にいたる周波数分析上の問題点
を解消することにある。

〔発明の概要〕

上記目的を達成するため、本発明においてはわ
たりの領域におけるスペクトルと母音領域にける
スペクトルとの変化分を求め、これとスペクトル
の形状そのものを認識のためのデータとし、あら
かじめ用意した標準特性との類似度を計算して精
度の良い認識を可能とした音声認識装置とする。

なお、わたり区間に対する分析区間などの時間
的位置は、音節の種類によらず同一であることが
望ましい。たとえば、音声エンベロープの振幅最
大値を1.0に基準化した場合。わたり領域の分析
区間を振幅0.5付近に設定する。

以下、本発明の概要を第５，６図を用いて説明
する。第５図は信号処理回路の概略ブロツク図を
示したものである。マイクロホン７より入力した
音声信号をマイクアンプ８により所定の信号振幅
とし、エンベロープ形成回路９によりエンベロー
プ信号とする。所定の振幅以上の信号が入力する
と、これがトリガー信号となり、メモリ１０への
記録を開始する。所定の時間間隔分の信号を記憶
すると、記憶されたデータをエンベロープパラメ
ータ計算部１１へ入力し、計算を開始する。計算
の内容は前記した単音節音声のエンベロープにお
ける振幅最大値の時間的位置、わたり領域の時間
的位置、単音節の終了位置等である。一方、マイ
クアンプ８におけるもう一方の出力信号は、周波
数分析部１２で分析され、その結果はメモリ１３
に記録される。分析データの記録開始を知らせる
トリガー信号の振幅は、メモリ１０における場合
と同一であり、また同期しているため、メモリ１
０とメモリ１３の信号は同期している。所定の時
間間隔の記録が終了すると、エンベロープパラメ
ータ計算部１１における結果を用いて、差分スペ
クトル計算部１４の計算を実行する。計算の内容
は、わたり領域のスペクトルと母音領域スペクト
ルとの差分計算ならびに単音節が終了するまでに
少なくとも１個のスペクトルを求め、これと母音
領域スペクトルとの類似度計算である。

次に、エンベロープパラメータ計算部１１にお
ける計算内容について、第６図により詳しく説明
する。第６図は単音節を２個連続して発声した場
合のエンベロープ波形を表わしている。音声を発
声し、エンベロープが基準値に達すると、メモリ
１０へのデータの記録が始まる。サンプリング周
期はたとえば、15ｍ秒であり、第６図のエンベロ
ープ曲線と縦線が交わる点が振幅データとなる。
各データの間隔a₁，a₂，…等は信号分析部１２に
おける時間的位置としての分析区間を表わしてい
る。メモリ１０に記録されたデータ群から、まず
エンベロープが２個の単音節からなる二山を形成
していることを識別し、次いで第１の山の頂上が
ポイント５で示される位置にあることを計算によ
り求める。これにより、母音領域はa₆であると判
定する。

また、第１のわたりの領域は第６図においては
a₄の区間に相当する。ここで、a₄に関してはa₁か
らa₆にいたる区間のうち、各区間の始めと終りの
振幅値の平均値が、ポイント５における振幅値の
0.5に近い区間が選ばれる。その後、a₁₀が２個の
音節が結合した領域であることを確認した後、単
音節が終了していく領域としてa₈の位置を情報と
して用いる。時間的位置としての分析区間a₄，
a₆，a₈は、一連の分析データの中から必要なデー
タを指定するものである。

b₁からb₆までは、第２の単音節区間であり、こ
の領域におけるパラメータ計算はb₁を最初の区間
として、たとえば0.36ｍ秒間のエンベロープデー
タをエンベロープパラメータ計算部１１へ入力し
直してから実行する。計算の結果として得られる
わたり領域と母音領域の分析区間は、それぞれb₁
とb₃である。

〔発明の実施例〕

以下、本発明の装置全体にわたる構成と動作を
第１図により説明する。

発声された音声信号は、マイクロホン７、マイ
クアンプ８を介してエンベロープ方成回路９とバ
ンドパスフイルター群１５へ入力される。エンベ
ロープ形成回路９において形成された音声エンベ
ロープの振幅が、所定の基準振幅値以上になる
と、その情報はトリガーパルスによつてコントロ
ーラ２４へ伝送されてコントローラの動作が開始
される。それと同時に、音声エンベロープ信号は
Ａ／Ｄ変換器１８を介してデイジタル信号として
メモリ１０に記録される。上記のエンベロープ形
成回路９の時定数は15ｍ秒であり、Ａ／Ｄ変換器
１８における信号のサンプリング周波数は同じく
15ｍ秒である。メモリ１０は約８秒間の音声エン
ベロープ信号を記憶出来るため、バツフアメモリ
としての役割をはたしている。このメモリ１０が
最初の0.36秒間の信号で満たされると、エンベロ
ープパラメータ計算部１１の計算が開始される。
上記0.36秒の時間間隔には、通常単音節が１個な
いし２個存在し、後で詳しく説明するように、始
めの音節が取出されてそのパラメータが計算され
る。計算されたパラメータは、コントローラ２４
を介して差分スペクトル計算部１４へ伝送され
る。

一方、分析部１２内のバンドパスフイルター群
１５へ伝送された音声信号に対する個々のフイル
ター出力信号は、エンベロープ形成回路１６によ
つてエンベロープ信号となる。上記のバンドパス
フイルター群１５の内容は、１個のバンドパスフ
イルターが1/3オクターブの周波数帯域を持ち、
200Hzから5kHzにわたり、15チヤンネルのフイル
ター群により成り立つている。また、エンベロー
プ出力信号の時定数はエンベロープ形成回路９の
時定数と同一であり、エンベロープ形成回路９で
計算されたエンベロープパラメータに対応するよ
うになつている。

エンベロープ形成回路１６の出力信号は、マル
チプレクサ１７によつて15ｍ秒のフレーム間隔で
掃査され、分析部１２の出力としてＡ／Ｄ変換器
１９を介してメモリ１３に記録される。この場合
もＡ／Ｄ変換器１８におけると同様に、あらかじ
め設定した基準振幅値以上の信号が入力した場合
に動作が開始される。メモリ１３は、メモリ１０
と同様に約８秒間の音声分析データを記憶出来る
バツフアメモリとなつている。メモリ１３に0.36
秒間のデータが記録され、かつエンベロープパラ
メータ計算部１１の計算が終了している場合に
は、コントローラ２４の指示に従つて差分スペク
トル計算部１４における計算を開始する。エンベ
ロープパラメータの計算が終了していない場合に
は終了を待ち、終了した後にコントローラ２４の
指示に従つて0.36秒間のデータを差分スペクトル
計算部において計算する。計算結果はパターンメ
モリ２０に記録され、記録が終了するとコントロ
ーラ２４の指示に従つて、２番目の単音節データ
を先頭に含む0.36秒間のエンベロープデータをエ
ンベロープパラメータ計算部１１へ入力する。

パターンメモリ２０がデータで満たされると、
パターンマツチング部２１において、標準パター
ンメモリ２２にあらかじめ記憶させていた標準パ
ターンと逐次パターン間の類似度（距離）を計算
し、入力信号の単音節が何であるかを同定する。
得られた結果は入力バツフア２３を介して出力端
子２５より出力する。

次に、エンベロープパラメータ計算部１１にお
ける計算内容について第７図の概略フローチヤー
トを用いて説明する。

発声された音声エンベロープ信号における最初
の0.36秒間のデータにおいて、エンベロープ形状
の局所的な凹凸を無視して大きな山谷を検出する
計算が行なわれる。前記したように、0.36秒の間
隔には通常１個ないし２個の単音節信号があり、
これより第１の単音節に該当するエンベロープ信
号の第１番目の山を検出する。第７図のフローチ
ヤートにおいて、のステツプでは、メモリに記
録されたデータのうち、最初のデータから計算処
理が始まることを指示している。のステツプで
は第１の山において振幅が最大値を示すピーク位
置のデータ番号を検出する。ここで、もしエンベ
ロープ信号の立上りが急激であり、最初のデータ
が振幅最大値を示す場合には、２番目のデータを
第１の山のピーク位置とする。のステツプで
は、わたり領域の位置を検出する。この位置は最
初のデータとピーク位置データとの中間に存在
し、最大振幅の1/2に近かい値を示すデータ番号
を探索する。次に、のステツプでは、第１と第
２の山の連結域、すなわち谷の位置を示すデータ
番号を探索する。このデータ番号をｎとすれば、
Ｉ＝ｎとして、第２の単音節に対する計算処理を
行なう場合、ｎが最初のデータであることをコン
トローラに知らせるものである。のステツプで
は第１の山の終了域を示すデータ番号を探索す
る。この領域に対しては、第１の山の位置と谷
（連結域）との中間に位置するデータ番号が選ば
れる。のステツプでは、これまでに得られた結
果をコントローラ２４に伝送する。伝送が終り、
かつコントローラから計算ストツプの指示がなけ
れば、Ｉ＝ｎとしてステツプより第２の音節に
対する計算を始める。コントローラからストツプ
の指示がある場合は、メモリ１０の全てのデータ
に対する処理が終了した場合、および差分スペク
トル計算部１４における計算が続行中の場合であ
る。

次に差分スペクトル計算部１４における計算内
容を説明する。エンベロープ信号のピーク位置に
おけるスペクトルを母音領域スペクトルと仮定す
る。このスペクトルは比較基準となるもので、形
状の精度を良くするために、ピーク位置の分析区
間と次の分析区間（第６図におけるa₆，a₇）のス
ペクトル値の平均値を求めて、母音領域の基準ス
ペクトルとする。すなわち、分析区間を30ｍ秒と
するのである。次にこの基準スペクトルとわたり
領域スペクトル（分析区間15ｍ秒）との差分を求
める。この計算の内容を第８図を用いて説明す
る。第８図Ａは、ある単音節におけるスペクトル
形状を示したものである。母音領域スペクトルは
２６であり、わたり領域のスペクトルは２７であ
る。両者の差分を求めると、Ｂ図のスペクトル２
８が得られる。スペクトル２８の形状は、入力単
音節が何であるかを判断する１つの有力なデータ
となる。

差分スペクトル計算部１４では、さらにもう１
つの計算が実行される。それは、母音領域スペク
トルと終了域スペクトルとの距離計算である。距
離が閾値より小さければ、スペクトル形状は変化
なしと判断され、母音１個を含む単音節と判断さ
れる。また、閾値を越えた場合には「きや」，「き
ゆ」のように概略母音を２個含む単音節であると
判断される。あるいは「ん」のような本来信号振
幅の小さな単音節がある単音節の後に付加されて
いると判断される。

上記の計算結果の他、パターンメモリ２０に記
録されるデータはまとめると以下のようである。

(1) 母音領域のスペクトル (2) わたり領域のスペクトル (3) (1)，(2)の差分スペクトル終了域スペクトルと母音領域スペクトルとの類
似度計算の結果により、必要であれば (4) 終了域スペクトル上記の４種類の特性を用いたパターンマツチン
グ部２１における計算方法を以下に説明する。こ
こで行なわれる認識計算手法は、従来から行なわ
れているパターンマツチング法に則つたものであ
る。最初にパターンメモリ２０に記録されている
母音領域スペクトルと５種類の母音「あいうえ
お」と「ん」の各標準スペクトルとの類似度（距
離）を計算して、最も類似している（距離の近
い）母音を選択する。１個の母音が選ばれると、
わたり領域スペクトルと差分スペクトルを用い、
選ばれた母音の子音系列、たとえば「あ」が選ば
れると、「あ，か，さ，た，な，……」の系列に
おいて、あらかじめ用意したわたり領域の標準ス
ペクトル、および差分の標準スペクトルとの類似
度を計算する。次に２つの特性における結果を総
合して、１個の単音節を選択する。ここで、前記
のように終了域スペクトルと母音領域スペクトル
が一致しているという情報を得た場合には、母音
が１個で形成されている単音節グループ、上記の
例においては「あ，か，さ，た，な，…，ば，
ぱ」の15個の単音節グループと計算が行なわれ
る。また、一致していないという情報を得ると、
概略母音が２個で形成される単音節「きや，し
や，ちや，…，ぴや」の12個のグループと計算が
行なわれ、１個の単音節が選択される。

〔発明の効果〕

本発明によれば、単音節の子音と母音の中間領
域であるわたり領域のスペクトルを比較的簡単な
方法で得るようにしたため、単音節の振幅の大き
さに影響されずに、ほぼ同一条件で単音節認識の
有力なデータを得ることが出来るようになり、認
識の精度を向上させることが出来た。

わたり領域から母音に移行する領域におけるス
ペクトルの全体的な形状は、母音スペクトル形状
を示し、その中で子音スペクトルの影響が付加し
た形になつている。したがつて、本発明における
差分スペクトルは、子音スペクトルの影響のみを
抽出したことになり、本来のスペクトル形状その
ものによつて単音節が何であるかを同定する方法
に比べて、より秀れた方法を提供するものであ
る。

また、子音から母音にいたる時系列スペクトル
を求めて時系列標準スペクトルと比較する従来の
方法に比べて、差分スペクトルのパターンマツチ
ングは、はるかに簡単な計算で済み、経済的な方
法となつている。

【図面の簡単な説明】

第１図は本発明の認識装置のブロツク図、第２
図は子音と母音を分割する方法の従来例を示した
図、第３図は子音と母音を分割する方法の別の従
来例を示した図、第４図は子音領域検出の問題点
を示した図、第５図は本発明の主要ブロツク図、
第６図は音声エンベロープに対する計算処理法の
説明図、第７図は音声エンベロープに対する計算
処理手順を示すフローチヤート、第８図は本発明
における差分スペクトルの説明図である。９……エンベロープ形成回路、１０，１３……
メモリ、１１……エンベロープパラメータ計算
部、１４……差分スペクトル計算部、１５……バ
ンドパスフイルタ群、１６……エンベロープ形成
回路、１７……マルチプレクサ、１８，１９……
Ａ／Ｄ変換器、２０……パタンメモリ、２１……
パターンマツチング部、２２……標準パタンメモ
リ、２３……出力バツフア、２４……コントロー
ラ。

Claims

【特許請求の範囲】

１入力音声を周波数分析し、子音から母音領域
にいたる複数個のスペクトルパターンを生成し、
あらかじめ記憶させた標準スペクトルパターンと
の類似度を計算することにより、上記入力音声を
認識するようにした音声認識装置において、上記
音声信号のエンベロープを形成する手段と、該エ
ンベロープのうち単音節に相当する振幅データに
おいて、振幅最大値を示す時点から所定の時間間
隔を母音領域となし、該単音節の開始時点と該振
幅最大値を示す時点のほぼ中間領域をわたり領域
となし、これ等二種の領域の時間的位置を導出す
る手段と、該時間的位置を記憶する手段と、少な
くとも該母音領域と該わたり領域の二種のスペク
トルを個々に検出する手段と、該母音領域スペク
トルと該わたり領域スペクトルとの差分スペクト
ルを求める手段とを有し、少なくとも該二種のス
ペクトルと該差分スペクトルとを認識のためのデ
ータとすることを特徴とした音声認識装置。