Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH0462598B2 - - Google Patents
[go: Go Back, main page]

JPH0462598B2 - - Google Patents

Info

Publication number
JPH0462598B2
JPH0462598B2 JP59238339A JP23833984A JPH0462598B2 JP H0462598 B2 JPH0462598 B2 JP H0462598B2 JP 59238339 A JP59238339 A JP 59238339A JP 23833984 A JP23833984 A JP 23833984A JP H0462598 B2 JPH0462598 B2 JP H0462598B2
Authority
JP
Japan
Prior art keywords
region
spectrum
envelope
vowel
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59238339A
Other languages
English (en)
Other versions
JPS61117600A (ja
Inventor
Yasuaki Awanaka
Gichu Oota
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59238339A priority Critical patent/JPS61117600A/ja
Publication of JPS61117600A publication Critical patent/JPS61117600A/ja
Publication of JPH0462598B2 publication Critical patent/JPH0462598B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、音声の単音節を対象とし、子音領域
から母音領域に至る、いわゆる「わたり」の領域
におけるスペクトルの変化量を精度良く定量化し
て、あらかじめ用意した標準特性との類似度を計
算することにより、音声を認識する音声認識装置
に関する。
〔発明の背景〕
従来、単音節の音声を認識するには、最初に入
力信号を子音領域と母音領域に分割し、子音と母
音それぞれのスペクトル、あるいは子音から母音
領域にわたる複数個の時系列スペクトルを求め、
これ等と標準のスペクトル群との類似度を計算す
る方法が行なわれている。
入力信号を子音と母音領域に分割する代表的な
方法の1つは、日本音響学会誌,Vol40,No.2、
P63〜70(1984)に記載されているように、入力
信号のエンベロープを求め、これとエンベロープ
の立上り領域において、あらかじめ用意された標
準エンベロープとシフトマツチングを行なうもの
である。
ここで、その原理を第2図を用いて説明する。
第2図Aにおける実線1は、単音節信号における
エンベロープの立上り部分を表わしている。この
実線1に対して、あらかじめ標準エンベロープ2
を設定し、これを時間軸上で逐次シフトすること
により、実線1と点線2との間の距離を逐次計算
する。計算された距離は第2図Bに示したように
実線3となり、この極小点4が子音領域検出の基
準点になる。ポイント4に相当する標準エンベロ
ープは第2図Aの2′である。標準エンベロープ
2′から子音の範囲および母音の範囲を求めるこ
とが出来る。
上記のような方法により、単音節の子音領域を
概略設定することが可能である。また、発声速度
や音声波形の個人差なども標準エンベロープを複
数個用意することによつて、対処することが出来
る。
一方、上記の方法の改良案として、特開昭59−
26797号公報に記載されているように、入力音声
ごとのエンベロープ信号の最大値と最小値近傍に
おいて、母音と子音の領域を定める基準値を設定
することによつて、子音と母音領域の分割を行な
つている。第3図は標準エンベロープにおける最
小値Ec,最大値Evの関係を示したものである。
子音が検出されると、子音領域のスペクトルが
求められる。上記の方法を用いると原理的には子
音と母音領域のスペクトルを求めることは容易で
あり、また優れた方法になつている。
ところが、音声エンベロープの最大振幅値は話
者の発声の強さや単音節の種類によつて大きく変
化するため、音声エンベロープの振幅が小さな場
合には、簡単な方法では子音を検出出来なくなる
ことや、音声以外の周囲雑音に埋まつてしまうと
いう問題を生じる。この問題点を第4図により詳
しく説明する。
第4図Aは比較的振幅の大きな単音節エンベロ
ープ1を分析する例を示している。あらかじめ設
定した振幅の基準値(トリガーレベル)とエンベ
ロープが交叉する時間から、エンベロープの最大
値を示す位置5で示した時間までを子音の領域お
よび子音から母音にいたるわたりの領域とする。
基準振幅値より十分大きな振幅値をもつ第4図
Aのような音声信号に対しては基準振幅値に達し
た信号から分析を始めるという簡単な方法によつ
て子音領域とそれに続くわたりの領域、母音領域
が信号分析装置へ入力出来ることになる。基準振
幅値とエンベロープが交叉する時点から所定の時
間幅で周波数分析する分析区間をaとすれば、こ
れによつて子音領域が分析される。次にエンベロ
ープの最大値の時点5から所定の時間間隔で分析
する分析区間をcとすれば、これにより母音領域
が分析されることになる。
これに対して、第4図Bのように音声信号の振
幅が小さい場合には子音領域の振幅が基準値より
小さくなり、子音領域の分析は不可能となる。基
準値とエンベロープが交叉する時点から設定可能
な分析区間はbのようであり、これは子音から母
音領域にいたるわたりの区間における分析とな
る。これに対してA図におけるわたり領域の分析
区間はa′である。
上記のように、単音節音声の振幅が小さな場合
には、子音領域の検出が不可能になるか、前記の
ように周囲雑音に埋まるという問題を生じるので
ある。
子音領域から母音領域にいたる特性の変化を抽
出する方法として電子通信学会誌,Vol J65−
A,P1278−1285(1982)に記載されているよう
に時間軸における判別フイルターによつて、「無
声子音性」,「摩擦性」,「無声破裂性」等の子音グ
ループを検出する方法が行なわれている。この方
法は周波数分析フイルター群以外に判別フイルタ
ー群を必要とし、また個々の単音節を識別するた
めには単音節の個数分フイルターを用意する必要
がある。
〔発明の目的〕
本発明の目的は、前記のような入力音声信号の
子音から母音領域にいたる周波数分析上の問題点
を解消することにある。
〔発明の概要〕
上記目的を達成するため、本発明においてはわ
たりの領域におけるスペクトルと母音領域にける
スペクトルとの変化分を求め、これとスペクトル
の形状そのものを認識のためのデータとし、あら
かじめ用意した標準特性との類似度を計算して精
度の良い認識を可能とした音声認識装置とする。
なお、わたり区間に対する分析区間などの時間
的位置は、音節の種類によらず同一であることが
望ましい。たとえば、音声エンベロープの振幅最
大値を1.0に基準化した場合。わたり領域の分析
区間を振幅0.5付近に設定する。
以下、本発明の概要を第5,6図を用いて説明
する。第5図は信号処理回路の概略ブロツク図を
示したものである。マイクロホン7より入力した
音声信号をマイクアンプ8により所定の信号振幅
とし、エンベロープ形成回路9によりエンベロー
プ信号とする。所定の振幅以上の信号が入力する
と、これがトリガー信号となり、メモリ10への
記録を開始する。所定の時間間隔分の信号を記憶
すると、記憶されたデータをエンベロープパラメ
ータ計算部11へ入力し、計算を開始する。計算
の内容は前記した単音節音声のエンベロープにお
ける振幅最大値の時間的位置、わたり領域の時間
的位置、単音節の終了位置等である。一方、マイ
クアンプ8におけるもう一方の出力信号は、周波
数分析部12で分析され、その結果はメモリ13
に記録される。分析データの記録開始を知らせる
トリガー信号の振幅は、メモリ10における場合
と同一であり、また同期しているため、メモリ1
0とメモリ13の信号は同期している。所定の時
間間隔の記録が終了すると、エンベロープパラメ
ータ計算部11における結果を用いて、差分スペ
クトル計算部14の計算を実行する。計算の内容
は、わたり領域のスペクトルと母音領域スペクト
ルとの差分計算ならびに単音節が終了するまでに
少なくとも1個のスペクトルを求め、これと母音
領域スペクトルとの類似度計算である。
次に、エンベロープパラメータ計算部11にお
ける計算内容について、第6図により詳しく説明
する。第6図は単音節を2個連続して発声した場
合のエンベロープ波形を表わしている。音声を発
声し、エンベロープが基準値に達すると、メモリ
10へのデータの記録が始まる。サンプリング周
期はたとえば、15m秒であり、第6図のエンベロ
ープ曲線と縦線が交わる点が振幅データとなる。
各データの間隔a1,a2,…等は信号分析部12に
おける時間的位置としての分析区間を表わしてい
る。メモリ10に記録されたデータ群から、まず
エンベロープが2個の単音節からなる二山を形成
していることを識別し、次いで第1の山の頂上が
ポイント5で示される位置にあることを計算によ
り求める。これにより、母音領域はa6であると判
定する。
また、第1のわたりの領域は第6図においては
a4の区間に相当する。ここで、a4に関してはa1
らa6にいたる区間のうち、各区間の始めと終りの
振幅値の平均値が、ポイント5における振幅値の
0.5に近い区間が選ばれる。その後、a10が2個の
音節が結合した領域であることを確認した後、単
音節が終了していく領域としてa8の位置を情報と
して用いる。時間的位置としての分析区間a4
a6,a8は、一連の分析データの中から必要なデー
タを指定するものである。
b1からb6までは、第2の単音節区間であり、こ
の領域におけるパラメータ計算はb1を最初の区間
として、たとえば0.36m秒間のエンベロープデー
タをエンベロープパラメータ計算部11へ入力し
直してから実行する。計算の結果として得られる
わたり領域と母音領域の分析区間は、それぞれb1
とb3である。
〔発明の実施例〕
以下、本発明の装置全体にわたる構成と動作を
第1図により説明する。
発声された音声信号は、マイクロホン7、マイ
クアンプ8を介してエンベロープ方成回路9とバ
ンドパスフイルター群15へ入力される。エンベ
ロープ形成回路9において形成された音声エンベ
ロープの振幅が、所定の基準振幅値以上になる
と、その情報はトリガーパルスによつてコントロ
ーラ24へ伝送されてコントローラの動作が開始
される。それと同時に、音声エンベロープ信号は
A/D変換器18を介してデイジタル信号として
メモリ10に記録される。上記のエンベロープ形
成回路9の時定数は15m秒であり、A/D変換器
18における信号のサンプリング周波数は同じく
15m秒である。メモリ10は約8秒間の音声エン
ベロープ信号を記憶出来るため、バツフアメモリ
としての役割をはたしている。このメモリ10が
最初の0.36秒間の信号で満たされると、エンベロ
ープパラメータ計算部11の計算が開始される。
上記0.36秒の時間間隔には、通常単音節が1個な
いし2個存在し、後で詳しく説明するように、始
めの音節が取出されてそのパラメータが計算され
る。計算されたパラメータは、コントローラ24
を介して差分スペクトル計算部14へ伝送され
る。
一方、分析部12内のバンドパスフイルター群
15へ伝送された音声信号に対する個々のフイル
ター出力信号は、エンベロープ形成回路16によ
つてエンベロープ信号となる。上記のバンドパス
フイルター群15の内容は、1個のバンドパスフ
イルターが1/3オクターブの周波数帯域を持ち、
200Hzから5kHzにわたり、15チヤンネルのフイル
ター群により成り立つている。また、エンベロー
プ出力信号の時定数はエンベロープ形成回路9の
時定数と同一であり、エンベロープ形成回路9で
計算されたエンベロープパラメータに対応するよ
うになつている。
エンベロープ形成回路16の出力信号は、マル
チプレクサ17によつて15m秒のフレーム間隔で
掃査され、分析部12の出力としてA/D変換器
19を介してメモリ13に記録される。この場合
もA/D変換器18におけると同様に、あらかじ
め設定した基準振幅値以上の信号が入力した場合
に動作が開始される。メモリ13は、メモリ10
と同様に約8秒間の音声分析データを記憶出来る
バツフアメモリとなつている。メモリ13に0.36
秒間のデータが記録され、かつエンベロープパラ
メータ計算部11の計算が終了している場合に
は、コントローラ24の指示に従つて差分スペク
トル計算部14における計算を開始する。エンベ
ロープパラメータの計算が終了していない場合に
は終了を待ち、終了した後にコントローラ24の
指示に従つて0.36秒間のデータを差分スペクトル
計算部において計算する。計算結果はパターンメ
モリ20に記録され、記録が終了するとコントロ
ーラ24の指示に従つて、2番目の単音節データ
を先頭に含む0.36秒間のエンベロープデータをエ
ンベロープパラメータ計算部11へ入力する。
パターンメモリ20がデータで満たされると、
パターンマツチング部21において、標準パター
ンメモリ22にあらかじめ記憶させていた標準パ
ターンと逐次パターン間の類似度(距離)を計算
し、入力信号の単音節が何であるかを同定する。
得られた結果は入力バツフア23を介して出力端
子25より出力する。
次に、エンベロープパラメータ計算部11にお
ける計算内容について第7図の概略フローチヤー
トを用いて説明する。
発声された音声エンベロープ信号における最初
の0.36秒間のデータにおいて、エンベロープ形状
の局所的な凹凸を無視して大きな山谷を検出する
計算が行なわれる。前記したように、0.36秒の間
隔には通常1個ないし2個の単音節信号があり、
これより第1の単音節に該当するエンベロープ信
号の第1番目の山を検出する。第7図のフローチ
ヤートにおいて、のステツプでは、メモリに記
録されたデータのうち、最初のデータから計算処
理が始まることを指示している。のステツプで
は第1の山において振幅が最大値を示すピーク位
置のデータ番号を検出する。ここで、もしエンベ
ロープ信号の立上りが急激であり、最初のデータ
が振幅最大値を示す場合には、2番目のデータを
第1の山のピーク位置とする。のステツプで
は、わたり領域の位置を検出する。この位置は最
初のデータとピーク位置データとの中間に存在
し、最大振幅の1/2に近かい値を示すデータ番号
を探索する。次に、のステツプでは、第1と第
2の山の連結域、すなわち谷の位置を示すデータ
番号を探索する。このデータ番号をnとすれば、
I=nとして、第2の単音節に対する計算処理を
行なう場合、nが最初のデータであることをコン
トローラに知らせるものである。のステツプで
は第1の山の終了域を示すデータ番号を探索す
る。この領域に対しては、第1の山の位置と谷
(連結域)との中間に位置するデータ番号が選ば
れる。のステツプでは、これまでに得られた結
果をコントローラ24に伝送する。伝送が終り、
かつコントローラから計算ストツプの指示がなけ
れば、I=nとしてステツプより第2の音節に
対する計算を始める。コントローラからストツプ
の指示がある場合は、メモリ10の全てのデータ
に対する処理が終了した場合、および差分スペク
トル計算部14における計算が続行中の場合であ
る。
次に差分スペクトル計算部14における計算内
容を説明する。エンベロープ信号のピーク位置に
おけるスペクトルを母音領域スペクトルと仮定す
る。このスペクトルは比較基準となるもので、形
状の精度を良くするために、ピーク位置の分析区
間と次の分析区間(第6図におけるa6,a7)のス
ペクトル値の平均値を求めて、母音領域の基準ス
ペクトルとする。すなわち、分析区間を30m秒と
するのである。次にこの基準スペクトルとわたり
領域スペクトル(分析区間15m秒)との差分を求
める。この計算の内容を第8図を用いて説明す
る。第8図Aは、ある単音節におけるスペクトル
形状を示したものである。母音領域スペクトルは
26であり、わたり領域のスペクトルは27であ
る。両者の差分を求めると、B図のスペクトル2
8が得られる。スペクトル28の形状は、入力単
音節が何であるかを判断する1つの有力なデータ
となる。
差分スペクトル計算部14では、さらにもう1
つの計算が実行される。それは、母音領域スペク
トルと終了域スペクトルとの距離計算である。距
離が閾値より小さければ、スペクトル形状は変化
なしと判断され、母音1個を含む単音節と判断さ
れる。また、閾値を越えた場合には「きや」,「き
ゆ」のように概略母音を2個含む単音節であると
判断される。あるいは「ん」のような本来信号振
幅の小さな単音節がある単音節の後に付加されて
いると判断される。
上記の計算結果の他、パターンメモリ20に記
録されるデータはまとめると以下のようである。
(1) 母音領域のスペクトル (2) わたり領域のスペクトル (3) (1),(2)の差分スペクトル 終了域スペクトルと母音領域スペクトルとの類
似度計算の結果により、必要であれば (4) 終了域スペクトル 上記の4種類の特性を用いたパターンマツチン
グ部21における計算方法を以下に説明する。こ
こで行なわれる認識計算手法は、従来から行なわ
れているパターンマツチング法に則つたものであ
る。最初にパターンメモリ20に記録されている
母音領域スペクトルと5種類の母音「あいうえ
お」と「ん」の各標準スペクトルとの類似度(距
離)を計算して、最も類似している(距離の近
い)母音を選択する。1個の母音が選ばれると、
わたり領域スペクトルと差分スペクトルを用い、
選ばれた母音の子音系列、たとえば「あ」が選ば
れると、「あ,か,さ,た,な,……」の系列に
おいて、あらかじめ用意したわたり領域の標準ス
ペクトル、および差分の標準スペクトルとの類似
度を計算する。次に2つの特性における結果を総
合して、1個の単音節を選択する。ここで、前記
のように終了域スペクトルと母音領域スペクトル
が一致しているという情報を得た場合には、母音
が1個で形成されている単音節グループ、上記の
例においては「あ,か,さ,た,な,…,ば,
ぱ」の15個の単音節グループと計算が行なわれ
る。また、一致していないという情報を得ると、
概略母音が2個で形成される単音節「きや,し
や,ちや,…,ぴや」の12個のグループと計算が
行なわれ、1個の単音節が選択される。
〔発明の効果〕
本発明によれば、単音節の子音と母音の中間領
域であるわたり領域のスペクトルを比較的簡単な
方法で得るようにしたため、単音節の振幅の大き
さに影響されずに、ほぼ同一条件で単音節認識の
有力なデータを得ることが出来るようになり、認
識の精度を向上させることが出来た。
わたり領域から母音に移行する領域におけるス
ペクトルの全体的な形状は、母音スペクトル形状
を示し、その中で子音スペクトルの影響が付加し
た形になつている。したがつて、本発明における
差分スペクトルは、子音スペクトルの影響のみを
抽出したことになり、本来のスペクトル形状その
ものによつて単音節が何であるかを同定する方法
に比べて、より秀れた方法を提供するものであ
る。
また、子音から母音にいたる時系列スペクトル
を求めて時系列標準スペクトルと比較する従来の
方法に比べて、差分スペクトルのパターンマツチ
ングは、はるかに簡単な計算で済み、経済的な方
法となつている。
【図面の簡単な説明】
第1図は本発明の認識装置のブロツク図、第2
図は子音と母音を分割する方法の従来例を示した
図、第3図は子音と母音を分割する方法の別の従
来例を示した図、第4図は子音領域検出の問題点
を示した図、第5図は本発明の主要ブロツク図、
第6図は音声エンベロープに対する計算処理法の
説明図、第7図は音声エンベロープに対する計算
処理手順を示すフローチヤート、第8図は本発明
における差分スペクトルの説明図である。 9……エンベロープ形成回路、10,13……
メモリ、11……エンベロープパラメータ計算
部、14……差分スペクトル計算部、15……バ
ンドパスフイルタ群、16……エンベロープ形成
回路、17……マルチプレクサ、18,19……
A/D変換器、20……パタンメモリ、21……
パターンマツチング部、22……標準パタンメモ
リ、23……出力バツフア、24……コントロー
ラ。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声を周波数分析し、子音から母音領域
    にいたる複数個のスペクトルパターンを生成し、
    あらかじめ記憶させた標準スペクトルパターンと
    の類似度を計算することにより、上記入力音声を
    認識するようにした音声認識装置において、上記
    音声信号のエンベロープを形成する手段と、該エ
    ンベロープのうち単音節に相当する振幅データに
    おいて、振幅最大値を示す時点から所定の時間間
    隔を母音領域となし、該単音節の開始時点と該振
    幅最大値を示す時点のほぼ中間領域をわたり領域
    となし、これ等二種の領域の時間的位置を導出す
    る手段と、該時間的位置を記憶する手段と、少な
    くとも該母音領域と該わたり領域の二種のスペク
    トルを個々に検出する手段と、該母音領域スペク
    トルと該わたり領域スペクトルとの差分スペクト
    ルを求める手段とを有し、少なくとも該二種のス
    ペクトルと該差分スペクトルとを認識のためのデ
    ータとすることを特徴とした音声認識装置。
JP59238339A 1984-11-14 1984-11-14 音声認識装置 Granted JPS61117600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59238339A JPS61117600A (ja) 1984-11-14 1984-11-14 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59238339A JPS61117600A (ja) 1984-11-14 1984-11-14 音声認識装置

Publications (2)

Publication Number Publication Date
JPS61117600A JPS61117600A (ja) 1986-06-04
JPH0462598B2 true JPH0462598B2 (ja) 1992-10-06

Family

ID=17028729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59238339A Granted JPS61117600A (ja) 1984-11-14 1984-11-14 音声認識装置

Country Status (1)

Country Link
JP (1) JPS61117600A (ja)

Also Published As

Publication number Publication date
JPS61117600A (ja) 1986-06-04

Similar Documents

Publication Publication Date Title
US6349277B1 (en) Method and system for analyzing voices
JPH0431898A (ja) 音声雑音分離装置
JPS6128998B2 (ja)
US5452398A (en) Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change
JPH04505369A (ja) 波形から安定化された像を発生させる装置及び方法
JPH0462598B2 (ja)
KR100359988B1 (ko) 실시간 화속 변환 장치
JP2000099099A (ja) データ再生装置
JP2001042889A (ja) 音声認識入力音声の音程正規化装置
JP2557497B2 (ja) 男女声の識別方法
JPH0766272B2 (ja) 音声セグメンテ−ション装置
JPS62254198A (ja) 特定話者単音節音声認識装置
JPH04261592A (ja) 自動採譜装置
JPH01165000A (ja) 音韻区間情報形成装置
JPS61273600A (ja) 音声認識装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPS6250800A (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JP2844592B2 (ja) 離散単語音声認識装置
JPS61273599A (ja) 音声認識装置
JPH02232698A (ja) 音声認識装置
JPS63292199A (ja) 音声認識装置
JPS6236699A (ja) 音声識別装置
JPH04253100A (ja) 音声合成装置の音源データ生成方法
JPS63235999A (ja) 音声始端検出装置