JP3973492B2 - Speech synthesis method and apparatus thereof, program, and recording medium recording the program - Google Patents
Speech synthesis method and apparatus thereof, program, and recording medium recording the program Download PDFInfo
- Publication number
- JP3973492B2 JP3973492B2 JP2002162815A JP2002162815A JP3973492B2 JP 3973492 B2 JP3973492 B2 JP 3973492B2 JP 2002162815 A JP2002162815 A JP 2002162815A JP 2002162815 A JP2002162815 A JP 2002162815A JP 3973492 B2 JP3973492 B2 JP 3973492B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- straight
- markov model
- hmm
- hidden markov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法、及びそれらの装置、並びにプログラム、そのプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
従来のヒドンマルコフモデル(HMM)を用いる音声合成手法として、(文献[1] K.Tokuda, T.Kobayashi and S.Imai, "Speech parameter generation from HMM using dynamic features" Proc. ICASSP, pp.660-663, 1995),(文献[2] K.Tokuda, T.Masuko and T.Yamada, T.Kobayashi and S. Imai, "An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features" Proc. Eurospeech, pp.757-760, 1995),(文献[3] T.Masuko, K.Tokuda, T.Kobayashi and S.Imai, "Speech synthesis from HMMs using dynamic features" Proc. ICASSP, pp.389-392, 1996)があげられる。
この手法は、音声認識におけるパラメータと音声合成におけるパラメータに同一のものを用いることで、音声認識で用いられる手法を音声合成に用いて音声合成手法を高機能化したり、音声合成で用いられる手法を音声認識に用いて認識手法を高精度化したりできるという利点を持っている。
【0003】
図1、図2に従来のヒドンマルコフモデル(HMM)による音響モデル学習・音声認識装置、及び音声合成装置の構成を示す。
まず、図1を用いて音声認識モデル学習法と音声認識手法について説明する。
メルケプストラム分析部101では入力された音声をメルケプストラムに変換する。ヒドンマルコフモデル(HMM)の学習時には、このメルケプストラムを音響モデル学習部102に送る。メルケプストラムパラメータと入力音声の学習テキスト(例えば、日本語文、言語的情報の付与された音素系列、または単語系列)からヒドンマルコフモデル(例えば、音素、または単語ヒドンマルコフモデル)を学習する。(すなわち、最大確率(最大尤度)を与えるモデルを選ぶ。)次に学習したモデルを記憶部103に記憶する。認識時には、入力音声のメルケプストラムパラメータを音声認識部104に送り、音響モデル学習部で学習されたヒドンマルコフモデル(HMM)をHMM記憶部103から読み出して比較し、尤度が最大のものを出力することで、テキストに変換する。
【0004】
次に図2を用いて、ヒドンマルコフモデル(HMM)を用いてテキストから音声を作り出す音声合成方式について説明する。
HMM記憶部105に記憶しているヒドンマルコフモデル(HMM)は予め大量のデータより、上述の学習手法を学習しているものとする。まず、構文解析部110では、入力されたテキストを、言語的情報の付与された音素(または単語)系列に変換する。この音素(または単語)情報により音素(または単語)ヒドンマルコフモデル(HMM)が接続され、入力のテキストに対するヒドンマルコフモデル(HMM)の系列を生成する。平滑化パラメータ生成部109で、ヒドンマルコフモデル(HMM)状態系列から自然で滑らかなメルケプストラム系列を出力する。この滑らかなメルケプストラム系列を、音声合成部106では各時刻でMLSAフィルタ108に変換し、音源情報を元にパルス/ノイズ系列生成部107によって生成される信号をこのフィルタを通すことで音声を合成する。なお、音源情報は処理対象となるテキスト列から得られ、ピッチ情報、パワー情報などを含む。
【0005】
【発明が解決しようとする課題】
従来の手法では、メルケプストラムが、音声の包絡スペクトルの微細な構造を表現できず、合成音声の品質が十分でないという問題点があった。また、メルケプストラムを合成する際に用いられる逆メル変換と指数変換を近似するMLSA(Mel Log Spectral Approximation)フィルタは複雑で、例えばサンプリング周波数を変更するということに問題点があった。
音声合成で利用されるSTRAIGHTスペクトルを用いるSTRAIGHT合成系は、高品質に音声を合成できることが知られている。そこで、このパラメータをヒドンマルコフモデル(HMM)を用いた音声合成手法に導入すれば音声合成の品質が向上することが期待できる。しかし、このパラメータは、音声認識には直接利用できないため、ヒドンマルコフモデル(HMM)の学習ができない。たとえ、音声認識に利用できるメルケプストラムなどのパラメータに変換できて、HMMが学習できたとしても、合成音を作成する際に、HMMから生成されるメルケプストラムを使って音声を合成する手段がなかった。このため、HMMを用いた音声合成にはSTRAIGHT合成系を導入するということが実現できなかった。
【0006】
本発明はかかる事情に鑑みて、ヒドンマルコフモデル(HMM)を使った音声合成系に、STRAIGHT合成系を導入し、STRAIGHTメルケプストラムというパラメータに変換する手段と、合成時に作成されるSTRAIGHTメルケプストラムをSTRAIGHTスペクトルに変換する手段を用いることで、認識と合成のパラメータを同一にし、従来のヒドンマルコフモデル(HMM)を用いた合成法が持っていた利点をそのまま残しながら、高品質な合成音声システムを簡単な構成で実現できる新たな技術の提供を目的とする。
【0007】
また、本発明は、ヒドンマルコフモデル(HMM)を用いた音声合成系のパラメータとして、短時間フーリエ変換したスペクトルを対数変換し、離散コサイン変換して求めることができるメルケプストラムを使い、音声認識におけるパラメータとテキストからの音声合成におけるパラメータとで同一のものを用いることで、従来のヒドンマルコフモデル(HMM)を用いた合成法が持っていた利点をそのまま残しながら、高品質な合成音声システムを簡単な構成で実現できる新たな技術の提供を目的とする。
【0008】
【課題を解決するための手段】
本発明では、ヒドンマルコフモデル(HMM)を用いた音声合成に、基本周波数の影響を除去してスペクトラム形状を求める高品質なSTRAIGHT音声合成系を導入することで音声合成の品質向上を実現する。これを実現するために、まず、STRAIGHTスペクトルを音声認識で高性能を実現するSTRAIGHTメルケプストラムに変換する。このメルケプストラム変換は、STRAIGHTスペクトルの対数変換をとり、その結果に対して周波数伸縮離散コサイン変換を行う手段を用いて実行する。これらの手段によりSTRAIGHTスペクトルを音声認識で利用できる形に変形できる。このため、音声認識のパラメータと音声合成のパラメータの統一を実現でき、HMMによる音声合成が持つ利点を保つことができる。このパラメータを用いて音素(または単語)ヒドンマルコフモデル(HMM)を学習する手段と、学習された音素(または単語)ヒドンマルコフモデル(HMM)を用いて音声を認識する手段により、音響モデルの学習と音声認識を実現する。音声合成時には、学習されたヒドンマルコフモデル(HMM)の音素(または単語)系列から自然で滑らかなSTRAIGHTメルケプストラム系列を出力する手段を用いる。さらに、このSTRAIGHTメルケプストラム系列を、逆周波数伸縮離散コサイン変換し、さらに指数変換する手段を用い、STRAIGHTスペクトル系列に変換する。これらの手段によりSTRAIGHTメルケプストラムを音声合成で利用できる形に変形することができる。このため、音声認識のパラメータと音声合成のパラメータの統一を実現でき、HMMによる音声合成が持つ利点を保つことができる。これらの手段によって生成されたSTRAIGHTスペクトル系列とパルス/ノイズ系列生成手段により合成されたパルス/ノイズ系列から、逆FFT重ね合わせ合成する手段により音声を合成する。
【0009】
上記のSTRAIGHTスペクトル生成手段の代わりに短時間フーリエ変換によるスペクトル生成手段を用いてもよい。この場合は、メルケプストラム系列は、短時間フーリエ変換から求められるスペクトラムの対数変換を、周波数伸縮離散コサイン変換したものとなる。このパラメータを使っても、上記音響モデル学習手段、音声認識手段により、ヒドンマルコフモデル(HMM)の学習とヒドンマルコフモデル(HMM)を用いる音声認識も実現できる。合成時は、滑らかなパラメータ生成もできる。この生成された滑らかなパラメータを逆周波数伸縮離散コサイン変換し、指数変換を実行する手段を用いて、スペクトルに変換する。その後、このスペクトル系列とパルス/ノイズ系列生成手段により合成されたパルス/ノイズ系列から、逆FFT重ね合わせ合成する手段により音声を合成する。
以上のような手段により、STRAIGHTパラメータの持つ高品質な合成品質を、ヒドンマルコフモデル(HMM)を用いる音声合成に導入でき、音声合成の品質向上が実現する。
【0010】
【発明の実施の形態】
(音声認識用情報作成・音響モデル作成・音声認識)
図3、図4に音声認識用情報作成・音響モデル作成・音声認識装置の構成を示す。
まず、図3を用いて音声認識用情報作成方法、音響モデル作成方法、音声認識方法、及びそれらの装置について説明する。
音声認識用情報作成部10のSTRAIGHT分析部11において、短時間フーリエ変換部13は、入力された音声を短時間フーリエ変換する。それと同時に、基本周波数推定部12で入力音声の無声/有声の判定を行い、有声の場合は基本周波数を計算(推定)する。その情報を元に、平滑化スペクトラム分析部14は、短時間フーリエ変換された音声から基本周波数の影響を取り除き、平滑化されたスペクトラムに変換する。この変換されたスペクトルをSTRAIGHTスペクトルと呼ぶ。次に、対数変換部15は、STRAIGHTスペクトルの対数変換を行い、周波数伸縮離散コサイン変換部16により、STRAIGHTメルケプストラムに変換する。
【0011】
音響モデルの学習時には、このSTRAIGHTメルケプストラムを音響モデル学習部20に送る。音響モデル学習部20では、STRAIGHTメルケプストラムとそれに対応するテキスト(学習テキスト)から音素(または単語)ヒドンマルコフモデル(HMM)を学習する。次に学習した音素(または単語)ヒドンマルコフモデル(HMM)を記憶部30に記憶する。
認識時には、STRAIGHTメルケプストラムパラメータを、音声認識部40に送り、音響モデル学習部で学習され、記憶部30に保持されたヒドンマルコフモデル(HMM)と比較し、尤度の最も高い値を示すテキストを出力する。これにより音声認識を実現する。
上記の手法で、STRAIGHTスペクトル生成時に、基本周波数推定を行わなくてもよい。このときの音声認識モデル学習法と音声認識手法を図4を用いて説明する。この場合に生成されるメルケプストラム系列は、短時間フーリエ変換から求められるスペクトラムを直接対数変換して周波数伸縮離散コサイン変換したものである。このメルケプストラム系列を使って、上記のようにヒドンマルコフモデル(HMM)の学習を実現することもできる。さらに、ヒドンマルコフモデル(HMM)から滑らかなパラメータを生成することもできる。
【0012】
(音声合成)
図5に音声合成装置の構成を示す。
図5を用いて、テキストから音声を作り出す音声合成方法、及び装置について説明する。
HMM記憶部63に記憶しているヒドンマルコフモデル(HMM)は予め大量のデータより、上記の学習手法により作成する。音声合成用情報生成部60では、まず、入力されたテキストを、構文解析部62により、言語的情報の付与された音素(または単語)系列に変換する。平滑化パラメータ生成部61では、この音素(または単語)情報により音素(または単語)ヒドンマルコフモデル(HMM)が接続され、入力のテキストに対する音素(または単語)ヒドンマルコフモデル(HMM)の系列が生成される。入力が音素系列である場合は、構文解析部では構文解析を行わず、その音素情報からヒドンマルコフモデル(HMM)をつなぎ合わせて、入力に対する音素(または単語)ヒドンマルコフモデル(HMM)を作成する。また、入力がヒドンマルコフモデル(HMM)の状態系列である場合は、音素(または単語)ヒドンマルコフモデル(HMM)系列の代わりに、ヒドンマルコフモデル(HMM)の状態系列を作成する。平滑化パラメータ生成部では、さらに、音素(または単語)ヒドンマルコフモデル(HMM)系列から自然で滑らかなSTRAIGHTメルケプストラム系列を出力する。このSTRAIGHTメルケプストラム系列が音声合成部50に入力される。音声合成部50の逆周波数伸縮離散コサイン変換部55では、このSTRAIGHTメルケプストラム系列を逆周波数伸縮離散コサイン変換し、さらに、指数変換部54において指数変換することで、STRAIGHTスペクトル系列に変換し、STRAIGHTスペクトル系列とパルス/ノイズ生成部52によって生成された信号から逆FFT重ね合わせ合成部53により音声を合成する。
上記の手法で、音声認識用情報作成部で、基本周波数推定部を使わない場合には、このヒドンマルコフモデル(HMM)から生成された滑らかなパラメータを逆周波数伸縮離散コサイン変換し、さらに指数変換することで、スペクトルに変換する。その後、このスペクトル系列とパルス/ノイズ生成部によって生成されたパルス/ノイズ列から逆FFT重ね合わせ合成により音声を合成する。
各構成部について詳細に説明する。
【0013】
(STRAIGHT分析部)
STRAIGHT分析部11では、短時間フーリエ変換部13において、入力された音声を短時間フーリエ変換する。それと同時に、基本周波数推定部12は、入力音声の無声/有声の判定を行い、有声の場合は、基本周波数を計算する。その情報を元に、平滑化スペクトラム分析部14において、短時間フーリエ変換された音声から基本周波数の影響を取り除き、平滑化したスペクトラムに変換する。この変換されたスペクトルをSTRAIGHTスペクトルと呼ぶ。このSTRAIGHTスペクトルは次に周波数伸縮離散コサイン変換部16へ送られる。
【0014】
(周波数伸縮離散コサイン変換部)
周波数伸縮離散コサイン変換部16では入力されたSTRAIGHTスペクトルの対数変換を行い、その結果に対して周波数伸縮離散コサイン変換を行う。この変換の核の関数は、
【数1】
と定義されるフィルタの周波数応答の実数部である。Re[Ψm(ω)]の実部は{ω|0≦ω≦π}の時、正規化直交変換になる。αは、周波数伸縮の度合いを決定する係数である。その伸縮の度合いは、
【数2】
という式によって求めることができる。αが0のときには、Re[Ψm(ω)]=cos(mω)となり、離散コサイン変換となる。αが0と1の間では、Re[Ψm(ω)]は直交性を保存する重みつき関数による
【数3】
以上の変換でSTRAIGHTスペクトルはSTRAIGHTメルケプストラムに変換される。
【0015】
(音響モデル学習部)
音響モデル学習時には、このSTRAIGHTメルケプストラムを、音響モデル学習部20へ入力する。音響モデル学習部20では、入力されたSTRAIGHTメルケプストラムを使って、EM(expectation-maximization)アルゴリズムにより音素(または単語)ヒドンマルコフモデル(HMM)の学習を行う。上記の手法では、STRAIGHTスペクトル生成時に基本周波数推定を行わなくてもよい。この場合は、メルスペクトラム系列は、短時間フーリエ変換から求められるスペクトラムの対数変換を、周波数伸縮離散コサイン変換したものである。このメルケプストラム系列を使っても、上記のようにヒドンマルコフモデル(HMM)の学習ができる。さらに、ヒドンマルコフモデル(HMM)による音声認識も実現できる。
【0016】
(音声合成)
音響モデル学習部で作成されたヒドンマルコフモデル(HMM)を用いた音声合成は以下のように実現する。まず、入力されたテキストは、構文解析部62により、言語的情報の付与された音素(または単語)系列に変換される。この音素(または単語)情報により音素(または単語)ヒドンマルコフモデル(HMM)が接続され、入力のテキストに対する音素(または単語)ヒドンマルコフモデル(HMM)の系列が生成される。入力が音素系列である場合は、構文解析部では構文解析を行わず、その音素情報からヒドンマルコフモデル(HMM)をつなぎ合わせて、入力に対する音素(または単語)ヒドンマルコフモデル(HMM)系列を作成する。また、入力がヒドンマルコフモデル(HMM)の状態系列である場合には、音素(または単語)ヒドンマルコフモデル(HMM)系列の代わりに、ヒドンマルコフモデル(HMM)の状態系列を作成する。平滑化パラメータ生成部61は、音素(または単語)ヒドンマルコフモデル(HMM)系列から自然で滑らかなメルケプストラムパラメータ系列を出力する。この滑らかにする手法について以下に述べる。
【0017】
上で述べた学習によって、ヒドンマルコフモデル(HMM)が学習されているとする。ここで、S=[s1,s2,・・・,sT]は、ヒドンマルコフモデル(HMM)のガウス分布時系列、M=[μ1,μ2,・・・,μT]、ΔM=[Δμ1,Δμ2,・・・,ΔμT]、Δ2M=[Δ2μ1,Δ2μ2,・・・,Δ2μT]は、そのガウス分布時系列でのヒドンマルコフモデル(HMM)のSTRAIGHTメルケプストラム、その微分係数であるΔSTRAIGHTメルケプストラム、2次微分係数Δ2STRAIGHTメルケプストラムの平均値のベクトル時系列である。また、Σ=[Σ1,Σ2,・・・,ΣT]、ΔΣ=[ΔΣ1,ΔΣ2,・・・,ΔΣT]、Δ2Σ=[Δ2Σ1,Δ2Σ2,・・・,Δ2ΣT]は、ヒドンマルコフモデル(HMM)のSTRAIGHTメルケプストラム、ΔSTRAIGHTメルケプストラム、Δ2 STRAIGHTメルケプストラム共分散行列の時系列である(対角共分散行列を仮定している)。ところで、STRAIGHTメルケプストラムC=[c1,c2,・・・,cT]、ΔSTRAIGHTメルケプストラムΔC=[Δc1,Δc2,・・・,ΔcT]、Δ2STRAIGHTメルケプストラムΔ2C=[Δ2c1,Δ2c2,・・・,Δ2cT]の間には(3),(4)に示すような拘束条件がある(拘束条件にはこの他にも複数考えられるがどれを使っても同様なことが実現できる)。
【数4】
ここで、2L+1はウィンドウサイズ、b0,b1とb2はウィンドウサイズによって決まる固定値である、このヒドンマルコフモデル(HMM)の平均値時系列から文献[1〜3]手法を使って、この平均値の時系列を変形して、滑らかなSTRAIGHTメルケプストラムを生成する。ここでその手法について説明する。いま、ガウス分布時系列が与えられていると仮定する。与えられたガウス分布時系列に対して(3),(4)の条件の下で(5)を最大化するC,ΔC,Δ2Cを選ぶことによって、STRAIGHTメルケプストラムの時系列を生成する。これは、(5)に(3),(4)を代入し、ΔC,Δ2Cを消去してCだけで表現し、これをCで偏微分した(6)を満たすCを求めることによって実現できる。これにより、滑らかなSTRAIGHTメルケプストラムの係数が得られる。
【数5】
上記手法では、STRAIGHTメルケプストラムの2次微分までしか用いていないが、3次、4次以降の項を導入することもできる。また、上記手法以外に、フィルタを用いて、ヒドンマルコフモデル(HMM)のSTRAIGHTメルケプストラム系列の平均値系列を滑らかにする手法も利用できる。
【0018】
このようにして作成された滑らかなSTRAIGHTメルケプストラム系列は、逆周波数伸縮離散コサイン変換部55へ入力される。逆周波数伸縮離散コサイン変換部では逆周波数伸縮離散コサインを行う。周波数伸縮離散コサイン変換は、直交変換なので、逆周波数伸縮離散コサイン変換もこの変換から容易に計算できる。この変換を行って、さらに指数変換を行うことによりSTRAIGHTメルケプストラム系列は、STRAIGHTメルケプストラム系列はSTRAIGHTスペクトルの系列に変換される。STRAIGHT音声合成部51では、このSTRAIGHTスペクトル系列とパルス/ノイズ生成部52によって生成されたパルス/ノイズ列から逆FFTと重ね合わせ合成により音声を合成する。
【0019】
(パルス/ノイズ系列生成部)
次に、パルス/ノイズ系列生成部32について述べる。まず、基本的なパルス/ノイズ系列生成手法を示す。これはある話者が発声した音声から抽出した基本周波数をそのまま利用する方法である。この手法を図6に示す。この方法では入力の音声から直接、基本周波数を推定し、その基本周波数を合成に利用する。
図7に基本周波数モデル学習部の構成、図8にヒドンマルコフモデル(HMM)を利用した場合のパルス/ノイズ系列生成部の構成を示す。
図7と図8を用いて、ヒドンマルコフモデル(HMM)を利用した場合のパルス/ノイズ系列生成部32について述べる。
図7では、パルス/ノイズ生成の場合のヒドンマルコフモデル(HMM)の学習方法について示す。入力された音声から基本周波数推定部52-3では、無声/有声を判断し、その結果を出力する。また、有声の場合は、その周波数の情報も出力する。この出力された情報は、基本周波数モデル学習部52-2に送られる。これらの基本周波数、その微分係数、2次微分係数および、無声/有声の情報と、それに対応する学習テキストを使って、基本周波数、その微分係数、2次微分係数の平均値と分散および無声/有声の情報を、音素(または単語)基本周波数ヒドンマルコフモデル(HMM)の構造上に、EMアルゴリズムを使って学習する。次に、学習した基本周波数ヒドンマルコフモデル(HMM)を記憶部52-4に記憶する。
【0020】
図8にヒドンマルコフモデル(HMM)を利用した場合のパルス/ノイズ合成について示す。まず、最初に入力されたテキストは、構文解析部52-8により、言語的情報の付与された音素(または単語)系列に変換される。この音素(または単語)情報により音素(または単語)基本周波数ヒドンマルコフモデル(HMM)が接続され、入力のテキストに対する音素(または単語)基本周波数ヒドンマルコフモデル(HMM)の系列が生成される。入力が音素系列である場合は、構文解析部では構文解析を行わず、その音素情報から音素(または単語)基本周波数ヒドンマルコフモデル(HMM)をつなぎ合わせて、入力に対する音素(または単語)基本周波数ヒドンマルコフモデル(HMM)系列を作成する。また、入力がヒドンマルコフモデル(HMM)の状態系列である場合は、音素(または単語)基本周波ヒドンマルコフモデル(HMM)の代わりに、基本周波数ヒドンマルコフモデル(HMM)の状態系列を作成する。平滑化パルス/ノイズ生成部52-7では、入力に対する音素(または単語)基本周波ヒドンマルコフモデル(HMM)系列から、滑らかなSTRAIGHTメルケプストラム生成のときの手法と同じ平滑化手法により滑らかな基本周波数系列を出力し、パルス情報に変換する。ただし、ヒドンマルコフモデル(HMM)の状態が無声音であれば、平滑化を行わず、ノイズを生成する。
【0021】
上記の手法で、音声認識用情報作成部で、基本周波数推定部を使わない場合には、このヒドンマルコフモデル(HMM)から生成された滑らかなパラメータを逆周波数伸縮離散コサイン変換し、さらに指数変換することで、スペクトルに変換する。その後、このスペクトル系列とパルス/ノイズ生成部によって生成されたパルス/ノイズ列から逆FFT重ね合わせ合成により音声を合成する。このパルス/ノイズ列の生成には、上述したパルス/ノイズ列生成手法が利用できる。
【0022】
なお、上記に記載の音声認識用情報作成・音響モデル作成・音声認識装置及び音声合成装置は、CPUやメモリ等を有するコンピュータと、アクセス主体となるユーザが利用する端末と、記録媒体から構成することができる。記録媒体は、CD−ROM、磁気ディスク装置、半導体メモリ等機械読み取り可能な記録媒体であり、ここに記録された制御用プログラムは、コンピュータに読み取られ、コンピュータの動作を制御し、コンピュータ上に前述した各構成要素を実現することができる。
【0023】
【発明の効果】
以上説明したように、本発明によれば、ヒドンマルコフモデル(HMM)を用いた音声合成系に、STRAIGHT合成系を導入し、音声認識におけるパラメータとテキストからの音声合成におけるパラメータとで同一のものを用いることで、従来のヒドンマルコフモデル(HMM)を用いた合成法が持っていた利点をそのまま残しながら、高品質でかつ簡単なシステム構成で実現できる。
また、本発明によれば、ヒドンマルコフモデル(HMM)を用いた音声合成系のパラメータとして、短時間フーリエ変換したスペクトルを対数変換して離散コサイン変換して求めることができるメルケプストラムを使うことで、音声認識におけるパラメータとテキストからの音声合成におけるパラメータとで同一のものを用いることで、従来のヒドンマルコフモデル(HMM)を用いた合成法が持っていた利点をそのまま残しながら、高品質でかつ簡単なシステム構成が実現できる。
【図面の簡単な説明】
【図1】従来のヒドンマルコフモデル(HMM)による音響モデル学習および音声認識装置の構成図。
【図2】従来のヒドンマルコフモデル(HMM)による音声合成装置の構成図。
【図3】本発明の実施例である音声認識用情報作成・音響モデル作成・音声認識装置の構成図。
【図4】本発明の他の実施例である音声認識用情報作成・音響モデル作成・音声認識装置の構成図。
【図5】本発明の実施例であるテキストから音声を作り出す音声合成装置の構成図。
【図6】パルス/ノイズ系列生成部の説明図。
【図7】基本周波数モデル学習部の構成図。
【図8】ヒドンマルコフモデル(HMM)を利用した場合のパルス/ノイズ系列生成部の構成図。
【符号の説明】
10・・・音声認識用情報作成部
11・・・STRAIGHT分析部
12・・・基本周波数推定部、13・・・短時間フーリエ変換部、14・・・平滑化スペクトラム分析部
15・・・対数変換部
16・・・周波数伸縮離散コサイン変換部
20・・・音響モデル学習部
30・・・HMM(音響モデル)記憶部
40・・・音声認識部
50・・・音声合成部
51・・・STRAIGHT音声合成部
52・・・パルス/ノイズ系列生成部、53・・・逆FFT重ね合わせ合成部
54・・・指数変換部
55・・・逆周波数伸縮離散コサイン変換部
60・・・音声合成用情報生成部
61・・・平滑化パラメータ生成部、62・・・構文解析部、63・・・HMM(音響モデル)記憶部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition information creation method, an acoustic model creation method, a speech recognition method, a speech synthesis information creation method, a speech synthesis method, a device thereof, a program, and a recording medium on which the program is recorded.
[0002]
[Prior art]
As a speech synthesis method using the conventional Hidden Markov Model (HMM) (Ref. [1] K. Tokuda, T. Kobayashi and S. Imai, "Speech parameter generation from HMM using dynamic features" Proc. ICASSP, pp.660- 663, 1995), (Ref. [2] K. Tokuda, T. Masuko and T. Yamada, T. Kobayashi and S. Imai, "An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features" Proc. Eurospeech, pp .757-760, 1995), (Ref. [3] T.Masuko, K.Tokuda, T.Kobayashi and S.Imai, "Speech synthesis from HMMs using dynamic features" Proc. ICASSP, pp.389-392, 1996) Can be given.
This method uses the same parameters for speech recognition and speech synthesis, so that the method used for speech recognition can be used for speech synthesis to enhance the functionality of speech synthesis, or the method used for speech synthesis. It has the advantage that the recognition method can be made highly accurate by using it for speech recognition.
[0003]
FIG. 1 and FIG. 2 show the configuration of a conventional acoustic model learning / speech recognition apparatus and speech synthesis apparatus based on the Hidden Markov Model (HMM).
First, a speech recognition model learning method and a speech recognition method will be described with reference to FIG.
The mel
[0004]
Next, a speech synthesis method for generating speech from text using the Hidden Markov Model (HMM) will be described with reference to FIG.
It is assumed that the Hidden Markov Model (HMM) stored in the HMM storage unit 105 has learned the above-described learning method from a large amount of data in advance. First, the
[0005]
[Problems to be solved by the invention]
The conventional method has a problem that the mel cepstrum cannot express the fine structure of the speech envelope spectrum and the quality of the synthesized speech is not sufficient. In addition, an MLSA (Mel Log Spectral Approximation) filter for approximating the inverse Mel transformation and exponential transformation used when synthesizing the mel cepstrum is complicated, and has a problem in changing the sampling frequency, for example.
It is known that the STRAIGHT synthesis system using the STRAIGHT spectrum used in speech synthesis can synthesize speech with high quality. Therefore, if this parameter is introduced into a speech synthesis method using the Hidden Markov Model (HMM), it can be expected that the quality of speech synthesis will be improved. However, since this parameter cannot be directly used for speech recognition, the Hidden Markov Model (HMM) cannot be learned. Even if it can be converted into parameters such as mel cepstrum that can be used for speech recognition and HMM can be learned, there is no means to synthesize speech using mel cepstrum generated from HMM when creating synthesized speech It was. For this reason, it has not been possible to implement the STRAIGHT synthesis system for speech synthesis using HMM.
[0006]
In view of such circumstances, the present invention introduces a STRAIGHT synthesis system into a speech synthesis system using a Hidden Markov model (HMM) and converts it into a parameter called STRAIGHT mel cepstrum, and a STRAIGHT mel cepstrum created at the time of synthesis. By using the means to convert to a STRAIGHT spectrum, the recognition and synthesis parameters are the same, and the high-quality synthesized speech system can be created while retaining the advantages of the synthesis method using the conventional Hidden Markov Model (HMM). The purpose is to provide a new technology that can be realized with a simple configuration.
[0007]
In addition, the present invention uses a mel cepstrum that can be obtained by logarithmically transforming a short-time Fourier transform spectrum and performing discrete cosine transform as a speech synthesis system parameter using the Hidden Markov Model (HMM). By using the same parameters and parameters for text-to-speech synthesis, it is easy to create a high-quality synthesized speech system while retaining the advantages of the conventional synthesis method using the Hidden Markov Model (HMM). The purpose is to provide a new technology that can be realized with a simple configuration.
[0008]
[Means for Solving the Problems]
In the present invention, the quality of speech synthesis is improved by introducing a high-quality STRAIGHT speech synthesis system that removes the influence of the fundamental frequency and obtains the spectrum shape into speech synthesis using the Hidden Markov Model (HMM). In order to realize this, first, the STRAIGHT spectrum is converted into a STRAIGHT mel cepstrum that realizes high performance by speech recognition. This mel cepstrum transformation is executed using means for performing logarithmic transformation of the STRAIGHT spectrum and performing frequency expansion / contraction discrete cosine transformation on the result. By these means, the STRAIGHT spectrum can be transformed into a form that can be used for speech recognition. For this reason, the unification of the speech recognition parameters and the speech synthesis parameters can be realized, and the advantages of speech synthesis by HMM can be maintained. Learning of an acoustic model by means of learning a phoneme (or word) hidden Markov model (HMM) using this parameter and means for recognizing speech using the learned phoneme (or word) hidden Markov model (HMM) Realize voice recognition. At the time of speech synthesis, means for outputting a natural and smooth STRAIGHT mel cepstrum sequence from the phoneme (or word) sequence of the learned Hidden Markov Model (HMM) is used. Further, this STRAIGHT mel cepstrum sequence is converted into a STRAIGHT spectrum sequence by means of inverse frequency expansion / contraction discrete cosine transform and exponential transformation. By these means, the STRAIGHT mel cepstrum can be transformed into a form that can be used in speech synthesis. For this reason, the unification of the speech recognition parameters and the speech synthesis parameters can be realized, and the advantages of speech synthesis by HMM can be maintained. From the STRAIGHT spectrum sequence generated by these means and the pulse / noise sequence synthesized by the pulse / noise sequence generating means, speech is synthesized by means of inverse FFT superposition synthesis.
[0009]
Instead of the above STRAIGHT spectrum generation means, spectrum generation means by short-time Fourier transform may be used. In this case, the mel cepstrum sequence is obtained by frequency-stretching discrete cosine transform of the logarithmic transform of the spectrum obtained from the short-time Fourier transform. Even with this parameter, learning of the Hidden Markov model (HMM) and speech recognition using the Hidden Markov model (HMM) can be realized by the acoustic model learning means and the voice recognition means. Smooth parameters can be generated during synthesis. The generated smooth parameter is subjected to inverse frequency expansion / contraction discrete cosine transform, and converted to a spectrum using means for performing exponential transform. Thereafter, speech is synthesized by means of inverse FFT superposition synthesis from the spectrum series and the pulse / noise series synthesized by the pulse / noise series generation means.
By the means described above, high-quality synthesis quality possessed by the STRAIGHT parameter can be introduced into speech synthesis using the Hidden Markov Model (HMM), and speech synthesis quality can be improved.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
(Information creation for voice recognition, acoustic model creation, voice recognition)
FIG. 3 and FIG. 4 show the configuration of the speech recognition information creation / acoustic model creation / speech recognition device.
First, a speech recognition information creation method, an acoustic model creation method, a speech recognition method, and devices thereof will be described with reference to FIG.
In the
[0011]
At the time of learning the acoustic model, this STRAIGHT mel cepstrum is sent to the acoustic
At the time of recognition, the STRAIGHT mel cepstrum parameter is sent to the
With the above method, it is not necessary to perform fundamental frequency estimation when generating the STRAIGHT spectrum. The speech recognition model learning method and speech recognition method at this time will be described with reference to FIG. The mel cepstrum sequence generated in this case is obtained by directly logarithmically transforming the spectrum obtained from the short-time Fourier transform and performing frequency expansion / contraction discrete cosine transform. Using this mel cepstrum sequence, learning of a Hidden Markov model (HMM) can also be realized as described above. Furthermore, smooth parameters can be generated from the Hidden Markov Model (HMM).
[0012]
(Speech synthesis)
FIG. 5 shows the configuration of the speech synthesizer.
A speech synthesis method and apparatus for creating speech from text will be described with reference to FIG.
The Hidden Markov Model (HMM) stored in the HMM storage unit 63 is created from a large amount of data in advance by the learning method described above. In the speech synthesis
In the above method, when the fundamental frequency estimation unit is not used in the speech recognition information creation unit, the smooth parameter generated from the Hidden Markov Model (HMM) is subjected to inverse frequency expansion / contraction discrete cosine transform, and then exponential transform To convert it to a spectrum. Thereafter, speech is synthesized from the spectrum series and the pulse / noise sequence generated by the pulse / noise generator by inverse FFT superposition synthesis.
Each component will be described in detail.
[0013]
(STRAIGHT Analysis Department)
In the
[0014]
(Frequency expansion / contraction discrete cosine transform unit)
The frequency expansion / contraction discrete
[Expression 1]
Is the real part of the frequency response of the filter defined as Re [Ψ m The real part of (ω)] is normalized orthogonal transform when {ω | 0 ≦ ω ≦ π}. α is a coefficient that determines the degree of frequency expansion and contraction. The degree of expansion and contraction is
[Expression 2]
It can be calculated by the formula. When α is 0, Re [Ψ m (Ω)] = cos (mω), which is a discrete cosine transform. When α is between 0 and 1, Re [Ψ m (Ω)] depends on a weighted function that preserves orthogonality
[Equation 3]
With the above conversion, the STRAIGHT spectrum is converted to the STRAIGHT mel cepstrum.
[0015]
(Acoustic Model Learning Department)
At the time of acoustic model learning, this STRAIGHT mel cepstrum is input to the acoustic
[0016]
(Speech synthesis)
Speech synthesis using the Hidden Markov Model (HMM) created by the acoustic model learning unit is realized as follows. First, the input text is converted into a phoneme (or word) sequence to which linguistic information is added by the syntax analysis unit 62. A phoneme (or word) hidden Markov model (HMM) is connected by this phoneme (or word) information, and a phoneme (or word) hidden Markov model (HMM) sequence for the input text is generated. If the input is a phoneme sequence, the syntactic analysis unit does not perform the syntax analysis, and creates a phoneme (or word) Hidden Markov model (HMM) sequence for the input by connecting the Hidden Markov model (HMM) from the phoneme information. To do. When the input is a Hidden Markov Model (HMM) state sequence, a Hidden Markov Model (HMM) state sequence is created instead of the phoneme (or word) Hidden Markov Model (HMM) sequence. The smoothing
[0017]
It is assumed that the Hidden Markov Model (HMM) is learned by the learning described above. Where S = [s 1 , s 2 , ..., s T ] Is the Gaussian time series of Hidden Markov Model (HMM), M = [μ 1 , μ 2 , ..., μ T ], ΔM = [Δμ 1 , Δμ 2 , ..., Δμ T ], Δ 2 M = [Δ 2 μ 1 , Δ 2 μ 2 , ..., Δ 2 μ T ] Is the STRAIGHT mel cepstrum of the Hidden Markov model (HMM) in the Gaussian time series, and the differential coefficient ΔSTRAIGHT mel cepstrum, the second derivative Δ 2 This is a vector time series of mean values of STRAIGHT mel cepstrum. Also, Σ = [Σ 1 , Σ 2 , ..., Σ T ], ΔΣ = [ΔΣ 1 , ΔΣ 2 , ..., ΔΣ T ], Δ 2 Σ = [Δ 2 Σ 1 , Δ 2 Σ 2 , ..., Δ 2 Σ T ] Is the Hidden Markov Model (HMM) STRAIGHT Mel Cepstrum, ΔSTRAIGHT Mel Cepstrum, Δ 2 STRAIGHT A mel cepstrum covariance matrix time series (assuming a diagonal covariance matrix). By the way, STRAIGHT Mel Cepstrum C = [c 1 , c 2 , ..., c T ], ΔSTRAIGHT Mel Cepstrum ΔC = [Δc 1 , Δc 2 , ..., Δc T ], Δ 2 STRAIGHT Mel Cepstrum Δ 2 C = [Δ 2 c 1 , Δ 2 c 2 , ..., Δ 2 c T ], There are constraint conditions as shown in (3) and (4) (a plurality of other constraint conditions can be considered, but the same can be realized by using any of them).
[Expression 4]
Where 2L + 1 is the window size, b 0 , b 1 And b 2 Is a fixed value determined by the window size, using the reference [1-3] method from the mean time series of this Hidden Markov Model (HMM), transforming the mean time series to make a smooth STRAIGHT mel cepstrum Is generated. Here, the method will be described. Assume that a Gaussian time series is given. C, ΔC, Δ which maximizes (5) under the conditions of (3) and (4) for a given Gaussian time series 2 By selecting C, a time series of STRAIGHT mel cepstrum is generated. This is because (3) and (4) are substituted into (5), and ΔC, Δ 2 This can be realized by eliminating C and expressing it only by C, and subtracting this from C to obtain C that satisfies (6). As a result, smooth STRAIGHT mel cepstrum coefficients are obtained.
[Equation 5]
In the above method, only the second derivative of the STRAIGHT mel cepstrum is used, but terms of the third and fourth order can be introduced. In addition to the above method, a method of smoothing the average value sequence of the STRAIGHT mel cepstrum sequence of the Hidden Markov model (HMM) using a filter can be used.
[0018]
The smooth STRAIGHT mel cepstrum sequence created in this way is input to the inverse frequency expansion / contraction discrete
[0019]
(Pulse / Noise sequence generator)
Next, the pulse / noise sequence generation unit 32 will be described. First, a basic pulse / noise sequence generation method is shown. This is a method in which a fundamental frequency extracted from a voice uttered by a certain speaker is used as it is. This technique is shown in FIG. In this method, a fundamental frequency is estimated directly from input speech, and the fundamental frequency is used for synthesis.
FIG. 7 shows the configuration of the fundamental frequency model learning unit, and FIG. 8 shows the configuration of the pulse / noise sequence generation unit when the Hidden Markov model (HMM) is used.
The pulse / noise sequence generation unit 32 when the Hidden Markov model (HMM) is used will be described with reference to FIGS.
FIG. 7 shows a learning method of the Hidden Markov Model (HMM) in the case of pulse / noise generation. The fundamental frequency estimation unit 52-3 determines unvoiced / voiced from the input voice and outputs the result. In the case of voiced information, the frequency information is also output. This output information is sent to the fundamental frequency model learning unit 52-2. Using these fundamental frequencies, their differential coefficients, secondary differential coefficients and unvoiced / voiced information and the corresponding learning text, the fundamental frequency, its differential coefficients, the average value and variance of the secondary differential coefficients, and unvoiced / Voiced information is learned using the EM algorithm on the structure of a phoneme (or word) fundamental frequency Hidden Markov model (HMM). Next, the learned fundamental frequency hidden Markov model (HMM) is stored in the storage unit 52-4.
[0020]
FIG. 8 shows pulse / noise synthesis when the Hidden Markov Model (HMM) is used. First, the first input text is converted into a phoneme (or word) sequence to which linguistic information is added by the syntax analysis unit 52-8. The phoneme (or word) fundamental frequency hidden Markov model (HMM) is connected by this phoneme (or word) information, and a sequence of phoneme (or word) fundamental frequency hidden Markov model (HMM) for the input text is generated. If the input is a phoneme sequence, the syntactic analysis unit does not perform the parsing, and the phoneme (or word) fundamental frequency Hidden Markov model (HMM) is connected from the phoneme information to obtain the phoneme (or word) fundamental frequency for the input. Create a Hidden Markov Model (HMM) series. When the input is a Hidden Markov model (HMM) state sequence, a state sequence of the fundamental frequency Hidden Markov model (HMM) is created instead of the phoneme (or word) fundamental frequency Hidden Markov model (HMM). The smoothing pulse / noise generation unit 52-7 uses the same smoothing method as that used to generate a smooth STRAIGHT mel cepstrum from the phoneme (or word) fundamental frequency Hidden Markov model (HMM) sequence for the input to smooth the fundamental frequency. Output sequence and convert to pulse information. However, if the Hidden Markov Model (HMM) is in an unvoiced sound, smoothing is not performed and noise is generated.
[0021]
In the above method, when the fundamental frequency estimation unit is not used in the speech recognition information creation unit, the smooth parameter generated from the Hidden Markov Model (HMM) is subjected to inverse frequency expansion / contraction discrete cosine transform, and then exponential transform To convert it to a spectrum. Thereafter, speech is synthesized from the spectrum series and the pulse / noise sequence generated by the pulse / noise generator by inverse FFT superposition synthesis. The pulse / noise train generation method described above can be used to generate this pulse / noise train.
[0022]
The speech recognition information creation / acoustic model creation / speech recognition device and speech synthesizer described above are composed of a computer having a CPU, a memory, etc., a terminal used by a user who is an access subject, and a recording medium. be able to. The recording medium is a machine-readable recording medium such as a CD-ROM, a magnetic disk device, and a semiconductor memory. The control program recorded on the recording medium is read by a computer, controls the operation of the computer, and is stored on the computer. Each component can be realized.
[0023]
【The invention's effect】
As described above, according to the present invention, the STRAIGHT synthesis system is introduced into the speech synthesis system using the Hidden Markov Model (HMM), and the parameters for speech recognition and the parameters for speech synthesis from text are the same. By using this, it is possible to realize a high-quality and simple system configuration while leaving the advantages of the synthesis method using the conventional Hidden Markov Model (HMM) as it is.
Further, according to the present invention, as a speech synthesis system parameter using a Hidden Markov Model (HMM), a mel cepstrum that can be obtained by logarithmically transforming a short-time Fourier transformed spectrum and performing discrete cosine transformation is used. By using the same parameters for speech recognition and text-to-speech synthesis, while maintaining the advantages of the synthesis method using the conventional Hidden Markov Model (HMM), the quality and A simple system configuration can be realized.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of an acoustic model learning and speech recognition apparatus using a conventional Hidden Markov model (HMM).
FIG. 2 is a configuration diagram of a speech synthesizer using a conventional Hidden Markov model (HMM).
FIG. 3 is a configuration diagram of a speech recognition information creation / acoustic model creation / speech recognition apparatus according to an embodiment of the present invention.
FIG. 4 is a configuration diagram of a speech recognition information creation / acoustic model creation / speech recognition apparatus according to another embodiment of the present invention.
FIG. 5 is a configuration diagram of a speech synthesizer that creates speech from text according to an embodiment of the present invention.
FIG. 6 is an explanatory diagram of a pulse / noise sequence generation unit.
FIG. 7 is a configuration diagram of a fundamental frequency model learning unit.
FIG. 8 is a configuration diagram of a pulse / noise sequence generator when a Hidden Markov Model (HMM) is used.
[Explanation of symbols]
10 ・ ・ ・ Information creation part for voice recognition
11 ・ ・ ・ STRAIGHT Analysis Department
12 ... Fundamental frequency estimation unit, 13 ... Short-time Fourier transform unit, 14 ... Smoothed spectrum analysis unit
15: Logarithmic converter
16 ・ ・ ・ Frequency expansion / contraction discrete cosine transform unit
20 ・ ・ ・ Acoustic Model Learning Department
30 ・ ・ ・ HMM (acoustic model) storage
40 Voice recognition unit
50: Speech synthesis unit
51 ・ ・ ・ STRAIGHT speech synthesis unit
52 ... Pulse / noise sequence generation unit, 53 ... Inverse FFT superposition synthesis unit
54 ... Exponential conversion part
55 ・ ・ ・ Inverse frequency expansion / contraction discrete cosine transform unit
60 ・ ・ ・ Information generator for speech synthesis
61 ... smoothing parameter generation unit, 62 ... syntax analysis unit, 63 ... HMM (acoustic model) storage unit
Claims (8)
学習用音声の STRAIGHT スペクトルを対数変換し、この結果に対して周波数伸縮離散コサイン変換Re [ Ψ m (z) ] (ただし、Re [ Ψ m (z) ] はΨ m (z)の実部であり、Ψ m (z)は
STRAIGHTメルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、STRAIGHTメルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するSTRAIGHT メルケプストラム系列を選択することでSTRAIGHTメルケプストラム系列(滑らかなSTRAIGHTメルケプストラム系列)を作成するステップと、
上記滑らかな STRAIGHT メルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re [ Ψ m (z) ] の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換して STRAIGHT スペクトル系列を作成するステップと、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記 STRAIGHT スペクトル系列から逆FFTと重ね合わせ合成により音声合成を行うステップと、
を有することを特徴とする音声合成方法。 The method comprising the steps of: parsing the input text,
The STRAIGHT spectrum of training speech logarithmic transformation, the real part of the result for the frequency stretching discrete cosine transform Re [Ψ m (z)] ( provided that, Re [Ψ m (z) ] is [psi m (z) Yes, Ψ m (z) is
STRAIGHT mel-cepstrum sequence and its first derivative, ..., under the constraint that difference approximation holds between the N-order differential coefficient (N is an integer of 2 or more), the hidden among the STRAIGHT mel-cepstrum sequence Creating a STRAIGHT mel cepstrum sequence (smooth STRAIGHT mel cepstrum sequence) by selecting a STRAIGHT mel cepstrum sequence that maximizes the likelihood of a Markov model (HMM) sequence;
And creating the smooth STRAIGHT cepstrum series with respect to applying an inverse frequency stretching discrete cosine transform of the frequency stretching discrete cosine transform Re [Ψ m (z)] , STRAIGHT spectrum sequence by converting further index,
Performing speech synthesis from the pulse / noise sequence generated by the fundamental frequency Hidden Markov model and the STRAIGHT spectrum sequence by inverse FFT and superposition synthesis;
A speech synthesis method characterized by comprising:
学習用音声の短時間フーリエ変換の対数変換後に、この結果に対して周波数伸縮離散コサイン変換Re[Ψm(z)](ただし、Re[Ψm(z)]はΨm(z)の実部であり、Ψm(z)は
メルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、メルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するメルケプストラム系列を選択することでメルケプストラム系列(滑らかなメルケプストラム系列)を作成するステップと、
上記滑らかなメルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re [ Ψ m (z) ] の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換してスペクトル系列を作成するステップと、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記スペクトル系列から逆FFTと重ね合わせ合成により音声合成を行うステップと、
を有することを特徴とする音声合成方法。 The method comprising the steps of: parsing the input text,
After logarithmic transformation of the short-time Fourier transform of the learning speech, the frequency expansion / contraction discrete cosine transformation Re [Ψ m (z)] (where Re [Ψ m (z)] is the actual value of Ψ m (z) And Ψ m (z) is
The above-mentioned Hidden Markov model of the mel cepstrum series under the constraint that a difference approximation is established between the mel cepstrum series and its first derivative coefficient, ..., Nth derivative coefficient (N is an integer of 2 or more). Creating a mel cepstrum sequence (smooth mel cepstrum sequence ) by selecting a mel cepstrum sequence that maximizes the likelihood of the (HMM) sequence;
A step of the smooth applies the inverse frequency stretching discrete cosine transform Mel said frequency stretching discrete cosine transform Re respect cepstrum sequence [Ψ m (z)], to create a spectral sequence and converting further index,
Performing speech synthesis from the pulse / noise sequence generated by the fundamental frequency Hidden Markov model and the spectrum sequence by inverse FFT and superposition synthesis;
A speech synthesis method characterized by comprising:
学習用音声の STRAIGHT スペクトルを対数変換し、この結果に対して周波数伸縮離散コサイン変換Re [ Ψ m (z) ] (ただし、Re [ Ψ m (z) ] はΨ m (z)の実部であり、Ψ m (z)は
STRAIGHTメルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、STRAIGHTメルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するSTRAIGHT メルケプストラム系列を選択することでSTRAIGHTメルケプストラム系列(滑らかなSTRAIGHTメルケプストラム系列)を作成する手段と、
上記滑らかな STRAIGHT メルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re [ Ψ m (z) ] の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換して STRAIGHT スペクトル系列を作成する手段と、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記 STRAIGHT スペクトル系列から逆FFTと重ね合わせ合成により音声合成を行う手段と、
を備えることを特徴とする音声合成装置。 And means for parsing the input text,
The STRAIGHT spectrum of training speech logarithmic transformation, the real part of the result for the frequency stretching discrete cosine transform Re [Ψ m (z)] ( provided that, Re [Ψ m (z) ] is [psi m (z) Yes, Ψ m (z) is
STRAIGHT mel-cepstrum sequence and its first derivative, ..., under the constraint that difference approximation holds between the N-order differential coefficient (N is an integer of 2 or more), the hidden among the STRAIGHT mel-cepstrum sequence Means for creating a STRAIGHT mel cepstrum sequence (smooth STRAIGHT mel cepstrum sequence) by selecting a STRAIGHT mel cepstrum sequence that maximizes the likelihood of a Markov model (HMM) sequence;
Means for creating the smooth STRAIGHT cepstrum series with respect to applying an inverse frequency stretching discrete cosine transform of the frequency stretching discrete cosine transform Re [Ψ m (z)] , STRAIGHT spectrum sequence by converting further index,
Means for performing speech synthesis by superposition synthesis with inverse FFT from the pulse / noise sequence generated by the fundamental frequency Hidden Markov model and the STRAIGHT spectrum sequence;
A speech synthesizer comprising:
学習用音声の短時間フーリエ変換の対数変換後に、この結果に対して周波数伸縮離散コサイン変換Re[Ψm(z)](ただし、Re[Ψm(z)]はΨm(z)の実部であり、Ψm(z)は
メルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、メルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するメルケプストラム系列を選択することでメルケプストラム系列(滑らかなメルケプストラム系列)を作成する手段と、
上記滑らかなメルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re [ Ψ m (z) ] の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換してスペクトル系列を作成する手段と、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記スペクトル系列から逆FFTと重ね合わせ合成により音声合成を行う手段と、
を備えることを特徴とする音声合成装置。 And means for parsing the input text,
After logarithmic transformation of the short-time Fourier transform of the learning speech, the frequency expansion / contraction discrete cosine transformation Re [Ψ m (z)] (where Re [Ψ m (z)] is the actual value of Ψ m (z) And Ψ m (z) is
The above-mentioned Hidden Markov model of the mel cepstrum series under the constraint that a difference approximation is established between the mel cepstrum series and its first derivative coefficient, ..., Nth derivative coefficient (N is an integer of 2 or more). Means for creating a mel cepstrum sequence (smooth mel cepstrum sequence ) by selecting a mel cepstrum sequence that maximizes the likelihood of the (HMM) sequence;
Means for creating a spectral series the smooth application of the inverse frequency stretching discrete cosine transform mel cepstrum sequence the frequency stretching discrete cosine transform Re respect [Ψ m (z)], and further converts index,
Means for performing speech synthesis by superposition synthesis with inverse FFT and pulse / noise sequence generated by the fundamental frequency Hidden Markov model and the above spectrum sequence;
A speech synthesizer comprising:
学習用音声のSTRAIGHTスペクトルを対数変換し、この結果に対して周波数伸縮離散コサイン変換Re[Ψm(z)](ただし、Re[Ψm(z)]はΨm(z)の実部であり、Ψm(z)は
STRAIGHTメルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、STRAIGHTメルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するSTRAIGHT メルケプストラム系列を選択することでSTRAIGHTメルケプストラム系列(滑らかなSTRAIGHTメルケプストラム系列)を作成する処理と、
上記滑らかなSTRAIGHTメルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re[Ψm(z)]の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換してSTRAIGHTスペクトル系列を作成する処理と、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記STRAIGHTスペクトル系列から逆FFTと重ね合わせ合成により音声合成を行う処理と、を備える音声合成方法をコンピュータに実行させるプログラム。Processing to parse the input text,
The STRAIGHT spectrum of the training speech is logarithmically transformed, and the frequency-scaled discrete cosine transform Re [Ψ m (z)] (where Re [Ψ m (z)] is the real part of Ψ m (z). Yes, Ψ m (z) is
STRAIGHT mel-cepstrum sequence and its first derivative, ..., under the constraint that difference approximation holds between the N-order differential coefficient (N is an integer of 2 or more), the hidden among the STRAIGHT mel-cepstrum sequence Processing to create a STRAIGHT mel cepstrum sequence (smooth STRAIGHT mel cepstrum sequence) by selecting a STRAIGHT mel cepstrum sequence that maximizes the likelihood of a Markov model (HMM) sequence;
A process of creating a STRAIGHT spectrum sequence by applying the inverse frequency stretching discrete cosine transform of the frequency stretching discrete cosine transform Re [Ψ m (z)] , and further converted exponent against the smooth STRAIGHT mel cepstrum sequence,
A program for causing a computer to execute a speech synthesis method comprising: a pulse / noise sequence generated by a fundamental frequency Hidden Markov model; and a process of performing speech synthesis by superposition synthesis using inverse FFT from the STRAIGHT spectrum sequence.
学習用音声の短時間フーリエ変換の対数変換後、この結果に対して周波数伸縮離散コサイン変換Re[Ψm(z)](ただし、Re[Ψm(z)]はΨm(z)の実部であり、Ψm(z)は
メルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、メルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するメルケプストラム系列を選択することでメルケプストラム系列(滑らかなメルケプストラム系列)を作成する処理と、
上記滑らかなメルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re[Ψm(z)]の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換してスペクトル系列を作成する処理と、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記スペクトル系列から逆FFTと重ね合わせ合成により音声合成を行う処理と、を備える音声合成方法をコンピュータに実行させるプログラム。Processing to parse the input text,
After logarithmic transformation of the short-time Fourier transform of the speech for learning, the frequency expansion / contraction discrete cosine transformation Re [Ψ m (z)] (where Re [Ψ m (z)] is the actual value of Ψ m (z) And Ψ m (z) is
The above-mentioned Hidden Markov model of the mel cepstrum series under the constraint that a difference approximation is established between the mel cepstrum series and its first derivative coefficient, ..., Nth derivative coefficient (N is an integer of 2 or more). A process of creating a mel cepstrum sequence (smooth mel cepstrum sequence ) by selecting a mel cepstrum sequence that maximizes the likelihood of the (HMM) sequence;
A process of creating a spectral sequence by applying the inverse frequency stretching discrete cosine transform of the frequency stretching discrete cosine transform Re [Ψ m (z)] , and further converted exponent against the smooth mel cepstrum sequence,
A program for causing a computer to execute a speech synthesis method comprising: a pulse / noise sequence generated by a fundamental frequency Hidden Markov model, and speech synthesis by inverse FFT and superposition synthesis from the spectrum sequence.
学習用音声のSTRAIGHTスペクトルを対数変換し、この結果に対して周波数伸縮離散コサイン変換Re[Ψm(z)](ただし、Re[Ψm(z)]はΨm(z)の実部であり、Ψm(z)は
STRAIGHTメルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、STRAIGHTメルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するSTRAIGHT メルケプストラム系列を選択することでSTRAIGHTメルケプストラム系列(滑らかなSTRAIGHTメルケプストラム系列)を作成する処理と、
上記滑らかなSTRAIGHTメルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re[Ψm(z)]の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換してSTRAIGHTスペクトル系列を作成する処理と、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記STRAIGHTスペクトル系列から逆FFTと重ね合わせ合成により音声合成を行う処理と、を備える音声合成方法をコンピュータに実行させるプログラムを記録した記録媒体。Processing to parse the input text,
The STRAIGHT spectrum of the training speech is logarithmically transformed, and the frequency-scaled discrete cosine transform Re [Ψ m (z)] (where Re [Ψ m (z)] is the real part of Ψ m (z). Yes, Ψ m (z) is
STRAIGHT mel-cepstrum sequence and its first derivative, ..., under the constraint that difference approximation holds between the N-order differential coefficient (N is an integer of 2 or more), the hidden among the STRAIGHT mel-cepstrum sequence Processing to create a STRAIGHT mel cepstrum sequence (smooth STRAIGHT mel cepstrum sequence) by selecting a STRAIGHT mel cepstrum sequence that maximizes the likelihood of a Markov model (HMM) sequence;
A process of creating a STRAIGHT spectrum sequence by applying the inverse frequency stretching discrete cosine transform of the frequency stretching discrete cosine transform Re [Ψ m (z)] , and further converted exponent against the smooth STRAIGHT mel cepstrum sequence,
A recording medium recording a program for causing a computer to execute a speech synthesis method comprising: a pulse / noise sequence generated by a fundamental frequency Hidden Markov model and a process of performing speech synthesis by superposition synthesis from the above STRAIGHT spectrum sequence by inverse FFT.
学習用音声の短時間フーリエ変換の対数変換後、この結果に対して周波数伸縮離散コサイン変換Re[Ψm(z)](ただし、Re[Ψm(z)]はΨm(z)の実部であり、Ψm(z)は
メルケプストラム系列とその1次微分係数、・・・、N次微分係数(Nは2以上の整数)との間に差分近似が成り立つという拘束条件の下で、メルケプストラム系列のうち上記ヒドンマルコフモデル(HMM)系列の尤度を最大化するメルケプストラム系列を選択することでメルケプストラム系列(滑らかなメルケプストラム系列)を作成する処理と、
上記滑らかなメルケプストラム系列に対して上記周波数伸縮離散コサイン変換Re[Ψm(z)]の逆周波数伸縮離散コサイン変換を適用し、さらに指数変換してスペクトル系列を作成する処理と、
基本周波数ヒドンマルコフモデルによって生成されたパルス/ノイズ列と上記スペクトル系列から逆FFTと重ね合わせ合成により音声合成を行う処理と、を備える音声合成方法をコンピュータに実行させるプログラムを記録した記録媒体。Processing to parse the input text,
After logarithmic transformation of the short-time Fourier transform of the speech for learning, the frequency expansion / contraction discrete cosine transformation Re [Ψ m (z)] (where Re [Ψ m (z)] is the actual value of Ψ m (z) And Ψ m (z) is
The above-mentioned Hidden Markov model of the mel cepstrum series under the constraint that a difference approximation is established between the mel cepstrum series and its first derivative coefficient, ..., Nth derivative coefficient (N is an integer of 2 or more). A process of creating a mel cepstrum sequence (smooth mel cepstrum sequence ) by selecting a mel cepstrum sequence that maximizes the likelihood of the (HMM) sequence;
A process of creating a spectral sequence by applying the inverse frequency stretching discrete cosine transform of the frequency stretching discrete cosine transform Re [Ψ m (z)] , and further converted exponent against the smooth mel cepstrum sequence,
A recording medium having recorded thereon a program for causing a computer to execute a speech synthesis method comprising: a pulse / noise sequence generated by a fundamental frequency Hidden Markov model and speech synthesis by inverse FFT and superposition synthesis from the above spectrum sequence.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002162815A JP3973492B2 (en) | 2002-06-04 | 2002-06-04 | Speech synthesis method and apparatus thereof, program, and recording medium recording the program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002162815A JP3973492B2 (en) | 2002-06-04 | 2002-06-04 | Speech synthesis method and apparatus thereof, program, and recording medium recording the program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004012584A JP2004012584A (en) | 2004-01-15 |
| JP3973492B2 true JP3973492B2 (en) | 2007-09-12 |
Family
ID=30431461
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002162815A Expired - Fee Related JP3973492B2 (en) | 2002-06-04 | 2002-06-04 | Speech synthesis method and apparatus thereof, program, and recording medium recording the program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3973492B2 (en) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4662139B2 (en) * | 2005-07-04 | 2011-03-30 | ソニー株式会社 | Data output device, data output method, and program |
| JP2010020166A (en) * | 2008-07-11 | 2010-01-28 | Ntt Docomo Inc | Voice synthesis model generation device and system, communication terminal, and voice synthesis model generation method |
| JP5574344B2 (en) * | 2009-03-09 | 2014-08-20 | 国立大学法人豊橋技術科学大学 | Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis |
| US9299338B2 (en) | 2010-11-08 | 2016-03-29 | Nec Corporation | Feature sequence generating device, feature sequence generating method, and feature sequence generating program |
| JP5717097B2 (en) * | 2011-09-07 | 2015-05-13 | 独立行政法人情報通信研究機構 | Hidden Markov model learning device and speech synthesizer for speech synthesis |
| JP2013117638A (en) * | 2011-12-02 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | Voice synthesis device and voice synthesis program |
| JP5631915B2 (en) | 2012-03-29 | 2014-11-26 | 株式会社東芝 | Speech synthesis apparatus, speech synthesis method, speech synthesis program, and learning apparatus |
| JP5706368B2 (en) * | 2012-05-17 | 2015-04-22 | 日本電信電話株式会社 | Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program |
| CA3206223A1 (en) | 2017-03-29 | 2018-10-04 | Google Llc | End-to-end text-to-speech conversion |
| CN108922514B (en) * | 2018-09-19 | 2023-03-21 | 河海大学 | Robust feature extraction method based on low-frequency log spectrum |
| CN116884396A (en) * | 2023-08-08 | 2023-10-13 | 上海交通大学 | Speech keyword recognition method and system suitable for hardware processing |
-
2002
- 2002-06-04 JP JP2002162815A patent/JP3973492B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004012584A (en) | 2004-01-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4274962B2 (en) | Speech recognition system | |
| US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
| JP2826215B2 (en) | Synthetic speech generation method and text speech synthesizer | |
| EP2109096B1 (en) | Speech synthesis with dynamic constraints | |
| EP0970466A4 (en) | Voice conversion system and methodology | |
| WO2007103520A2 (en) | Codebook-less speech conversion method and system | |
| US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
| US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
| JP3973492B2 (en) | Speech synthesis method and apparatus thereof, program, and recording medium recording the program | |
| CN118506761A (en) | Speech cloning model training and speech cloning method, device, equipment and medium | |
| JP2002244689A (en) | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice | |
| Shanthi Therese et al. | Review of feature extraction techniques in automatic speech recognition | |
| Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
| CN105474307A (en) | Quantitative F0 pattern generation device and method, and model learning device and method for generating F0 pattern | |
| JP2006521576A (en) | Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method | |
| Hoffmann et al. | Analysis of verbal and nonverbal acoustic signals with the Dresden UASR system | |
| JP6542823B2 (en) | Acoustic model learning device, speech synthesizer, method thereof and program | |
| US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
| JP5574344B2 (en) | Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis | |
| JP5375612B2 (en) | Frequency axis expansion / contraction coefficient estimation apparatus, system method, and program | |
| Irino et al. | Evaluation of a speech recognition/generation method based on HMM and straight. | |
| JP2017151224A (en) | Basic frequency pattern prediction device, method, and program | |
| Atal | Speech technology in 2001: new research directions. | |
| Eng | Assessing the Quality of Synthetic Speech when using Enhanced Speech as Training Data | |
| KR100488121B1 (en) | Speaker verification apparatus and method applied personal weighting function for better inter-speaker variation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040726 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061004 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061128 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061205 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070205 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070313 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070509 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070605 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070612 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110622 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120622 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130622 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140622 Year of fee payment: 7 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |