JP5925082B2 - Speech synthesis apparatus, method and program - Google Patents
Speech synthesis apparatus, method and program Download PDFInfo
- Publication number
- JP5925082B2 JP5925082B2 JP2012176759A JP2012176759A JP5925082B2 JP 5925082 B2 JP5925082 B2 JP 5925082B2 JP 2012176759 A JP2012176759 A JP 2012176759A JP 2012176759 A JP2012176759 A JP 2012176759A JP 5925082 B2 JP5925082 B2 JP 5925082B2
- Authority
- JP
- Japan
- Prior art keywords
- lsp parameter
- phoneme
- phoneme hmm
- lsp
- differential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は、HMM(Hidden Markov Model)を用いた音声合成技術に関する。 The present invention relates to a speech synthesis technique using an HMM (Hidden Markov Model).
従来のHMM音声合成装置の構成を図3に示す。従来のHMM音声合成装置は、音素HMM系列生成部1と、声道スペクトルパラメータ計算部2と、音声合成部3と、音素HMM記憶部4とを備える。
The configuration of a conventional HMM speech synthesizer is shown in FIG. The conventional HMM speech synthesizer includes a phoneme HMM sequence generation unit 1, a vocal tract spectrum
音素HMM系列生成部1は、入力された合成したいテキストの音素列にしたがって、学習用の音声データベースから予め学習しておいた音素HMM(Hidden Markov Model: 隠れマルコフモデル)を接続することにより音素HMMの状態の系列を生成する。生成された音素HMMの状態の系列は、声道スペクトルパラメータ計算部2に送信される。
The phoneme HMM sequence generation unit 1 connects a phoneme HMM (Hidden Markov Model) previously learned from a speech database for learning according to the input phoneme string of the text to be synthesized. Generate a series of states. The generated sequence of phoneme HMM states is transmitted to the vocal tract spectrum
ここで、音素HMMの状態の系列は、声道スペクトルパラメータの平均値と声道スペクトルパラメータの速度の平均値とから成るベクトル、及び、声道スペクトルパラメータの分散と声道スペクトルパラメータの速度の分散とから成る行列で表現される。なお、声道スペクトルパラメータの平均値、声道スペクトルパラメータの速度の平均値、声道スペクトルパラメータの分散及び声道スペクトルパラメータの速度の分散のそれぞれは、音素HMMの状態の系列を構成する音素HMMの各状態ごとに計算される。 Here, the sequence of phoneme HMM states is a vector composed of the average value of the vocal tract spectral parameters and the average value of the velocity of the vocal tract spectral parameters, and the variance of the vocal tract spectral parameters and the velocity dispersion of the vocal tract spectral parameters. It is expressed as a matrix consisting of Note that the average value of the vocal tract spectrum parameter, the average value of the velocity of the vocal tract spectrum parameter, the variance of the vocal tract spectrum parameter, and the variance of the velocity of the vocal tract spectrum parameter are respectively the phoneme HMMs constituting the sequence of the phoneme HMM states. It is calculated for each state.
声道スペクトルパラメータ計算部2は、出力確率が最大となる声道スペクトルパラメータを計算する。
The vocal tract spectrum
最後に、音声合成部3が、計算された声道スペクトルパラメータに基づいて、入力された音源信号(有声音であれば基本周期に応じたパルス列、無声音であれば白色雑音からなる音源信号)を畳み込むことにより音声を合成する(例えば、非特許文献1参照。)。 Finally, based on the calculated vocal tract spectrum parameters, the speech synthesizer 3 inputs the input sound source signal (a pulse train corresponding to the basic period if voiced sound, or a sound source signal consisting of white noise if unvoiced sound). A voice is synthesized by convolution (see, for example, Non-Patent Document 1).
声道スペクトルパラメータとしては、音声の声道スペクトルの全極フィルタ表現であるLSPパラメータωi(i=1,2,…,p)が広く用いられている。フィルタが安定であるためのLSPパラメータの必要条件は、LSPパラメータωiが昇順特性、つまり、0<ω1<ω2<…<ωpを満たすことである。昇順特性を満たさないLSPパラメータから音声を合成した場合、合成された音声信号が発散する可能性がある。 As the vocal tract spectrum parameter, an LSP parameter ω i (i = 1, 2,..., P) that is an all-pole filter expression of the vocal tract spectrum of speech is widely used. Requirements LSP parameters for the filter is stable, ascending characteristic LSP parameter omega i, that is, is to satisfy 0 <ω 1 <ω 2 < ... <ω p. When speech is synthesized from LSP parameters that do not satisfy the ascending characteristics, the synthesized speech signal may diverge.
さて、時刻tにおけるLSPパラメータをωi(t)とし、LSPパラメータの速度を Now, let the LSP parameter at time t be ω i (t) and the speed of the LSP parameter be
とした場合、LSPパラメータωi(t)のみから成るベクトルωstatic The vector ω static consisting only of LSP parameters ω i (t)
からLSPパラメータωi(t)とその速度Δωi(t)から成るベクトルωdynamic The vector ω dynamic consisting of LSP parameter ω i (t) and its velocity Δω i (t)
への変換行列Rは、 The transformation matrix R into
で定義できる。aは、例えば0.5である。この明細書において、行列・Tの上付きのTは、転置を意味する。行列・Tの上付きのT以外のTは、所定の時刻Tを意味することに注意する。0a×bは、全ての要素が0であるa×bの行列を意味し、Ia×aは、対角要素が1、それ以外の要素が0であるa×aの正方行列を意味する。 Can be defined. For example, a is 0.5. In this specification, T superscript matrix · T means transpose. Note that T other than the superscript T of the matrix T means a predetermined time T. 0 a × b means an a × b matrix where all elements are 0, I a × a means an a × a square matrix whose diagonal elements are 1 and all other elements are 0 To do.
LSPパラメータの平均値ω- i(t)とLSPパラメータの速度の平均値Δω- i(t)とから成るベクトルω-、及び、LSPパラメータの分散σωi(t)とLSPパラメータの速度の分散σΔωi(t)とから成る行列σは、以下のように表すことができる。diagは、対角行列を意味する。 Average value of the speed of the average value .omega.i (t) and LSP parameters LSP parameter Δω - i (t) from the composed vector omega -, and the variance of the velocity of the variance σ ωi (t) and LSP parameters LSP parameters A matrix σ composed of σ Δωi (t) can be expressed as follows. diag means a diagonal matrix.
ここで、声道スペクトルパラメータ計算部2において計算により推定されるLSPパラメータベクトルω^を以下のように定義する。
Here, the LSP parameter vector ω ^ estimated by calculation in the vocal tract spectrum
すると、声道スペクトルパラメータ計算部2において出力確率を最大にするLSPパラメータを求めるには、以下を最小化すれば良い。
Then, in order to obtain the LSP parameter that maximizes the output probability in the vocal tract spectrum
つまり、 That means
を解けばよい(例えば、非特許文献2参照。)。 (For example, see Non-Patent Document 2).
しかし、上述の計算により求まるLSPパラメータの値はHMMの平均値付近に存在するため、人間が発声したオリジナルのLSPパラメータの値と比較すると、LSPパラメータのダイナミックレンジが狭く、こもった音声に聞こえるという問題がある。そこで、Global Variance (GV)というパラメータを定義し、LSPパラメータのダイナミックレンジを評価することを考える(例えば、非特許文献3参照。)。 However, since the value of the LSP parameter obtained by the above calculation exists near the average value of the HMM, compared to the value of the original LSP parameter uttered by humans, the dynamic range of the LSP parameter is narrow, and it can be heard that it is muffled There's a problem. Therefore, it is considered to define a parameter called Global Variance (GV) and evaluate the dynamic range of the LSP parameter (see, for example, Non-Patent Document 3).
ある1つの文章nについてのGVであるνi,nは、その文章nの発声についてのLSPパラメータを用いて、以下のように定義される。Tnは文章nの発話の時間長である。 Ν i, n, which is a GV for one sentence n, is defined as follows using the LSP parameter for the utterance of the sentence n. T n is the utterance length of sentence n.
また、学習データのN個の文章n(n=1, ・・・,N) の発声についてのLSPパラメータを用いて、μ及びUを以下のように定義する。μはνi,n(n=1,・・・,N )の平均であり、Uはνi,n(n=1,・・・,N)の分散である。なお、Nを所定の正の数とする。音素HMM記憶部4には、μ及びUが記憶されているとする。
Also, μ and U are defined as follows using LSP parameters for the utterance of N sentences n (n = 1,..., N) of learning data. μ is the average of ν i, n (n = 1,..., N), and U is the variance of ν i, n (n = 1,..., N). Note that N is a predetermined positive number. It is assumed that μ and U are stored in the phoneme
推定されるGVであるν(ω)を以下のように定義する。 The estimated GV ν (ω) is defined as follows.
GVの出力確率を最大にするLSPパラメータを求めるには、以下を最小化すればよい。 To find the LSP parameter that maximizes the output probability of GV, you can minimize:
最終的には、非特許文献2では、声道スペクトルパラメータ計算部2において、式(1)の代わりに、式(1)と式(2)を合わせた評価式である式(3)を最小化するようなLSPパラメータω^を最急降下法などのアルゴリズムを用いて求める。
Finally, in Non-Patent
ここで、1/(2T)は、式(1)と式(2)の値のオーダーを揃えるための重みである。 Here, 1 / (2T) is a weight for aligning the order of the values of the expressions (1) and (2).
HMM音声合成では比較的高い次数のLSPパラメータ(例えば、p=40)を用いる必要があることや、GVを導入することにより、上述の方法では、LSPパラメータの昇順特性が必ずしも満たされないという問題がある。そこで、ペナルティ関数を導入する方法が提案されている。つまり、 In HMM speech synthesis, it is necessary to use a relatively high-order LSP parameter (for example, p = 40), and the above-mentioned method does not necessarily satisfy the ascending characteristics of the LSP parameter by introducing GV. is there. Therefore, a method for introducing a penalty function has been proposed. That means
というペナルティ関数による制約を導入する方法である(例えば、非特許文献4参照。)。ここで、αはあまり大きくない正の値、Mは偶数、ωp+1=πである。ωi-1>ωiの場合にペナルティ関数の値が大きくなることが分かるが、このペナルティ関数では昇順特性を満たすことが保証されず、ペナルティ関数の影響により出力確率の最大化が保証されないという問題がある。 This is a method for introducing a constraint by a penalty function (for example, see Non-Patent Document 4). Here, α is a positive value that is not so large, M is an even number, and ω p + 1 = π. It can be seen that the value of the penalty function becomes large when ω i-1 > ω i , but this penalty function does not guarantee that the ascending characteristics are satisfied, and the maximum output probability is not guaranteed due to the effect of the penalty function. There's a problem.
このように、従来の手法では、LSPパラメータの昇順特性を保持することができなかった。 As described above, the conventional method cannot maintain the ascending order characteristic of the LSP parameter.
この発明は、LSPパラメータの昇順特性を保持することができる音声合成装置、方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide a speech synthesizer, a method, and a program that can maintain the ascending characteristics of LSP parameters.
この発明の一態様による音声合成装置は、複数の音素の音素HMMを記憶する音素HMM記憶部と、入力されたテキストの各音素に対応する音素HMMを音素HMM記憶部から読み込み、読み込んだ音素HMMを接続することにより、音素HMMの状態の系列を生成する音素HMM状態系列生成部と、pをLSPパラメータの次数とし、ω^i(t)(i=1,2,・・・.p)をLSPパラメータとして、差分LSPパラメータdi(t)をd1(t)=ω^1(t)>0かつdj(t)=ω^j(t)-ω^j-1(t)>0(2≦j≦p)として、音素HMMの状態の系列を構成するLSPパラメータを用いて、差分LSPパラメータd i (t)を乗算型更新式により繰り返し更新することにより計算する差分LSPパラメータ計算部と、計算された差分LSPパラメータd i (t)を用いて、以下の式により定義されるLSPパラメータω^i(t)を計算するLSPパラメータ計算部と、計算されたLSPパラメータω^i(t)に基づいて、入力されたテキストに対応する音声を生成する音声合成部とを、備える。
A speech synthesizer according to an aspect of the present invention includes a phoneme HMM storage unit that stores phoneme HMMs of a plurality of phonemes, and a phoneme HMM corresponding to each phoneme of the input text from the phoneme HMM storage unit. And a phoneme HMM state sequence generator that generates a sequence of phoneme HMM states, and p is the order of the LSP parameter, and ω ^ i (t) (i = 1,2, .... p) Is the LSP parameter, and the differential LSP parameter d i (t) is d 1 (t) = ω ^ 1 (t)> 0 and d j (t) = ω ^ j (t) -ω ^ j-1 (t) > 0 (2 ≤ j ≤ p), using the LSP parameters that make up the sequence of phoneme HMM states, the differential LSP parameter calculated by repeatedly updating the differential LSP parameter d i (t) with a multiplication-type update equation a calculation unit, using the calculated difference LSP parameters d i (t), and the LSP parameter calculating unit that calculates an LSP parameter ω ^ i (t) which is defined by the following equation, the calculated LSP parameter Based on over data ω ^ i (t), and a speech synthesis unit for generating a sound corresponding to the input text, provided.
LSPパラメータの昇順特性を保持することができる。 The ascending characteristics of LSP parameters can be retained.
以下、図面を参照して、音声合成装置及び方法の実施形態を説明する。 Hereinafter, embodiments of a speech synthesis apparatus and method will be described with reference to the drawings.
音声合成装置は、図1に示すように、音素HMM系列生成部1と、差分LSPパラメータ計算部5と、LSPパラメータ計算部6と、音声合成部3と、音素HMM記憶部4とを備える。この発明の実施形態では、背景技術で説明した声道スペクトルパラメータ計算部2に代わり、差分LSPパラメータ計算部5及びLSPパラメータ計算部6がLSPパラメータを計算する。他の部分は、背景技術と同様である。
As shown in FIG. 1, the speech synthesizer includes a phoneme HMM sequence generation unit 1, a differential LSP
音素HMM記憶部4には、複数の音素の音素HMMが記憶されている。また、Nを所定の正の数として、音素HMM記憶部4には、N個の文章n(n=1,・・・,N)の発話についてのLSPパラメータから求められたGV(μ及びU)が記憶されているとする。
The phoneme HMM
音素HMMの各状態は、LSPパラメータの平均値ω- i(t)、LSPパラメータの速度の平均値Δω- i(t)、LSPパラメータの分散σωi(t)及びLSPパラメータの速度の分散σΔωi(t)で表現される。LSPパラメータの平均値ω- i(t)、LSPパラメータの速度の平均値Δω- i(t)、LSPパラメータの分散σωi(t)及びLSPパラメータの速度の分散σΔωi(t)は、事前に計算され、音素HMM記憶部4に記憶されている。
Each state of the phoneme HMM consists of an LSP parameter average value ω - i (t), an LSP parameter speed average value Δω - i (t), an LSP parameter variance σ ωi (t), and an LSP parameter velocity variance σ It is expressed by Δωi (t) . LSP parameter average value ω - i (t), LSP parameter speed average value Δω - i (t), LSP parameter variance σ ωi (t) and LSP parameter velocity variance σ Δωi (t) And stored in the phoneme HMM
音素HMM系列生成部1は、背景技術で説明した音素HMM系列生成部1と同様の処理を行う。すなわち、音素HMM系列生成部1は、入力されたテキストの各音素に対応する音素HMMを音素HMM記憶部4から読み込み、読み込んだ音素HMMを接続することにより、音素HMMの状態の系列を生成する(ステップS1)。生成された音素HMMの状態の系列は、差分LSPパラメータ計算部5に送信される。
The phoneme HMM sequence generation unit 1 performs the same processing as the phoneme HMM sequence generation unit 1 described in the background art. That is, the phoneme HMM sequence generation unit 1 reads a phoneme HMM corresponding to each phoneme of the input text from the phoneme HMM
音素HMMの各状態は、LSPパラメータの平均値ω- i(t)、LSPパラメータの速度の平均値Δω- i(t)、LSPパラメータの分散σωi(t)及びLSPパラメータの速度の分散σΔωi(t)で表現されるため、音素HMMの状態の系列も、LSPパラメータの平均値ω- i(t)とLSPパラメータの速度の平均値Δω- i(t)とから成るベクトルω-、及び、LSPパラメータの分散σωi(t)とLSPパラメータの速度の分散σΔωi(t)とから成る行列σで表現される。 Each state of the phoneme HMM consists of an LSP parameter average value ω - i (t), an LSP parameter speed average value Δω - i (t), an LSP parameter variance σ ωi (t), and an LSP parameter velocity variance σ Since it is expressed by Δωi (t) , the sequence of phoneme HMM states is also a vector ω − composed of the average value ω − i (t) of the LSP parameter and the average value Δω − i (t) of the speed of the LSP parameter, In addition, it is expressed by a matrix σ composed of LSP parameter variance σ ω i (t) and LSP parameter velocity variance σ Δω i (t) .
差分LSPパラメータ計算部5は、音素HMMの状態の系列を構成するLSPパラメータを用いて、差分LSPパラメータdjを乗算型更新式により繰り返し更新することにより計算する(ステップS2)。計算された差分LSPパラメータdjは、LSPパラメータ計算部6に送信される。
The difference LSP
差分LSPパラメータ計算部5は、具体的にはω- i(t),Δω- i(t),σωi(t),σΔωi(t),μ,U等のパラメータを用いて、差分LSPパラメータdjを計算する。ここで、ω- i(t),Δω- i(t),σωi(t),σΔωi(t),μ,U等のパラメータは、音素HMMの状態の系列を構成するLSPパラメータωi(t)から計算されるパラメータである。したがって、差分LSPパラメータ計算部5は、音素HMMの状態の系列を構成するLSPパラメータを用いて、差分LSPパラメータdjを計算していると言える。
Specifically, the differential LSP
pをLSPパラメータの次数として、差分LSPパラメータdi(t)により定まるLSPパラメータをω^i(t)として、di(t)及びω^i(t)は以下の関係を有する。 With p as the order of the LSP parameter and LSP parameter determined by the differential LSP parameter d i (t) as ω ^ i (t), d i (t) and ω ^ i (t) have the following relationship.
差分LSPパラメータ計算部5は、背景技術の欄で説明した式(3)を最小化するdj(t)を計算する。
The differential LSP
例えば、式(3)に For example, in equation (3)
を代入した評価式をF(di(t))と定義し、F(di(t))をdi(t)で偏微分した多項式▽F(di(t))の正の項から成る多項式を▽F+(di(t))とし、上記多項式▽F(di(t))の負の項から成る多項式を▽F-(di(t))とする。このとき、djを以下の乗算型更新式により繰り返し更新することにより、djを計算することができる(例えば、参考文献1参照。)。 The evaluation formula obtained by substituting defined as F (d i (t)) , the positive term of F (d i (t)) was partially differentiated by d i (t) polynomial ▽ F (d i (t) ) a polynomial consisting of ▽ F + and (d i (t)), a polynomial consisting of negative term of the polynomial ▽ F (d i (t) ) ▽ F - and (d i (t)). At this time, by repeatedly updated by the following multiplicative update equation d j, it is possible to calculate the d j (e.g., see reference 1.).
〔参考文献1〕Virtanen, IEEE Trans. Audio Speech Lang. Process., 15(3), 1066-1074, 2007.
また、背景技術で説明した式(0)のようにLSPパラメータの速度を定義した場合には、式(4)の乗算型更新式は具体的には以下のようになる。
[Reference 1] Virtanen, IEEE Trans. Audio Speech Lang. Process., 15 (3), 1066-1074, 2007.
Further, when the speed of the LSP parameter is defined as in Expression (0) described in the background art, the multiplication type update expression of Expression (4) is specifically as follows.
また、背景技術で説明した式(0)の定数aを0.5にした場合には、式(4)の乗算型更新式は、具体的には以下のようになる。 Further, when the constant “a” of the equation (0) described in the background art is set to 0.5, the multiplication type update equation of the equation (4) is specifically as follows.
また、LSPパラメータの速度を以下のように定義した場合には、 If the speed of the LSP parameter is defined as follows,
式(4)の乗算型更新式は具体的には以下のようになる。 Specifically, the multiplication type update formula of Formula (4) is as follows.
また、LSPパラメータの速度を以下のように定義した場合には、 If the speed of the LSP parameter is defined as follows,
式(4)の乗算型更新式は具体的には以下のようになる。 Specifically, the multiplication type update formula of Formula (4) is as follows.
なお、上述の乗算型更新式では、GVを利用する場合について説明を行ったが、GVを利用しない実施形態に本発明を利用することも可能である。例えば、LSPパラメータの速度を以下のように定義し、 In the above-described multiplication type updating formula, the case of using GV has been described, but the present invention can also be used in an embodiment that does not use GV. For example, define the speed of the LSP parameter as follows:
乗算型更新式を具体的には以下のようにする。なお、GVを用いない乗算型更新式を使用する場合には、μやUを予め音素HMM記憶部4に記憶しておかなくてもよい。
Specifically, the multiplication type update formula is as follows. Note that when using a multiplication type update equation that does not use GV, μ and U need not be stored in the phoneme HMM
上述の乗算型更新式の中のTは、音素HMMの状態の系列の時間長の総和であり、音素HMM状態系列生成部1により計算される。 T in the above-described multiplication type update formula is the sum of the time lengths of the phoneme HMM state sequences, and is calculated by the phoneme HMM state sequence generation unit 1.
なお、上述の乗算型更新式において、t≦0又はt>Tの場合にdi(t),Δω- j(t)は定義されないため、t≦0又はt>Tの場合のdi(t),Δω- j(t)を含む項の値を0とする。例えば、最初に具体例として挙げた乗算型更新式の式(5)のAの右辺の第2項においてdl(0)の場合にはこの場合の第2項の値を0とする。また、式(5)のAの右辺の第3項においてdl(T)の場合にはこの場合の第3項の値を0とする。 In addition, in the above-described multiplication type update equation, d i (t) and Δω − j (t) are not defined when t ≦ 0 or t> T, and therefore d i (t when t ≦ 0 or t> T The value of the term including t), Δω − j (t) is set to 0. For example, in the case of d l (0) in the second term on the right side of A in Expression (5) of the multiplication type update formula given as a specific example first, the value of the second term in this case is set to 0. Further, in the case of d l (T) in the third term on the right side of A in Equation (5), the value of the third term in this case is set to 0.
di(t)の初期値は、例えば非負の乱数とする。di(t)の更新の回数は求める精度、仕様に応じて適宜定められる。一般に、di(t)の更新の回数が多いほど、di(t)の精度が高くなる。例えば、K-1回目の更新後の式(3)の値と、K回目の更新後の式(3)の値との差が所定の閾値(例えば10−7)以下になるまで更新する。 The initial value of d i (t) is, for example, a non-negative random number. The number of times of updating d i (t) is appropriately determined according to the required accuracy and specifications. In general, the higher the number of updates of d i (t) is large, the accuracy of d i (t) is higher. For example, the update is performed until the difference between the value of Equation (3) after the K-1th update and the value of Equation (3) after the Kth update is equal to or less than a predetermined threshold (for example, 10 −7 ).
di(t)は非負値に収束することから、0<ω1(t)=di(t)<ω2(t)=di(t)+d2(t)<…<ωp(t)=di(t)+…+dp(t)となる。このように、ωi(t)の代わりにdi(t)を計算し、di(t)からωi(t)を求めることにより、求まったωi(t)は昇順特性を必ず満たし、かつ式(3)の誤差を最小化する。 Since d i (t) converges to a non-negative value, 0 <ω 1 (t) = d i (t) <ω 2 (t) = d i (t) + d 2 (t) <… <ω p ( t) = d i (t) +... + d p (t). Thus, by calculating d i (t) instead of ω i (t) and calculating ω i (t) from d i (t), the obtained ω i (t) always satisfies the ascending characteristics. , And minimize the error in equation (3).
LSPパラメータ計算部6は、差分LSPパラメータ計算部5が求めたdi(t)を用いて、下記式によりLSPパラメータω^i(t)を計算する(ステップS3)。計算されたLSPパラメータω^i(t)は、音声合成部3に送信される。
The LSP
音声合成部3は、背景技術で説明した音声合成部3と同様の処理を行う。すなわち、音声合成部3は、計算されたLSPパラメータω^i(t)に基づいて、入力されたテキストに対応する音声を生成する(ステップS4)。 The speech synthesizer 3 performs the same processing as the speech synthesizer 3 described in the background art. That is, the speech synthesizer 3 generates speech corresponding to the input text based on the calculated LSP parameter ω ^ i (t) (step S4).
具体的には、音声合成部3は、以下の式のように、計算された声道スペクトルパラメータに基づいて、入力された音源信号u(t)(有声音であれば基本周期に応じたパルス列、無声音であれば白色雑音からなる音源信号)を畳み込むことにより音声信号s~(t)を生成する。 Specifically, the speech synthesizer 3 receives the input sound source signal u (t) (a pulse train corresponding to the basic period if it is a voiced sound) based on the calculated vocal tract spectrum parameters as shown in the following equation. The voice signal s˜ (t) is generated by convolving a sound source signal composed of white noise if it is an unvoiced sound.
なお、以下のパラメータを音素HMM記憶部4に記憶された音素HMMに追加することにより、di(t)<πであることが補償される。これにより、合成された音声信号が発散する可能性が更に低くなる。
Note that the following parameters are added to the phoneme HMM stored in the phoneme HMM
なお、音素HMM記憶部4に、LSPパラメータの平均値ω- i(t)、LSPパラメータの速度の平均値Δω- i(t)、LSPパラメータの分散σωi(t)及びLSPパラメータの速度の分散σΔωi(t)ではなく、LSPパラメータωi(t)で表現された音素HMMが記憶されていてもよい。この場合、音素HMM系列生成部1は、音素HMM記憶部4から読み込んだLSPパラメータωi(t)を用いて、LSPパラメータの平均値ω- i(t)、LSPパラメータの速度の平均値Δω- i(t)、LSPパラメータの分散σωi(t)及びLSPパラメータの速度の分散σΔωi(t)を計算して差分LSPパラメータ計算部5に送信する。
The phoneme HMM
なお、μ及びUが音素HMM記憶部4に記憶されていなくてもよい。この場合であって、GVを用いる乗算型更新式を用いる場合には、音素HMM系列生成部1は、N個の文章n(n=1,・・・,N)の発話についてのLSPパラメータからμ及びUを計算して差分LSPパラメータ計算部5に送信する。
Note that μ and U may not be stored in the phoneme HMM
上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 The processes described in the above apparatus and method are not only executed in time series according to the order of description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process.
また、上記装置における処理手段をコンピュータによって実現する場合、上記装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the apparatus is realized by a computer, the processing contents of the functions that the apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each processing means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 Needless to say, other modifications are possible without departing from the spirit of the present invention.
1 音素HMM系列生成部
2 声道スペクトルパラメータ計算部
3 音声合成部
4 音素HMM記憶部
5 差分LSPパラメータ計算部
6 LSPパラメータ計算部
DESCRIPTION OF SYMBOLS 1 Phoneme HMM
Claims (4)
入力されたテキストの各音素に対応する音素HMMを上記音素HMM記憶部から読み込み、読み込んだ音素HMMを接続することにより、音素HMMの状態の系列を生成する音素HMM状態系列生成部と、
pをLSPパラメータの次数とし、ω^i(t)(i=1,2,・・・.p)をLSPパラメータとして、差分LSPパラメータdi(t)をd1(t)=ω^1(t)>0かつdj(t)=ω^j(t)-ω^j-1(t)>0(2≦j≦p)として、上記音素HMMの状態の系列を構成するLSPパラメータを用いて、上記差分LSPパラメータd i (t)を乗算型更新式により繰り返し更新することにより計算する差分LSPパラメータ計算部と、
上記計算された差分LSPパラメータd i (t)を用いて、以下の式により定義されるLSPパラメータω^i(t)を計算するLSPパラメータ計算部と、
上記計算されたLSPパラメータω^i(t)に基づいて、上記入力されたテキストに対応する音声を生成する音声合成部と、
を含む音声合成装置。 A phoneme HMM storage unit for storing a plurality of phoneme HMMs;
A phoneme HMM state sequence generation unit that reads a phoneme HMM corresponding to each phoneme of the input text from the phoneme HMM storage unit and generates a sequence of phoneme HMM states by connecting the read phoneme HMM;
p is the order of the LSP parameter, ω ^ i (t) (i = 1,2, .... p) is the LSP parameter, and the differential LSP parameter d i (t) is d 1 (t) = ω ^ 1 (t)> 0 and d j (t) = ω ^ j (t) -ω ^ j-1 (t)> 0 (2 ≦ j ≦ p) A differential LSP parameter calculation unit that calculates the difference LSP parameter d i (t) by repeatedly updating with a multiplication type update equation,
An LSP parameter calculation unit that calculates an LSP parameter ω ^ i (t) defined by the following formula using the calculated differential LSP parameter d i (t) ,
Based on the calculated LSP parameter ω ^ i (t), a speech synthesizer that generates speech corresponding to the input text;
A speech synthesizer.
出力確率を最大にするLSPパラメータω^i(t)を求めるための評価式F(di(t))をdi(t)で偏微分した多項式▽F(di(t))の正の項から成る多項式を▽F+(di(t))とし、上記多項式▽F(di(t))の負の項から成る多項式を▽F-(di(t))として、
上記乗算型更新式は、以下の式である、
音声合成装置。 The speech synthesis apparatus according to claim 1,
Positive expression of polynomial ▽ F (d i (t)) obtained by partial differentiation of evaluation formula F (d i (t)) with respect to d i (t) to obtain LSP parameter ω ^ i (t) that maximizes output probability a polynomial consisting of terms ▽ F + and (d i (t)), a polynomial consisting of negative term of the polynomial ▽ F (d i (t) ) ▽ F - as (d i (t)),
The multiplication type update equation is the following equation:
Speech synthesizer.
差分LSPパラメータ計算部が、pをLSPパラメータの次数とし、ω^i(t)(i=1,2,・・・.p)をLSPパラメータとして、差分LSPパラメータdi(t)をd1(t)=ω^1(t)>0かつdj(t)=ω^j(t)-ω^j-1(t)>0(2≦j≦p)として、上記音素HMMの状態の系列を構成するLSPパラメータを用いて、上記差分LSPパラメータd i (t)を乗算型更新式により繰り返し更新することにより計算する差分LSPパラメータ計算ステップと、
LSPパラメータ計算部が、上記計算された差分LSPパラメータd i (t)を用いて、以下の式により定義されるLSPパラメータω^i(t)を計算するLSPパラメータ計算ステップと、
音声合成部が、上記計算されたLSPパラメータω^i(t)に基づいて、上記入力されたテキストに対応する音声を生成する音声合成ステップと、
を含む音声合成方法。 The phoneme HMM state sequence generation unit reads the phoneme HMM corresponding to each phoneme of the input text from the phoneme HMM storage unit that stores the phoneme HMMs of a plurality of phonemes, and connects the read phoneme HMMs to connect the phoneme HMM A phoneme HMM state sequence generation step for generating a sequence of states;
The differential LSP parameter calculation unit sets p as the order of the LSP parameter, ω ^ i (t) (i = 1, 2,... P) as the LSP parameter, and sets the differential LSP parameter d i (t) as d 1 (t) = ω ^ 1 (t)> 0 and d j (t) = ω ^ j (t) -ω ^ j-1 (t)> 0 (2 ≦ j ≦ p) A differential LSP parameter calculation step for calculating the differential LSP parameter d i (t) by repeatedly updating the differential LSP parameter d i (t) using a multiplication-type update equation,
The LSP parameter calculation unit calculates an LSP parameter ω ^ i (t) defined by the following formula using the calculated difference LSP parameter d i (t) ,
A speech synthesis unit that generates speech corresponding to the input text based on the calculated LSP parameter ω ^ i (t);
A speech synthesis method including:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012176759A JP5925082B2 (en) | 2012-08-09 | 2012-08-09 | Speech synthesis apparatus, method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012176759A JP5925082B2 (en) | 2012-08-09 | 2012-08-09 | Speech synthesis apparatus, method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2014035460A JP2014035460A (en) | 2014-02-24 |
| JP5925082B2 true JP5925082B2 (en) | 2016-05-25 |
Family
ID=50284475
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012176759A Active JP5925082B2 (en) | 2012-08-09 | 2012-08-09 | Speech synthesis apparatus, method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5925082B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106713145A (en) * | 2015-07-28 | 2017-05-24 | 中兴通讯股份有限公司 | Method and device for refreshing link state message |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4816201B2 (en) * | 2006-03-30 | 2011-11-16 | カシオ計算機株式会社 | Speech processing apparatus and method, text speech synthesis apparatus, and program |
-
2012
- 2012-08-09 JP JP2012176759A patent/JP5925082B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2014035460A (en) | 2014-02-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Fazel et al. | Synthasr: Unlocking synthetic data for speech recognition | |
| Ko et al. | Audio augmentation for speech recognition. | |
| JP4274962B2 (en) | Speech recognition system | |
| ES2311872T3 (en) | SYSTEM AND PROCEDURE FOR AUTOMATIC VOCAL RECOGNITION. | |
| JP6392012B2 (en) | Speech synthesis dictionary creation device, speech synthesis device, speech synthesis dictionary creation method, and speech synthesis dictionary creation program | |
| JP6614639B2 (en) | Speech recognition apparatus and computer program | |
| US8224648B2 (en) | Hybrid approach in voice conversion | |
| US20080208577A1 (en) | Multi-stage speech recognition apparatus and method | |
| JPH0772840B2 (en) | Speech model configuration method, speech recognition method, speech recognition device, and speech model training method | |
| WO2016042659A1 (en) | Speech synthesizer, and method and program for synthesizing speech | |
| Afify et al. | Stereo-based stochastic mapping for robust speech recognition | |
| CN102473416A (en) | Voice quality conversion device, method therefor, vowel information generating device, and voice quality conversion system | |
| Stuttle | A Gaussian mixture model spectral representation for speech recognition | |
| JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
| Kathania et al. | Explicit pitch mapping for improved children’s speech recognition | |
| Sak et al. | On-the-fly lattice rescoring for real-time automatic speech recognition. | |
| JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
| JP2010139745A (en) | Recording medium storing statistical pronunciation variation model, automatic voice recognition system, and computer program | |
| Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
| JP5925082B2 (en) | Speech synthesis apparatus, method and program | |
| WO2020136948A1 (en) | Speech rhythm conversion device, model learning device, methods for these, and program | |
| WO2023157066A1 (en) | Speech synthesis learning method, speech synthesis method, speech synthesis learning device, speech synthesis device, and program | |
| JP2017167526A (en) | Multiple stream spectrum expression for synthesis of statistical parametric voice | |
| JP2016206442A (en) | Threshold value estimation device, voice synthesis device, method thereof, and program | |
| JP2008026721A (en) | Speech recognizer, speech recognition method, and program for speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140924 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150818 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151014 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160412 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160419 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5925082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |