JP4816144B2 - Speech synthesis apparatus, speech synthesis method, and program - Google Patents
Speech synthesis apparatus, speech synthesis method, and program Download PDFInfo
- Publication number
- JP4816144B2 JP4816144B2 JP2006056732A JP2006056732A JP4816144B2 JP 4816144 B2 JP4816144 B2 JP 4816144B2 JP 2006056732 A JP2006056732 A JP 2006056732A JP 2006056732 A JP2006056732 A JP 2006056732A JP 4816144 B2 JP4816144 B2 JP 4816144B2
- Authority
- JP
- Japan
- Prior art keywords
- period
- lsp
- phoneme
- phoneme hmm
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は、与えられたテキスト文字列から音声を合成する音声合成装置、音声合成方法、及び、プログラムに関する。 The present invention relates to a speech synthesizer, a speech synthesis method, and a program for synthesizing speech from a given text string.
テキスト文字列から音声を合成する技術において、HMM(隠れマルコフモデル)がさまざまな形で利用されている。 HMM (Hidden Markov Model) is used in various forms in technology for synthesizing speech from text strings.
例えば、特許文献1の技術は、音声データからLSP(Line Spectrum Pair)係数を抽出し、音素ごとにHMMでモデル化する。そして、与えられた文字列に対応するHMMを選択する。そのHMMを駆動させLSP係数を出力して、出力されたLSP係数を用いて音声を合成している。
For example, in the technique of
特許文献1の音声合成装置は、HMMを一定の出力フレーム周期で駆動させて、LSP係数を出力している。このような場合に、滑らかな音声を合成出力しようとすると、HMMからLSP係数を出力する出力フレーム周期を短くしなければならない。そうすると、音声合成装置の処理負担が大きくなり、処理速度が低下してしまう。
The speech synthesizer of
本発明は、上記問題点に鑑みてなされたものであり、高音質の音声を合成する音声合成装置、音声合成方法、及び、プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and an object thereof is to provide a speech synthesizer, a speech synthesis method, and a program that synthesize high-quality speech.
上記目的を達成するため、本発明の第1の観点に係る音声合成装置は、
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶手段と、
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段と、
を備え、
前記周期設定手段は、
音素HMMデータの状態位置ごとのLSP係数の分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定することを特徴とする。
In order to achieve the above object, a speech synthesizer according to the first aspect of the present invention provides:
Storage means for storing phoneme HMM (Hidden Markov Model) data for generating LSP (Line Spectrum Pair) coefficients, which are parameters for synthesizing speech, and phoneme labels in association with each other;
Phoneme HMM data conversion means for generating a phoneme label from given text data, referring to the storage information of the storage means, and converting the generated phoneme label into corresponding phoneme HMM data;
A period setting means for setting, for each state position, a period for outputting an LSP coefficient from the phoneme HMM data converted by the phoneme HMM data conversion means;
LSP coefficient output means for outputting LSP coefficients at a period set by the period setting means from the phoneme HMM data converted by the phoneme HMM data conversion means;
With
The period setting means includes
Determine the size of the dispersed values of the LSP coefficients for each state position of the phoneme HMM data,
If the variance value is less than or equal to the first threshold and greater than or equal to the second threshold smaller than the first threshold, the cycle for outputting the LSP coefficient is set to the first cycle,
If the variance value is greater than the first threshold, set the period for outputting the LSP coefficient to a second period smaller than the first period,
When the variance value is smaller than the second threshold value, the period for outputting the LSP coefficient is set to a third period that is larger than the first period .
本発明の第2の観点に係る音声合成方法は、
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶ステップと、
与えられたテキストデータから音素ラベルを生成し、前記記憶ステップで記憶した情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータから、前記周期設定ステップで設定した周期でLSP係数を出力するLSP係数出力ステップと、
を備え、
前記周期設定ステップでは、
音素HMMデータの状態位置ごとのLSP係数の分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定することを特徴とする。
The speech synthesis method according to the second aspect of the present invention provides:
A storage step of storing phoneme HMM (Hidden Markov Model) data for generating LSP (Line Spectrum Pair) coefficients, which are parameters for synthesizing speech, and phoneme labels in association with each other;
A phoneme HMM data conversion step of generating a phoneme label from given text data, referring to the information stored in the storage step, and converting the generated phoneme label into corresponding phoneme HMM data;
A cycle setting step for setting, for each state position, a cycle for outputting LSP coefficients from the phoneme HMM data converted in the phoneme HMM data conversion step;
An LSP coefficient output step of outputting an LSP coefficient at a cycle set in the cycle setting step from the phoneme HMM data converted in the phoneme HMM data conversion step;
With
In the period setting step,
Determine the size of the dispersed values of the LSP coefficients for each state position of the phoneme HMM data,
If the variance value is less than or equal to the first threshold and greater than or equal to the second threshold smaller than the first threshold, the cycle for outputting the LSP coefficient is set to the first cycle,
If the variance value is greater than the first threshold, set the period for outputting the LSP coefficient to a second period smaller than the first period,
When the variance value is smaller than the second threshold value, the period for outputting the LSP coefficient is set to a third period that is larger than the first period .
本発明の第3の観点に係るコンピュータプログラムは、
コンピュータを、
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶手段、
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段、
として機能させ、
前記周期設定手段は、
音素HMMデータの状態位置ごとのLSP係数の分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定することを特徴とする。
A computer program according to the third aspect of the present invention provides:
Computer
Storage means for storing phoneme HMM (Hidden Markov Model) data for generating LSP (Line Spectrum Pair) coefficients, which are parameters for synthesizing speech, and phoneme labels in association with each other;
Phoneme HMM data conversion means for generating a phoneme label from given text data and converting the generated phoneme label into corresponding phoneme HMM data by referring to the storage information of the storage means;
A period setting means for setting a period for outputting an LSP coefficient from the phoneme HMM data converted by the phoneme HMM data conversion means for each state position;
LSP coefficient output means for outputting an LSP coefficient at a period set by the period setting means from the phoneme HMM data converted by the phoneme HMM data conversion means;
Function as
The period setting means includes
Determine the size of the dispersed values of the LSP coefficients for each state position of the phoneme HMM data,
If the variance value is less than or equal to the first threshold and greater than or equal to the second threshold smaller than the first threshold, the cycle for outputting the LSP coefficient is set to the first cycle,
If the variance value is greater than the first threshold, set the period for outputting the LSP coefficient to a second period smaller than the first period,
When the variance value is smaller than the second threshold value, the period for outputting the LSP coefficient is set to a third period that is larger than the first period .
本発明によれば、音素HMMデータの状態位置ごとにLSP係数を出力する周期を適切に設定することで、処理速度を維持しつつ高音質の音声を合成することができる。 According to the present invention, it is possible to synthesize high-quality sound while maintaining the processing speed by appropriately setting the cycle of outputting the LSP coefficient for each state position of the phoneme HMM data.
本発明の実施形態に係る音声合成装置100について、図面を参照しながら説明する。
音声合成装置100は、任意のテキスト文字列を与えられると、該テキスト文字列の音声を合成して出力する装置である。
A
The
音声合成装置100は、図1に示すように、入力変換部10と、音声合成辞書20と、音素HMM列変換部30と、パラメータ生成部40と、励起音源生成部50と、LSP係数補間部60と、LSP合成フィルタ70と、から構成される。
As shown in FIG. 1, the
入力変換部10は、ユーザからテキスト文字列データの入力を受ける。そして、入力変換部10は、入力されたテキスト文字列データを、音素単位のラベルの並びである音素ラベル列データに変換する。
The
音声合成辞書20は、音素ラベル列データを音素HMM列データに変換する際に用いられる。音声合成辞書20は、LSP係数に関する音素HMMデータとピッチに関する音素HMMデータとを記憶する。各音素HMMデータは、多数の音声データから抽出したLSP係数と該音声データに対応する音素ラベル列データとから、学習によって作成される。
The
LSP係数に関する音素HMMデータ及びピッチに関する音素HMMデータは、それぞれ図5(a)に示すように、状態数を5つもち、S1〜S3の状態位置それぞれで(S0は初期状態、S4は終了状態。S0とS4ではLSP係数及びピッチデータを出力しない)、LSP係数及びピッチデータを出力する。なお各状態毎に平均値、分散値をパラメータとして保持している。 As shown in FIG. 5A, the phoneme HMM data related to the LSP coefficient and the phoneme HMM data related to the pitch each have five states, and each of the state positions S1 to S3 (S0 is an initial state, S4 is an end state) In S0 and S4, the LSP coefficient and pitch data are not output), and the LSP coefficient and pitch data are output. Note that an average value and a variance value are held as parameters for each state.
LSP係数は、音声の特徴を表す特徴ベクトルであり、音声を合成するためのパラメータとして用いられる。 The LSP coefficient is a feature vector that represents a feature of speech and is used as a parameter for synthesizing speech.
音素HMM列変換部30は、入力変換部10から音素ラベル列データを受け取る。そして、音声合成辞書20を参照し、受け取った音素ラベル列データをLSP係数に関する音素HMM列データとピッチに関する音素HMM列データとに変換する。音素HMM列データとは、図5(a)に示す音素HMMデータをつなぎ合わせた、図5(b)のような列データにしたものである。
The phoneme
パラメータ生成部40は、音素HMM変換部30からLSP係数に関する音素HMM列データを受け取り、音声を合成するパラメータとして、LSP係数系列データを生成する。LSP係数系列データとは、図6の下段に折れ線グラフで示すように、白丸で示す時系列で変化するLSP係数を、所定の周期で並べて、つなぎ合わせたものである。ここでは、図を簡略化するため、LSP係数はそれぞれ5次元の特徴ベクトルで構成されているものとしている。
The
また、パラメータ生成部40は、ピッチに関する音素HMM列データを受け取り、音声を合成するパラメータとして、図7に示すようなピッチ列データを生成する。
Further, the
パラメータ生成部40は、音素HMM列データの各音素HMMデータに対する尤度が最大となるようにパラメータを生成する。
各音素HMMデータに対する尤度を最大にするパラメータは、以下の式を解くことで求められる。
The
The parameter that maximizes the likelihood for each phoneme HMM data can be obtained by solving the following equation.
ただし、Pは状態位置Qで作られるパラメータOが音素HMMデータλから観測される確率(Oに関するQでのλの尤度)、CはPを最大にするパラメータである。 However, P is the probability that the parameter O created at the state position Q is observed from the phoneme HMM data λ (the likelihood of λ at Q with respect to O), and C is the parameter that maximizes P.
尤度を最大にするパラメータを生成することで、LSP係数系列データ及びピッチ列データのばらつきが小さくなり、不連続な変化を抑制し、より現実の発話に近い音声を合成することができる。 By generating a parameter that maximizes the likelihood, variations in LSP coefficient sequence data and pitch sequence data are reduced, discontinuous changes can be suppressed, and speech closer to an actual utterance can be synthesized.
また、パラメータ生成部40がLSP係数を出力する周期(フレーム周期)は、音素HMMデータの状態位置毎に設定される。
後述するLSP合成フィルタ70で、音声を合成する際のフレーム周期をFPRDとすると、パラメータ生成部40は、通常、FPRDより長い所定のフレーム周期PRDでLSP係数を出力する。
The period (frame period) at which the
Assuming that a frame period for synthesizing speech with an
パラメータ生成部40は、各状態位置の分散値の大きさによってフレーム周期を切り替える。即ち、ある状態位置の分散値が第1の所定の値より小さいとき、フレーム周期をPRDの2倍の長さに切り替える。また、ある状態位置の分散値が第2の所定の値より大きいとき、フレーム周期を設定できる中で最短の周期であるFPRDに切り替える。
The
分散値の小さい状態位置では、通常より長い周期でパラメータを出力してもばらつきが少ないため、不連続なデータになりにくい。そこで、フレーム周期を通常の2倍に設定し、処理速度を向上することができる。
また、分散値が大きい状態位置では、短い周期でパラメータを出力しなければ不連続なデータになる。そこで、フレーム周期をFPRDに設定し、不連続なデータになることを抑制する。
In the state position where the variance value is small, even if the parameter is output with a longer cycle than usual, there is little variation, and thus it is difficult to produce discontinuous data. Therefore, it is possible to improve the processing speed by setting the frame period to twice the normal period.
In a state position where the variance value is large, discontinuous data is obtained unless parameters are output in a short cycle. Therefore, the frame period is set to FPRD to suppress discontinuous data.
励起音源生成部50は、パラメータ生成部40から、図7のような時系列のピッチ列データを受け取り、該ピッチ列データから励起音源データを生成する。
The excitation
LSP係数補間部60は、パラメータ生成部40からLSP係数系列データを受け取る。受け取ったLSP係数系列データの係数間を、隣り合うLSP係数を用いて図6に示す黒丸のように補間して、フレーム周期FPRDのLSP係数系列データを生成する。該補間は、LSP係数系列データの隣り合うLSP係数を用いた線形補間により行う。
The LSP
LSP合成フィルタ70は、励起音源生成部50から励起音源データを受け取る。また、LSP係数補間部60からフレーム周期FPRDのLSP係数系列データを受け取る。そして、それらを合成し、合成音声を生成する。そして、生成した合成音声を出力する。
The
次に、上記構成の音声合成装置100の音声を合成する音声合成処理の動作について図2を参照しながら説明する。
Next, an operation of speech synthesis processing for synthesizing speech of the
まず、音声合成装置100の入力変換部10が、ユーザからテキスト文字列データの入力を受け付ける(ステップS11)。
First, the
入力変換部10は、テキスト文字列データの入力を受け付けると、テキスト文字列データを音素ラベル列データに変換する(ステップS12)。そして、変換した音素ラベル列データを音素HMM列変換部30に引き渡す。
When receiving input of text character string data, the
次に、音素HMM列変換部30が、ステップS12で変換された音素ラベル列データを受け取り、音声合成辞書20を参照し、LSP係数に関する音素HMM列データとピッチ列に関する音素HMM列データとに変換する(ステップS13)。そして、変換したLSP係数に関する音素HMM列データとピッチ列に関する音素HMM列データとをパラメータ生成部40に引き渡す。
Next, the phoneme HMM
パラメータ生成部40は、LSP係数に関する音素HMM列データとピッチ列に関する音素HMM列データとを受け取ると、図3に示すパラメータ生成処理を実行する(ステップS14)。
When the
パラメータ生成処理(ステップS14)で、パラメータ生成部40は、受け取ったピッチ列に関する音素HMM列データから図7に示すようなピッチ列データを生成する(ステップS21)。
In the parameter generation process (step S14), the
それと共に、受け取ったLSP係数に関する音素HMM列データからLSP係数系列データを生成するためにLSP係数系列データ生成処理(ステップS22)を実行する。 At the same time, an LSP coefficient sequence data generation process (step S22) is executed to generate LSP coefficient sequence data from the phoneme HMM sequence data related to the received LSP coefficient.
LSP係数系列データ生成処理(ステップS22)の動作を図4に示す。 The operation of the LSP coefficient series data generation process (step S22) is shown in FIG.
LSP係数系列データ生成処理(ステップS22)では、パラメータ生成部40は、図6の上段に示すような、LSP係数に関する音素HMM列データ{λi|1≦i≦N}の各音素HMMデータλiの全ての状態位置S1〜S3について、LSP係数を出力する。そして、図6下段に示すような、LSP係数系列データ(白丸)を生成する。
In the LSP coefficient series data generation process (step S22), the
先ず、LSP係数を出力するフレーム周期を決定する。そのために、パラメータ生成部40は、ある状態位置の分散値が所定の閾値V1より小さいか否かを判別する(ステップS31)。
閾値V1には、分散値がこれより小さい値であれば安定したパラメータが出力される値が設定される。
First, the frame period for outputting the LSP coefficient is determined. Therefore, the
The threshold V1 is set to a value at which a stable parameter is output if the variance value is smaller than this.
分散値が閾値V1より小さいと判別されると(ステップS31;Yes)、該状態位置でのフレーム周期を通常の出力周期PRDの2倍に設定する(ステップS32)。 If it is determined that the variance value is smaller than the threshold value V1 (step S31; Yes), the frame period at the state position is set to twice the normal output period PRD (step S32).
また、分散値が閾値V1より小さくないと判別されると(ステップS31;No)、分散値が所定の閾値V2より大きいか否かを判別する(ステップS33)。
閾値V2には、分散値がこれ以上であるとばらつきのあるパラメータが出力される値が設定される。
If it is determined that the variance value is not smaller than the threshold value V1 (step S31; No), it is determined whether the variance value is greater than a predetermined threshold value V2 (step S33).
The threshold value V2 is set to a value that outputs a parameter with a variation when the variance value is greater than this value.
分散値が閾値V2より大きいと判別されると(ステップS33;Yes)、該状態位置でのフレーム周期を設定できる最小の周期であるFPRDに設定する(ステップS34)。 If it is determined that the variance value is larger than the threshold value V2 (step S33; Yes), the frame period at the state position is set to FPRD, which is the minimum period that can be set (step S34).
一方、分散値が閾値V2より大きくないと判別されると(ステップS33;No)、フレーム周期を再設定せず、フレーム周期は通常の出力周期PRDである。 On the other hand, if it is determined that the variance value is not greater than the threshold value V2 (step S33; No), the frame period is not reset and the frame period is the normal output period PRD.
ステップS31〜S34で、フレーム周期が決定すると、該フレーム周期で、音素HMMデータに対する尤度が最大となるLSP係数を出力する(ステップS35)。 When the frame period is determined in steps S31 to S34, the LSP coefficient having the maximum likelihood for the phoneme HMM data is output in the frame period (step S35).
以上のステップS31〜S35の処理を、音素HMM列データ{λi|1≦i≦N}の各音素HMMデータλiの全ての状態位置S1〜S3について繰り返し実行することで、状態位置毎に適切なフレーム周期でLSP係数を出力したLSP係数系列データを生成することができる。 The processes in steps S31 to S35 described above are repeated for all the state positions S1 to S3 of each phoneme HMM data λi of the phoneme HMM sequence data {λi | 1 ≦ i ≦ N}. It is possible to generate LSP coefficient series data in which LSP coefficients are output at a frame period.
なお、図6の例では、音素HMMデータλiでの状態位置S1、S3でのフレーム周期PRDλi, S1及びPRDλi, S3は、通常のフレーム周期PRDで出力されている。また、状態位置S2では、分散値が十分小さいため、状態位置S2でのフレーム周期PRDλi, S2は、PRDの2倍のフレーム周期で出力されている。このとき、各状態位置間のフレーム周期はFPRDに設定されている。 In the example of FIG. 6, the frame periods PRD λi, S1 and PRD λi, S3 at the state positions S1, S3 in the phoneme HMM data λi are output at the normal frame period PRD. Further, since the variance value is sufficiently small at the state position S2, the frame period PRD λi, S2 at the state position S2 is output at a frame period twice that of the PRD. At this time, the frame period between each state position is set to FPRD.
LSP係数系列データ生成処理(ステップS22)が終了し、パラメータ生成処理(ステップS14)が終了すると、図2示す音声合成処理に戻り、パラメータ生成部40は、生成したピッチ列データを励起音源生成部50に引き渡す。また、生成したLSP係数系列データをLSP係数補間部60に引き渡す。
When the LSP coefficient series data generation process (step S22) ends and the parameter generation process (step S14) ends, the process returns to the speech synthesis process shown in FIG. 2, and the
励起音源生成部50は、ピッチ列データを受け取ると、該ピッチ列データから励起音源データを生成する(ステップS15)。そして、生成した励起音源データをLSP合成フィルタ70に引き渡す。
Upon receiving the pitch string data, the excitation
また、LSP係数補間部60は、LSP係数系列データを受け取ると、該LSP係数系列データの隣り合うLSP係数を用いて線形補間して、フレーム周期FPRDのLSP係数系列データを生成する(ステップS16)(図6の黒丸)。そして、生成したフレーム周期FPRDのLSP係数系列データをLSP合成フィルタ70に引き渡す。
Further, upon receiving the LSP coefficient series data, the LSP
LSP合成フィルタ70は、励起音源データとフレーム周期FPRDのLSP係数系列データとを受け取ると、両者から音声を合成する(ステップS17)。
When the
続いて、LSP合成フィルタ70は、合成した音声を出力する(ステップS18)。
Subsequently, the
以上のように、音声合成装置100は、与えられたテキスト文字列データから処理速度の低下を防ぎながら、高音質の音声を合成して出力することができる。
As described above, the
なお、この発明は上記実施形態に限定されず、種々の変形及び応用が可能である。 In addition, this invention is not limited to the said embodiment, A various deformation | transformation and application are possible.
上記実施形態では、線形補間によりLSP係数系列データを補間していたが、これに限られるものではない。例えば、より高音質の音声を合成するため、状態位置毎に補間方法を切り替えるようにしてもよい。 In the above embodiment, the LSP coefficient series data is interpolated by linear interpolation, but the present invention is not limited to this. For example, in order to synthesize higher-quality sound, the interpolation method may be switched for each state position.
例えば、LSP係数系列データの安定性を判別して、安定性を欠くデータとなったときに該データを正常なデータに補正するLSP係数補正部80をさらに備えて、合成音声の音質をさらに向上するようにしてもよい。LSP係数補正部80による補正は、図8に示すように、LSP係数補間部60で補間後のLSP係数系列データに対してしてもよいし、図9に示すように、補間前のLSP係数系列データに対してしてもよい。
For example, the sound quality of the synthesized speech is further improved by further including an LSP
また、音声合成装置100は、上記実施形態のように、専用の機器である場合に限られない。
例えば、コンピュータをプログラムにより音声合成装置100として機能させてもよいし、DSP(Digital Signal Processor)等にプログラムを読み込ませて音声合成装置100の動作をさせてもよい。
The
For example, the computer may function as the
10…入力変換部、20…音声合成辞書、30…音素HMM列変換部、40…パラメータ生成部、50…励起音源生成部、60…LSP係数補間部、70…LSP合成フィルタ、80…LSP係数補正部、100…音声合成装置
DESCRIPTION OF
Claims (5)
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段と、
を備え、
前記周期設定手段は、
音素HMMデータの状態位置ごとのLSP係数の分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定することを特徴とする音声合成装置。 Storage means for storing phoneme HMM (Hidden Markov Model) data for generating LSP (Line Spectrum Pair) coefficients, which are parameters for synthesizing speech, and phoneme labels in association with each other;
Phoneme HMM data conversion means for generating a phoneme label from given text data, referring to the storage information of the storage means, and converting the generated phoneme label into corresponding phoneme HMM data;
A period setting means for setting, for each state position, a period for outputting an LSP coefficient from the phoneme HMM data converted by the phoneme HMM data conversion means;
LSP coefficient output means for outputting LSP coefficients at a period set by the period setting means from the phoneme HMM data converted by the phoneme HMM data conversion means;
With
The period setting means includes
Determine the size of the dispersed values of the LSP coefficients for each state position of the phoneme HMM data,
If the variance value is less than or equal to the first threshold and greater than or equal to the second threshold smaller than the first threshold, the cycle for outputting the LSP coefficient is set to the first cycle,
If the variance value is greater than the first threshold, set the period for outputting the LSP coefficient to a second period smaller than the first period,
When the variance value is smaller than the second threshold value , the speech synthesizer is characterized in that the period for outputting the LSP coefficient is set to a third period that is larger than the first period .
与えられたテキストデータから音素ラベルを生成し、前記記憶ステップで記憶した情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータから、前記周期設定ステップで設定した周期でLSP係数を出力するLSP係数出力ステップと、
を備え、
前記周期設定ステップでは、
音素HMMデータの状態位置ごとのLSP係数の分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定することを特徴とする音声合成方法。 A storage step of storing phoneme HMM (Hidden Markov Model) data for generating LSP (Line Spectrum Pair) coefficients, which are parameters for synthesizing speech, and phoneme labels in association with each other;
A phoneme HMM data conversion step of generating a phoneme label from given text data, referring to the information stored in the storage step, and converting the generated phoneme label into corresponding phoneme HMM data;
A cycle setting step for setting, for each state position, a cycle for outputting LSP coefficients from the phoneme HMM data converted in the phoneme HMM data conversion step;
An LSP coefficient output step of outputting an LSP coefficient at a cycle set in the cycle setting step from the phoneme HMM data converted in the phoneme HMM data conversion step;
With
In the period setting step,
Determine the size of the dispersed values of the LSP coefficients for each state position of the phoneme HMM data,
If the variance value is less than or equal to the first threshold and greater than or equal to the second threshold smaller than the first threshold, the cycle for outputting the LSP coefficient is set to the first cycle,
If the variance value is greater than the first threshold, set the period for outputting the LSP coefficient to a second period smaller than the first period,
When the variance value is smaller than the second threshold value, the period for outputting the LSP coefficient is set to a third period larger than the first period .
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶手段、
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段、
として機能させ、
前記周期設定手段は、
音素HMMデータの状態位置ごとのLSP係数の分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定するコンピュータプログラム。 Computer
Storage means for storing phoneme HMM (Hidden Markov Model) data for generating LSP (Line Spectrum Pair) coefficients, which are parameters for synthesizing speech, and phoneme labels in association with each other;
Phoneme HMM data conversion means for generating a phoneme label from given text data and converting the generated phoneme label into corresponding phoneme HMM data by referring to the storage information of the storage means;
A period setting means for setting a period for outputting an LSP coefficient from the phoneme HMM data converted by the phoneme HMM data conversion means for each state position;
LSP coefficient output means for outputting an LSP coefficient at a period set by the period setting means from the phoneme HMM data converted by the phoneme HMM data conversion means;
Function as
The period setting means includes
Determine the size of the dispersed values of the LSP coefficients for each state position of the phoneme HMM data,
If the variance value is less than or equal to the first threshold and greater than or equal to the second threshold smaller than the first threshold, the cycle for outputting the LSP coefficient is set to the first cycle,
If the variance value is greater than the first threshold, set the period for outputting the LSP coefficient to a second period smaller than the first period,
A computer program for setting a period for outputting an LSP coefficient to a third period larger than the first period when the variance value is smaller than the second threshold value .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006056732A JP4816144B2 (en) | 2006-03-02 | 2006-03-02 | Speech synthesis apparatus, speech synthesis method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006056732A JP4816144B2 (en) | 2006-03-02 | 2006-03-02 | Speech synthesis apparatus, speech synthesis method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007233181A JP2007233181A (en) | 2007-09-13 |
| JP4816144B2 true JP4816144B2 (en) | 2011-11-16 |
Family
ID=38553816
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006056732A Expired - Fee Related JP4816144B2 (en) | 2006-03-02 | 2006-03-02 | Speech synthesis apparatus, speech synthesis method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4816144B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2013008384A1 (en) * | 2011-07-11 | 2013-01-17 | 日本電気株式会社 | Speech synthesis device, speech synthesis method, and speech synthesis program |
| CN103226946B (en) * | 2013-03-26 | 2015-06-17 | 中国科学技术大学 | Voice synthesis method based on limited Boltzmann machine |
| WO2017046887A1 (en) | 2015-09-16 | 2017-03-23 | 株式会社東芝 | Speech synthesis device, speech synthesis method, speech synthesis program, speech synthesis model learning device, speech synthesis model learning method, and speech synthesis model learning program |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002062890A (en) * | 2000-08-18 | 2002-02-28 | Seiko Epson Corp | Speech synthesis method, speech synthesis device, and recording medium storing speech synthesis processing program |
| JP2004341259A (en) * | 2003-05-15 | 2004-12-02 | Matsushita Electric Ind Co Ltd | Speech unit expansion / contraction device and method thereof |
-
2006
- 2006-03-02 JP JP2006056732A patent/JP4816144B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007233181A (en) | 2007-09-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4966048B2 (en) | Voice quality conversion device and speech synthesis device | |
| JP5471858B2 (en) | Database generating apparatus for singing synthesis and pitch curve generating apparatus | |
| JP5293460B2 (en) | Database generating apparatus for singing synthesis and pitch curve generating apparatus | |
| KR101214402B1 (en) | Method, apparatus and computer program product for providing improved speech synthesis | |
| CN107924678A (en) | Speech synthesis device, speech synthesis method, speech synthesis program, speech synthesis model learning device, speech synthesis model learning method, and speech synthesis model learning program | |
| JP4816144B2 (en) | Speech synthesis apparatus, speech synthesis method, and program | |
| JP6959901B2 (en) | Time series data generators, methods and programs | |
| JP4225128B2 (en) | Regular speech synthesis apparatus and regular speech synthesis method | |
| JP5268731B2 (en) | Speech synthesis apparatus, method and program | |
| JP5474713B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP5143809B2 (en) | Spatio-temporal decomposition apparatus, speech rhythm conversion apparatus, method and program thereof | |
| JP2017015821A (en) | Speech synthesis apparatus, speech synthesis method, and program | |
| JP4586386B2 (en) | Segment-connected speech synthesizer and method | |
| JP5862667B2 (en) | Waveform processing apparatus, waveform processing method, and waveform processing program | |
| JP2002062890A (en) | Speech synthesis method, speech synthesis device, and recording medium storing speech synthesis processing program | |
| JP5054632B2 (en) | Speech synthesis apparatus and speech synthesis program | |
| JP6163454B2 (en) | Speech synthesis apparatus, method and program thereof | |
| JP5763414B2 (en) | Feature parameter generation device, feature parameter generation method, and feature parameter generation program | |
| JP2007271829A (en) | Speech processing apparatus and method, text speech synthesis apparatus, and program | |
| JP4536464B2 (en) | Speech synthesis apparatus and method | |
| JP2005241789A (en) | Segment-connected speech synthesizer and method, and speech segment database creation method | |
| JP2008299266A (en) | Speech synthesis apparatus and speech synthesis method | |
| JP5345967B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JPH04125699A (en) | Residual driving type voice synthesizer | |
| JP2007286511A (en) | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090220 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110125 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110406 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110629 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110815 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4816144 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |