JP4536464B2 - Speech synthesis apparatus and method - Google Patents
Speech synthesis apparatus and method Download PDFInfo
- Publication number
- JP4536464B2 JP4536464B2 JP2004260782A JP2004260782A JP4536464B2 JP 4536464 B2 JP4536464 B2 JP 4536464B2 JP 2004260782 A JP2004260782 A JP 2004260782A JP 2004260782 A JP2004260782 A JP 2004260782A JP 4536464 B2 JP4536464 B2 JP 4536464B2
- Authority
- JP
- Japan
- Prior art keywords
- articulation
- formant frequency
- frequency
- bandwidth
- articulatory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、刺激音声を、複数の調音器官の少なくとも一部の位置における調音運動軌跡の確率的な動的モデルに基づき生成し、調音器官の位置および当該位置の変化とフォルマント周波数の変化量との関係を前記刺激音声として出力する、音声合成装置およびその方法に関する。 The present invention generates stimulation speech based on a probabilistic dynamic model of articulatory motion trajectories at at least some positions of a plurality of articulators, and includes the position of articulators, the change in the positions, and the amount of change in formant frequency. The present invention relates to a speech synthesizer and a method for outputting the relationship as the stimulus speech.
母音あるいは子音を含む音節のフォルマント周波数の弁別閾値を測定する聴覚心理物理実験に用いる刺激音声の作成方法としては以下のようなものがある。
まず、人間が単母音発声した音声信号を録音し、低次の3つのフォルマント周波数とそのバンド幅および基本周波数を音声信号から計測する。次に、その値をKlattのフォルマント合成音声のパラメータとして設定した基準となる刺激音声と、閾値測定の対象なるフォルマント周波数の値から上下いずれかの方向に変化させた刺激音声を作成する。そして、恒常法あるいは変形上下法などの心理物理測定手法を用いてフォルマント周波数の弁別閾値を測定するものである(例えば、非特許文献1参照)。
There are the following methods for creating stimulus speech used in an auditory psychophysical experiment for measuring a discrimination threshold of formant frequencies of syllables including vowels or consonants.
First, a voice signal uttered by a single vowel is recorded, and three low-order formant frequencies, their bandwidth and fundamental frequency are measured from the voice signal. Next, a stimulus sound as a reference in which the value is set as a parameter of the Klatt formant synthesized sound and a stimulus sound in which the value of the formant frequency to be measured for the threshold is changed in either the upper or lower direction are created. Then, the discrimination threshold of the formant frequency is measured using a psychophysical measurement method such as a constant method or a modified up-and-down method (for example, see Non-Patent Document 1).
しかしながら、上記した非特許文献1に開示された技術によれば、計測されたフォルマント周波数とそのバンド幅、および基本周波数は、人間の発声器官や発声動作の拘束を陽に考慮していない。
このため、閾値測定の対象となるフォルマント周波数の値を一定幅で上下に変化させて作成した刺激音声が、必ずしも人間が実際に発声可能な範囲に存在するとは限らない。したがって、音声に聞こえない刺激を実験に用いている可能性がある。また、単母音あるいは子音を含む単音節発声の音声信号の計測では、調音結合等、前後の音素環境の影響を考慮した刺激音声を作成することが困難である。
However, according to the technique disclosed in
For this reason, the stimulus sound created by changing the formant frequency value subject to threshold measurement up and down with a certain width does not necessarily exist in a range where humans can actually speak. Therefore, there is a possibility that a stimulus that cannot be heard is used in the experiment. Moreover, in the measurement of a single syllable utterance voice signal including a single vowel or consonant, it is difficult to create a stimulus voice that takes into account the effects of the front and back phonemic environment such as articulation coupling.
一方、発声動作から音声信号を生成する方法に、調音・音響対コードブック検索による方法がある(例えば、特許文献1、非特許文献2参照)。また、発声動作の動的モデルの作成およびその音声信号を生成する方法に、HMM(Hidden Markov Model:隠れマルコフモデル)音声生成モデルと調音・音響マッピングに基づく方法がある(例えば、特許文献2、特許文献3、非特許文献3参照)。
ところで、ある調音位置が与えられた際に、その調音位置の変化に対するフォルマント周波数の変化量の計算は、発話動作の制約を考慮せずに、各調音器官の位置をすべての可能な方向に対して変更して行われていた。従って、そのフォルマント周波数の変化の影響を調べる場合、定性的な結果が得られるため、調音位置の変化とフォルマント周波数の変化量の関係を刺激音声として用いることが困難である。
また、実際の各調音器官の間には相関があるため、従来研究で行われた「調音器官の位置をすべての可能な方向に動かす」ことは、調音運動の動的振る舞いを十分に考慮していないことを意味する。
By the way, when a certain articulation position is given, the calculation of the amount of change in formant frequency with respect to the change in the articulation position does not take into account the restriction of the speech operation, and the position of each articulator organ in all possible directions. It was done by changing. Therefore, when investigating the influence of the change in formant frequency, a qualitative result can be obtained. Therefore, it is difficult to use the relationship between the change in articulation position and the amount of change in formant frequency as the stimulus sound.
In addition, since there is a correlation between the actual articulators, “moving the position of the articulator in all possible directions” performed in the previous study fully considers the dynamic behavior of the articulatory motion. Means not.
本発明は上記事情に鑑みてなされたものであり、人間の発声は調音器官の静的かつ動的な制約の基に行なわれていることから、調音位置の変化とフォルマント周波数の変化量の関係を調音運動の拘束に基づき作成される刺激音声として用いることを可能にする、音声合成装置およびその方法を提供することを目的とする。 The present invention has been made in view of the above circumstances, and since human speech is performed based on static and dynamic restrictions of the articulatory organ, the relationship between the change in articulation position and the amount of change in formant frequency. It is an object of the present invention to provide a speech synthesizer and a method thereof that make it possible to use as a stimulating speech created based on the restriction of articulatory motion.
上記した課題を解決するために本発明は、刺激音声を生成して出力する音声合成装置であって、調音運動軌跡の確率的な動的モデルを用いて、調音パラメータベクトルの状態系列を学習する手段と、前記調音運動軌跡の確率的な動的モデルにおける各状態の平均調音位置の間を補間演算する手段と、前記補間演算によって求められた各調音位置に対し、音声パラメータベクトルと前記調音パラメータベクトルとの対が格納された調音音響対コードブックを参照し、フォルマント周波数とバンド幅と基本周波数とを算出する手段と、前記補間演算によって求められた各調音位置と前記算出されたフォルマント周波数に対して、前記調音位置の変化に対するフォルマント周波数の変化量を、前記補間演算によって求められた各調音位置が運動方向に10点変化したことによる前記調音パラメータベクトルの平均二乗距離で、当該10点の調音位置に基づいて算出されたフォルマント周波数の値に基づいて算出される線形回帰係数を割ることにより、算出する手段と、前記各調音位置に対する前記フォルマント周波数、前記バンド幅、前記基本周波数、前記フォルマント周波数の変化量を対とする対応表を生成して記憶する手段と、前記対応表を参照し、入力されたフォルマント周波数、バンド幅、基本周波数に該当する前記対とされている前記フォルマント周波数、前記バンド幅、前記基本周波数、および、前記フォルマント周波数の変化量であるデータ組を全検索により選択し、当該選択したデータ組に基づいて、前記刺激音声を生成する手段と、を具備することを特徴とする。 The present invention to solve the above-mentioned problems, there is provided a speech synthesizer to force out by generating a stimulus sound, using a stochastic dynamic model of articulatory trajectory learning state series articulatory parameter vector It means for, means for interpolation calculation between the average articulation position of each state in the stochastic dynamic model of the articulatory movement trajectories, for each articulation position obtained by the interpolation operation, the speech parameter vector articulatory A means for calculating a formant frequency, a bandwidth, and a fundamental frequency with reference to an articulatory acoustic pair code book in which a pair with a parameter vector is stored , each articulation position obtained by the interpolation operation, and the calculated formant frequency against, the amount of change of the formant frequency for a change in the articulation position, the respective articulation positions obtained by the interpolation operation direction of movement In the mean square distance of the articulatory parameter vector due to the change in 10 points, by dividing the linear regression coefficient is calculated based on the values of the formant frequencies calculated on the basis of the articulation position of the 10-point, means for calculating , Means for generating and storing a correspondence table in which the formant frequency, the bandwidth, the fundamental frequency, and the amount of change of the formant frequency for each of the articulation positions are paired, and the formant inputted with reference to the correspondence table Select the data set that is the amount of change of the formant frequency, the bandwidth, the fundamental frequency, and the formant frequency corresponding to the frequency, bandwidth, and fundamental frequency by performing a full search, and select the selected Means for generating the stimulation sound based on a data set .
また、本発明において、前記補間演算する手段は、前記調音運動軌跡の確率的な動的モデルを、隠れマルコフモデルを用いて生成することを特徴とする。 Further, in the present invention, the means for performing the interpolation calculation generates a probabilistic dynamic model of the articulatory movement locus using a hidden Markov model.
また、本発明において、前記補間演算する手段は、前記各調音位置における運動方向について、前記隠れマルコフモデルの状態遷移に基づき選択することを特徴とする。 Further, in the present invention, the means for performing the interpolation calculation selects the motion direction at each articulation position based on the state transition of the hidden Markov model.
また、本発明は、刺激音声を演算装置によって生成して出力する音声合成方法であって、前記演算装置は、調音運動軌跡の確率的な動的モデルを用いて、調音パラメータベクトルの状態系列を学習するステップと、前記調音運動軌跡の確率的な動的モデルにおける各状態の平均調音位置の間を補間演算するステップと、前記補間演算された各調音位置に対し、音声パラメータベクトルと前記調音パラメータベクトルとの対が格納された調音音響対コードブックを参照し、フォルマント周波数とバンド幅および基本周波数を算出するステップと、前記補間演算によって求められた各調音位置と前記算出されたフォルマント周波数に対して、前記調音位置の変化に対するフォルマント周波数の変化量を、前記補間演算によって求められた各調音位置が運動方向に10点変化したことによる前記調音パラメータベクトルの平均二乗距離で、当該10点の調音位置に基づいて算出されたフォルマント周波数の値に基づいて算出される線形回帰係数を割ることにより、算出するステップと、前記各調音位置に対するフォルマント周波数、バンド幅、基本周波数、フォルマント周波数の変化量を対とする対応表を作成して記憶するステップと、前記対応表を参照し、入力されたフォルマント周波数、バンド幅、基本周波数に該当する前記対とされている前記フォルマント周波数、前記バンド幅、前記基本周波数、および、前記フォルマント周波数の変化量であるデータ組を全検索により選択し、当該選択したデータ組に基づいて、前記刺激音声を生成するステップと、を実行することを特徴とする。
Further, the present invention provides a speech synthesis method for force out by generating by a stimulus sound arithmetic unit, said arithmetic unit, using a probabilistic dynamic model of the articulatory movement trajectory, articulatory parameter vector Learning step sequence, interpolating between average articulation positions of each state in the probabilistic dynamic model of the articulatory movement locus, and speech parameter vector for each interpolated articulation position Referring to the said articulatory parameter vector and pairs stored articulatory sound pair codebook, calculating a formant frequency and bandwidth and the fundamental frequency, which is the calculated respective articulation position obtained by the interpolation calculation relative formant frequencies, the amount of change of the formant frequency for the change in place of articulation, the articulation position obtained by the interpolation calculation There the average square distance of the articulatory parameter vector due to the
本発明によれば、刺激音声を、連続音声発声時における、顎、舌、唇、軟口蓋、喉頭等、調音器官の調音運動軌跡の確率的な動的モデルを考慮して作成し、また、各運動の平均調音位置の間を補間し、当該補間された各調音位置からフォルマント周波数とそのバンド幅、基本周波数を決定して各調音位置に対して当該調音位置に対するフォルマント周波数の変化量を計算することで、調音器官の位置の変化とフォルマント周波数の変化量との関係を刺激音声として用いることが可能となる。このことにより、人間の調音器官や運動の動的な振る舞いを考慮した精緻な音声合成を実現することができる。
更に、調音運動軌跡の確率的な動的モデルをHMM(隠れマルコフモデル)を用いて生成し、また、各調音位置における運動方向について隠れマルコフモデルの状態遷移に基づき選択することで語間の接続関係を間接的に表現でき、一層精緻な音声合成が可能となる。
According to the present invention, stimulating speech is created in consideration of a probabilistic dynamic model of articulatory movement trajectories of articulators such as jaw, tongue, lips, soft palate, and larynx during continuous speech utterance, Interpolate between the average articulation positions of motion, determine the formant frequency, its bandwidth, and fundamental frequency from each interpolated articulation position, and calculate the amount of change in formant frequency for that articulation position for each articulation position Thus, the relationship between the change in the position of the articulator and the amount of change in the formant frequency can be used as the stimulus sound. As a result, it is possible to realize precise speech synthesis that takes into account the dynamic behavior of human articulators and movements.
Furthermore, a probabilistic dynamic model of articulatory motion trajectory is generated using HMM (Hidden Markov Model), and the connection between words is selected by selecting the motion direction at each articulation position based on the state transition of the hidden Markov model. Relationships can be expressed indirectly, enabling more sophisticated speech synthesis.
図1は、本発明における音声合成装置の内部構成を機能展開して示したブロック図である。
図1に示されるように、本発明の音声合成装置は、音声パラメータ記憶部1と、調音パラメータ記憶部2と、音素系列記憶部3と、調音・音響コードブック生成部4と、HMMモデル作成部5と、補間調音位置生成部6と、フォルマント周波数生成部7と、バンド幅生成部8と、基本周波数生成部9と、AFS(Articulatory Formant Sensitivity)生成部10と、対応表生成部11と、パラメータ選択部12と、音声生成部13で構成される。
FIG. 1 is a block diagram showing an expanded function of the internal configuration of the speech synthesizer according to the present invention.
As shown in FIG. 1, the speech synthesizer of the present invention includes a speech
調音・音響コードブック生成部4は、音声パラメータ記憶部1に格納された音声パラメータベクトルと、調音パラメータ記憶部2に格納された調音パラメータベクトルとの対を生成し、これらをフォルマント周波数生成部7、バンド幅生成部8、基本周波数生成部9へ供給する。
HMMモデル作成部5は、刺激音声を、顎、舌、唇、軟口蓋、喉頭等、人間の調音器官における調音運動軌跡の確率的な動的モデルを用いて生成する機能を持ち、ここでは、調音運動軌跡の確率的な動的モデルとしてHMM(隠れマルコフモデル)を利用することとする。HMMモデル作成部5には、調音パラメータ記憶部2に格納される調音パラメータベクトルの他に、音素系列記憶部3に格納される発声された音素系列も供給されている。詳細は後述する。
The articulation / acoustic
The HMM
また、補間調音位置生成部6は、上記したHMMにおける各状態の平均調音位置の間を補間演算する機能を持ち、各調音位置における運動方向について、HMMの状態遷移に基づき選択してそれぞれについて補間演算を行なう。この補間演算によって求められる各調音位置データは、フォルマント周波数生成部7、バンド幅生成部8、基本周波数生成部9のそれぞれへ供給される。
フォルマント周波数生成部7、バンド幅生成部8、基本周波数生成部9のそれぞれは、補間調音位置生成部6の補間演算によって求められた各調音位置に対し、音声パラメータベクトルと調音パラメータベクトルとの対が格納された調音・音響コードブック生成部4を参照して、フォルマント周波数、バンド幅、基本周波数を算出する。この算出のためのロジックは、上記した非特許文献2(音素ラベル付き調音・音響対コードブックの検索に基づく調音運動からの音声合成法の検討)に詳細に開示されている。
The interpolated articulation
Each of the formant
一方、AFS生成部10は、各調音位置とフォルマント周波数生成部7出力であるフォルマント周波数に対して、前記調音位置の変化に対するフォルマント周波数の変化量(AFS)を算出する機能を持ち、ここで算出されたAFSは対応表生成部11へ供給される。対応表生成部11には、他に、フォルマント周波数生成部7、バンド幅生成部8、基本周波数生成部9から、フォルマント周波数、バンド幅、基本周波数のそれぞれが供給されており、ここでこれらの対を生成して図示せぬ記憶装置へ格納する。
また、パラメータ選択部12は、生成され記憶された対応表に対し、例えばユーザにより選択されたフォルマント周波数、バンド幅、基本周波数のそれぞれのパラメータを入力することによって全検索を行い、該当するデータの組を見つけ、それを刺激音声としてフォルマント合成器で構成される音声生成部13へ供給する機能を持つ。音声生成部13は、対応表から得られるデータの組を入力として合成音声を出力する。
On the other hand, the
Further, the
なお、図1における、音声パラメータ記憶部1、調音パラメータ記憶部2、音素系列記憶部3、そして、調音・音響コードブック生成部4によって生成されるコードブックと対応表生成部11によって生成される対応表は、図示せぬ記憶装置の所定の領域へ割付けられて格納されるものとし、また、HMMモデル作成部5、補間調音位置生成部6、フォルマント周波数生成部7、バンド幅生成部8、基本周波数生成部9、AFS(Articulatory Formant Sensitivity)生成部10、対応表生成部11、パラメータ選択部12、音声生成部13のそれぞれは、コンピュータを構成する演算装置とその周辺LSIがプログラムを逐次読み出して実行することによってそれぞれが持つ機能が実現されるものとする。
1, the speech
図2は、本発明における音声合成装置の動作を説明するために引用したフローチャートである。
以下、図2に示すフローチャートを参照しながら図1に示す本発明実施形態の動作について詳細に説明する。
FIG. 2 is a flowchart cited for explaining the operation of the speech synthesizer according to the present invention.
The operation of the embodiment of the present invention shown in FIG. 1 will be described in detail below with reference to the flowchart shown in FIG.
ここでは、フォルマント周波数とそのバンド幅および基本周波数をパラメータとし、音声生成部13(フォルマント合成器)により作成される定常母音を刺激音声とする。これらのパラメータは、人間の発声動作の実観測データに基づき生成される調音・音響コードブックから求める。 Here, the formant frequency, its bandwidth, and the fundamental frequency are used as parameters, and the stationary vowel created by the sound generation unit 13 (formant synthesizer) is used as the stimulation sound. These parameters are obtained from an articulatory / acoustic codebook generated based on actual observation data of human vocalization.
具体的に、調音・音響対コードブックは、音声信号と磁気センサシステムを用いて同時観測した調音運動に基づき、調音・音響コードブック生成部4により作成される。
こでは、話者は1名で、/aui/などの3母音連鎖を540回発声したものを用いた。そしてこの音声信号を毎秒250回のレートで、窓長25msで切り出し、低次の4つのフォルマント周波数とバンド幅および基本周波数を求めたものを音声パラメータy(音声パラメータ記憶部1)とする。また、調音パラメータとして、信号を毎秒250回のレートで測定し、各位置として下顎、上・下唇、舌上の4点、軟口蓋および喉頭の計9点の水平および垂直信号を用いたベクトルを調音パラメータベクトルx(調音パラメータ記憶部2)とする(S21、S22)。なお、コードブックには、発声された音素系列(音素系列記憶部3)も一緒に与えられている。
Specifically, the articulation / acoustic pair codebook is created by the articulation / acoustic
Here, one speaker was used, and a vowel utterance of three vowel chains such as / aui / was used. The voice signal is cut out at a rate of 250 times per second at a window length of 25 ms, and the four low-order formant frequencies, the bandwidth, and the fundamental frequency are obtained as a voice parameter y (voice parameter storage unit 1). As articulation parameters, signals are measured at a rate of 250 times per second, and vectors using horizontal and vertical signals of 9 points in total, including the lower jaw, upper and lower lips, 4 points on the tongue, soft palate and larynx as positions. It is assumed that the articulation parameter vector x (articulation parameter storage unit 2) (S21, S22). The code book is also given a phoneme sequence (phoneme sequence storage unit 3) uttered.
HMMモデル作成部5は、上記により得られる調音パラメータベクトルxを用い、統計的に調音パラメータの動的振る舞いの学習を行う。ここでは、統計手法としてHMMを用いている(S23:調音運動に基づくHMMの作成)。 HMMの構造は、後続音素を考慮した2音素組の3状態単混合ガウス分布で、スキップなしのleft-to-rightモデルとする。
HMMのモデルλは、調音パラメータベクトルの出力確率P(x|λ)=Σq P(x|q,λ)P(q|λ)が最大となるように作成する。ここで、qはHMMの状態系列で、与えられた状態系列に対する調音パラメータベクトルの出力確率P(x|q,λ)はガウス分布を仮定する。
The HMM
The HMM model λ is created so that the output probability P (x | λ) = Σq P (x | q, λ) P (q | λ) of the articulation parameter vector is maximized. Here, q is an HMM state sequence, and the output probability P (x | q, λ) of the articulation parameter vector for a given state sequence assumes a Gaussian distribution.
次に、補間調音位置生成部6は、上記により求めたHMMのモデルλの各2音素組のモデルにおける各状態i,jの平均調音位置xi,0とxj,0の間を100点で線形補間した調音位置系列を作成する(S24)。ここではそれをxi,j,n (i,j:状態、n=1〜100)とする。
これは、ある調音位置における運動方向を、HMMの状態遷移に基づき定義したことを意味する。図4に、HMMにより決定された正中断面上での調音位置の運動方向の一例が示されている。
Next, the interpolated articulation
This means that the movement direction at a certain articulation position is defined based on the state transition of the HMM. FIG. 4 shows an example of the movement direction of the articulation position on the median cross section determined by the HMM.
そして、フォルマント周波数生成部7、バンド幅生成部8、基本周波数生成部9のそれぞれは、補間調音位置生成部6により出力される、線形補間済みの調音位置xi,j,nに対し、調音・音響コードブック生成部4により生成される調音音響対コードブックに基づき、フォルマント周波数、バンド幅、基本周波数yi,j,nのそれぞれを算出する(S25)。
Then, each of the formant
図3に、上記した調音運動の動的モデルにおける各状態の平均調音位置の間を補間する手順と、補間された調音位置からフォルマント周波数とそのバンド幅および基本周波数を決定する手順が概念的に示されている。 FIG. 3 conceptually shows a procedure for interpolating between the average articulation positions in each state in the dynamic model of articulatory movement described above, and a procedure for determining a formant frequency, its bandwidth and fundamental frequency from the interpolated articulation positions. It is shown.
続いて、AFS生成部10は、補間された調音位置およびフォルマント周波数を用いて、上述した調音器官の位置である調音ジェスチャの変化に対するフォルマント周波数の変化量の算出を行う(S26)。計算法は、すべての調音位置の第1あるいは第2フォルマント周波数の値に対し、その前後10点のフォルマント周波数の値を用いて決定された線形回帰係数を、調音位置が10点変化したことによる顎や舌などの各パラメータに対する平均二乗距離、すなわち調音ジェスチャの変化量で割る。これを調音ジェスチャの変化に対するフォルマント周波数の変化量(AFS)と定義している。調音ジェスチャの変化に対するフォルマント周波数の変化量の一例が図5に示されている。
次に、対応表生成部11は、すべての調音位置に対し計算し、各調音位置に対するフォルマント周波数、バンド幅、基本周波数、AFSを対とする対応表を作成し記憶する(S27)。
Subsequently, the
Next, the correspondence
ここでパラメータ選択部12は、対応表生成部11により作成された対応表を参照することにより、発話動作の制約を考慮した刺激音声を提示する。
例えば、フォルマント周波数とそのバンド幅が同じで、基本周波数の値が異なる刺激音声を提示したい場合、対応表の中から全探索により該当するデータ組を見つけ、それを刺激音声として用いればよい。さらに、フォルマント周波数を変化させた場合の刺激音声が、人間の実際に発声可能かどうかを調音位置の制約に基づき調べることも可能である。
図6に、フォルマント周波数とそのバンド幅が同じで、基本周波数が高い(127Hz)、低い(114 Hz)を生成する正中断面上での調音位置のデータ組の一例が示されている。
Here, the
For example, when it is desired to present stimulus sounds having the same formant frequency and the same bandwidth but different fundamental frequency values, a corresponding data set may be found by a full search from the correspondence table and used as the stimulus sounds. Furthermore, it is possible to check whether or not the stimulating sound when the formant frequency is changed can be actually uttered by a person based on the restriction of the articulation position.
FIG. 6 shows an example of a data set of articulation positions on the mid-section that generates the same formant frequency and the same bandwidth, and generates a high fundamental frequency (127 Hz) and a low fundamental frequency (114 Hz).
最後に、音声生成部13は、パラメータ選択部12により選択されたフォルマント周波数とバンド幅および基本周波数をパラメータとして、フォルマント合成器から刺激音声を作成する(S28、S29)。
Finally, the
なお、ここでは、日本人男性1名によって発声された/aiu/などの3母音連鎖540文章を用いて調音運動の動的モデルの作成と、調音変化に対するフォルマント感度の学習を行った。また、フォルマント合成器にはPRAATを使用した。更に、刺激音声の時間長は200msで、音声のパワーには自然な時間変化をつけた。
本発明による発話器官の動的振る舞いを考慮した刺激音声を用いることにより、フォルマント周波数弁別閾値と調音ジェスチャに対するフォルマント周波数の変化量(AFS)との間に相関関係が存在することが分かった。また、人間が実際に発声可能な範囲に存在しない刺激音声を用いた場合、上記の相関が見られないことから、従来の発話の制約を考慮しない刺激音声は、聴覚心理物理実験のための刺激として不十分であることを示している。本発明による、調音ジェスチャの変化に対するフォルマント周波数の変化量(AFS)とフォルマント周波数の弁別閾値の関係を図7に示す。
Here, a dynamic model of articulatory movement was created using three-vowel chain 540 sentences such as / aiu uttered by one Japanese male, and formant sensitivity to articulation changes was learned. A PRAAT was used for the formant synthesizer. Furthermore, the time length of the stimulation sound was 200 ms, and the sound power was naturally changed with time.
It has been found that there is a correlation between the formant frequency discrimination threshold and the amount of change (AFS) of the formant frequency with respect to the articulation gesture by using the stimulating speech that takes into account the dynamic behavior of the speech organ according to the present invention. In addition, when stimulating speech that does not exist within the range that humans can actually utter is used, the above correlation is not observed, so stimulating speech that does not take into account the limitations of conventional speech is used for stimulating psychoacoustic experiments. As insufficient. FIG. 7 shows the relationship between the amount of change in formant frequency (AFS) with respect to the change in articulation gesture and the discrimination threshold of formant frequency according to the present invention.
以上説明のように本発明によれば、刺激音声を、連続音声発声時における、顎、舌、唇、軟口蓋、喉頭等、調音器官の調音運動軌跡の確率的な動的モデル(ここでは、HMMを使用)を考慮して作成し、また、各運動の平均調音位置の間を補間し、当該補間された各調音位置からフォルマント周波数とそのバンド幅、基本周波数を決定して各調音位置に対して当該調音位置に対するフォルマント周波数の変化量を計算することで、調音ジェスチャの変化とフォルマント周波数の変化量との関係を刺激音声として用いることを可能とする。このことにより、人間の調音器官や運動の動的な振る舞いを考慮した精緻な音声合成を実現することができる。 As described above, according to the present invention, the stimulating sound is a probabilistic dynamic model of the articulatory movement trajectory of the articulator such as the jaw, tongue, lips, soft palate, and larynx during continuous voice utterance (here, the HMM). And the average articulation position of each motion is interpolated, and the formant frequency, its bandwidth, and the fundamental frequency are determined from each interpolated articulation position, and for each articulation position Thus, by calculating the change amount of the formant frequency with respect to the articulation position, the relationship between the change of the articulation gesture and the change amount of the formant frequency can be used as the stimulation sound. As a result, it is possible to realize precise speech synthesis that takes into account the dynamic behavior of human articulators and movements.
1…音声パラメータ記憶部、2…調音パラメータ記憶部、3…音素系列記憶部、4…調音・音響コードブック生成部、5…HMMモデル作成部、6…補間調音位置生成部、7…フォルマント周波数生成部、8…バンド幅生成部、9…基本周波数生成部、10…AFS生成部、11…対応表生成部、12…パラメータ選択部、13…音声生成部
DESCRIPTION OF
Claims (4)
調音運動軌跡の確率的な動的モデルを用いて、調音パラメータベクトルの状態系列を学習する手段と、
前記調音運動軌跡の確率的な動的モデルにおける各状態の平均調音位置の間を補間演算する手段と、
前記補間演算によって求められた各調音位置に対し、音声パラメータベクトルと前記調音パラメータベクトルとの対が格納された調音音響対コードブックを参照し、フォルマント周波数とバンド幅と基本周波数とを算出する手段と、
前記補間演算によって求められた各調音位置と前記算出されたフォルマント周波数に対して、前記調音位置の変化に対するフォルマント周波数の変化量を、前記補間演算によって求められた各調音位置が運動方向に10点変化したことによる前記調音パラメータベクトルの平均二乗距離で、当該10点の調音位置に基づいて算出されたフォルマント周波数の値に基づいて算出される線形回帰係数を割ることにより、算出する手段と、
前記各調音位置に対する前記フォルマント周波数、前記バンド幅、前記基本周波数、前記フォルマント周波数の変化量を対とする対応表を生成して記憶する手段と、
前記対応表を参照し、入力されたフォルマント周波数、バンド幅、基本周波数に該当する前記対とされている前記フォルマント周波数、前記バンド幅、前記基本周波数、および、前記フォルマント周波数の変化量であるデータ組を全検索により選択し、当該選択したデータ組に基づいて、前記刺激音声を生成する手段と、
を具備することを特徴とする音声合成装置。 A speech synthesis apparatus which forces out to generate a stimulation speech,
Means for learning a state sequence of an articulatory parameter vector using a probabilistic dynamic model of an articulatory motion locus;
Means for interpolating between the average articulation positions of each state in the probabilistic dynamic model of the articulatory movement locus;
For each articulation position obtained by the interpolation calculation, with reference to the speech parameter vector and the articulatory parameter vector and articulatory sound pair codebook pairs are stored in, means for calculating the formant frequency and bandwidth and the fundamental frequency When,
For each articulation position obtained by the interpolation calculation and the calculated formant frequency, the amount of change of the formant frequency with respect to the change of the articulation position is 10 points in the movement direction for each articulation position obtained by the interpolation calculation. Means for calculating by dividing the linear regression coefficient calculated based on the value of the formant frequency calculated based on the 10 articulation positions by the mean square distance of the articulation parameter vector due to the change ;
Means for generating and storing a correspondence table that pairs the formant frequency, the bandwidth, the fundamental frequency, and the amount of change of the formant frequency with respect to each articulation position;
Referring to the correspondence table, the formant frequency, the bandwidth, the fundamental frequency and the formant frequency corresponding to the input formant frequency, the bandwidth, the bandwidth, the fundamental frequency, and the amount of change of the formant frequency Means for selecting a set by full search and generating the stimulation sound based on the selected data set ;
A speech synthesizer characterized by comprising:
前記調音運動軌跡の確率的な動的モデルを、隠れマルコフモデルを用いて生成することを特徴とする請求項1に記載の音声合成装置。 The means for performing the interpolation calculation includes:
The speech synthesizer according to claim 1, wherein the probabilistic dynamic model of the articulatory motion locus is generated using a hidden Markov model.
前記各調音位置における運動方向について、前記隠れマルコフモデルの状態遷移に基づき選択することを特徴とする請求項1または2に記載の音声合成装置。 The means for performing the interpolation calculation includes:
The speech synthesizer according to claim 1 or 2, wherein the movement direction at each articulation position is selected based on the state transition of the hidden Markov model.
前記演算装置は、
調音運動軌跡の確率的な動的モデルを用いて、調音パラメータベクトルの状態系列を学習するステップと、
前記調音運動軌跡の確率的な動的モデルにおける各状態の平均調音位置の間を補間演算するステップと、
前記補間演算された各調音位置に対し、音声パラメータベクトルと前記調音パラメータベクトルとの対が格納された調音音響対コードブックを参照し、フォルマント周波数とバンド幅および基本周波数を算出するステップと、
前記補間演算によって求められた各調音位置と前記算出されたフォルマント周波数に対して、前記調音位置の変化に対するフォルマント周波数の変化量を、前記補間演算によって求められた各調音位置が運動方向に10点変化したことによる前記調音パラメータベクトルの平均二乗距離で、当該10点の調音位置に基づいて算出されたフォルマント周波数の値に基づいて算出される線形回帰係数を割ることにより、算出するステップと、
前記各調音位置に対するフォルマント周波数、バンド幅、基本周波数、フォルマント周波数の変化量を対とする対応表を作成して記憶するステップと、
前記対応表を参照し、入力されたフォルマント周波数、バンド幅、基本周波数に該当する前記対とされている前記フォルマント周波数、前記バンド幅、前記基本周波数、および、前記フォルマント周波数の変化量であるデータ組を全検索により選択し、当該選択したデータ組に基づいて、前記刺激音声を生成するステップと、
を実行することを特徴とする音声合成方法。 A speech synthesis method for force out by generating by a stimulus sound arithmetic device,
The arithmetic unit is:
Learning a state sequence of an articulatory parameter vector using a probabilistic dynamic model of an articulatory motion trajectory;
Interpolating between the average articulation positions of each state in the probabilistic dynamic model of the articulatory motion trajectory;
For each articulation position as the interpolation calculation, calculating a voice parameter vector and the articulatory parameter pairs with the vector refers to the stored articulatory sound pair codebook, formant frequency and bandwidth and the fundamental frequency,
For each articulation position obtained by the interpolation calculation and the calculated formant frequency, the amount of change of the formant frequency with respect to the change of the articulation position is 10 points in the movement direction for each articulation position obtained by the interpolation calculation. Dividing the linear regression coefficient calculated based on the value of the formant frequency calculated based on the 10 articulation positions by the mean square distance of the articulation parameter vector due to the change ; and
Creating and storing a correspondence table paired with the amount of change in formant frequency, bandwidth, fundamental frequency, and formant frequency for each articulation position;
Referring to the correspondence table, the formant frequency, the bandwidth, the fundamental frequency and the formant frequency corresponding to the input formant frequency, the bandwidth, the bandwidth, the fundamental frequency, and the amount of change of the formant frequency Selecting a set by full search and generating the stimulus sound based on the selected data set ;
A speech synthesis method characterized by executing
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004260782A JP4536464B2 (en) | 2004-09-08 | 2004-09-08 | Speech synthesis apparatus and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004260782A JP4536464B2 (en) | 2004-09-08 | 2004-09-08 | Speech synthesis apparatus and method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2006078641A JP2006078641A (en) | 2006-03-23 |
| JP4536464B2 true JP4536464B2 (en) | 2010-09-01 |
Family
ID=36158173
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004260782A Expired - Fee Related JP4536464B2 (en) | 2004-09-08 | 2004-09-08 | Speech synthesis apparatus and method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4536464B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4526934B2 (en) * | 2004-11-24 | 2010-08-18 | 日本電信電話株式会社 | Speech synthesis method and apparatus using articulatory motion normalization |
| CN120126494B (en) * | 2025-05-12 | 2025-07-15 | 深圳市美嘉光电科技有限公司 | Adaptive pitch adjustment method for live broadcast voice based on network model |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3742206B2 (en) * | 1997-11-25 | 2006-02-01 | 株式会社東芝 | Speech synthesis method and apparatus |
| JP3421964B2 (en) * | 1998-01-12 | 2003-06-30 | 日本電信電話株式会社 | Articulatory parameter control speech synthesis method, its apparatus and program recording medium |
| JP2003241776A (en) * | 2002-02-18 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | Voice analysis method and apparatus, voice analysis program, and recording medium |
| JP4226831B2 (en) * | 2002-03-15 | 2009-02-18 | 日本電信電話株式会社 | Voice analysis method and apparatus, voice analysis program and recording medium therefor |
| JP2004198572A (en) * | 2002-12-17 | 2004-07-15 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesis method and apparatus, speech synthesis program, and recording medium storing the program |
-
2004
- 2004-09-08 JP JP2004260782A patent/JP4536464B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006078641A (en) | 2006-03-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4469883B2 (en) | Speech synthesis method and apparatus | |
| JP5194197B2 (en) | Voice quality conversion system, voice quality conversion device and method, vocal tract information generation device and method | |
| JP5039865B2 (en) | Voice quality conversion apparatus and method | |
| JPWO2006123539A1 (en) | Speech synthesizer | |
| JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
| JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
| JP2003337592A (en) | Speech synthesis method, speech synthesis device, and speech synthesis program | |
| JP5531654B2 (en) | Control information generating apparatus and shape control apparatus | |
| JP4536464B2 (en) | Speech synthesis apparatus and method | |
| Ling et al. | Articulatory control of HMM-based parametric speech synthesis driven by phonetic knowledge | |
| JP4773988B2 (en) | Hybrid type speech synthesis method, apparatus thereof, program thereof, and storage medium thereof | |
| JP3437064B2 (en) | Speech synthesizer | |
| JP4226831B2 (en) | Voice analysis method and apparatus, voice analysis program and recording medium therefor | |
| JP2013033103A (en) | Voice quality conversion device and voice quality conversion method | |
| JP4230254B2 (en) | Speech generation model speaker adaptation method, apparatus thereof, program thereof and recording medium thereof | |
| Tobing et al. | Articulatory controllable speech modification based on Gaussian mixture models with direct waveform modification using spectrum differential | |
| Cen et al. | Generating emotional speech from neutral speech | |
| JP2006084854A (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP7280605B2 (en) | Speech processing device and speech processing method | |
| JPH11161297A (en) | Speech synthesis method and apparatus | |
| Girson et al. | Articulator-based synthesis for conversational speech | |
| JP2003241776A (en) | Voice analysis method and apparatus, voice analysis program, and recording medium | |
| JP6552146B1 (en) | Audio processing apparatus and audio processing method | |
| JP2018205654A (en) | Speech synthesis learning device, speech synthesis device, method and program thereof | |
| Gu et al. | Combining HMM spectrum models and ANN prosody models for speech synthesis of syllable prominent languages |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060804 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090622 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091112 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100616 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140625 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |