JP3421964B2 - Articulatory parameter control speech synthesis method, its apparatus and program recording medium - Google Patents
Articulatory parameter control speech synthesis method, its apparatus and program recording mediumInfo
- Publication number
- JP3421964B2 JP3421964B2 JP00414298A JP414298A JP3421964B2 JP 3421964 B2 JP3421964 B2 JP 3421964B2 JP 00414298 A JP00414298 A JP 00414298A JP 414298 A JP414298 A JP 414298A JP 3421964 B2 JP3421964 B2 JP 3421964B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- articulatory
- database
- acceleration
- velocity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】[0001]
【発明の属する技術分野】この発明は、与えられたテキ
ストから、そのシンボル列の発声に関与する唇・舌・顎
などの調音運動器官の位置(調音パラメータ)の時系
列、つまり運動軌道を高い精度で生成し、その軌道情報
をもとに高品質な音声合成を行なう方法、その装置とプ
ログラム記録媒体に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention shows a time series of positions (articulatory parameters) of articulatory motor organs such as lips, tongue, and jaw that are involved in the utterance of a symbol string from a given text. The present invention relates to a method for generating a voice with high accuracy and performing high-quality speech synthesis based on the orbit information, its apparatus, and a program recording medium.
【0002】[0002]
【従来の技術】音源のモデルと声道の特性を組み合わせ
た音声合成方法における、声道特性として、(1)声道
断面積関数を用いるものと、(2)調音器官の構造と動
きを直接的に利用するものがある(例えば、文献古井
「音響・音声工学」近代科学社、1992)。2. Description of the Related Art In a speech synthesis method in which a model of a sound source and characteristics of a vocal tract are combined, (1) a vocal tract cross-sectional area function is used as a vocal tract characteristic, and (2) a structure and a motion of an articulatory organ are directly measured. There are some that are used for example (for example, literature Furui "Acoustic and audio engineering", Modern Science Company, 1992).
【0003】声道特性として、声道断面積関数を用いる
方法では、声道断面積関数そのものを同定することが困
難であるという欠点がある。調音器官の構造と動きを直
接的に利用する方法では、与えられた音素列に対して、
あらかじめ同定された各音素の特徴を用い、さらに、あ
る特定の運動規範のもとで全運動軌道を生成する。その
場合、各音素の特徴が、測定された調音運動データから
抽出・同定され、各音素の声道の形状の特徴が用いられ
る(Saltzman,E.L.and Munhall ,K.G.“A dy
namical approach to gestural patterning in speech
production,”Ecological Psychology 1 ,333-382 ,
1989)。すなわち、例えば、舌と唇の形状とが制約とし
て与えられる。KaburagiとHonda (Kaburagi,T.and
Honda ,M.“A model of articulator trajectory fo
rmation based on the motor tasks of vocal-tractsha
pes ,”Journal of theAcoustical Society of Americ
a,99,3154-3170 ,1996)も各音素の声道の形状の特
徴を用いている。The method using the vocal tract cross-sectional area function as a vocal tract characteristic has a drawback in that it is difficult to identify the vocal tract cross-sectional area function itself. In the method that directly uses the structure and movement of the articulatory organ, for a given phoneme sequence,
Using the features of each phoneme identified in advance, all motion trajectories are generated under a specific motion norm. In that case, the features of each phoneme are extracted and identified from the measured articulatory movement data, and the features of the vocal tract shape of each phoneme are used (Saltzman, EL and Munhall, KG "A dy.
namical approach to gestural patterning in speech
production, "Ecological Psychology 1, 333-382,
1989). That is, for example, the tongue and lip shapes are given as constraints. Kaburagi and Honda (Kaburagi, T. and
Honda, M. “A model of articulator trajectory fo
rmation based on the motor tasks of vocal-tractsha
pes, “Journal of the Acoustical Society of Americ
a, 99, 3154-3170, 1996) also uses the features of the vocal tract shape of each phoneme.
【0004】さらに、KaburagiとHonda (上記文献)
は、力の変化と運動エネルギーの重みづけ関数をコスト
関数とし、これを最小にする運動軌道を生成した。しか
しながら、上記従来技術は、各音素の特徴を声道の形で
与え、それらを滑らかに繋ぐので、本来急激に変化する
軌道に対しては生成した軌道と観測される軌道との誤差
がとりわけ大きくなった。Furthermore, Kaburagi and Honda (supra).
Generated a kinematic trajectory that minimizes the weighting function of force change and kinetic energy as a cost function. However, in the above-described conventional technique, since the features of each phoneme are given in the form of vocal tracts and they are connected smoothly, the error between the generated orbit and the observed orbit is particularly large for the orbit that changes abruptly. became.
【0005】[0005]
【発明が解決しようとする課題】人間の音声は、調音器
官の軌道によってその音韻性が定まる。この発明が、解
決しようとする課題は、音素シンボル列が与えられた場
合、そのシンボル列の発声に関与する調音運動器官の正
確な運動軌道を生成することである。The phonological property of human voice is determined by the trajectory of the articulatory organ. The problem to be solved by the present invention is to generate an accurate motion trajectory of an articulatory motor organ involved in the utterance of a phoneme symbol string when the phoneme symbol string is given.
【0006】[0006]
【課題を解決するための手段】この発明は、与えられた
テキストに対して、調音パラメータと音源生成装置とを
用いて音声を合成する方法において、特に正確な調音パ
ラメータ、すなわち運動軌道を生成する方法に特徴があ
り、その運動軌道の生成方法は、音素シンボル列中の各
音素の発声時点、つまり隣接音素間の時間間隔を生成す
る第1の過程と、音素シンボル列中の各音素の発声時の
調音器官の各点の位置・速度・加速度を生成する第2の
過程と、これら生成された、音素シンボル列中の各音素
の発声時点・調音器官の各点の位置・速度・加速度を拘
束条件としてなめらかな軌道を生成する第3の過程とを
有する。According to the present invention, in a method of synthesizing a voice for a given text using an articulatory parameter and a sound source generator, a particularly accurate articulatory parameter, that is, a motion trajectory is generated. The method is characterized in that the method of generating the motion trajectory is as follows: the first step of generating the time point of each phoneme in the phoneme symbol sequence, that is, the time interval between adjacent phonemes, and the utterance of each phoneme in the phoneme symbol sequence. The second process of generating the position / velocity / acceleration of each point of the articulatory organ, and the generated time points of each phoneme in the phoneme symbol sequence / the position / velocity / acceleration of each point of the articulatory organ. And a third step of generating a smooth trajectory as a constraint condition.
【0007】前記第3の過程は音素シンボル列中の各音
素の発声時点・調音器官の各点の位置・速度・加速度を
拘束条件として調音器官の各点のジャーク(加速度の微
分)の時間積分(文献Flash and Hogan ,“The coordi
nation of arm movements: an experimentally confirm
ed mathematical model.”J.Neurosci. Vol.5,1688-1
703 ,1985)が最小となるように調音運動器官の運動の
軌道を生成する。The third step is the time integration of the jerk (differentiation of acceleration) of each point of the articulatory organ with the vocalization point of each phoneme in the phoneme symbol sequence, the position, velocity, and acceleration of each point of the articulatory organ as constraints. (Literature Flash and Hogan, “The coordi
nation of arm movements: an experimentally confirm
ed mathematical model. ”J. Neurosci. Vol. 5, 1688-1
703, 1985) to generate the trajectory of the articulatory movement organ so that it becomes the minimum.
【0008】第1の過程における、各音素の発声時点
と、第2の過程における、各音素の発声時の調音器官の
各点の位置・速度・加速度とは、磁気センサシステムに
より実測した調音器官の11点(上唇・下唇・舌上の舌
先部から舌背部に至る等間隔な4点など)の調音軌道デ
ータをもとに求め、データベース化してあるものを用い
ている。このデータベースは、
1.まったく文脈を考慮しない単音素ごとに、調音器官
の各点の位置・速度・加速度の平均値(あるいは中央
値)を求め、また、単音素ごとの前後の発声時点間の平
均値(あるいは中央値)を求めたもの(各音素データベ
ースと記す)。The point of time when each phoneme is uttered in the first process and the position, velocity, and acceleration of each point of the articulatory organ when each phoneme is uttered in the second process are the articulatory organ actually measured by the magnetic sensor system. 11 points (4 points at equal intervals from the tip of the tongue to the back of the tongue on the upper lip, lower lip, and tongue) were obtained based on the articulatory trajectory data, and a database is used. This database is: The average value (or median value) of the position, velocity, and acceleration of each point in the articulatory organ is calculated for each phoneme that does not consider the context at all, and the average value (or median value) between the vocalization points before and after each phoneme. ) Was obtained (written as each phoneme database).
【0009】2.各2音素組ごとに、その2音素を構成
する二つの音素における調音器官の各点の位置・速度・
加速度の平均値(あるいは中央値)を求め、また、2音
素間の発声間隔の平均値(あるいは中央値)を求めたも
の(2音素組データベースと記す)。3.各3音素組ご
とに、その3音素を構成する三つの音素における調音器
官の各点の位置・速度・加速度の平均値(あるいは中央
値)を求め、また、3音素組中の二つの2音素間の発声
間隔の平均値(あるいは中央値)を求めたもの(3音素
組データベースと記す)。をそれぞれプールした3種類
又は単音素データベースと2音素組データベースを用意
してある。位置と時間間隔は平均値、速度と加速度は中
央値をそれぞれ求めたものをデータベース化しておいて
もよい。2. For each two-phoneme set, the position / velocity of each point of the articulatory organ in the two phonemes that make up the two-phoneme
An average value (or median value) of accelerations is obtained, and an average value (or median value) of vocalization intervals between two phonemes is obtained (referred to as a two-phoneme set database). 3. For each 3-phoneme set, the average value (or median value) of the position, velocity, and acceleration of each point of the articulatory organ in the three phonemes that make up the 3-phoneme is calculated, and two 2-phonemes in the 3-phoneme set are obtained. An average value (or median value) of the vocalization intervals between the two is obtained (referred to as a 3-phoneme set database). There are prepared three types or a single phoneme database and a two-phoneme set database, each of which is pooled. A database may be prepared by obtaining the average value of the position and the time interval and the median value of the velocity and the acceleration.
【0010】[0010]
【発明の実施の形態】図1にこの発明の装置の実施例の
機能的構成を示し、図2にこの発明の方法の実施例の処
理手順を示す、入力端子11から入力されたテキストは
音素変換部12で、音素変換テーブル13を参照して音
素シンボル列に変換される。この音素シンボル列は音素
間隔決定部(タイミング決定部)14と運動状態決定部
15へ供給される。DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows a functional configuration of an embodiment of an apparatus of the present invention, and FIG. 2 shows a processing procedure of an embodiment of the method of the present invention. Text input from an input terminal 11 is a phoneme. The conversion unit 12 refers to the phoneme conversion table 13 to convert the phoneme symbol string. This phoneme symbol sequence is supplied to the phoneme interval determination unit (timing determination unit) 14 and the motion state determination unit 15.
【0011】音素間隔決定部14では調音器官状態デー
タベース16を参照して入力された音素シンボル列中の
各音素の発声時点を生成し、隣接音素間の時間間隔を決
定する。運動状態決定部15は入力された音素シンボル
列中の各音素の発声時の調音器官の各点、この例では1
1点の位置・速度・加速度を調音器官状態データベース
16を参照して生成する。調音器官データベース16は
先に述べた単音素データベース、2音素組データベー
ス、3音素組データベースにより構成されている。The phoneme interval determination unit 14 refers to the articulatory organ state database 16 to generate the utterance time point of each phoneme in the input phoneme symbol sequence, and determines the time interval between adjacent phonemes. The motion state determination unit 15 determines each point of the articulatory organ at the time of vocalization of each phoneme in the input phoneme symbol sequence, which is 1 in this example.
The position / velocity / acceleration of one point is generated by referring to the articulatory organ state database 16. The articulatory organ database 16 is composed of the above-mentioned single phoneme database, two-phoneme set database, and three-phoneme set database.
【0012】音素間隔決定部14、運動状態決定部15
よりの、入力音素シンボル列中の各音素の発声時点・調
音器官の各点の位置・速度・加速度は運動軌道決定部1
7に入力され、これらを拘束条件として調音器官の各点
のジャーク(加速度の微分値)の時間積分が最小となる
ように調音運動器官の運動の軌道を生成する。このよう
にして得られた調音器官の11点の各運動軌道における
各単位時間の間ごとに、例えば各調音器官の11点の各
種軌道の単位時間での組合せと対応した音声波形を記録
した、音声波形データベース18を音声合成部19で参
照して音声波形列、つまり合成音声を出力端子21に出
力する。Phoneme interval determination unit 14 and motion state determination unit 15
The motion trajectory determining unit 1 determines the time of utterance of each phoneme in the input phoneme symbol sequence, the position, velocity, and acceleration of each point of the articulatory organ.
7 is input, and with these as constraints, the trajectory of the motion of the articulatory organ is generated so that the time integration of jerk (differential value of acceleration) at each point of the articulatory organ is minimized. For each unit time in each motion trajectory of 11 points of the articulatory organ thus obtained, for example, a voice waveform corresponding to a combination of 11 trajectories of 11 points of each articulatory organ in a unit time was recorded, The voice waveform database 18 is referred to by the voice synthesizer 19, and a voice waveform string, that is, a synthesized voice is output to the output terminal 21.
【0013】次に、この装置を具体的な文を発声する場
合に適用した例について示す。以下の例では、各3音素
組ごとに、その3音素を構成するそれぞれの三つの音素
における調音器官の各点の位置の平均値、速度・加速度
の中央値、3音素組中の二つの2音素間の発声間隔の平
均値、を保持している3音素組データベースを用いる。
文「彼女は手のこんだ御馳走を作りました」を発声する
場合に適用した際の計算計処理過程およびデータの流れ
を説明する。入力テキストは音素変換部12で図3Aに
示す音素記号列に変換される。Next, an example in which this device is applied to utter a specific sentence will be described. In the following example, for each three-phoneme set, the average value of the position of each point of the articulatory organ in each of the three phonemes making up the three-phoneme, the median value of the velocity / acceleration, and the two 2's in the three-phoneme set. A three-phoneme set database holding the average value of vocalization intervals between phonemes is used.
Explain the calculation process and data flow when applying the sentence "She made an elaborate treat". The input text is converted into a phoneme symbol string shown in FIG. 3A by the phoneme converter 12.
【0014】ただし、<は発声開始を表わし、>は発声
終了を表わす。音素間隔決定部14では与えられた音素
記号列の各音素一つひとつについて、発声開始記号<か
ら走査をはじめ、各3音素組ごとにデータベース16を
参照して音素列中の各音素間の時間間隔を決定してい
く。例えば、kanojoのanの時間間隔は、デ
ータベース16中の3音素組kanとanoの各a
nの時間間隔情報の平均値として72msec. と決定さ
れる。このようにして図3Aの音素記号列に対し、図3
Bに示す各音素間の時間間隔が決定される。単位はmsec
である。However, <represents utterance start and> represents utterance end. The phoneme interval determination unit 14 scans each phoneme of the given phoneme symbol string from the vocalization start symbol <, and refers to the database 16 for each three phoneme groups to determine the time interval between phonemes in the phoneme string. To decide. For example, the time interval of an of kanojo is a for each of the three phoneme sets kan and an in the database 16.
72 msec. is determined as the average value of n time interval information. In this way, the phoneme symbol string of FIG.
The time interval between the phonemes shown in B is determined. Unit is msec
Is.
【0015】なお、3音素組データベース中にない3音
素組が音素列に出現した場合には、その3音素組を2つ
の2音素組に分け、2音素組データベース中の2音素組
情報から音素間の時間間隔を求める。さらに、2音素組
データベース中にも該当2音素組がなければ、1音素デ
ータベース中の前後の発声時点間の該当するものを参照
する。When a 3-phoneme set that does not exist in the 3-phoneme set database appears in the phoneme sequence, the 3-phoneme set is divided into two 2-phoneme sets, and the phoneme is selected from the 2-phoneme set information in the 2-phoneme set database. Find the time interval between. Furthermore, if there is no corresponding two-phoneme set in the two-phoneme set database, the corresponding one between the utterance points before and after in the one-phoneme database is referred to.
【0016】運動状態決定部15では調音器官の11点
についての各音素ごとの位置・速度・加速度を前後の文
脈を考慮しつつ連続する3音素組ごとに定める。つまり
入力音素記号列p1 p2 …pn 中の各pi について、p
i-2 pi-1 pi の組のpi の位置・速度・加速度の組
(p,v,a)と、pi-1 pi pi+1 の組のpi の位置
・速度・加速度の組(p′,v′,a′)と、pi p
i+1 pi+2 の組のpi の位置・速度・加速度(p″,
v″,a″)とをデータベース16から抽出し、これら
重み付け和、例えば((p,v,a)+4・(p′,
v′,a′)+(p″,v″,a″))/6により音素
pi の運動状態とする。このようにして決定された各音
素の発声時の舌先の鉛直方向の位置・速度・加速度の例
の一部を図3Cに示す。例えば、n:182.2,1
5.0,800.0は、音素nの発声時の舌先の鉛直方
向の位置(y)が182.2mmで、速度が15.0m
m/msec.で加速度が800.0mm/msec.
であることを表わす。これは、3音素組データベース中
にある三つの3音素組“kan”,“an”,
“noj”のそれぞれ“n”の発声時の鉛直方向の
位置・速度・加速度の重み付け平均(重みは例えば1:
4:1)である。The motion state determination unit 15 determines the position, velocity, and acceleration of each phoneme for 11 points of the articulatory organ for each continuous three-phoneme group while considering the context before and after. That is, for each p i in the input phoneme symbol string p 1 p 2 ... P n , p
i-2 p i-1 p i of the set of position, velocity and acceleration of the set of p i (p, v, a) and the position and velocity of the p i-1 p i p i + 1 of the set of p i A set of accelerations (p ', v', a ') and p i p
Positions / velocities / accelerations (p ″, p) of i + 1 p i + 2 pairs of p i
v ″, a ″) is extracted from the database 16 and these weighted sums, for example, ((p, v, a) + 4 · (p ′,
The motion state of the phoneme p i is defined by v ′, a ′) + (p ″, v ″, a ″)) / 6. The vertical position of the tongue tip at the time of utterance of each phoneme thus determined. 3C shows a part of an example of velocity / acceleration, for example, n: 182.2,1.
In 5.0 and 800.0, the vertical position (y) of the tongue tip when the phoneme n is uttered is 182.2 mm, and the speed is 15.0 m.
m / msec. Acceleration is 800.0 mm / msec.
It means that. This consists of three 3-phoneme sets "kan", "an", in the 3-phoneme database.
A weighted average of vertical position, velocity, and acceleration when each "n" of "noj" is uttered (weight is, for example, 1:
4: 1).
【0017】運動状態決定部15は舌先の鉛直方向のみ
ならず、測定された調音器官の11点すべてについて、
水平(x)方向と鉛直(y)方向の各音素の発声時の位
置・速度・加速度を上述のようにして算出する。この運
動状態決定においても3音素組データベース中にない3
音素組が音素列に出現した場合には、その3音素組を2
つの2音素組に分け、2音素組データベース中の2音素
組情報から各音素の発声時の位置・速度・加速度を算出
する。さらに、2音素組データベース中にも2音素組が
なければ、1音素データベース中の情報を用いる。前記
1:4:1重み付け和をpi-2 pi-1 pi (1),p
i-1 pi pi+1 (4),pi pi+1 pi+2(1)と表現
する時、3音素組データベース中に2つの組しかない時
はpi-1 p i pi+1 (2),pi pi+1 pi+2 (1),
又はpi-2 pi-1 pi (1),pi- 1 pi p
i+1 (2)、1組しかない時はpi-1 pi pi+1 (1)
とし、またpi- 1 pi-2 pi (1),pi pi+1 pi+2
(1)とし、3音素組データベース中に対称の3音素組
がない場合は、2音素組データベースも加え、pi-1 p
i (1),pi pi+1 pi+2 (2)、またpi-1 p
i (1),pi pi+1 pi+2 (2)、あるいはpi-2 p
i-1 pi (2),pi pi+1 (1)とし、pi-1 p
i (1),pi ,pi+1 (1)とし、pi-2 pi-1 pi
(1)とし、pi pi+1 pi+2 (1)とし、pi-1 pi
(1)とし、pi pi+1 (1)とする。The motion state determining unit 15 is provided only in the vertical direction of the tongue tip.
Of course, for all 11 measured articulatory organs,
Position of each phoneme in the horizontal (x) direction and the vertical (y) direction at the time of utterance
Position, velocity and acceleration are calculated as described above. This luck
Even when the dynamic state is determined, it is not 3 in the phoneme set database 3
When a phoneme set appears in a phoneme string, the 3 phoneme set is set to 2
2 phonemes in the 2-phoneme database
Calculates the position / velocity / acceleration when each phoneme is uttered from the group information
To do. In addition, the 2-phoneme set is also included in the 2-phoneme set database.
If not, the information in the 1-phoneme database is used. The above
1: 4: 1 weighted sum pi-2pi-1pi(1), p
i-1pipi + 1(4), pipi + 1pi + 2Expressed as (1)
When there is only two pairs in the 3-phoneme database
Is pi-1p ipi + 1(2), pipi + 1pi + 2(1),
Or pi-2pi-1pi(1), pi- 1pip
i + 1(2) If there is only one set, pi-1pipi + 1(1)
And pi- 1pi-2pi(1), pipi + 1pi + 2
(1) Symmetrical 3-phoneme set in 3-phoneme database
If there is not, add a phoneme set database, pi-1p
i(1), pipi + 1pi + 2(2), pi-1p
i(1), pipi + 1pi + 2(2) or pi-2p
i-1pi(2), pipi + 1(1) and pi-1p
i(1), pi, Pi + 1(1) and pi-2pi-1pi
(1) and pipi + 1pi + 2(1) and pi-1pi
(1) and pipi + 1(1)
【0018】運動軌道決定部17で先に求めた音素時間
間隔と、調音器官の11点の各水平方向と鉛直方向の各
音素の発声時の位置・速度・加速度とを拘束条件とし
て、調音器官上の11点の各点のジャークの時間積分
(次式)が最小となる軌道を求める。
(1/2)∫0 tf((d3 x/dt3 )2 +(d3 y/
dt3 )2 )dt(1)
ここで、(x,y)は調音器官の各点の座標であり、時
間〔0,tf 〕はt=t 0 ,t1 ,t2 ,…,tn =t
f に分割されており、ti (i=0,−1,…,n)で
その点pの位置・速度・加速度xi ,x′i ,x″i ,
yi ,y′i ,y″i が与えられている。一般にコスト
関数L〔t,x′,…,dn x/dtn 〕に対しこのT
1 かT2 までの時間積分を極小にするx(t)はEnlen
−Peisson方程式を満足する。このことからこの微分方
程式を解いて、
x(t)=a0 +a1 t+a2 t2 +a3 t3 +a4 t
4 +a5 t5
y(t)=b0 +b1 t+b2 t2 +b3 t3 +b4 t
4 +b5 t5
を得る。従って、制約条件としてx(T1 ),x′(T
1 ),x″(T1 ),x(T2 ),x′(T2 ),x″
(T2 ),y(T1 ),y′(T1 ),y″(T 1 ),
y(T2 ),y′(T2 ),y″(T2 )値を与えるこ
とにより、係数a 0 ,…,a5 ,b0 ,…,b5 を一意
に求めることができる。このようにして時間〔0,
tf 〕における各時点ti ,i=0,…,nで与えられ
るx,x′,x″,y,y′,y″を満足し、各区間
〔ti ,ti+1 〕i=0,…,n−1でLを最小にする
軌道は各区間〔ti ,ti+1 〕で一意に定まる。これら
の軌道を全区間〔0,tf 〕でつなぎ合せたものを求め
ることができる。Phoneme time previously obtained by the motion trajectory determination unit 17.
Intervals, 11 points of articulatory organs, horizontal and vertical
The constraint conditions are the position, velocity, and acceleration when the phoneme is uttered.
, The time integration of the jerk of each of 11 points on the articulatory organ
Find the orbit that minimizes (Equation).
(1/2) ∫0 tf((D3x / dt3)2+ (D3y /
dt3)2) Dt (1)
Where (x, y) are the coordinates of each point in the articulatory organ, and
Interval [0, tf] Is t = t 0, T1, T2, ..., tn= T
fIs divided intoi(I = 0, -1, ..., n)
Position / velocity / acceleration x at that point pi, X ′i, X ″i,
yi, Y ′i, Y ″iIs given. Generally costs
Function L [t, x ', ..., dnx / dtn] To this T
1Or T2X (t) that minimizes the time integration up to Enlen
− Satisfies the Peisson equation. From this, this differential method
Solve the equation,
x (t) = a0+ A1t + a2t2+ A3t3+ AFourt
Four+ AFivetFive
y (t) = b0+ B1t + b2t2+ B3t3+ BFourt
Four+ BFivetFive
To get Therefore, x (T1), X '(T
1), X ″ (T1), X (T2), X '(T2), X ″
(T2), Y (T1), Y ′ (T1), Y ″ (T 1),
y (T2), Y ′ (T2), Y ″ (T2) Give a value
And the coefficient a 0, ..., aFive, B0, ..., bFiveUnique
You can ask. In this way the time [0,
tf] At each time point ti, I = 0, ..., n
X, x ', x ", y, y', y"
[Ti, Ti + 1] L is minimized at i = 0, ..., N-1
Trajectory is for each section [ti, Ti + 1] Uniquely determines. these
The orbit of the whole section [0, tf] To find the one
You can
【0019】前記、各点のジャークの時間積分が最小と
なる軌跡を用いるのは、Flash &Hogan (1985)に
より、手先をある点から他の点にもって行くというタス
クにおいて、手先のジャークの時間積分を極小にする軌
道が、観察される軌道と合致することが見出されている
ことにもとづく。この場合は2自由度のリンク系の運動
であって、ジャーク最小モデルは、リンク運動を一意に
定める。3以上の自由度を有する系に対しては不確定要
素が残る。Using the locus with which the time integration of the jerk at each point is minimized is performed by Flash & Hogan (1985) in the task of moving the hand from one point to another point. It is based on the fact that the orbit that minimizes is found to match the observed orbit. In this case, the link system motion has two degrees of freedom, and the jerk minimum model uniquely defines the link motion. Uncertainties remain for systems with three or more degrees of freedom.
【0020】そこで前述したように、調音器官の各点の
ジャークの時間積分がおのおの独立に極小となる軌道を
とるという各点ジャークモデルを用い、連続する領域は
常に連続であり、かつ系のうち剛体性の過程が成立する
部位は常にその仮定が保持されるという制約を置く。つ
まり、各音素ごとの位置・速度・加速度を定め、更に各
音素間の時間間隔を設定し、これらを制約として用いる
ことに前述したように各調音器官の運動軌道は時間に関
する5次の多項式で表現される。Therefore, as described above, using the point jerk model in which the time integrals of the jerks at the points of the articulatory organ each take a minimum independently, the continuous region is always continuous, and The assumption is always held for the part where the rigid body process is established. That is, the position / velocity / acceleration of each phoneme is determined, the time interval between each phoneme is set, and these are used as constraints. As described above, the motion trajectory of each articulator is a fifth-order polynomial with respect to time. Expressed.
【0021】[0021]
【発明の効果】同一の人間が、同一の文を何回か読み上
げる時の調音器官の軌道の平均誤差は1.50mmから
2.00mmであることが実験により確かめられてい
る。この発明は、3音素組のデータベースを用いた場
合、合成音声の調音器官の軌道(予測軌道)と観測軌道
との平均誤差は1.50mmから大きいものでも1.9
9mm以内となる。これは、極めて高い推定精度といえ
よう。また、2音素組のデータベースを用いた場合に
は、平均誤差は1.60mmかを大きいものでも2.2
0mm以内となり、1音素ごとのデータベースを用いた
場合には、平均誤差は1.90mmから大きいものでも
2.60mm以内となる。これらもそれほど悪い推定精
度ではない。It has been confirmed by experiments that the average error of the trajectory of the articulatory organ when the same person reads the same sentence several times is 1.50 mm to 2.00 mm. In the present invention, when a database of three phonemes is used, even if the average error between the trajectory of the articulatory organ of synthetic speech (predicted trajectory) and the observed trajectory is from 1.50 mm to a large value, it is 1.9.
Within 9 mm. This is a very high estimation accuracy. Further, when a database of two phonemes is used, the average error is 1.60 mm or 2.2 even if it is large.
When the database for each phoneme is used, the average error is 1.90 mm to 2.60 mm even if it is large. These are also not so bad estimation accuracy.
【0022】図3Dに、文「この本は、ただいま品切れ
です」に対する調音器官上の各観測点の垂直方向の各点
ジャーク最小モデルの予測軌道(実線)と、観測軌道
(破線)を示す。これより各点ジャーク最小モデルの予
測軌道は観測軌道と定性的によく一致することがわか
る。発明において、与えられた音素列に対して、各音素
の発声時点をハッシング技術(多数のものから選び出す
アルゴリズム)を用いて定数のオーダーで算出し、各音
素の発声時の調音器官の各点の位置・速度・加速度をや
はり、ハッシング技術を用いて定数のオーダーで算出
し、この発声時点と各音素の発声時の位置・速度・加速
度とを拘束条件とし、調音器官上の各点のジャーク最小
軌道とは、時間に関する区分5次多項式として、その係
数を線形計算で求めることにより、与えられた音素列に
対して、実時間で調音器官上の各点の軌道が生成でき
る。FIG. 3D shows the predicted trajectory (solid line) and the observed trajectory (broken line) of the jerk minimum model for each point in the vertical direction of each observation point on the articulatory organ for the sentence "This book is out of stock". From this, it can be seen that the predicted orbit of the minimum jerk model at each point qualitatively agrees well with the observed orbit. In the invention, for a given phoneme sequence, the vocalization time point of each phoneme is calculated in a constant order using hashing technology (algorithm that selects from a large number), and each point of the articulatory organ at the time of vocalization of each phoneme is calculated. The position / velocity / acceleration is calculated using hashing technology in the order of constants, and the jerk minimum of each point on the articulatory organ is set as a constraint condition with this vocalization point and the position / velocity / acceleration at the time of vocalization of each phoneme. The trajectory is a piecewise fifth-order polynomial with respect to time, and its coefficient is obtained by linear calculation, whereby the trajectory of each point on the articulatory organ can be generated in real time for a given phoneme sequence.
【0023】この発明を用いることによって、例えば、
調音器官のすべての点の軌道の振幅を一定の比で小さく
し、つまり算出された各点の軌道の位置座標中のxをそ
のままとし、y軸方向に時間的に徐々に一定の比率で縮
めてゆき、制御前の各点から他の器官に徐々に移らせ、
あるいは各音素間の時間間隔を伸縮し、例えば、徐々に
短かくして遅口から速口に移るようにすることができ、
音声のある種のモルフィングを簡単に行うことができ
る。By using this invention, for example,
The amplitude of the orbits of all points of the articulatory organ is reduced at a constant ratio, that is, x in the calculated position coordinates of the orbits of each point is left unchanged, and gradually reduced in the y-axis direction at a constant ratio. And gradually move from each point before control to other organs,
Alternatively, the time interval between each phoneme can be expanded or contracted, for example, gradually shortened to shift from late to fast.
Some sort of morphing audio can be done easily.
【図1】この発明による音声合成装置の実施例の機能構
成を示すブロック図。FIG. 1 is a block diagram showing a functional configuration of an embodiment of a speech synthesizer according to the present invention.
【図2】この発明による方法の要部を示す流れ図。FIG. 2 is a flowchart showing an essential part of the method according to the present invention.
【図3】Aは音素間隔決定部の出力の例を示す図、Bは
運動状態決定部15の出力の例を示す図、Dは運動軌道
決定部17で決定した予測軌道(実線)と観測軌道(破
線)の例を示す図である。3A is a diagram showing an example of an output of a phoneme interval determination unit, B is a diagram showing an example of an output of a motion state determination unit 15, and D is a predicted trajectory (solid line) determined by a motion trajectory determination unit 17 and observation. It is a figure which shows the example of a trajectory (broken line).
フロントページの続き (56)参考文献 特開 平7−5897(JP,A) 特開 平2−234285(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 Continuation of the front page (56) Reference JP-A-7-5897 (JP, A) JP-A-2-234285 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G10L 19 / 00
Claims (13)
変換し、 その音素シンボル列から上記テキストの発声に関与する
各調音運動器官の位置(調音パラメータ)の時系列(運
動軌道)を生成し、 その調音パラメータを用いて音声のスペクトル特性を制
御することにより音声を合成する方法において、 上記音素シンボル列から、そのシンボル列の音素シンボ
ル列中の各音素の発声時点を生成する第1過程と、 上記音素シンボル列中の各音素の発声時の調音器官の各
点の位置・速度・加速度を生成する第2過程と、 生成された音素シンボル列中の各音素の発声時点・調音
器官の各点の位置・速度・加速度を拘束条件として軌道
を生成する第3過程と、 を有することを特徴とする調音パラメータ制御音声合成
方法。The method according to claim 1] given text into a phoneme symbol string, and generates a time series (motion trajectory) of the position of each articulatory organs (articulatory parameters) involved from the phoneme symbol string to the utterance of the text In the method of synthesizing a voice by controlling the spectrum characteristic of the voice using the articulation parameter, the first step of generating from the above-mentioned phoneme symbol sequence the utterance time point of each phoneme in the phoneme symbol sequence of the symbol sequence, , A second process of generating the position, velocity, and acceleration of each point of the articulatory organ at the time of utterance of each phoneme in the above phoneme symbol sequence, and the utterance time point and articulatory organ of each phoneme in the generated phoneme symbol sequence The articulatory parameter controlled speech synthesis method comprising: a third step of generating a trajectory with the position / velocity / acceleration of a point as a constraint.
発声時点ti (i=0,1,…,n−1)の音素シンボ
ルpi に対する上記第2過程で求めた位置・速度・加速
度を拘束条件として、(1/2)∫t1 t2{(d3 x/d
t3 )2 +(d3 y/dt3 )2 }dt、(x,yは調
音器官の各点の位置座標)が最小となる演算を行う過程
であることを特徴とする請求項1記載の調音パラメータ
制御音声合成方法。2. The third step is the position obtained in the second step with respect to the phoneme symbol p i at the utterance time t i (i = 0, 1, ..., N-1) obtained in the first step. (1/2) ∫ t1 t2 {(d 3 x / d with velocity and acceleration as constraint conditions
t 3) 2 + (d 3 y / dt 3) 2} dt, (x, y the claim 1, wherein the position coordinates of each point articulator) is a process of performing smallest calculation Articulatory parameter control voice synthesis method.
pi の位置xi yi、速度vxi ,vyi、加速度axia
yiとpi+1 の位置xi+1 yi+1 、速度vxi+1,vyi+1、
加速度axi+1,ayi+1を用いて、時間に関する区分5次
多項式x(t),y(t)の係数を線形計算で求め、そ
のx(t),y(t)を区間〔t1 ,t2 〕の軌道とす
ることを特徴とする請求項2記載の調音パラメータ制御
音声合成方法。Position x i y i according to claim 3 wherein the smallest operation p i obtained in the second step, the speed v xi, v yi, acceleration a xi a
the positions x i + 1 y i + 1 of yi and p i + 1 , the velocities v xi + 1 , v yi + 1 ,
Using the accelerations a xi + 1 and a yi + 1 , the coefficients of the piecewise fifth-order polynomials x (t) and y (t) with respect to time are obtained by linear calculation, and the x (t) and y (t) are defined in the interval [ 3. The articulatory parameter controlled speech synthesis method according to claim 2, wherein the trajectory is t 1 , t 2 ].
各3音素組ごとに各音素を構成する3つの音素における
位置・速度・加速度と、2つの2音素間の発声時間間隔
を格納したデータベースを用意しておき、 上記第1過程はデータベース中から3音素組pi-1 p i
p i+1 とpi pi+1 pi+2 を選出し、その2音素pi p
i+1 の各音素時間間隔の平均値を求めて、上記音素シン
ボルの音素pi ,pi+1 の各発声時点の間隔とし、これ
より上記発声時点を求めることを特徴とする請求項2又
は3記載の調音パラメータ制御音声合成方法。4. The position / velocity / acceleration of three phonemes forming each phoneme and the utterance time interval between the two phonemes are stored for each three phoneme set at each position of each of the articulatory motor organs measured. A database is prepared, and in the first step, the 3-phoneme set p i-1 p i is selected from the database.
p i + 1 and p i p i + 1 p i + 2 are selected, and their two phonemes p i p
and the average value of each phoneme time interval i + 1, and the spacing of phoneme p i, each utterance time point p i + 1 of the phoneme symbols claims, characterized in that obtained from the utterance time this The articulatory parameter controlled voice synthesis method described in 2 or 3.
の音素シンボルpiについて、pi-2 pi-1 pi ,p
i-1 pi pi+1 ,pi pi+1 pi+2 の各3音素組を上記
データベースから選択し、その選択した3つの3音素組
の対応データを重み付け平均して各位置・速度・加速度
を求めることを特徴とする請求項4記載の調音パラメー
タ制御音声合成方法。5. The second step is for p i-2 p i-1 p i , p for the phoneme symbols p i in the phoneme symbol sequence.
Each three-phoneme set of i-1 p i p i + 1 and p i p i + 1 p i + 2 is selected from the above database, and corresponding data of the three selected three phoneme sets are weighted and averaged to each position. 5. The articulatory parameter controlled voice synthesis method according to claim 4, wherein speed and acceleration are obtained.
各2音素組ごとに、2音素を構成する2つの音素におけ
る位置・速度と、2音素間の発声時間間隔を格納したデ
ータベースを用意しておき、上記第1過程は上記データ
ベース中から音素pi ,pi+1 の2音素組を選び、その
2音素組の素時間間隔を、上記音素シンボルの音素
pi ,pi+1 の各発声時点の間隔とし、これより上記発
声時点を求めることを特徴とする請求項2又は3記載の
調音パラメータ制御音声合成方法。6. A database storing the positions and velocities of two phonemes forming two phonemes and the utterance time intervals between the two phonemes for each two phoneme set at each measured position of each articulatory movement organ is prepared. Incidentally, in the first step, a two-phoneme set of phonemes p i and p i + 1 is selected from the database, and the elementary time intervals of the two phoneme sets are set to the phonemes p i and p i + 1 of the phoneme symbol. 4. The articulatory parameter controlled speech synthesis method according to claim 2, wherein the utterance time point is determined from the intervals of the utterance time points.
の音素シンボルpiについて、pi-1 pi とpi pi+1
の各2音素組を上記データベースから選択し、その選択
した対応データを平均して各位置・速度・加速度を求め
ることを特徴とする請求項6記載の調音パラメータ制御
音声合成方法。7. The second step is for p i−1 p i and p i p i + 1 for the phoneme symbols p i in the phoneme symbol sequence.
7. The articulatory parameter controlled voice synthesizing method according to claim 6, wherein each of the two phoneme groups is selected from the database, and the selected corresponding data is averaged to obtain each position / velocity / acceleration.
変換し、 その音素シンボル列からテキストの発声に関与する各調
音運動器官の位置(調音パラメータ)の時系列(運動軌
道)を生成し、 その調音パラメータを用いて音声のスペクトル特性を制
御することにより音声を合成する装置において、 各音素について発声時の上記調音器官の各点の位置・速
度・加速度・発声時点間隔の実測値データを格納したデ
ータベースと、 上記音素シンボル列を入力し、その各音素シンボルの隣
接音素時間間隔を上記データベースを参照して決定する
音素間決定手段と、 上記音素シンボル列を入力し、その各音素シンボルの位
置・速度・加速度を、上記データベースを参照して決定
する運動状態決定手段と、 上記調音器官の各点ごとに位置・速度・加速度を拘束条
件とし、上記決定された上記音素間時間間隔(0〜
tf )より (1/2)∫0 tf{(d3 x/dt3 )2 +(d3 y/dt3 )2 }dt (x,y)は位置の座標 を最小とする軌道を求める運動軌道決定手段と、 を具備する調音パラメータ制御音声合成装置。8. Convert the given text to phoneme symbol string, and generates a time series (motion trajectory) of the position of each articulatory organs (articulatory parameters) involved from the phoneme symbol string vocalization of the text, In a device that synthesizes a voice by controlling the spectral characteristics of the voice using the articulatory parameters, stores the measured value data of the position, velocity, acceleration, and utterance time interval of each point of the above articulatory organ at the time of utterance for each phoneme. And a phoneme symbol sequence that inputs the phoneme symbol sequence and determines the adjacent phoneme time intervals of each phoneme symbol by referring to the database, and the phoneme symbol sequence, and the position of each phoneme symbol.・ Motion state determining means for determining the velocity / acceleration by referring to the database, and the position / velocity / acceleration for each point of the articulatory organ. As a constraint condition, the above-mentioned determined time interval between phonemes (0 to
From (t f ), (1/2) ∫ 0 tf {(d 3 x / dt 3 ) 2 + (d 3 y / dt 3 ) 2 } dt (x, y) finds the trajectory that minimizes the position coordinates. An articulatory parameter controlled voice synthesizer comprising a motion trajectory determining means.
ンボル列に変換し、 その音声シンボル列から上記テキストの発声に関与する
調音器官の各位置(調音パラメータ)の時系列(運動軌
道)を生成し、 その調音パラメータを用いて音声のスペクトル特性を制
御することにより音声を合成する装置において、 各音素について発声時の調音器官の各点の位置・速度・
加速度・発声時点間隔の実測値データを格納したデータ
ベースを備えており、 上記調音パラメータを生成するプログラムを記録した記
録媒体であって、 上記プログラムは、 上記音素シンボル列の各音素シンボルの隣接音素時間間
隔を上記データベースを参照して決定する音素間決定過
程と、 上記音素シンボル列の各音素シンボルの位置・速度・加
速度を、上記データベースを参照して決定する運動状態
決定過程と、 上記調音器官の各点ごとに上記運動状態決定過程で決定
された位置・速度・加速度を拘束条件とし、上記音素間
決定過程で決定された上記音素間間隔(0〜tf ) (1/2)∫0 tf{(d3 x/dt3 )2 +(d3 y/dt3 )2 }dt (x,y)は位置の座標 を最小とする軌道を求める運動軌道決定過程と、 を実行することを特徴とするコンピュータ読出し可能な
記録媒体。9. The input text is converted into a phoneme symbol string, and a time series (motion trajectory) of each position (articulatory parameter) of an articulatory organ involved in utterance of the text is generated from the phonetic symbol string. , In a device that synthesizes voice by controlling the spectral characteristics of the voice using the articulatory parameters, the position / velocity of each point of the articulatory organ at the time of vocalization for each phoneme
A recording medium that stores a database that stores measured value data of acceleration / speech time intervals and that records a program that generates the above articulation parameters, wherein the program is the adjacent phoneme time of each phoneme symbol of the above phoneme symbol string. An inter-phoneme determination process for determining the intervals with reference to the database, a motion state determination process for determining the position / velocity / acceleration of each phoneme symbol of the phoneme symbol sequence with reference to the database, and the position, velocity and acceleration determined in the motion state determination process and constraints for each point, determined above between phonemes making process the phonemes spacing (0~t f) (1/2) ∫ 0 tf {(d 3 x / dt 3 ) 2 + (d 3 y / dt 3) 2} dt (x, y) performs a movement orbit determination process of obtaining a trajectory that minimizes the position of the coordinates, the Computer readable recording medium characterized and.
ンボル列p1 ,p2,…中の各音素シンボルpi (i=
1,2,…)とpi+1 について上記運動状態決定過程で
求めた位置xi yi ,xi+1 yi+1 速度vxi,vyi,v
xi+1,vyi+1加速度axi,ayi,axi+1,ayi+1を用
い、時間に関する区分5次多項式x(t),y(t)の
係数を線形計算で求め、そのx(t),y(t)をその
区間〔ti ,ti+1 〕の上記最小とする軌道とする過程
であることを特徴とする請求項9記載の記録媒体。10. The process of determining the motion trajectory is performed by each phoneme symbol p i (i = i ) in the phoneme symbol sequence p 1 , p 2 , ...
1, 2, ...) And p i + 1 , the positions x i y i , x i + 1 y i + 1 velocities v xi , v yi , v obtained in the above motion state determination process.
xi + 1 , v yi + 1 accelerations a xi , a yi , a xi + 1 , a yi + 1 are used to obtain the coefficients of the piecewise quintic polynomial x (t), y (t) with respect to time by linear calculation, 10. The recording medium according to claim 9, which is a process in which the x (t) and y (t) are used as the minimum orbit of the section [t i , t i + 1 ].
とにその3音素の各音素の位置・速度・加速度と、その
2音素内の発声間隔とが格納され、 上記運動状態決定過程は、上記音素シンボルpi につい
て、pi-2 pi-1 pi,pi-1 pi pi+1 ,pi pi+1
pi+2 の各3音素組を上記データベースから選出し、そ
の選出した3つの3音素組の対応データを重み付け平均
して各位置・速度・加速度を求める過程であることを特
徴とする請求項9又は10記載の記録媒体。11. The database stores the position / velocity / acceleration of each phoneme of the three phonemes and the vocalization interval within the two phonemes for each three phoneme set, and the motion state determination process is performed by the phoneme determination process. For the symbol p i , p i-2 p i-1 p i , p i-1 p i p i + 1 , p i p i + 1
The process of selecting each three-phoneme set of p i + 2 from the database, and weighting and averaging corresponding data of the three selected three-phoneme sets to obtain each position / velocity / acceleration. The recording medium according to 9 or 10.
ス中から3音素組pi-1 pi pi+1 とpi pi+1 pi+2
を選択し、これらの音素pi pi+1 間の各時間間隔を平
均して音素pi pi+1 の音素時間間隔とすることを特徴
とする請求項9乃至11の何れかに記載の記録媒体。12. The inter-phoneme determination process is performed by selecting three phoneme sets p i-1 p i p i + 1 and p i p i + 1 p i + 2 from the database.
Is selected, and each time interval between these phonemes p i p i + 1 is averaged to obtain a phoneme time interval for the phoneme p i p i + 1. Recording medium.
他にその2音素の各音素の位置・速度・加速度と、その
音素間時間間隔とが格納され、 上記音素間決定過程、及び上記運動状態決定過程で対応
する3音素組が存在しない場合は、対応する2音素組を
上記データベースより選択して用いることを特徴とする
請求項11又は12記載の記録媒体。13. The database contains various 3-phoneme sets .
In addition , the position / velocity / acceleration of each phoneme of the two phonemes and the inter-phoneme time interval are stored, and when there is no corresponding three-phoneme set in the inter-phoneme determination process and the motion state determination process, The recording medium according to claim 11 or 12, wherein a corresponding two-phoneme set is selected from the database and used.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP00414298A JP3421964B2 (en) | 1998-01-12 | 1998-01-12 | Articulatory parameter control speech synthesis method, its apparatus and program recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP00414298A JP3421964B2 (en) | 1998-01-12 | 1998-01-12 | Articulatory parameter control speech synthesis method, its apparatus and program recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11202897A JPH11202897A (en) | 1999-07-30 |
| JP3421964B2 true JP3421964B2 (en) | 2003-06-30 |
Family
ID=11576541
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP00414298A Expired - Fee Related JP3421964B2 (en) | 1998-01-12 | 1998-01-12 | Articulatory parameter control speech synthesis method, its apparatus and program recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3421964B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4536464B2 (en) * | 2004-09-08 | 2010-09-01 | 日本電信電話株式会社 | Speech synthesis apparatus and method |
-
1998
- 1998-01-12 JP JP00414298A patent/JP3421964B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH11202897A (en) | 1999-07-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1605435B1 (en) | Singing voice synthesizing method, singing voice synthesizing device, program, recording medium, and robot | |
| JP5605066B2 (en) | Data generation apparatus and program for sound synthesis | |
| US20040243413A1 (en) | Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus | |
| JP2003529861A5 (en) | ||
| JPH086592A (en) | Speech synthesis method and apparatus | |
| JPH0632020B2 (en) | Speech synthesis method and apparatus | |
| JP3576840B2 (en) | Basic frequency pattern generation method, basic frequency pattern generation device, and program recording medium | |
| JP4194656B2 (en) | Waveform synthesis | |
| JP3421964B2 (en) | Articulatory parameter control speech synthesis method, its apparatus and program recording medium | |
| JPH1097291A (en) | VCV waveform connection voice pitch conversion method and voice synthesis device | |
| JP3379348B2 (en) | Pitch converter | |
| JP3437064B2 (en) | Speech synthesizer | |
| JP4430174B2 (en) | Voice conversion device and voice conversion method | |
| JPH09244693A (en) | Speech synthesis method and apparatus | |
| JP3394281B2 (en) | Speech synthesis method and rule synthesizer | |
| JPH0473698A (en) | Shape control method based on audio signal | |
| JPH11338488A (en) | Voice synthesis device and voice synthesis method | |
| JP3284634B2 (en) | Rule speech synthesizer | |
| JP4536464B2 (en) | Speech synthesis apparatus and method | |
| JP7280605B2 (en) | Speech processing device and speech processing method | |
| JP6552146B1 (en) | Audio processing apparatus and audio processing method | |
| JP3286353B2 (en) | Voice synthesis method | |
| JP2755478B2 (en) | Text-to-speech synthesizer | |
| JPS5898800A (en) | Phoneme editing type speech synthesis method | |
| JP3278485B2 (en) | Japanese speech synthesis system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090425 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |