JP3485586B2 - Voice synthesis method - Google Patents
Voice synthesis methodInfo
- Publication number
- JP3485586B2 JP3485586B2 JP25838792A JP25838792A JP3485586B2 JP 3485586 B2 JP3485586 B2 JP 3485586B2 JP 25838792 A JP25838792 A JP 25838792A JP 25838792 A JP25838792 A JP 25838792A JP 3485586 B2 JP3485586 B2 JP 3485586B2
- Authority
- JP
- Japan
- Prior art keywords
- mora
- pitch
- accent
- difference
- accent phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001308 synthesis method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 31
- 230000005484 gravity Effects 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 7
- 241001417093 Moridae Species 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- KQTVWCSONPJJPE-UHFFFAOYSA-N etridiazole Chemical compound CCOC1=NC(C(Cl)(Cl)Cl)=NS1 KQTVWCSONPJJPE-UHFFFAOYSA-N 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
Description
【0001】[0001]
【産業上の利用分野】本発明は、規則による音声合成方
法に関し、特に、音声の音韻やアクセントの自然性に大
きく影響する合成音声のピッチパターン生成方法に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a rule-based speech synthesis method, and more particularly, to a method for generating a pitch pattern of synthesized speech which greatly affects the naturalness of the phoneme and accent of the speech.
【0002】[0002]
【従来の技術】近年、規則による音声合成の研究が、ヒ
ューマンインタフェースの重要な技術として盛んに行わ
れている。規則による音声合成は、文字列等から形態素
解析によって品詞情報を決定し、単語辞書との照合によ
り単語の読みを決定した後に、この読みに応じた単語の
アクセント型、アクセント結合、フレーズを求め、これ
らの情報からピッチパターンの決定を行うと共に、単語
の読みに応じた音声素片(例えばパーコール係数やLS
P係数)を接続することにより音声データを生成する。
即ち、音声データとは、パーコール係数列とこれに応じ
たピッチパターンとアンプ情報である。この中でもピッ
チパターンは、合成音声の自然性の善し悪しに大きな影
響を及ぼすものとして位置付けられている。2. Description of the Related Art In recent years, research on speech synthesis by rules has been actively carried out as an important technique for human interface. Speech synthesis by rules determines part-of-speech information by morphological analysis from character strings and the like, and after determining the reading of a word by matching with a word dictionary, obtains the accent type, accent combination, and phrase of the word according to this reading, A pitch pattern is determined from these pieces of information, and at the same time, a speech unit (for example, a Percoll coefficient or LS) corresponding to the reading of a word is determined.
The audio data is generated by connecting (P coefficient).
That is, the voice data is a Percoll coefficient sequence, a pitch pattern and amplifier information corresponding thereto. Among them, the pitch pattern is positioned as having a great influence on whether the naturalness of the synthesized voice is good or bad.
【0003】従来のピッチパターン生成には、文章の構
造からフレーズ成分とアクセント成分を決定した後に、
各モーラの重心点のピッチを推定し、直線補間すること
によりピッチパターンを生成する点ピッチモデルを用い
る方法が知られている。(電子通信学会論文誌Vol.
J63-D No.9 pp.715-722, 1980.9)
また、ニューラルネットにより各フレーズに対する先頭
モーラ、ピッチ周波数がピークをとるモーラ、末尾モー
ラの各ピッチ周波数の値を推定する方法なども知られて
いる。(音声研究会資料 SP89-111, 1990.1)
これら、従来のピッチパターンの生成方法は、いずれも
各モーラに対するピッチ周波数の絶対値を一義的に推定
する方法であり、前後のモーラとのつながり(ピッチ周
波数の変化量)については考慮されていない。従って、
これらの方法では、モーラ間でのピッチパターンの変化
量が安定しないといった問題がある。In the conventional pitch pattern generation, after determining a phrase component and an accent component from the structure of a sentence,
A method using a point pitch model that generates a pitch pattern by estimating the pitch of the center of gravity of each mora and performing linear interpolation is known. (IEICE Transactions Vol.
J63-D No.9 pp.715-722, 1980.9) Also known is a method of estimating the value of each pitch frequency of the leading mora, the mora having a peak pitch frequency, and the ending mora for each phrase by a neural network. There is. (Voice study group material SP89-111, 1990.1) All of these conventional pitch pattern generation methods are methods for uniquely estimating the absolute value of the pitch frequency for each mora, and the connection with the mora before and after (pitch The amount of frequency change) is not taken into consideration. Therefore,
These methods have a problem that the amount of change in pitch pattern between mora is not stable.
【0004】[0004]
【発明が解決しようとする課題】上述のように、合成音
声の自然性を左右する要因としては、ピッチ周波数の絶
対値よりも変化量の方がより重要であるにもかかわら
ず、従来の方法は、いずれも各モーラに対するピッチ周
波数の変動を推定するものではなかった。As described above, although the variation amount is more important than the absolute value of the pitch frequency as a factor that influences the naturalness of the synthesized speech, the conventional method is used. Neither estimate the variation in pitch frequency for each mora.
【0005】本発明は、このような問題を解決するため
になされたものであり、規則による音声合成において、
合成音声の自然性を向上させるために、合成音声の自然
性に大きな影響を及ぼすピッチ周波数の変化量を考慮し
てピッチパターンを生成するものである。The present invention has been made to solve such a problem, and in speech synthesis by rules,
In order to improve the naturalness of synthetic speech, a pitch pattern is generated in consideration of the amount of change in pitch frequency that greatly affects the naturalness of synthetic speech.
【0006】[0006]
【課題を解決するための手段】本発明のピッチパターン
生成方法は、任意の文字列のモーラ毎に、当該モーラの
重心点のピッチ周波数と前記当該モーラに対する先行モ
ーラの重心点のピッチ周波数との差を推定するピッチ差
推定処理と、上記ピッチ差推定処理により求められたピ
ッチ差からピッチパターンを形成するピッチパターン生
成処理とを備えたものであって、上記ピッチパターン生
成処理が、少なくとも、当該モーラを含むアクセント句
における当該モーラのモーラ位置、分割されたフレーズ
における当該モーラを含むアクセント句位置、当該モー
ラを含むアクセント句のモーラ数、当該モーラを含むア
クセント句のアクセント型、当該モーラを含むアクセン
ト句の先行アクセント句のアクセント型についての情報
と、連接するモーラ重心点間のピッチ周波数の差との対
応関係から、各モーラの重心点のピッチ周波数と先行す
るモーラの重心点のピッチ周波数とのピッチ差を求め、
求められたピッチ差に基づいてピッチパターンを生成す
ることを特徴とする。According to the pitch pattern generation method of the present invention, for each mora of a character string, the pitch frequency of the center of gravity of the mora and the pitch frequency of the center of gravity of the preceding mora with respect to the mora are calculated. A pitch difference estimation process for estimating a difference, and a pitch pattern generation process for forming a pitch pattern from the pitch difference obtained by the pitch difference estimation process, wherein the pitch pattern generation process is at least the Accent phrase with mora
Mora position of the mora in question , divided phrases
Accent phrase position including the mora in, the motor
The number of mora in the accent phrase containing the
Accent type of quint phrase, Accen containing the mora
From the correspondence between the information about the accent type of the preceding phrase and the difference in pitch frequency between the concatenated moras centroids, the pitch frequency of the centroid of each mora and the pitch frequency of the centroid of the preceding mora Find the pitch difference between
A feature is that a pitch pattern is generated based on the obtained pitch difference.
【0007】 さらに、本発明の音声合成方法は、入力
された任意の文字列の各モーラに対するピッチを生成す
るピッチパターン生成処理と、音声合成に必要な音声パ
ラメータからなる音声素片を蓄える音声素片メモリと、
上記文字列に必要な上記音声素片を接続して音声データ
を生成する音声素片接続処理を備えたものであって、上
記ピッチパターン生成処理が、少なくとも、当該モーラ
を含むアクセント句における当該モーラのモーラ位置、
分割されたフレーズにおける当該モーラを含むアクセン
ト句位置、当該モーラを含むアクセント句のモーラ数、
当該モーラを含むアクセント句のアクセント型、当該モ
ーラを含むアクセント句の先行アクセント句のアクセン
ト型についての情報と、連接するモーラ重心点間のピッ
チ周波数の差との対応関係に基づいて、該当モーラの重
心点のピッチ周波数と先行するモーラの重心点のピッチ
周波数とのピッチ差を求め、求められたピッチ差に基づ
いてピッチパターンを生成することを特徴とする。Further, the voice synthesis method of the present invention is a pitch pattern generation process for generating a pitch for each mora of an input arbitrary character string, and a voice unit for storing voice units including voice parameters necessary for voice synthesis. One memory,
A voice unit connection process for connecting the voice unit required to the character string to generate voice data, wherein the pitch pattern generation process is at least the mora.
The mora position of the mora in the accent phrase containing
Accent phrase position including the mora in the divided phrases, mora number of accent phrases including the mora,
Accent type of the accent phrase including the mora, the motor
Accenture of preceding accent phrase including accent
The pitch difference between the center frequency of the corresponding mora and the center frequency of the preceding mora is calculated based on the correspondence between the pitch type information and the pitch frequency difference between the adjacent mora center points. A pitch pattern is generated based on the obtained pitch difference.
【0008】 又、本発明の音声合成方法は、入力され
た任意の文字列の各モーラに対するピッチを生成するピ
ッチパターン生成処理と、音声合成に必要な音声パラメ
ータからなる音声素片を蓄える音声素片メモリと、上記
文字列に必要な上記音声素片を接続して音声データを生
成する音声素片接続処理を備えたものであって、上記ピ
ッチパターン生成処理が、少なくとも、当該モーラを含
むアクセント句における当該モーラのモーラ位置、分割
されたフレーズにおける当該モーラを含むアクセント句
位置、当該モーラを含むアクセント句のモーラ数、当該
モーラを含むアクセント句のアクセント型、当該モーラ
を含むアクセント句の先行アクセント句のアクセント型
についての情報と、連接するモーラ重心点間のピッチ周
波数の差との対応関係に基づいて、該当モーラの重心点
のピッチ周波数と先行するモーラの重心点のピッチ周波
数とのピッチ差を求め、求められたピッチ差に基づいて
ピッチパターンを生成することを特徴とする。Further, the voice synthesis method of the present invention is a pitch pattern generation process for generating a pitch for each mora of an input arbitrary character string, and a voice unit for storing a voice unit including voice parameters necessary for voice synthesis. A speech unit connection process for connecting one-sided memory and the voice unit necessary for the character string to generate voice data, wherein the pitch pattern generation process includes at least an accent including the mora. mora position of the mora definitive in clause division
Been accent phrase position including the mora in phrases, number of moras accent phrase including the mora, the accent type of the accent phrase including the mora, and information about the accent type of the preceding accent phrase accent phrase including the mora, The pitch difference between the pitch frequency of the center point of gravity of the relevant mora and the pitch frequency of the center point of gravity of the preceding mora is calculated based on the correspondence relationship with the difference in pitch frequency between the concentric points of the moras. It is characterized in that a pitch pattern is generated based on this.
【0009】[0009]
【作用】本発明の音声合成方法では、まず、任意の文字
列の各モーラ対して、当該モーラの重心点のピッチ周波
数と当該モーラに対する先行モーラの重心点のピッチ周
波数との差を推定する。このような差の推定は、少なく
とも、当該モーラを含むアクセント句における当該モー
ラのモーラ位置、分割されたフレーズにおける当該モー
ラを含むアクセント句位置、当該モーラを含むアクセン
ト句のモーラ数、当該モーラを含むアクセント句のアク
セント型、当該モーラを含むアクセント句の先行アクセ
ント句のアクセント型についての情報と、連接するモー
ラ重心点間のピッチ周波数の差との対応関係から求めら
れものであって、たとえば、上記の各情報と上記のピッ
チ周波数との差との対応を記録した対応表、又は、入力
層へ上記各情報を入力すると、出力層がモーラ間のピッ
チ差を出力するように学習されているニューラルネット
ワーク等を用いて行われる。In the speech synthesis method of the present invention, first, for each mora of an arbitrary character string, the difference between the pitch frequency of the center of gravity of the mora and the pitch frequency of the center of gravity of the preceding mora with respect to the mora is estimated. Such a difference estimation is at least based on the mood in the accent phrase containing the mora.
La Mora position, the mode in divided phrases
Accent phrase position including La, Accen including the mora
Number of mora of the phrase, accent type of accent phrase containing the mora, preceding access of accent phrase containing the mora
It is obtained from the correspondence between the information about the accent type of the phrase and the difference in the pitch frequency between the concatenated mora centroids. For example, the correspondence between the above information and the difference between the pitch frequencies. Is recorded, or when each of the above information is input to the input layer, the output layer is performed using a neural network or the like that has been learned to output the pitch difference between moras.
【0010】次に、上述の推定によって、連接するモー
ラ毎のピッチ差を用いたピッチパターンの生成を生成す
ることができる。Next, by the above estimation, it is possible to generate the generation of the pitch pattern using the pitch difference for each concatenated mora.
【0011】[0011]
【実施例】最初に、本発明の音声合成方法を用いた規則
合成装置について説明する。
[実施例1]図1は、本発明の音声合成方法を用いた規
則合成装置の実施例を示すブロック図である。図1にお
いて、1は規則音声合成させる文字列の入力を行う文字
コード記号列入力部、2はその文字列を単語単位に分割
し、品詞情報を決定する形態素解析部、3はその単語の
読みを決定する読み決定部、4は単語の読みを記憶して
いる単語辞書、5は単語の読みに基づくアクセントを決
定するアクセント決定部、6は単語毎のアクセントを記
憶しているアクセント辞書、7は上記文字列のフレーズ
を決定するフレーズ決定部である。尚、フレーズとは文
頭乃至読点、読点乃至読点、読点乃至句点、息継ぎ乃至
息継ぎ、又はポーズ乃至ポーズ等の呼気段落をいう。First, a rule synthesizing apparatus using the speech synthesizing method of the present invention will be described. [Embodiment 1] FIG. 1 is a block diagram showing an embodiment of a rule synthesizing apparatus using the speech synthesizing method of the present invention. In FIG. 1, 1 is a character code symbol string input unit for inputting a character string for regular speech synthesis, 2 is a morphological analysis unit that divides the character string into word units and determines part-of-speech information, and 3 is a reading of the word. A phonetic deciding unit for deciding a word reading, a word dictionary storing a word reading, a reference numeral 5 for an accent deciding unit for deciding an accent based on the word reading, a accent dictionary 6 for storing an accent for each word, Is a phrase determination unit that determines the phrase of the character string. The phrase refers to an exhalation paragraph such as a sentence head or a reading point, a reading point or a reading point, a reading point or a phrase, a breath or breath, or a pause or a pose.
【0012】8は上記文字列のピッチパターンを生成す
るピッチパターン生成部、9は当該モーラの重心点のピ
ッチ周波数と当該モーラに対する先行モーラの重心点の
ピッチ周波数との差を推定するピッチ差推定部、10は
音声の素片を接続する素片接続部、11は音声素片を格
納した音声素片テーブル、12はDA変換部、13はス
ピーカである。Reference numeral 8 is a pitch pattern generator for generating the pitch pattern of the character string, and reference numeral 9 is a pitch difference estimation for estimating a difference between the pitch frequency of the center of gravity of the mora and the pitch frequency of the center of gravity of the preceding mora with respect to the mora. The unit, 10 is a unit connection unit for connecting voice units, 11 is a voice unit table storing voice units, 12 is a DA conversion unit, and 13 is a speaker.
【0013】図2は、入力文字列を形態素解析した結果
である。FIG. 2 shows the result of morphological analysis of the input character string.
【0014】図3は、入力文字列の形態素解析結果に対
して読み決定を行った結果である。FIG. 3 shows the result of reading decision made on the morphological analysis result of the input character string.
【0015】図4は、入力文字列をアクセント句単位で
表したものである。図4において、41は入力文字列の
第5モーラ、42は入力文字列の第1アクセント句、4
3は入力文字列の第2アクセント句である。FIG. 4 shows an input character string in units of accent phrases. In FIG. 4, 41 is the fifth mora of the input character string, 42 is the first accent phrase of the input character string, 4
3 is the second accent phrase of the input character string.
【0016】図5は、入力文字列のピッチパターンであ
る。FIG. 5 shows the pitch pattern of the input character string.
【0017】図6は、対応表を用いたピッチ差推定部
(9)である。図6において、60は当該モーラを含む
アクセント句に対するモーラ位置の例、61は当該モー
ラを含むアクセント句位置の例、62は当該モーラを含
むアクセント句のモーラ数の例、63は当該モーラを含
むアクセント句のアクセント型の例、64は当該モーラ
を含むアクセント句の先行アクセント句のアクセント型
の例、65は当該モーラと先行モーラのピッチ周波数の
差の例である。FIG. 6 shows a pitch difference estimating unit (9) using a correspondence table. In FIG. 6, 60 is an example of the mora position for the accent phrase including the mora, 61 is an example of the position of the accent phrase including the mora, 62 is an example of the number of mora of the accent phrase including the mora, and 63 is the mora. An example of the accent type of the accent phrase, 64 is an example of the accent type of the preceding accent phrase of the accent phrase including the mora, and 65 is an example of the pitch frequency difference between the mora and the preceding mora.
【0018】これより、本実施例の処理動作を、2アク
セント句からなる1フレーズの文字列「道を尋ねる」を
用いて説明する。The processing operation of this embodiment will be described below with reference to a character string "ask the way" of one phrase consisting of two accent phrases.
【0019】文字コード記号列入力部(1)から入力さ
れた文字列は、形態素解析部(2)によって単語単位に
分割され、各単語の品詞が決定される。図2は、本実施
例の文字列「道を尋ねる」を単語単位に分割し、各単語
に対して品詞を付与した結果である。The character string input from the character code symbol string input unit (1) is divided into word units by the morpheme analysis unit (2), and the part of speech of each word is determined. FIG. 2 is a result of dividing the character string “Ask the road” of this embodiment into word units and assigning a part of speech to each word.
【0020】品詞が決定されると、読み決定部(3)に
送られ、単語辞書(4)との照合により各単語の読みが
決定される。図3に、本実施例の文字列「道を尋ねる」
に対して読み決定を行った結果を示す。When the part-of-speech is determined, it is sent to the reading determination unit (3) and the reading of each word is determined by collating with the word dictionary (4). In FIG. 3, the character string “Ask the road” in this embodiment is used.
The result of reading decision is shown for.
【0021】単語の読みが決定されると、アクセント決
定部(5)に送られ、アクセント辞書(6)との照合に
より単語のアクセントが決定され、規則によりアクセン
ト結合が行われてアクセント句が形成されるとともに、
アクセント句に対するアクセントが決定される。これに
より、本実施例の文字列「みちをたずねる」は、図4に
示されるように、第一アクセント句「みちを」(42)
と第2アクセント句「たずねる」(43)の2つのアク
セント句に分けられる。When the reading of the word is determined, it is sent to the accent determining unit (5), the accent of the word is determined by collation with the accent dictionary (6), and the accent combination is performed by the rule to form the accent phrase. As well as
The accent for the accent phrase is determined. As a result, the character string "Ask for the road" in this embodiment is, as shown in FIG. 4, the first accent phrase "Michio" (42).
And the second accent phrase “Tsuneru” (43).
【0022】アクセントが決定されたあとは、フレーズ
決定部(7)でフレーズの決定が行われる。本実施例の
文字列では、文字列全体で1つのフレーズを形成してい
るが、例えば「こうばんまでいって、みちをたずねた」
といった文字列であれば、「こうばんまでいって」と
「みちをたずねた」の2つのフレーズに分割される。After the accent is determined, the phrase is determined by the phrase determining section (7). In the character string of the present embodiment, one phrase is formed by the entire character string, but for example, "I went to the koban and asked the road".
If it is a character string such as, it is divided into two phrases, "I'm going to ask" and "I asked Michi."
【0023】次に、ピッチ差の推定が行われるが、本実
施例では、文字列「みちをたずねる」の第4モ−ラ
「た」と第5モ−ラ「ず」の重心点ピッチ周波数の差を
図6の対応表を用いて推定する場合について説明する。Next, the pitch difference is estimated. In the present embodiment, the pitch frequency of the center of gravity of the fourth moor "ta" and the fifth moor "zu" of the character string "Ask for Michi". A case will be described in which the difference is estimated using the correspondence table of FIG.
【0024】 ここで、対応表は、
1)当該モーラを含むアクセント句における当該モーラ
のモーラ位置
2)分割されたフレーズにおける当該モーラを含むアク
セント句位置
3)当該モーラを含むアクセント句のモーラ数
4)当該モーラを含むアクセント句のアクセント型
5)当該モーラを含むアクセント句の先行アクセント句
のアクセント型
の5つのパラメータに対応する形で当該モーラと先行モ
ーラとのピッチ差を自然対数で記述したものである。こ
のような対応表は、例えば、大量の文を用いて、アクセ
ント型やモーラ数が多種の値を取る条件下での文のモー
ラ間のピッチ差を記録することにより作成される。Here, the correspondence table is: 1) the mora in the accent phrase including the mora
Mora position 2) accent phrase position 3 containing the mora in divided phrases) accent type 5 of the mora number 4 accent phrase including Mora) accent phrase containing the mora) prior accent accent phrase including the mora The pitch difference between the mora and the preceding mora is described in natural logarithm in a form corresponding to the five accent type parameters of the phrase. Such a correspondence table is created, for example, by using a large number of sentences and recording the pitch difference between the mora of the sentence under the condition that the accent type and the number of mora have various values.
【0025】本実施例の文字列の場合、当該モーラであ
る第5モ−ラ「ず」は、モーラ数が4でアクセント型が
3型である第2アクセント句(43)の第2モーラ(4
1)である。これは、対応表においては、当該モーラを
含むアクセント句に対するモーラ位置「2」(60)、
当該モーラを含むアクセント句位置「2」(61)、当
該モーラを含むアクセント句のモーラ数「4」(6
2)、当該モーラを含むアクセント句のアクセント型
「3」(63)、当該モーラを含むアクセント句の先行
アクセント句(42)のアクセント型「0」(64)、
の5個のパラメータ「2,2,4,3,0」で表され
る。したがって、対応表より、当該モ−ラ「ず」と先行
モーラ「た」との重心点ピッチ周波数の差は自然対数
で、「+0.147」(65)と推定される。In the case of the character string of this embodiment, the fifth mora "zu", which is the mora, is the second mora (43) of the second accent phrase (43) in which the number of mora is 4 and the accent type is 3. Four
1). In the correspondence table, this is the mora position “2” (60) for the accent phrase containing the mora,
The accent phrase position “2” (61) including the mora, and the mora number “4” (6) of the accent phrase including the mora.
2), the accent type “3” (63) of the accent phrase including the mora, the accent type “0” (64) of the preceding accent phrase (42) of the accent phrase including the mora,
It is represented by five parameters “2, 2, 4, 3, 0”. Therefore, from the correspondence table, it is estimated that the difference between the center frequency pitch frequencies of the mora "zu" and the preceding mora "ta" is "+0.147" (65) in natural logarithm.
【0026】ところで、本方法では、注目モーラとこれ
に先行する先行モーラとの母音重心点のピッチ周波数の
差を推定しているので、第1アクセント句の第1モーラ
(文頭の第1モーラ)とこれに先行する先行モーラとの
推定をどのように取り扱うかという問題が生じる。By the way, in this method, since the difference between the pitch frequencies of the vowel centroids of the target mora and the preceding mora preceding it is estimated, the first mora of the first accent phrase (the first mora at the beginning of the sentence). And how to deal with the estimation of the preceding mora that precedes this.
【0027】そこで、第1アクセント句の第1モーラ
と、このモーラに先行する先行モーラとの母音重心点の
ピッチ周波数の差を推定する場合は、本実施例では、第
1アクセント句の第1モーラに対する先行アクセント句
のアクセント型を1型として、この値と第1アクセント
句の第1モーラとの母音重心点のピッチ周波数の差を求
めることとしている。Therefore, in the case of estimating the difference in pitch frequency of the vowel center of gravity points between the first mora of the first accent phrase and the preceding mora preceding this mora, the first accent phrase of the first accent phrase is used in this embodiment. The accent type of the preceding accent phrase with respect to the mora is set as type 1, and the difference between this value and the pitch frequency of the vowel center point of gravity with respect to the first mora of the first accent phrase is determined.
【0028】これは、第1アクセント句の第1モーラに
対する先行アクセント句のアクセント型として1型を採
用したのは、その1型のアクセント句の後方部分はピッ
チ周波数の値が下降しているからであり、この結果、第
1アクセント句の第1モーラに対する先行モーラから、
第1アクセント句の第1モーラへの繋がりは違和感がな
く、自然な音声発声と看做せることとなる。This is because the type 1 is adopted as the accent type of the preceding accent phrase with respect to the first mora of the first accent phrase because the value of the pitch frequency falls in the rear part of the accent phrase of the type 1 type. And as a result, from the preceding mora for the first mora of the first accent phrase,
The connection of the first accent phrase to the first mora has no discomfort and can be regarded as a natural voice utterance.
【0029】このようにして、「みちをたずねる」の各
モーラに対して、当該モーラの重心点ピッチ周波数と先
行モーラの重心点ピッチ周波数との差が、自然対数で、
第1モ−ラから順次、「−0.061, 0.396, −0.224, −
0.300, 0.147, −0.142, −0.320」と推定される。In this way, for each mora of "Ask for the road", the difference between the center-of-mass pitch frequency of the mora and the center-of-mass pitch frequency of the preceding mora is the natural logarithm,
From the first mora, "-0.061, 0.396, -0.224,-"
0.300, 0.147, −0.142, −0.320 ”.
【0030】ピッチパターン生成部(8)では、あらか
じめ設定された音声区間の始端、および、終端のピッチ
周波数と、ピッチ差推定部(9)で推定された各値に基
づいて各モーラの重心点におけるピッチ周波数を推定
し、図5に示されるような点ピッチパターンが生成され
る。In the pitch pattern generator (8), the center of gravity of each mora is set based on the preset pitch frequencies of the start and end of the voice section and the respective values estimated by the pitch difference estimator (9). Estimating the pitch frequency at, the point pitch pattern as shown in FIG. 5 is generated.
【0031】ピッチパターンが生成されると、素片接続
部(10)において、CVC(子音+母音+子音)など
の音声素片(例えば、パーコール係数、あるいはLSP
係数)をあらかじめ格納している素片テーブル(11)
から当該文に必要な音声素片が選ばれて各素片が接続さ
れ、デジタル信号である音声データが作成される。音声
データはDA変換部(12)によってアナログ信号に変
換され、スピーカ(13)から合成音声として出力され
る。When the pitch pattern is generated, the speech unit (for example, Percoll coefficient or LSP) such as CVC (consonant + vowel + consonant) is generated in the segment connecting portion (10).
Element table (11) in which coefficients are stored in advance
Then, the voice unit necessary for the sentence is selected, each unit is connected, and voice data which is a digital signal is created. The voice data is converted into an analog signal by the DA converter (12) and output as a synthesized voice from the speaker (13).
【0032】尚、上述の実施例では、図6に示す5つの
パラメータから構成された対応表に基づいて、1フレー
ズからなる文字列のピッチパターンの生成を行ったが、
この5つのパラメータの一部に代えて、又はこの5つの
パラメータに加えて言語情報に関するパラメータ、例え
ば注目モーラが無声音であるか否か、注目モーラが無声
子音を伴うか否か、注目モーラが撥音であるか否か、注
目モーラが拗音であるか否か、注目モーラが有声子音を
伴うか否か、注目モーラの子音が摩擦音であるか否か、
注目モーラの子音が半母音であるか否か、注目モーラの
子音が鼻音であるか否か、注目モーラの子音が破擦音で
あるか否か、注目モーラの子音が破裂音であるか否か、
注目モーラを含む単語の品詞が何であるか、又は注目モ
ーラを含むアクセント句が強調されるか否か、等を採用
して対応表を作成してもよい。In the above-described embodiment, the pitch pattern of the character string consisting of one phrase is generated based on the correspondence table composed of the five parameters shown in FIG.
In place of or in addition to some of these five parameters, parameters relating to language information, for example, whether or not the attention mora is unvoiced, whether or not the attention mora is accompanied by unvoiced consonants, , Whether or not the focused mora is a jumble, whether or not the focused mora is accompanied by voiced consonants, and whether or not the consonant of the focused mora is a fricative,
Whether the consonant of the target mora is a half vowel, whether the consonant of the target mora is a nasal, whether the consonant of the target mora is an affricate, whether the consonant of the target mora is a plosive ,
The correspondence table may be created by adopting what the part of speech of the word including the attention mora is, whether the accent phrase including the attention mora is emphasized, or the like.
【0033】また、上述の実施例では、1フレーズから
なる文字列のピッチパターンの生成を行ったが、図6の
対応表の5つのパラメータ、上述の言語情報に関するパ
ラメータ、フレーズ位置、又はフレーズ数等を用いた対
応表によって、複数フレーズの文字列のピッチパターン
の生成を行うことも可能である。
[実施例2]次に、実施例1のピッチ差推定部(9)に
ニューラルネットワークを用いた実施例について説明す
る。In the above embodiment, the pitch pattern of the character string consisting of one phrase is generated. However, the five parameters of the correspondence table of FIG. 6, the parameters relating to the language information, the phrase position, or the number of phrases are used. It is also possible to generate a pitch pattern of character strings of a plurality of phrases by a correspondence table using, for example. [Embodiment 2] Next, an embodiment in which a neural network is used in the pitch difference estimation unit (9) of Embodiment 1 will be described.
【0034】図7は、ニューラルネットを用いたピッチ
差推定部(9)である。図7において、71は入力層、
72は中間層、73は出力層である。FIG. 7 shows a pitch difference estimating section (9) using a neural network. In FIG. 7, 71 is an input layer,
72 is an intermediate layer and 73 is an output layer.
【0035】ピッチ差推定部(9)部分以外の処理につ
いては処理動作1と同じであるため、以下ではピッチ差
推定部における処理についてのみ説明する。Since the processes other than the pitch difference estimating unit (9) are the same as those in the processing operation 1, only the process in the pitch difference estimating unit will be described below.
【0036】本実施例では、読みで表された本実施例の
文字列「みちをたずねる」の第4モ−ラ「た」と第5モ
−ラ「ず」の重心点ピッチ周波数の差をニューラルネッ
トにより推定する場合について説明する。In this embodiment, the difference between the pitch frequency of the center of gravity of the fourth moor "ta" and the fifth moor "zu" of the character string "ask for the road" of this embodiment expressed by reading is calculated. The case of estimation by a neural network will be described.
【0037】ピッチ差推定部(9)で用いるニューラル
ネットワークでは、入力層(71)に、
1)当該モーラを含むアクセント句における当該モーラ
のモーラ位置
2)分割されたフレーズにおける当該モーラを含むアク
セント句位置
3)当該モーラを含むアクセント句のモーラ数
4)当該モーラを含むアクセント句のアクセント型
5)当該モーラを含むアクセント句の先行アクセント句
のアクセント型
の5つのパラメータを入力する。In the neural network used in the pitch difference estimation unit (9), the input layer (71) has: 1) the mora in the accent phrase including the mora.
Mora position 2) accent phrase position 3 containing the mora in divided phrases) accent type 5 of the mora number 4 accent phrase including Mora) accent phrase containing the mora) prior accent accent phrase including the mora Enter the five parameters of the phrase accent type.
【0038】また、このニューラルネットワークは、出
力層(73)が、当該モーラの重心点のピッチ周波数と
先行するモーラの重心点のピッチ周波数との差を出力す
るように学習されているものとする。In this neural network, it is assumed that the output layer (73) is learned so as to output the difference between the pitch frequency of the center of gravity of the mora and the pitch frequency of the center of gravity of the preceding mora. .
【0039】ここで、当該モーラである第5モ−ラ
「ず」は、モーラ数が4でアクセント型が3型である第
2アクセント句(43)の第2モーラ(41)であるの
で、ニューラルネットの入力層への入力パラメータは、
当該モーラを含むアクセント句に対するモーラ位置
「2」、当該モーラを含むアクセント句位置「2」、当
該モーラを含むアクセント句のモーラ数「4」、当該モ
ーラを含むアクセント句のアクセント型「3」、当該モ
ーラを含むアクセント句の先行アクセント句(42)の
アクセント型「0」、の5つ「2,2,4,3,0」と
なる。Here, since the fifth mora "zu" which is the mora is the second mora (41) of the second accent phrase (43) having the number of mora of 4 and the accent type of type 3, Input parameters to the input layer of the neural network are
The mora position “2” for the accent phrase including the mora, the accent phrase position “2” including the mora, the mora number “4” for the accent phrase including the mora, the accent type “3” for the accent phrase including the mora, The accent type “0” of the preceding accent phrase (42) of the accent phrase including the mora is “2, 2, 4, 3, 0”.
【0040】ニューラルネットワークは、入力層(7
1)に「2,2,4,3,0」の5個の情報が入力され
た場合に、ある値を出力層(73)に出力するように学
習されており、この学習によって決定されている係数に
従い、ニューラルネットワークの各ユニットに対する重
み付けがなされる。これによって、出力層(73)から
は、例えば、自然対数で、当該モ−ラ「ず」と先行モー
ラ「た」との重心点ピッチ周波数の差「+0.147」
が推定されて出力される。The neural network consists of the input layer (7
When 5 pieces of information "2, 2, 4, 3, 0" are input to 1), it is learned to output a certain value to the output layer (73), and is determined by this learning. Each unit of the neural network is weighted according to the existing coefficient. Thereby, from the output layer (73), for example, in natural logarithm, the difference "+0.147" between the center frequency pitch frequencies of the moor "zu" and the preceding mora "ta".
Is estimated and output.
【0041】本実施例においても、第1の実施例と同様
に、第1アクセント句の第1モーラと先行モーラとの重
心点ピッチ周波数の差をニューラルネットを用いて推定
させる場合は、例えば、当該モーラを含むアクセント句
の先行アクセント句のアクセント型を「1」(0型以外
だとみなせる情報)として学習させておき、入力層への
入力パラメータの内、当該モーラを含むアクセント句の
先行アクセント句のアクセント型を「1」(学習時に用
いた入力情報)として推定させている。Also in this embodiment, when the difference in the barycentric point pitch frequency between the first mora of the first accent phrase and the preceding mora is estimated by using a neural network, as in the first embodiment, for example, The accent type of the preceding accent phrase including the mora is learned as "1" (information that can be regarded as other than 0 type), and the preceding accent of the accent phrase including the mora among the input parameters to the input layer is learned. The phrase accent type is estimated as "1" (input information used during learning).
【0042】このようにして、「みちをたずねる」の各
モーラに対して、当該モーラの重心点ピッチ周波数と先
行モ−ラの重心点ピッチ周波数との差が、自然対数で、
第1モーラから順次、「−0.061, 0.396, −0.224, −
0.300, 0.147, −0.142, −0.320」と推定される。In this way, for each mora of "Ask for the road", the difference between the center frequency of the mora and the center frequency of the preceding mora is the natural logarithm,
From the first mora, “-0.061, 0.396, −0.224, −
0.300, 0.147, −0.142, −0.320 ”.
【0043】尚、上述の第2の実施例では、ニューラル
ネットワークの入力層を5ユニット、中間層を1層とし
ているが、各ユニット数、層数はこの限りではない。In the above second embodiment, the input layer of the neural network is 5 units and the intermediate layer is 1 layer, but the number of each unit and the number of layers are not limited to this.
【0044】また、上述の第2の実施例では、5つのパ
ラメータを入力することによって学習したニューラルネ
ットを用いて、1フレーズからなる文字列のピッチパタ
ーンの生成を行ったが、この5つのパラメータの一部に
代えて、又はこの5つのパラメータに加えて言語情報に
関するパラメータ、例えば注目モーラが無声音であるか
否か、注目モーラが無声子音を伴うか否か、注目モーラ
が撥音であるか否か、注目モーラが拗音であるか否か、
注目モーラが有声子音を伴うか否か、注目モーラの子音
が摩擦音であるか否か、注目モーラの子音が半母音であ
るか否か、注目モーラの子音が鼻音であるか否か、注目
モーラの子音が破擦音であるか否か、注目モーラの子音
が破裂音であるか否か、注目モーラを含む単語の品詞が
何であるか、又は注目モーラを含むアクセント句が強調
されるか否か、等を採用して学習を行わせたニューラル
ネットを用いてもよい。Further, in the above-mentioned second embodiment, the pitch pattern of the character string consisting of one phrase is generated by using the neural net learned by inputting the five parameters. Or a parameter related to linguistic information in addition to these five parameters, for example, whether the attention mora is unvoiced, whether the attention mora is accompanied by unvoiced consonants, and whether the attention mora is sound-repellent. Or whether or not the attention mora is a roar,
Whether the attention mora is accompanied by voiced consonants, whether the attention mora's consonants are fricatives, whether the attention mora's consonants are half vowels, whether the attention mora's consonants are nasal sounds, Whether the consonant is an affricate, whether the consonant of the attention mora is a plosive, what the part of speech of the word containing the attention mora is, or whether the accent phrase containing the attention mora is emphasized It is also possible to use a neural network that has been trained by adopting ,, or the like.
【0045】更に、上述の第2の実施例では、1フレー
ズからなる文字列のピッチパターンの生成を行ったが、
上述の言語情報に関するパラメータ、フレーズ位置、又
はフレーズ数等を用いて学習させたニューラルネットに
よって、複数フレーズの文字列のピッチパターンの生成
を行うことも可能である。Further, in the above-mentioned second embodiment, the pitch pattern of the character string consisting of one phrase is generated.
It is also possible to generate a pitch pattern of a character string of a plurality of phrases by a neural net learned using the above-mentioned parameters relating to language information, phrase positions, or the number of phrases.
【0046】[0046]
【発明の効果】以上のように、本発明によれば、各モー
ラに対して、当該モーラの重心点のピッチ周波数と当該
モーラの先行モーラの重心点のピッチ周波数との差を推
定することにより、ピッチ周波数の変動からピッチパタ
ーンを生成し、合成音声の自然性を向上させることがで
きる。As described above, according to the present invention, for each mora, by estimating the difference between the pitch frequency of the center of gravity of the mora and the pitch frequency of the center of gravity of the preceding mora of the mora. , It is possible to improve the naturalness of synthesized speech by generating a pitch pattern from fluctuations in pitch frequency.
【図1】本発明を用いた規則合成の一実施例を示すブロ
ック図FIG. 1 is a block diagram showing an embodiment of rule synthesis using the present invention.
【図2】入力文字列を形態素解析した結果を示す図FIG. 2 is a diagram showing a result of morphological analysis of an input character string.
【図3】入力文字列の形態素解析結果の読みを決定した
結果を示す図FIG. 3 is a diagram showing a result of determining reading of a morphological analysis result of an input character string.
【図4】入力文字列をアクセント句単位で表した図FIG. 4 is a diagram showing an input character string in units of accent phrases.
【図5】入力文字列のピッチパターンを表す図FIG. 5 is a diagram showing a pitch pattern of an input character string.
【図6】ピッチ差推定部(9)に用いる対応表を表す図FIG. 6 is a diagram showing a correspondence table used in a pitch difference estimation unit (9).
【図7】ピッチ差推定部(9)に用いるニューラルネッ
トワークの構成図FIG. 7 is a block diagram of a neural network used in a pitch difference estimation unit (9).
1 文字コード記号列入力部 2 形態素解析部 3 読み決定部 4 単語辞書 5 アクセント決定部 6 アクセント辞書 7 フレーズ決定部 8 ピッチパターン生成部 9 ピッチ差推定部 10 素片接続部 11 素片テーブル 12 DA変換部 13 スピーカ 41 入力文字列の第5モーラ「ず」 42 入力文字列の第1アクセント句 43 入力文字列の第2アクセント句 71 ニューラルネットワークの入力層 72 ニューラルネットワークの中間層 73 ニューラルネットワークの出力層 1 character code symbol string input section 2 Morphological analyzer 3 reading decision section 4 word dictionary 5 Accent determination part 6 accent dictionary 7 Phrase decision section 8 Pitch pattern generator 9 Pitch difference estimation unit 10 Element connection part 11 piece table 12 DA converter 13 speakers 41 5th mora of input character string "zu" 42 First accent phrase of input string 43 Second accent phrase of input string 71 Neural network input layer 72 Middle layer of neural network 73 Output layer of neural network
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 13/06 - 13/08 JICSTファイル(JOIS)Front page continuation (58) Fields surveyed (Int.Cl. 7 , DB name) G10L 13/06-13/08 JISST file (JOIS)
Claims (2)
重心点のピッチ周波数と前記当該モーラに対する先行モ
ーラの重心点のピッチ周波数との差を推定するピッチ差
推定処理と、上記ピッチ差推定処理により求められたピ
ッチ差からピッチパターンを形成するピッチパターン生
成処理からなるピッチパターン生成方法において、 上記ピッチパターン生成処理が、少なくとも、当該モー
ラを含むアクセント句における当該モーラのモーラ位
置、分割されたフレーズにおける当該モーラを含むアク
セント句位置、当該モーラを含むアクセント句のモーラ
数、当該モーラを含むアクセント句のアクセント型、当
該モーラを含むアクセント句の先行アクセント句のアク
セント型についての情報と、連接するモーラ重心点間の
ピッチ周波数の差との対応関係から、各モーラの重心点
のピッチ周波数と先行するモーラの重心点のピッチ周波
数とのピッチ差を求め、求められたピッチ差に基づいて
ピッチパターンを生成することを特徴とするピッチパタ
ーン生成方法。1. A pitch difference estimation process for estimating a difference between a pitch frequency of a center of gravity of the mora and a pitch frequency of a center of gravity of a preceding mora with respect to the mora, and the pitch difference estimation. in the pitch pattern generation method consisting of the pitch pattern generation process for forming a pitch pattern from the pitch difference determined by the processing, the pitch pattern generation process, at least, the motor
The mora position of the mora in the accent phrase including the la, the accent phrase position including the mora in the divided phrase, the number of mora of the accent phrase including the mora, the accent type of the accent phrase including the mora , This
The action of the preceding accent phrase of the accent phrase containing the mora
The pitch difference between the pitch frequency of the center of gravity of each mora and the pitch frequency of the center of gravity of the preceding mora is found and obtained from the correspondence relationship between the information about the cent type and the difference in the pitch frequency between the connecting points of the mora. A pitch pattern generation method characterized by generating a pitch pattern based on the obtained pitch difference.
するピッチを生成するピッチパターン生成処理と、音声
合成に必要な音声パラメータからなる音声素片を蓄える
音声素片メモリと、上記文字列に必要な上記音声素片を
接続して音声データを生成する音声素片接続処理とを備
えた音声合成方法において、 上記ピッチパターン生成処理が、少なくとも、当該モー
ラを含むアクセント句における当該モーラのモーラ位
置、分割されたフレーズにおける当該モーラを含むアク
セント句位置、当該モーラを含むアクセント句のモーラ
数、当該モーラを含むアクセント句のアクセント型、当
該モーラを含むアクセント句の先行アクセント句のアク
セント型についての情報と、連接するモーラ重心点間の
ピッチ周波数の差との対応関係に基づいて、該当モーラ
の重心点のピッチ周波数と先行するモーラの重心点のピ
ッチ周波数とのピッチ差を求め、求められたピッチ差に
基づいてピッチパターンを生成することを特徴とする音
声合成方法。2. A pitch pattern generation process for generating a pitch for each mora of an input arbitrary character string, a voice unit memory for storing a voice unit consisting of voice parameters necessary for voice synthesis, and the character string. A speech synthesis method comprising a speech segment connection process for connecting the required speech segments to generate speech data, wherein the pitch pattern generation process is at least a mora position of the mora in an accent phrase including the mora. Information about the position of the accent phrase including the mora in the divided phrase, the number of mora of the accent phrase including the mora, the accent type of the accent phrase including the mora, and the accent type of the preceding accent phrase of the accent phrase including the mora. Based on the correspondence between the pitch frequency difference between the conjoined mora centroids, Speech synthesis method characterized by seeking the pitch difference between the pitch frequency of the center of gravity of the mora and the preceding pitch frequency of the center of gravity of mora, to generate a pitch pattern based on the determined pitch difference.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP25838792A JP3485586B2 (en) | 1991-09-30 | 1992-09-28 | Voice synthesis method |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3-251734 | 1991-09-30 | ||
| JP25173491 | 1991-09-30 | ||
| JP25838792A JP3485586B2 (en) | 1991-09-30 | 1992-09-28 | Voice synthesis method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH05224690A JPH05224690A (en) | 1993-09-03 |
| JP3485586B2 true JP3485586B2 (en) | 2004-01-13 |
Family
ID=26540334
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP25838792A Expired - Fee Related JP3485586B2 (en) | 1991-09-30 | 1992-09-28 | Voice synthesis method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3485586B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7809572B2 (en) | 2005-07-20 | 2010-10-05 | Panasonic Corporation | Voice quality change portion locating apparatus |
-
1992
- 1992-09-28 JP JP25838792A patent/JP3485586B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH05224690A (en) | 1993-09-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3720136B2 (en) | System and method for determining pitch contour | |
| EP1221693B1 (en) | Prosody template matching for text-to-speech systems | |
| US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
| US7603278B2 (en) | Segment set creating method and apparatus | |
| CN1312655C (en) | Speech synthesis method and speech synthesis system | |
| JP3854713B2 (en) | Speech synthesis method and apparatus and storage medium | |
| US7155390B2 (en) | Speech information processing method and apparatus and storage medium using a segment pitch pattern model | |
| JPH10116089A (en) | Rhythm database which store fundamental frequency templates for voice synthesizing | |
| US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
| EP2070084A2 (en) | Prosody conversion | |
| US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
| Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
| Wu et al. | Automatic generation of synthesis units and prosodic information for Chinese concatenative synthesis | |
| JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP3485586B2 (en) | Voice synthesis method | |
| Gu et al. | A Sentence-Pitch-Contour Generation Method Using VQ/HMM for Mandarin Text-to-speech | |
| JP2001034284A (en) | Speech synthesis method and apparatus, and recording medium recording sentence / speech conversion program | |
| JPH06318094A (en) | Speech rule synthesizer | |
| JP3270668B2 (en) | Prosody synthesizer based on artificial neural network from text to speech | |
| JP3286354B2 (en) | Generation method of pitch pattern | |
| JP3286353B2 (en) | Voice synthesis method | |
| JP5012444B2 (en) | Prosody generation device, prosody generation method, and prosody generation program | |
| JP3397406B2 (en) | Voice synthesis device and voice synthesis method | |
| Masri et al. | Arabic Text-to-speech (TTS) Data Preparation | |
| JP2001100777A (en) | Speech synthesis method and apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071024 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081024 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |