Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH0727392B2 - Speech synthesizer - Google Patents
[go: Go Back, main page]

JPH0727392B2 - Speech synthesizer - Google Patents

Speech synthesizer

Info

Publication number
JPH0727392B2
JPH0727392B2 JP63025943A JP2594388A JPH0727392B2 JP H0727392 B2 JPH0727392 B2 JP H0727392B2 JP 63025943 A JP63025943 A JP 63025943A JP 2594388 A JP2594388 A JP 2594388A JP H0727392 B2 JPH0727392 B2 JP H0727392B2
Authority
JP
Japan
Prior art keywords
devoicing
degree
unvoiced
character string
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63025943A
Other languages
Japanese (ja)
Other versions
JPH01200292A (en
Inventor
延佳 海木
治 木村
淳悟 鬼頭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP63025943A priority Critical patent/JPH0727392B2/en
Publication of JPH01200292A publication Critical patent/JPH01200292A/en
Publication of JPH0727392B2 publication Critical patent/JPH0727392B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、規則合成音声を生成する音声合成装置に関
する。
DETAILED DESCRIPTION OF THE INVENTION <Industrial field of application> The present invention relates to a speech synthesizer for generating a rule-synthesized speech.

〈従来の技術〉 所定の母音を音声化することは自然な合成音声を生成す
るためには重要である。
<Prior Art> Making a predetermined vowel sound is important for generating a natural synthetic speech.

従来、母音の無声化の規則としては、「桜井茂治“共通
語の発音で注意すべきことがら”日本語発音アクセント
辞典(改訂新版)NHK編、解説・付録P.128 1985年」に
一般的な法則として示されている。これには、母音無声
化の生起する典型的な音韻環境について詳しく述べられ
ている。
Conventionally, the rules for devoicing vowels are commonly used in “Shigeharu Sakurai“ Notes on Pronunciation of Common Languages ”Japanese Pronunciation Accent Dictionary (Revised New Edition), NHK, Commentary, Appendix P.128, 1985. It is shown as a law. It details a typical phonetic environment in which vowel devoicing occurs.

また、実際に音声合成装置に用いられている母音無声化
の規則としては、たとえば「佐藤大和,箱田和雄“法則
による音声合成”研究実用化報告第27巻第12号、P.2562
(62)電々公社編1978年」がある。
Further, as a rule of vowel devoicing which is actually used in a speech synthesizer, for example, “Yamato Sato, Kazuo Hakoda,“ Speech Synthesis by Law ”Research Practical Report, Vol. 27, No. 12, P. 2562.
(62) Denden Kosha 1978 ”.

第4図は上記従来の母音無声化規則を用いた無声化判定
ルーチンのフローチャートである。以下、第4図を用い
てこの従来の無声化判定ルーチンについて説明する。
FIG. 4 is a flowchart of a devoicing determination routine using the conventional vowel devoicing rule. The conventional unvoiced determination routine will be described below with reference to FIG.

ステップS31で、対象とする母音が高舌母音(/i/,/u/)
であるか否かが判別される。その結果、高舌母音であれ
ばステップS32に進み、そうでなければ有声と判断して
ステップS37に進む。
In step S 31 , the target vowel is a high tongue vowel (/ i /, / u /)
Is determined. As a result, if it is a high tongue vowel, the process proceeds to step S 32 , and if not, it is determined to be voiced and the process proceeds to step S 37 .

ステップS32で、対象とする母音が無声子音に挾まれる
か否かが判別される。その結果、挾まれていればステッ
プS33に進み、そうでなければ有声と判断してステップS
37に進む。
In step S 32 , it is determined whether the target vowel is sandwiched by unvoiced consonants. As a result, the process proceeds to step S 33 if it is pinched, step S it is determined that the voiced otherwise
Proceed to 37 .

ステップS33で、対象とする母音がアクセント核(音の
高さが相対的に高から低に変化する位置)を有している
か否かが判別される。その結果、アクセント核を有して
いればステップS39に進み、そうでなければステップS34
に進む。
In step S 33, the vowel of interest accents nuclear whether it has the (pitch of a sound from a relatively high position changes to low) is determined. As a result, if it has an accent nucleus, it proceeds to step S 39 , and if not, it proceeds to step S 34.
Proceed to.

ステップS34で、対象とする母音が第1モーラであるか
否かが判別される。その結果、第1モーラであればステ
ップS36に進み、そうでなければステップS35に進む。
In step S 34, whether or not a vowel of interest is the first mora is determined. As a result, if the first mora proceeds to step S 36, the process proceeds to step S 35 otherwise.

ステップS35で、先行する母音がすでに無声化されてい
るか否かが判別される。その結果、無声化されていれば
準無声化としてステップS39へ進み、そうでなければス
テップS36に進む。
In step S 35, whether or not the preceding vowel is already devoiced is determined. As a result, if unvoiced, it is regarded as semi-unvoiced, and the process proceeds to step S 39. If not, the process proceeds to step S 36 .

ステップS36で、対象とする母音が同種の無声摩擦音に
挾まれているか否かが判別される。その結果、挾まれて
いれば準無声化としてステップS39に進み、そうでなけ
ればステップS38に進む。
In step S 36, whether or not a vowel of interest is sandwiched unvoiced fricative of the same type is determined. As a result, if it is sandwiched, it is regarded as semi-unvoiced and the process proceeds to step S 39 , and if not, the process proceeds to step S 38 .

ステップS37で、対象とする母音を有声化すると判定さ
れる。
In step S 37, it is determined to voicing the vowel of interest.

ステップS38で、対象とする母音を無声化すると判定さ
れる。
In step S 38, the vowels of interest is determined to be unvoiced.

ステップS39で、対象とする母音の継続時間を短くする
などの準無声化処理が実行される。
In step S 39 , quasi-unvoiced processing such as shortening the duration of the target vowel is executed.

〈発明が解決しようとする課題〉 実際の音声では、母音部が完全に無声化する場合もある
が、母音の一部が無声化して残りは有声のままであると
いう現象が多く見られる。
<Problems to be Solved by the Invention> In actual speech, the vowel part may be completely unvoiced, but there are many phenomena in which a part of the vowel is devoiced and the rest remains voiced.

しかしながら、上記従来の無声化規則では、無声化しか
かった母音に対しては有声の母音の継続時間を短くする
ような準無声化処理が行なわれるものの、本質的には無
声化規則の判定結果としては、母音を無声化するか有声
化するかの2つの状態しかなく、母音の一部を無声化し
て残りは有声にするような処理は行われていない。ま
た、発声速度が変わると一般に母音部の有声無声の割合
も変わるが、従来の無声化規則では発声速度とアクセン
トパターン及び音韻系列との間の明確な無声化の度合い
が定量的に記述されていない。
However, in the above-mentioned conventional unvoicing rule, although a quasi-unvoicing process for shortening the duration of a voiced vowel is performed on a vowel that is about to be unvoiced, it is essentially determined as a result of the unvoicing rule. Has only two states of unvoicing or voicing vowels, and no processing is performed to devoicize a part of a vowel and make the rest voiced. In addition, the rate of voiced unvoiced vowels generally changes when the utterance speed changes, but the conventional unvoicing rules quantitatively describe the degree of clear unvoicedness between the utterance speed and accent patterns and phonological sequences. Absent.

したがって、実音声と無声化規則が必ずしも一致しない
場合があり、上記従来の無声化規則に基づいて生成され
た合成音声は不自然に聞えるという問題がある。
Therefore, the real voice and the unvoiced rule may not always match, and there is a problem that the synthesized voice generated based on the conventional unvoiced rule sounds unnatural.

そこで、この発明の目的は、音韻系列とアクセントパタ
ーンと発声速度とに基づいて、母音の音韻別,アクセン
トパターン別および発声速度別の無声化の度合いを求
め、さらにこの各無声化の度合いから母音の無声化比率
を求めて母音の有声区間継続時間と無声区間継続時間を
算出することにより、実音声に則して母音の無声区間継
続時間を変化させて自然な合成音声を生成することがで
きる音声合成装置を提供することにある。
Therefore, an object of the present invention is to obtain the degree of devoicing of vowels by phoneme, accent pattern, and vocalization rate based on the phoneme sequence, accent pattern, and vocalization rate. By calculating the unvoiced ratio of vowels and calculating the duration of voiced and unvoiced sections of vowels, it is possible to generate natural synthetic speech by changing the duration of unvoiced sections of vowels according to the actual speech. To provide a speech synthesizer.

〈課題を解決するための手段〉 上記目的を達成するため、この発明は、文字列が入力さ
れる文字列解析部の出力から、規則ファイルに格納され
た規則に従って合成パラメータ生成手段で音声合成パラ
メータを生成し、この音声合成パラメータに基づいて音
声合成手段で音声合成を行う音声合成装置において、上
記文字列解析部から入力された文字列の音韻系列と、上
記規則ファイルに格納された音韻系列別の無声化の度合
いに基づいて、上記入力された文字列の各母音毎の音韻
系列無声化の度合いを設定する第1無声化度合い設定手
段と、上記文字列解析部から入力された文字列のアクセ
ントパターンと、上記規則ファイルに格納されたアクセ
ントパターン別の無声化の度合いに基づいて、上記入力
された文字列の各母音毎のアクセントパターン無声化の
度合いを設定する第2無声化度合い設定手段と、上記規
則ファイルに格納された発声速度別の無声化の度合いに
基づいて、指定された発声速度に従って発声速度無声化
の度合いを設定する第3無声化度合い設定手段と、上記
第1無声化度合い設定手段によって設定された音韻系列
無声化の度合いと、上記第2無声化度合い設定手段によ
って設定されたアクセントパターン無声化の度合いと、
上記第3無声化度合い設定手段によって設定された発声
速度無声化の度合いとから、上記各母音毎に母音の無声
比率を求める無声比率設定手段と、上記合成パラメータ
生成手段によって生成される音声合成パラメータの一つ
である母音の継続時間長と、上記無声比率設定手段によ
って求められた母音の無声比率とに基づいて、入力され
た文字列の各母音毎に母音の有声区間の継続時間と無声
区間の継続時間を算出する有声・無声継続時間長算出手
段を備えたことを特徴としている。
<Means for Solving the Problems> In order to achieve the above-mentioned object, the present invention provides a speech synthesis parameter from the output of a character string analysis unit to which a character string is input according to a rule stored in a rule file in a speech synthesis parameter generation unit. In a voice synthesizer for performing voice synthesizing by a voice synthesizing means based on the voice synthesizing parameter, and a phonological sequence of a character string input from the character string analyzing unit and a phonological sequence stored in the rule file. Based on the degree of devoicing, the first devoicing degree setting means for setting the degree of dephonation of the phoneme sequence for each vowel of the input character string, and the character string input from the character string analysis unit. The accent pattern for each vowel of the input character string is based on the accent pattern and the degree of devoicing for each accent pattern stored in the rule file. The second devoicing degree setting means for setting the degree of devoicing and the degree of devoicing according to the designated speaking rate based on the degree of devoicing for each speaking rate stored in the rule file. A third devoicing degree setting means to be set, a phoneme sequence devoicing degree set by the first devoicing degree setting means, and an accent pattern devoicing degree set by the second devoicing degree setting means. ,
An unvoiced ratio setting means for obtaining an unvoiced ratio of vowels for each vowel based on the voicing speed unvoiced degree set by the third unvoiced degree setting means, and a speech synthesis parameter generated by the synthesis parameter generating means. Based on the duration of vowels, which is one of the vowels, and the unvoiced ratio of vowels obtained by the unvoiced ratio setting means, the duration and unvoiced interval of vowels of vowels for each vowel of the input character string. It is characterized by comprising a voiced / unvoiced duration length calculating means for calculating the duration of the.

〈作用〉 任意の文字列が文字列解析部に入力され、文字列解析部
からの出力が合成パラメータ生成手段に入力されると、
規則ファイルに格納された規則に従って音声合成パラメ
ータが生成される。
<Operation> When an arbitrary character string is input to the character string analysis unit and the output from the character string analysis unit is input to the synthesis parameter generation unit,
The voice synthesis parameters are generated according to the rules stored in the rule file.

その際に、上記入力された文字列の音韻系列と上記規則
ファイルに格納された音韻系列別の無声化の度合いに基
づいて、上記入力された文字列の各母音毎の音韻系列無
声化の度合いが第1無声化度合い設定手段によって設定
される。また、入力された文字列のアクセントパターン
と上記規則ファイルに格納されたアクセントパターン別
の無声化の度合いに基づいて、上記入力された文字列の
各母音毎のアクセントパターン無声化生起度合が第2無
声化度合い設定手段によって設定される。さらに、上記
規則ファイルに格納された発声速度別の無声化の度合い
に基づいて、指定された発声速度に従って発声速度無声
化の度合いが第3無声化度合い設定手段によって設定さ
れる。
At that time, based on the phoneme sequence of the input character string and the degree of devoicing for each phoneme sequence stored in the rule file, the degree of dephonation of the phoneme sequence of each vowel of the input character string. Is set by the first unvoiced degree setting means. Also, based on the accent pattern of the input character string and the degree of devoicing for each accent pattern stored in the rule file, the accent pattern devoicing occurrence degree for each vowel of the input character string is second. It is set by the devoicing degree setting means. Further, based on the degree of devoicing for each speaking rate stored in the rule file, the degree of devoicing of the speaking rate is set by the third devoicing degree setting means according to the designated speaking rate.

そうすると、上記第1,第2および第3無声化度合い設定
手段によって設定された音韻系列無声化の度合いと、ア
クセントパターン無声化の度合いと、発声速度無声化の
度合いとから、上記各母音毎に母音の無声比率が無声率
設定手段によって求められる。そして、上記合成パラメ
ータ生成手段によって生成される音声合成パラメータの
一つである母音の継続時間長と、上記無声比率設定手段
によって求められた母音の無声比率とに基づいて、入力
された文字列の各母音毎に母音の有声区間の継続時間と
無声区間の継続時間が有声・無声継続時間長算出手段に
よって算出される。
Then, for each vowel, from the phoneme sequence devoicing degree set by the first, second and third devoicing degree setting means, the accent pattern devoicing degree, and the vocalization rate devoicing degree. The unvoiced ratio of vowels is obtained by the unvoiced ratio setting means. Then, based on the duration of vowels, which is one of the voice synthesis parameters generated by the synthesis parameter generation means, and the unvoiced ratio of vowels obtained by the unvoiced ratio setting means, the input character string For each vowel, the voiced and unvoiced duration of the vowel is calculated by the voiced / unvoiced duration calculating means.

その後に、上記合成パラメータ生成手段で生成された音
声合成パラメータと、上記有声・無声継続時間長算出手
段で算出された母音の有声区間継続時間と無声区間継続
時間に基づいて、音声合成手段によって音声合成が行わ
れる。
After that, based on the voice synthesis parameter generated by the synthesis parameter generation means, the voiced section duration and the unvoiced section duration of the vowel calculated by the voiced / unvoiced duration length calculation means, Synthesis is performed.

したがって、母音の無声化現象に大きな影響を与える音
韻系列,アクセントパターンおよび発声速度を考慮し
て、各母音の有声区間継続時間と無声区間継続時間とを
算出でき、自然な合成音声を得ることができる。
Therefore, the voiced section duration and the unvoiced section duration of each vowel can be calculated in consideration of the phoneme sequence, the accent pattern, and the vocalization rate that have a great influence on the vowel devoicing phenomenon, and a natural synthesized speech can be obtained. it can.

〈実施例〉 以下、第1図のブロック図により、この発明の音声合成
装置の構成および動作の概要を説明する。
<Embodiment> An outline of the configuration and operation of the speech synthesizer of the present invention will be described below with reference to the block diagram of FIG.

任意の文字列が文字列解析部1に入力されると、文字列
解析部1は入力された上記文字列の構文解釈を行い、文
字列全体のイントネーションパターンを決定する。さら
に、単語辞書2を参照して上記文字列に含まれる単語を
検索し、文字列内の各単語のアクセント及び音韻系列を
決定することにより、上記文字列の音韻系列及びアクセ
ントパターンを決定する。このようにして、上記文字列
解析部1において決定された文字列全体のイントネーシ
ョンパターンと、上記文字列の音韻系列およびアクセン
トパターンとは、規則制御部3に出力される。
When an arbitrary character string is input to the character string analysis unit 1, the character string analysis unit 1 performs a syntactical interpretation of the input character string and determines the intonation pattern of the entire character string. Further, the word dictionary 2 is searched for a word included in the character string, and the accent and phonological sequence of each word in the character string is determined to determine the phonological sequence and accent pattern of the character string. In this way, the intonation pattern of the entire character string determined by the character string analysis unit 1 and the phoneme sequence and accent pattern of the character string are output to the rule control unit 3.

特徴パラメータファイル8はターゲット特徴パラメータ
ファイル6と時系列特徴パラメータファイル7とから構
成され、上記ターゲット特徴パラメータファイル6は、
母音の特徴を表わすターゲット特徴パラメータを上記規
則制御部3に出力し、また、上記時系列特徴パラメータ
ファイル7は子音の特徴を表わす時系列特徴パラメータ
を規則制御部3に出力する。一方、規則ファイル4は上
記特徴パラメータファイルから出力されるターゲット特
徴パラメータと時系列特徴パラメータとを接続するため
の音韻制御規則と、各韻律を制御するための韻律制御規
則とをそれぞれ上記規則制御部3に出力する。この音韻
制御規則の中に音韻系列,アクセントパターンおよび発
声速度別の無声化の度合いを表わす無声化係数が含まれ
ている。
The characteristic parameter file 8 is composed of a target characteristic parameter file 6 and a time series characteristic parameter file 7, and the target characteristic parameter file 6 is
The target feature parameter representing the feature of the vowel is output to the rule control unit 3, and the time-series feature parameter file 7 outputs the time-series feature parameter representing the feature of the consonant to the rule control unit 3. On the other hand, the rule file 4 includes a phonological control rule for connecting the target characteristic parameter and the time-series characteristic parameter output from the characteristic parameter file, and a prosody control rule for controlling each prosody, respectively. Output to 3. The phonological control rules include phonological sequences, accent patterns, and devoicing coefficients that represent the degree of unvoicing for each utterance speed.

上記規則制御部3は、上記特徴パラメータファイル8か
ら入力されたターゲット特徴パラメータおよび時系列特
徴パラメータと、上記規則ファイル4から入力された各
音韻を結合させるための上記音韻制御規則および各韻律
を制御するための上記韻律制御規則を参照して、上記文
字列解析部1から入力された文字列全体のイントネーシ
ョンパターン、文字列の音韻系列、アクセントパターン
より、上記文字列の音韻特徴パラメータ、各音韻間のピ
ッチ値、各音韻のパワー及び継続時間、後述する母音の
有声区間継続時間と無声区間継続時間長等の音声合成に
必要なパラメータを生成し、生成された上記パラメータ
を音声合成器5に出力する。
The rule control unit 3 controls the phoneme control rules and prosody for combining the target feature parameters and the time series feature parameters input from the feature parameter file 8 with the phonemes input from the rule file 4. With reference to the prosody control rule for performing the above, based on the intonation pattern of the entire character string, the phoneme sequence of the character string, and the accent pattern input from the character string analysis unit 1, the phonological feature parameters of the character string and the intervals between the phonemes. Of the pitch value, the power and duration of each phoneme, the voiced section duration and the unvoiced section duration of vowels, which will be described later, are generated, and the generated parameters are output to the speech synthesizer 5. To do.

音声合成器5は、入力されたパラメータに基づいて、音
声合成を行ない入力された文字列に対応する規則合成装
置を出力する。
The voice synthesizer 5 performs voice synthesis based on the input parameters and outputs a rule synthesizer corresponding to the input character string.

第2図は上記規則制御部3で行なわれている母音の有声
区間・無声区間継続時間算出ルーチンのフローチャート
である。以下第2図に従って母音の有声区間・無声継続
時間算出ルーチンについて説明する。
FIG. 2 is a flowchart of a vowel voiced / unvoiced section duration calculation routine executed by the rule control unit 3. The voiced segment / unvoiced duration calculation routine for vowels will be described below with reference to FIG.

このルーチンでは、最初に文字列解析部1から出力され
る音韻系列,アクセントパターンおよび発声速度に基づ
いて無声化の度合いを示す無声化係数を算出する。
In this routine, first, a devoicing coefficient indicating the degree of devoicing is calculated based on the phoneme sequence, accent pattern, and utterance speed output from the character string analysis unit 1.

ステップS1で、音韻系列に基づいた音韻系列無声化係数
ρp(n)が後に詳細に説明するようにして算出され
る。
In step S 1 , the phoneme sequence devoicing coefficient ρp (n) based on the phoneme sequence is calculated as described in detail later.

ただし、n=1,2,…,WM+1(WMは入力した音韻記号系
列別のモーラ数であり、WM+1は語尾の無音を表わす) ステップS2で、アクセントパターン無声化係数ρa
(n)が求められる。
However, n = 1, 2, ..., WM + 1 (WM is the number of mora for each phoneme symbol sequence input, and WM + 1 represents silence at the end). At step S 2 , the accent pattern devoicing coefficient ρa
(N) is required.

このアクセントパターン無声化係数ρa(n)は、アク
セント型と対象母音のモーラ位置による種々のアクセン
トパターンに基づく無声化係数を示した表を規則ファイ
ル4に格納しておき、この表に従って入力された文字列
のアクセントパターンに一致したアクセントパターンの
無声化係数を読出すことによって求められる。ここで、
上記アクセント型とは、単語を形成する音節のうち高く
唱える音節の位置によって分類するものであり、例えば
“n型”とは第2番目の音節からn番目までを高く唱
え、1番目の音節とn+1番目以下の音節はすべて低く
唱えることを表わす(新明解国語辞典第3版付録アクセ
ント一覧)。
The accent pattern devoicing coefficient ρa (n) is stored in the rule file 4 showing the devoicing coefficient based on various accent patterns depending on the accent type and the mora position of the target vowel, and is input according to this table. It is obtained by reading the devoicing coefficient of the accent pattern that matches the accent pattern of the character string. here,
The accent type is classified according to the position of a syllable that is highly sung among the syllables forming a word. For example, “n type” is a high syllable from the second syllable to the nth syllable. All syllables from the n + 1th onwards indicate that they are chanted low (Shinmei Kengoku Kanji Dictionary 3rd Edition Appendix Accent List).

アクセントパターン別の無声化係数は次のような特徴を
持つ。
The devoicing coefficient for each accent pattern has the following features.

1.アクセント核にある母音はほとんど無声化することが
ない。
1. Vowels in the accent nucleus are hardly devoiced.

2.0型の発声は1型以上の発声に比べて母音が無声化す
る度合いが高い。
2.0-type utterances have a higher degree of vowel devoicing than 1-type or more utterances.

3.語頭は1型の発声を除いて無声化の度合いが高い。3. Except for type 1 utterances, the beginning of words is highly unvoiced.

4.アクセント核の直前にある母音は、アクセント核にあ
る母音より無声化の度合いが高いが、アクセント核より
後にある母音より無声化の度合いが低い。
4. The vowel immediately before the accent kernel has a higher degree of devoicing than the vowel in the accent kernel, but has a lower degree of devoicing than the vowel after the accent kernel.

ステップS3で、発声速度無声化係数ρs(n)が求めら
れる。
In step S 3 , the vocalization speed devoicing coefficient ρs (n) is obtained.

この発声速度無声化係数ρs(n)は、種々の発声速度
に基づく無声化係数を示した表を規則ファイル4に格納
しておき、この表から指定された発声速度の無声化係数
を読出すことによって求められる。
As the vocalization rate devoicing coefficient ρs (n), a table showing devoicing coefficients based on various vocalization rates is stored in the rule file 4, and the devoicing coefficient of the specified vocalization rate is read from this table. Required by

ステップS4で、上記ステップS1,ステップS2およびステ
ップS3で求められた音韻系列無声化係数,アクセントパ
ターン無声化係数および発声速度無声化係数より、次式
によって母音の無声比率Rvu(n)が算出される。
In step S 4 , the unvoiced ratio Rvu (n of the vowels is calculated by the following equation from the phoneme sequence devoicing coefficient, the accent pattern devoicing coefficient, and the vocalization rate devoicing coefficient obtained in steps S 1 , S 2 and S 3 above. ) Is calculated.

Rvu(n)=ρp(n)×ρa(n)×ρs(n) ただし、Rvu(n)>1のときRvu(n)=1 …(1) ここで、Rvu(n)=1(母音の無声化比率が100%)の
場合は完全に無声化する場合であり、Rvu(n)=0
(母音の無声比率が0%)の場合はまったく無声化しな
い場合である。また、その他の場合、例えば0.75の場合
は母音区間の子音に続く母音の前3/4は無声化し、後1/4
は有声化する場合である。
Rvu (n) = ρp (n) × ρa (n) × ρs (n) However, when Rvu (n)> 1, Rvu (n) = 1 (1) where Rvu (n) = 1 (vowel The devoicing ratio of 100%) is the case of completely devoicing, and Rvu (n) = 0
The case where the unvoiced ratio of vowels is 0% is a case where no devoicing is performed. In other cases, for example, 0.75, the first 3/4 of the vowel following the consonant in the vowel section is unvoiced and the 1/4
Is the case of voicing.

ステップS5で、母音の有声区間継続時と無声区間継続時
間が次のようにして算出される。
In step S 5 , the duration of the voiced section of the vowel and the duration of the unvoiced section are calculated as follows.

すなわち、規則制御部3によって算出された母音の継続
時間に、上記ステップS4で求められた母音の無声比率Rv
u(n)を乗することにより母音の無声区間継続時間が
算出される。その後、母音の継続時間から母音の無声区
間継続時間を引くことによって母音の有声区間継続時間
が算出される。ただし、母音が脱落したと考えたほうが
良い場合、すなわち母音の継続時間を0とする場合、母
音の有声区間継続時と無声区間継続時間との比率がどの
ようになっても母音の有声区間及び無声区間の継続時間
を0とする。
That is, in the duration of the vowel calculated by the rule control unit 3, the unvoiced ratio Rv of the vowel obtained in step S 4 is calculated.
The unvoiced section duration of the vowel is calculated by multiplying u (n). After that, the duration of the vowel voiced section is calculated by subtracting the duration of the unvoiced section of the vowel from the duration of the vowel. However, when it is better to consider that the vowel is dropped, that is, when the duration of the vowel is 0, no matter what the ratio between the duration of the vowel and the unvoiced duration is, The duration of the unvoiced section is set to 0.

第3図は、上述の音韻系列無声化係数ρp(n)算出ル
ーチンのフローチャートである。以下、第3図に従って
音韻系列無声化係数ρp(n)算出ルーチンについて説
明する。
FIG. 3 is a flowchart of the above-mentioned phoneme sequence unvoiced coefficient ρp (n) calculation routine. Hereinafter, the phoneme sequence devoicing coefficient ρp (n) calculation routine will be described with reference to FIG.

ステップS11で、文字列解析部1から出力された音韻系
列より、対象とする母音を中心としたCVC(子音−母音
−子音)音韻列が母音毎にそれぞれ切り出される。
In step S 11 , a CVC (consonant-vowel-consonant) phoneme string centered on the target vowel is extracted from the phoneme sequence output from the character string analysis unit 1 for each vowel.

ステップS12で、CVC音韻列毎のCVC無声化係数が求めら
れる。
In step S 12, CVC devoicing coefficient for each CVC phoneme sequence is obtained.

このCVC無声化係数は、CVC音韻系列に基づく無声化係数
を示した表を規則ファイル4に格納し、この表から入力
されたCVC音韻系列に一致するCVC音韻系列の無声化係数
を読出すことによって求められる。
For this CVC devoicing coefficient, a table showing devoicing coefficients based on the CVC phonological sequence is stored in the rule file 4, and the devoicing coefficient of the CVC phonological sequence that matches the CVC phonological sequence input from this table is read out. Required by.

ステップS13で、1モーラ目から判定を行なうためにn
=1とする。
In step S 13 , n is used to make a determination from the first mora.
= 1.

ステップS14で、次のモーラ(n+1)のCVC無声化係数
ρcvc(n+1)と現モーラ(n)のCVC無声化係数ρcv
c(n)の少なくとも一方が0であるか否かが判別され
る。その結果、一方が0であると判別された場合はステ
ップS18へ進み、そうでなければステップS15へ進む。
In step S 14 , the CVC de-voicing coefficient ρ cvc (n + 1) of the next mora (n + 1) and the CVC de-voicing coefficient ρ cv of the current mora (n).
It is determined whether or not at least one of c (n) is 0. As a result, if it is determined that one is 0, the process proceeds to step S 18 , and if not, the process proceeds to step S 15 .

ステップS15で、次のモーラ(n+1)のCVC無声化係数
ρcvc(n+1)と現モーラ(n)のCVC無声化係数ρcv
c(n)とが比較される。その結果、ρcvc(n)≧ρcv
c(n+1)すなわち次CVC音韻系列の方の無声化の度合
いが低い場合は、次CVC音韻系列の無声化の度合いが小
さくなるとしてステップS17に進む。一方、ρcvc(n)
<ρcvc(n+1)すなわち現CVC音韻系列の方の無声化
の度合いが低い場合は、現CVC音韻系列の無声化の度合
いが小さくなるとしてステップS16に進む。
In step S 15 , the CVC de-voicing coefficient ρ cvc (n + 1) of the next mora (n + 1) and the CVC de-voicing coefficient ρ cv of the current mora (n).
c (n) is compared. As a result, ρcvc (n) ≧ ρcv
If c (n + 1), that is, the degree of devoicing of the next CVC phoneme sequence is low, it is determined that the degree of unvoicing of the next CVC phoneme sequence is low, and the process proceeds to step S 17 . On the other hand, ρcvc (n)
<When ρcvc (n + 1) i.e. towards the degree of Devoicing is low the current CVC phoneme sequence proceeds to step S 16 as the degree of devoicing current CVC phoneme sequence is reduced.

これは、無声化される母音が続いて発音が不明確になる
のを避けるために、無声化の度合いの弱い一方の母音を
無声化させるようにするためである。
This is to make one vowel with a weak degree of devoicing devoiced in order to avoid unclear pronunciation of the vowels to be devoted subsequently.

ステップS16で、現モーラのCVC無声化係数が次式で算出
される。
In step S 16 , the CVC devoicing coefficient of the current mora is calculated by the following equation.

ρcvc(n)=ρcvc(n)×β1 (β1は、0≦β1<1の定数) すなわち、現モーラのCVC無声化係数を小さくして無声
化されにくくするのである。
ρcvc (n) = ρcvc (n) × β1 (β1 is a constant 0 ≦ β1 <1) That is, the CVC de-voicing coefficient of the current mora is reduced to make it difficult to devoice.

ステップS17で、次モーラのCVC無声化係数が次式で算出
される。
In step S 17 , the CVC devoicing coefficient of the next mora is calculated by the following equation.

ρcvc(n+1)=ρcvc(n+1)×β2 (β2は、0≦β2<1の定数) すなわち、次モーラのCVC無声化係数を小さくして無声
化されにくくするのである。
ρcvc (n + 1) = ρcvc (n + 1) × β2 (β2 is a constant of 0 ≦ β2 <1) That is, the CVC de-voicing coefficient of the next mora is reduced to make it difficult to devoice.

ステップS18で、音韻系列無声化係数ρp(n)が次式
で算出される。
In step S 18 , the phoneme sequence devoicing coefficient ρp (n) is calculated by the following equation.

ρp(n)=ρcvc(n) ステップS19で、次モーラの音韻系列無声化係数ρp
(n+1)を算出するために、nが1つインクリメント
される。
ρp (n) = ρcvc (n) In step S 19 , the phoneme sequence devoicing coefficient ρp of the next mora
In order to calculate (n + 1), n is incremented by 1.

ステップS20で、nが、入力した音韻系列のモーラ数(W
M)以下であるか否かが判定される。その結果、n≦WM
であればステップS14からステップS19を繰返す。一方、
n>WMであれば、この音韻系列無声化係数算出ルーチン
を終了する。
In step S 20 , n is the number of mora (W
M) It is determined whether or not the following. As a result, n ≦ WM
If so, steps S 14 to S 19 are repeated. on the other hand,
If n> WM, the phoneme sequence devoicing coefficient calculation routine ends.

上記実施例においては、母音の無声比率Rvu(n)を求
める場合に、音韻系列無声化係数ρp(n),アクセン
トパターン無声化係数ρa(n)および発声速度無声化
係数ρs(n)より式(1)によって算出している。し
かし、上記3つの無声化係数ρp(n),ρa(n),
ρs(n)に基づく母音の有声区間または無声区間の比
率を示した表を規則ファイル4に格納し、この表から無
声比率Rvu(n)を得るようにしてもよい。
In the above embodiment, when obtaining the unvoiced ratio Rvu (n) of vowels, an expression is calculated from the phoneme sequence devoicing coefficient ρp (n), the accent pattern devoicing coefficient ρa (n) and the vocalization rate devoicing coefficient ρs (n). It is calculated by (1). However, the three devoicing coefficients ρp (n), ρa (n),
A table showing the ratio of voiced sections or unvoiced sections of vowels based on ρs (n) may be stored in the rule file 4, and the unvoiced ratio Rvu (n) may be obtained from this table.

〈発明の効果〉 以上より明らかなように、この発明の音声合成装置は、
規則ファイルに格納された音韻系列別,アクセントパタ
ーン別および発声速度別の無声化の度合いに基づいて、
音韻系列,アクセントパターンおよび発声速度無声化の
度合いを設定し、この音韻系列,アクセントパターンお
よび発声速度無声化の度合いから母音の無声比率を求
め、母音の継続時間長と上記母音の無声比率によって母
音の有声区間の継続時間と無声区間の継続時間を算出す
るようにしたので、音韻系列,アクセントパターンおよ
び発声速度に基づいて、母音の無声区間継続時間を変化
させることができる。したがって、実音声に則して自然
な合成音声を生成することができる。
<Effects of the Invention> As is clear from the above, the speech synthesizer of the present invention is
Based on the degree of devoicing for each phoneme sequence, accent pattern, and speaking rate stored in the rule file,
The phoneme sequence, the accent pattern, and the voicing rate devoicing degree are set, the unvoiced ratio of vowels is obtained from the phonological sequence, the accent pattern, and the voicing rate devoicing degree, and the vowel duration and the vowel unvoiced ratio are used to determine the vowels. Since the duration of the voiced section and the duration of the unvoiced section are calculated, the duration of the unvoiced section of the vowel can be changed based on the phoneme sequence, the accent pattern, and the utterance speed. Therefore, it is possible to generate a natural synthesized voice according to the actual voice.

【図面の簡単な説明】[Brief description of drawings]

第1図はこの発明の音声合成装置の一実施例を示すブロ
ック図、第2図は上記実施例における母音の有声区間・
無声区間継続時間算出ルーチンのフローチャート、第3
図は上記実施例における音韻系列無声化係数算出ルーチ
ンのフローチャート、第4図は従来の無声化判定ルーチ
ンのフローチャートである。 1……文字列解析部、2……単語辞書、3……規則制御
部、4……規則ファイル、5……音声合成器、6……タ
ーゲット特徴パラメータファイル、7……時系列特徴パ
ラメータファイル、8……特徴パラメータファイル。
FIG. 1 is a block diagram showing an embodiment of a speech synthesizer of the present invention, and FIG. 2 is a vowel voiced section in the above embodiment.
Flowchart of unvoiced section duration calculation routine, third
FIG. 4 is a flowchart of the phoneme sequence devoicing coefficient calculation routine in the above embodiment, and FIG. 4 is a flowchart of the conventional devoicing determination routine. 1 ... Character string analysis unit, 2 ... Word dictionary, 3 ... Rule control unit, 4 ... Rule file, 5 ... Speech synthesizer, 6 ... Target feature parameter file, 7 ... Time-series feature parameter file , 8 ... Feature parameter file.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】文字列が入力される文字列解析部の出力か
ら、規則ファイルに格納された規則に従って合成パラメ
ータ生成手段で音声合成パラメータを生成し、この音声
合成パラメータに基づいて音声合成手段で音声合成を行
う音声合成装置において、 上記文字列解析部から入力された文字列の音韻系列と、
上記規則ファイルに格納された音韻系列別の無声化の度
合いに基づいて、上記入力された文字列の各母音毎の音
韻系列無声化の度合いを設定する第1無声化度合い設定
手段と、 上記文字列解析部から入力された文字列のアクセントパ
ターンと、上記規則ファイルに格納されたアクセントパ
ターン別の無声化の度合いに基づいて、上記入力された
文字列の各母音毎のアクセントパターン無声化の度合い
を設定する第2無声化度合い設定手段と、 上記規則ファイルに格納された発声速度別の無声化の度
合いに基づいて、指定された発声速度に従って発声速度
無声化の度合いを設定する第3無声化度合い設定手段
と、 上記第1無声化度合い設定手段によって設定された音韻
系列無声化の度合いと、上記第2無声化度合い設定手段
によって設定されたアクセントパターン無声化の度合い
と、上記第3無声化度合い設定手段によって設定された
発声速度無声化の度合いとから、上記各母音毎に母音の
無声比率を求める無声比率設定手段と、 上記合成パラメータ生成手段によって生成される音声合
成パラメータの一つである母音の継続時間長と、上記無
声比率設定手段によって求められた母音の無声比率とに
基づいて、入力された文字列の各母音毎に母音の有声区
間の継続時間と無声区間の継続時間を算出する有声・無
声継続時間長算出手段を備えたことを特徴とする音声合
成装置。
1. A speech synthesis parameter is generated by a synthesis parameter generation means according to a rule stored in a rule file from an output of a character string analysis section to which a character string is input, and the speech synthesis means is based on this speech synthesis parameter. In a voice synthesizer for performing voice synthesis, a phoneme sequence of a character string input from the character string analysis unit,
First devoicing degree setting means for setting the degree of dephonization of the phoneme sequence for each vowel of the input character string based on the degree of devoicing for each phoneme sequence stored in the rule file; Based on the accent pattern of the character string input from the string analysis unit and the degree of devoicing for each accent pattern stored in the rule file, the degree of devoicing of the accent pattern of each vowel of the input character string. And a third devoicing degree setting means for setting the vocalization speed devoicing degree in accordance with the designated vocalization rate based on the vocalization rate-dependent devoicing degree stored in the rule file. Degree setting means, the degree of phoneme sequence devoicing set by the first unvoiced degree setting means, and the second unvoiced degree setting means An unvoiced ratio setting unit that obtains an unvoiced ratio of vowels for each vowel from the degree of unvoiced accent pattern and the degree of unvoiced speed set by the third unvoiced degree setting unit, and the synthesis parameter generation. The duration of vowels, which is one of the voice synthesis parameters generated by the means, and the unvoiced ratio of the vowels obtained by the unvoiced ratio setting means, based on the vowels of each vowel of the input character string. A voice synthesizer comprising a voiced / unvoiced duration length calculating means for calculating a duration of a voiced section and a duration of an unvoiced section.
JP63025943A 1988-02-03 1988-02-03 Speech synthesizer Expired - Fee Related JPH0727392B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63025943A JPH0727392B2 (en) 1988-02-03 1988-02-03 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63025943A JPH0727392B2 (en) 1988-02-03 1988-02-03 Speech synthesizer

Publications (2)

Publication Number Publication Date
JPH01200292A JPH01200292A (en) 1989-08-11
JPH0727392B2 true JPH0727392B2 (en) 1995-03-29

Family

ID=12179836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63025943A Expired - Fee Related JPH0727392B2 (en) 1988-02-03 1988-02-03 Speech synthesizer

Country Status (1)

Country Link
JP (1) JPH0727392B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227367A (en) * 2005-02-18 2006-08-31 Oki Electric Ind Co Ltd Speech synthesizer

Also Published As

Publication number Publication date
JPH01200292A (en) 1989-08-11

Similar Documents

Publication Publication Date Title
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
JP2001282279A (en) Voice information processing method and apparatus, and storage medium
JPH086591A (en) Audio output device
Rashad et al. An overview of text-to-speech synthesis techniques
JP2761552B2 (en) Voice synthesis method
Mandal et al. Epoch synchronous non-overlap-add (ESNOLA) method-based concatenative speech synthesis system for Bangla.
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Chouireb et al. Towards a high quality Arabic speech synthesis system based on neural networks and residual excited vocal tract model
JP3109778B2 (en) Voice rule synthesizer
Lobanov et al. Development of multi-voice and multi-language TTS synthesizer (languages: Belarussian, Polish, Russian)
Houidhek et al. Statistical modelling of speech units in HMM-based speech synthesis for Arabic
JP2848604B2 (en) Speech synthesizer
JP3883318B2 (en) Speech segment generation method and apparatus
JPH0727392B2 (en) Speech synthesizer
JP2001034284A (en) Speech synthesis method and apparatus, and recording medium recording sentence / speech conversion program
JP3397406B2 (en) Voice synthesis device and voice synthesis method
JP2703253B2 (en) Speech synthesizer
Low et al. Application of microprosody models in text to speech synthesis.
JP3318290B2 (en) Voice synthesis method and apparatus
Trinh et al. HMM-based Vietnamese speech synthesis
JPS59155899A (en) Voice synthesization system
Chung et al. A new Korean speech synthesis system and temporal model
JPH09292897A (en) Voice synthesizing device
JPH0242496A (en) Voice synthesizer
Aliero et al. Taxonomy, Review and Research Challenges Of DNN-Based Text-To-Speech System for Hausa as Under-Resourced Language

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees