JPS5847719B2 - If you want to pose, please do so. - Google Patents
If you want to pose, please do so.Info
- Publication number
- JPS5847719B2 JPS5847719B2 JP49101654A JP10165474A JPS5847719B2 JP S5847719 B2 JPS5847719 B2 JP S5847719B2 JP 49101654 A JP49101654 A JP 49101654A JP 10165474 A JP10165474 A JP 10165474A JP S5847719 B2 JPS5847719 B2 JP S5847719B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- pause
- length
- pose
- clauses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
本発明は、文音声合成の際の文節間にポーズを挿入する
文音声のポーズ挿入方式に関するものである。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a sentence-speech pause insertion method for inserting pauses between clauses during sentence-speech synthesis.
従来から各種の音声応答サービスにおいては、単語もし
くは文節を基本単位とした録音編集方式が用いられてい
る。BACKGROUND ART Conventionally, various voice response services have used a recording and editing method using words or phrases as basic units.
これらの方式では、録音の時間スコットが一定で、かつ
録音される音声単位の長さが不揃いであるため、出力さ
れる文音声に入るポーズはまちまちの長さとなり、聴き
手に不自然な感じを与えるという欠点があった。In these methods, the recording time Scott is constant and the length of the recorded audio units is uneven, so the pauses that enter the output sentence audio will be of different lengths, giving the listener an unnatural feeling. It had the disadvantage of giving
また、各文節間に一定の長さのポーズを置くという簡単
な方法も考えられるが、各文節間の構文上のつながりの
弱いところではポーズが入りやすく、強く結合している
ところでは入りにくいなど、ポーズの挿入には一定の傾
向があるため、固定長のポーズでは自然な感じを得るこ
とはできない。Alternatively, a simple method of placing a pause of a certain length between each clause may be considered, but pauses are easy to insert where the syntactic connections between each clause are weak, and difficult where they are strongly connected. , Since there is a certain tendency to insert poses, it is not possible to obtain a natural feeling with fixed length poses.
したがって、文節間に入るポーズを、できるだけ自然音
声と同一となるように挿入する規則を求めることが必要
となる。Therefore, it is necessary to find a rule for inserting pauses between clauses so that they are as similar to natural speech as possible.
本発明は、上記の点を考慮して、合成すべき文音声に自
然らしさを付与するために、文の構文情報と句の長さに
よる情報を用いて、文節間のポーズの挿入と長さを自動
的に決定する文音声のポーズ挿入方式を提供するもので
ある。In consideration of the above points, the present invention uses sentence syntax information and phrase length information to insert and adjust the length of pauses between clauses in order to give naturalness to the sentence speech to be synthesized. This provides a method for automatically determining pauses in sentence speech.
以下、図面により実施例を詳細に説明する。Hereinafter, embodiments will be described in detail with reference to the drawings.
第1図は、入力として合成すべき文の文字記号列が与え
られたとき、この文中の文節間におけるポーズ挿入の可
否と、ポーズが挿入された場合、その長さを決定する方
法の一実施例を示すブロック構成図である。Figure 1 shows an implementation of a method for determining, when a character string of a sentence to be synthesized is given as input, whether a pause can be inserted between clauses in the sentence, and if a pause is inserted, its length. FIG. 2 is a block configuration diagram showing an example.
第1図において、1は入力端子で、合成すべき文を表わ
す文字記号列が入り、20入力記号読み取り装置で読み
込まれる。In FIG. 1, reference numeral 1 denotes an input terminal into which a string of characters and symbols representing a sentence to be synthesized is input, and is read by a 20-input symbol reading device.
3は単語解析器、4は単語辞書で、この単語解析器3で
は、単語辞書4を用いて入力記号列を単語系列に変換し
て出力する。3 is a word analyzer, and 4 is a word dictionary. The word analyzer 3 uses the word dictionary 4 to convert an input symbol string into a word sequence and outputs it.
5は文節解析器で、単語の系列を結合して文節単位の系
列に変換する。5 is a phrase analyzer that combines word sequences and converts them into a phrase-based sequence.
6は構文解析器で、文節解析器5の出力に基づいて構文
解析をおこない、もしくは係り受け構造の形で入力文を
出力する。A syntactic analyzer 6 performs syntactic analysis based on the output of the clause analyzer 5, or outputs the input sentence in the form of a dependency structure.
7から13までがポーズ挿入決定部で、後に詳しく説明
する。7 to 13 are pause insertion determining sections, which will be explained in detail later.
14は出力端子で、ポーズ記号とポーズ長を含む文系列
を出力する。14 is an output terminal which outputs a sentence sequence including pause symbols and pause lengths.
以下、ポーズの挿入方式について具体的に説明する。The pause insertion method will be specifically explained below.
文音声中のポーズの生起を規定する第1の要因は、着目
している文節間の前後の句の長さである。The first factor that determines the occurrence of pauses in sentence speech is the length of the phrases before and after the phrase of interest.
すなわち、長い音声を発声したあとでは息が切れるなど
の理由でポーズが生じ、長い句をこれから発声しようと
するときには、その準備のためにポーズが生じやすくな
ると考えられる。In other words, it is thought that after uttering a long speech, a pause occurs due to reasons such as being out of breath, and when a long phrase is about to be uttered, a pause is likely to occur in preparation.
そこで、文の構造上のつながりを一定に保ち、あるポー
ズ候補点に着目し、その前後の句の長さを種々に変えた
文を発声し、そのポーズを調べてみると、前後の句の長
さが増すとポーズの挿入確率も増すばかりでなく、ポー
ズ長と前後の句の長さとの関係が次式で近似できること
が明らかとなった。Therefore, by keeping the structural connections of the sentences constant and focusing on a certain pose candidate point, we uttered sentences with various lengths of phrases before and after that point, and when we examined the pauses, we found that It has become clear that not only does the probability of inserting a pause increase as the length increases, but also that the relationship between the pause length and the length of the preceding and following phrases can be approximated by the following equation.
但し、句の長さはモーラ数にて表現している。However, the length of a phrase is expressed by the number of moras.
(1)式は、そのポーズの前後の句の長さが長くなると
、それに伴ってポーズの長さが長くなることを意味して
いる。Equation (1) means that as the length of the phrases before and after the pause increases, the length of the pause increases accordingly.
また(1)式は、ポーズ挿入の可否に関する一つの評価
関数として用いることができる。Further, equation (1) can be used as one evaluation function regarding whether or not to insert a pause.
また、このポーズの生起を規定する第2の要因は、構文
上の位置である。The second factor that determines the occurrence of this pause is the syntactic position.
すなわち、2つの文※節間の結合関係の強い位置ではポ
ーズが入りにくく、逆に弱い位置ではポーズが入りやす
い。In other words, it is difficult to insert a pause in a position where the connection relationship between two sentence*clauses is strong, whereas it is easy to insert a pause in a position where the connection relationship is weak.
このような結合の程度は、着目しているポーズ候補点の
文構造を示すツリーの節の深さ、あるいは前後の文節の
格や修飾関係例えば係り受け構造を用いて定量化するこ
とができる。The degree of such a connection can be quantified using the depth of a node in a tree indicating the sentence structure of the pose candidate point of interest, or the case and modification relationships of preceding and following clauses, such as dependency structure.
ここでは最も簡単な方法として、構文ツリーの最下層レ
ベルすなわち文節レベルを第1レベルとし、着目してい
るポーズ候補点の節レベルをLi1最高レベルを”m
axとして、結合度に関連した量TLを次式で定義する
。Here, the simplest method is to set the lowest level of the syntax tree, that is, the clause level, as the first level, and set the clause level of the pose candidate point of interest to the highest level of Li1 as "m".
As ax, a quantity TL related to the degree of coupling is defined by the following equation.
TLO値が小さいほど構文上の結合は強いと考えること
ができる。It can be considered that the smaller the TLO value, the stronger the syntactic coupling.
第2図に構文ツリーの例を示す。FIG. 2 shows an example of a syntax tree.
また、この外、第3図に示すように、文の係り受け構造
に基づき、着目する文節から受けの文節に至る道のり(
文節数)によっても接続文節との結合度を表現すること
も可能である。In addition to this, as shown in Figure 3, based on the dependency structure of the sentence, the path from the target clause to the dependent clause (
It is also possible to express the degree of connection with connected clauses by the number of clauses.
ここでは以下の説明において、構文ツリーの節レベルを
用いた手法を例にとって説明する。In the following explanation, a method using the clause level of the syntax tree will be explained as an example.
次に、(1)式と(司式を用いて文音声のポーズを決定
する方法に関して述べる。Next, we will discuss a method for determining the pause of sentence speech using equation (1) and (Shiki).
文中のポーズ候補点は、その点の文節間の結合度を表現
するTLと、前後の句の長さに関連した次式で表わされ
るポーズ挿入確率評価関数Lで表現することができる。A pause candidate point in a sentence can be expressed by a TL expressing the degree of connection between clauses at that point, and a pause insertion probability evaluation function L expressed by the following equation related to the lengths of the preceding and following clauses.
関数Lは(1)式の第2項の積である。The function L is the product of the second term in equation (1).
第4図は、上記のTLとLをそれぞれ縦軸と横軸にとっ
た平面であり、あるポーズ候補点はこの平面の一点と対
応している。FIG. 4 is a plane in which the above-mentioned TL and L are taken on the vertical and horizontal axes, respectively, and a certain pose candidate point corresponds to one point on this plane.
種々の文を実際に発声して、ポーズ挿入の有無を調べて
みると、この平面はポーズの入る領域とポーズの入らな
い領域に分かれ、2つの領域を近似的に直線で分離する
ことができる。When we actually utter various sentences and check whether pauses are inserted, we find that this plane is divided into a region where pauses are inserted and a region where no pauses are inserted, and the two regions can be approximately separated by a straight line. .
第4図において、15はポーズの入る領域、16はポー
ズの入らない領域であり、17は2つの領域を分離する
直線を表わす。In FIG. 4, reference numeral 15 indicates a region where a pose is included, 16 is a region where a pose is not included, and 17 represents a straight line separating the two regions.
この直線は次式で表現される。This straight line is expressed by the following equation.
ここで、γ、θ・・・・・・定数
すなわち、文音声中のポーズの挿入は、候補点における
構文上の結合度と前後の句の長さとのかねあいで決まり
、このかねあいを決めているのが式(4)である。Here, γ, θ...constants, that is, the insertion of pauses in sentence speech, are determined by the balance between the degree of syntactic cohesion at the candidate point and the length of the preceding and following phrases. is equation (4).
以上の結果、ポーズ長Pを挿入する規則として次式が考
えられる。As a result of the above, the following equation can be considered as a rule for inserting the pause length P.
ポーズが挿入された場合のポーズ長は、 γLの定数倍で表現している。The pause length when a pause is inserted is It is expressed as a constant multiple of γL.
TL+ TL+γLと挿入ポーズ長の関係を第5図に示す。TL+ FIG. 5 shows the relationship between TL+γL and insertion pause length.
以上述べてきたポーズ挿入方式を第1図に基づいて説明
する。The pause insertion method described above will be explained based on FIG.
構文解析器6によって、入力文の構造が決定されること
はすでに述べたが、必要ならば、各文節の格の指定等も
なされる。It has already been mentioned that the structure of the input sentence is determined by the syntax analyzer 6, but if necessary, the case of each clause is also specified.
また、ポーズ候補点決定器7で各文節間のポーズ候補点
が選び出され、文節結合度計算回路8で各候補点の構文
上の結合度が計算される。Further, a pose candidate point determiner 7 selects pose candidate points between each clause, and a clause connectivity degree calculation circuit 8 calculates the syntactic connectivity of each candidate point.
ここでは、簡単に(2)式に基づいた除算回路で構成さ
れても良いが、係り受け距離や格関係を用いて更に詳細
な関数の値を計算するハードウエアから構成することも
可能である。Here, it may be simply configured with a division circuit based on equation (2), but it is also possible to configure it with hardware that calculates more detailed function values using dependency distances and case relations. .
次に文頭から数えて第1番目の候補点がとり出され、句
長測定回路9において候補点の前後の句の長さが決定さ
れ、関数L計算回路10によって(3)式Lが計算され
る。Next, the first candidate point counting from the beginning of the sentence is taken out, the phrase length measurement circuit 9 determines the length of phrases before and after the candidate point, and the function L calculation circuit 10 calculates equation (3) L. Ru.
この関数L計算回路10は加算器、乗算器、除算回路、
指数計算回路等によって構成される。This function L calculation circuit 10 includes an adder, a multiplier, a division circuit,
It consists of an index calculation circuit, etc.
ポーズ挿入判定器11は、加・乗算器と閾値判定回路か
ら成り、関数L計算回路10の出力と文節結合度計算回
路8の出力とを用いてポーズ挿入の可否を決定する。The pause insertion determiner 11 includes an adder/multiplier and a threshold value determination circuit, and uses the output of the function L calculation circuit 10 and the output of the phrase connectivity degree calculation circuit 8 to determine whether or not to insert a pause.
もしもポーズの挿入が決定されたならば、ポーズ長計算
回路12によってその長さが決められ、文末検出回路1
3を通って、出力端子14にポーズ記号とポーズ長を出
力する。If it is decided to insert a pause, its length is determined by the pause length calculation circuit 12, and the sentence end detection circuit 1
3, the pause symbol and pause length are output to the output terminal 14.
ポーズが挿入されない場合は、ポーズ長計算回路12を
とび越えて文末検出回路13に入る。If no pause is inserted, the pause length calculation circuit 12 is skipped and the sentence end detection circuit 13 is entered.
文末検出回路13で文末に達していないことが判定され
ると、ポーズ候補点をひとつ進めて再び句長測定回路9
に入る。When the end of sentence detection circuit 13 determines that the end of the sentence has not been reached, the pause candidate point is advanced by one and the phrase length measurement circuit 9 is activated again.
to go into.
以上の操作は、文全体のポーズがすべて決定されるまで
繰り返される。The above operations are repeated until all pauses for the entire sentence are determined.
この表は〔文例、山田太郎君はP1急いでP2あのP3
山へP4登りました。This table is [Example sentence, Taro Yamada is P1 Hurry P2 That P3
I climbed P4 to the mountain.
〕の文に対して、本発明のポーズ挿入方式を適用した例
と実測値とを比較して示したもので、P1、P2、P3
、P4はポーズ候補点を示し、また、定数C、θ、γは
、1例として、C=225、θ−1.3、γ−1.73
にした。This is a comparison of an example in which the pause insertion method of the present invention is applied to the sentence P1, P2, P3.
, P4 indicates a pose candidate point, and the constants C, θ, and γ are, for example, C=225, θ-1.3, and γ-1.73.
I made it.
以上説明したように、本発明は入力文の構文を解析し、
しかるのちに文音声のポーズ挿入候補点における文節間
の結合の強さと、その前後における句の長さとから、ポ
ーズ挿入の可否とその長さを決定する方法であるため、
文の記号系列のみが入力として与えられたとき、自然音
声におけると同じようなポーズを自動的に出力すること
ができるもので、本発明を用いれば、文音声の法則合成
において合成音声に自然な感じを付与することができる
など、本発明は非常に有用性のある文音声のポーズ挿入
方式を提供することができる。As explained above, the present invention analyzes the syntax of an input sentence,
However, this method determines whether or not to insert a pause and its length based on the strength of the connection between clauses at the candidate point for inserting a pause in the sentence audio and the length of the phrases before and after the clause.
When only the symbol sequence of a sentence is given as input, it is possible to automatically output pauses similar to those in natural speech, and by using the present invention, it is possible to automatically output pauses similar to those in natural speech. The present invention can provide a very useful sentence-speech pause insertion method that can add a sense of feeling.
第1図は本発明の一実施例のブロック図、第2図は構文
ツリーの文節結合度の例を示す図、第3図は係り受け構
造と係り受け距離の例を示す図、第4図は種々の文音声
中のポーズ有無の分布を示す図、第5図はポーズ長とパ
ラメータの関係の一例を示す図である。
1・・・・・・入力端子、2・・・・・・入力記号読み
とり装置、3・・・・・・単語解析器、4・・・・・・
単語辞書、5・・・・・・文節解析器、6・・・・・・
構文解析器、7・・・・・・ポーズ候補点決定器、8・
・・・・・文節結合度計算回路、9・・・・・・句長測
定回路、10・・・・・・関数L計算回路、11・・・
・・・ポーズ挿入判定器、12・・・・・・ポーズ長計
算回路、13・・・・・・文末検出回路、14・・・・
・・出力端子。FIG. 1 is a block diagram of an embodiment of the present invention, FIG. 2 is a diagram showing an example of clause connectivity in a syntax tree, FIG. 3 is a diagram showing an example of dependency structure and dependency distance, and FIG. 5 is a diagram showing the distribution of the presence or absence of pauses in various sentence sounds, and FIG. 5 is a diagram showing an example of the relationship between pause length and parameters. 1... Input terminal, 2... Input symbol reading device, 3... Word analyzer, 4...
Word dictionary, 5... Phrase analyzer, 6...
Syntax analyzer, 7... Pose candidate point determiner, 8.
...Phrase connectivity degree calculation circuit, 9...Phrase length measurement circuit, 10...Function L calculation circuit, 11...
... Pause insertion determiner, 12 ... Pause length calculation circuit, 13 ... Sentence end detection circuit, 14 ...
...Output terminal.
Claims (1)
号が与えられたとき、この文の構文を解析する手段と、
構文ツリーの構造から決まる文節相互の距離を示す関数
値を一方の軸とし、文節境界の前後の句の長さを変数と
するポーズ挿入確率評価関数値を他方の軸とする平面を
構成し、この平面を2分する直線でポーズ挿入部分と非
挿入部分を設定してポーズ挿入の可否を決定し、前記平
面を2分する直線からの隔りによってポーズ長を決定す
る手段とを有することを特徴とする文音声のポーズ挿入
方式。1. A means for analyzing the syntax of a sentence when the character symbols of a sentence are given as input in sentence phonetic synthesis;
A plane is constructed in which one axis is a function value indicating the distance between clauses determined from the structure of the syntax tree, and the other axis is a pause insertion probability evaluation function value whose variables are the lengths of clauses before and after the clause boundary, and means for determining whether or not to insert a pose by setting a pose insertion portion and a non-insertion portion on a straight line that bisects the plane, and determining a pose length based on the distance from the straight line that bisects the plane. Features a pause insertion method for sentence audio.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP49101654A JPS5847719B2 (en) | 1974-09-04 | 1974-09-04 | If you want to pose, please do so. |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP49101654A JPS5847719B2 (en) | 1974-09-04 | 1974-09-04 | If you want to pose, please do so. |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5128702A JPS5128702A (en) | 1976-03-11 |
| JPS5847719B2 true JPS5847719B2 (en) | 1983-10-24 |
Family
ID=14306358
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP49101654A Expired JPS5847719B2 (en) | 1974-09-04 | 1974-09-04 | If you want to pose, please do so. |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5847719B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6154230U (en) * | 1984-09-14 | 1986-04-11 |
-
1974
- 1974-09-04 JP JP49101654A patent/JPS5847719B2/en not_active Expired
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6154230U (en) * | 1984-09-14 | 1986-04-11 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5128702A (en) | 1976-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4354653B2 (en) | Pitch tracking method and apparatus | |
| JP2000505914A (en) | Method for applying a hidden Markov speech model in multiple languages in a speech recognizer | |
| KR20030035522A (en) | System for speech synthesis using a smoothing filter and method thereof | |
| CN110634479B (en) | Voice interaction system, processing method thereof, and program thereof | |
| CN109102800A (en) | A kind of method and apparatus that the determining lyrics show data | |
| CN112349274A (en) | Method, device and equipment for training rhythm prediction model and storage medium | |
| JP2003295880A (en) | Speech synthesis system that connects recorded speech and synthesized speech | |
| TWI467566B (en) | Polyglot speech synthesis method | |
| CN111312216A (en) | Voice marking method containing multiple speakers and computer readable storage medium | |
| CN112992183B (en) | Singing smell scoring method and device | |
| JP5007401B2 (en) | Pronunciation rating device and program | |
| JP5294700B2 (en) | Speech recognition and synthesis system, program and method | |
| JPS5847719B2 (en) | If you want to pose, please do so. | |
| CN107610691A (en) | English vowel sounding error correction method and device | |
| JP4778402B2 (en) | Pause time length calculation device, program thereof, and speech synthesizer | |
| JPH067357B2 (en) | Voice recognizer | |
| Maddela et al. | Durational and Formantshift characteristics of Telugu alveolar and bilabial nasal phonemes | |
| US20020016709A1 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
| JP3142160B2 (en) | Phonetic symbol generator | |
| JP2748445B2 (en) | Pause insertion position determination method | |
| JP3299170B2 (en) | Voice registration recognition device | |
| KR19990050440A (en) | Voice recognition method and voice recognition device using voiced, unvoiced and silent section information | |
| JP5066668B2 (en) | Speech recognition apparatus and program | |
| CN116013246A (en) | Rap music automatic generation method and system | |
| CN120412613A (en) | A voice processing method and device based on artificial intelligence |