Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPS5948399B2 - Speech synthesis method - Google Patents
[go: Go Back, main page]

JPS5948399B2 - Speech synthesis method - Google Patents

Speech synthesis method

Info

Publication number
JPS5948399B2
JPS5948399B2 JP53155350A JP15535078A JPS5948399B2 JP S5948399 B2 JPS5948399 B2 JP S5948399B2 JP 53155350 A JP53155350 A JP 53155350A JP 15535078 A JP15535078 A JP 15535078A JP S5948399 B2 JPS5948399 B2 JP S5948399B2
Authority
JP
Japan
Prior art keywords
waveform
zero
synthesis method
segment
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP53155350A
Other languages
Japanese (ja)
Other versions
JPS5581400A (en
Inventor
正宏 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP53155350A priority Critical patent/JPS5948399B2/en
Publication of JPS5581400A publication Critical patent/JPS5581400A/en
Publication of JPS5948399B2 publication Critical patent/JPS5948399B2/en
Expired legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【発明の詳細な説明】 本発明は、素片編集方式を用いた音声合成法に関し、合
成音の音韻的品質を損なう事なく、素片に必要とされる
データ数を削減することを目的とするものである。
[Detailed Description of the Invention] The present invention relates to a speech synthesis method using a segment editing method, and an object of the present invention is to reduce the number of data required for a segment without impairing the phonological quality of the synthesized sound. It is something to do.

従来の素片編集法においては、必要とされる音声素片を
複数ビット(通常6〜12ビット)で量子化し、これを
一定の合成法に従つて記録・再生していた。
In the conventional segment editing method, a required speech segment is quantized into multiple bits (usually 6 to 12 bits), and then recorded and reproduced according to a certain synthesis method.

所で一般に自然音声の摩擦子音は一定の特性のフィルタ
を通つた雑音と考えられるため、波形には周期性がなく
、これを母音部のピッチと同程度の区間長の素片の繰り
返しによつて合成しようとすると、同形状の波形の繰り
返しに起因する発振音が発生し、これが合成音の音質を
劣化ざせていた。上記発振音を抑制するには十分長い(
30msec程度以上の長さ)素片を用いることが考え
られるが、その為には大量のデジタルデータを必要とし
、そのためのコストアップや装置体質の増加が欠点とな
つていた。本発明は摩擦子音合成に於ける上記問題点を
除去するものである。まず、本発明の音声合成方式によ
つて合成された音声波形例を示す。第1図Aは「ハチ(
8)」と発音した場合の男声の自然音声波形である。
However, since fricative consonants in natural speech are generally considered to be noise that has passed through a filter with certain characteristics, their waveforms do not have periodicity. When attempting to synthesize the same waveforms, oscillations were generated due to the repetition of the same waveform, which degraded the sound quality of the synthesized sound. Long enough to suppress the above oscillation noise (
It is conceivable to use an elemental piece (length of about 30 msec or more), but this requires a large amount of digital data, which has the drawback of increasing costs and equipment structure. The present invention eliminates the above problems in fricative consonant synthesis. First, an example of a speech waveform synthesized by the speech synthesis method of the present invention will be shown. Figure 1A is “Hachi (
This is a natural speech waveform of a male voice when pronouncing "8)".

図中1及び2で示した波形部分はそれぞれれ及び〔tf
〕に対応している。同図Bはこの自然波形の素片合成法
による合成波形である。図中3及び4で示した部分は、
上図の1及び2で示す子音波形部から一部を抜き取り、
これをそれぞれ2回繰り返して接続したものである。一
方同図Cは上記B図中の3及び4の子音波形を零交叉波
形に変換し、それぞれ波形5及び6として該当部分に適
用したものである。ここで零交叉波とは振幅の絶対値が
常に一定で、±oを境にして土下振動する波形のことで
、謂わば波形の位相情報のみが残り振幅情報が欠落した
波形のことである。第1図Dは子音〔tf〕の自然波形
の一部と、これの零交叉波形の拡大図である。次に本発
明の一実施例を第2図とともに説明する。
The waveform portions indicated by 1 and 2 in the figure are respectively and [tf
]. Figure B shows a synthesized waveform obtained by the elemental piece synthesis method of this natural waveform. The parts indicated by 3 and 4 in the figure are
Extract a part from the child waveform part shown in 1 and 2 in the above figure,
This process was repeated twice and connected. On the other hand, in Figure C, the child waveforms 3 and 4 in Figure B are converted into zero-crossing waveforms and applied to the corresponding portions as waveforms 5 and 6, respectively. Here, a zero-crossing wave is a waveform in which the absolute value of the amplitude is always constant and vibrates underground with ±o as the boundary, so to speak, it is a waveform in which only the phase information of the waveform remains and the amplitude information is missing. . FIG. 1D is an enlarged view of a part of the natural waveform of the consonant [tf] and its zero-crossing waveform. Next, one embodiment of the present invention will be described with reference to FIG.

第2図において、1は外部から与えられたビットパター
ンの変換テーブル、2は単語構成のための素群スタート
アドレス読み出し用テーブル、3は素群テーブル、4は
零交叉波用1ビット出力あるいは通常の複数ビット出力
の切換え用ビットデータ、5は零交叉波用素片ファイル
、6は通常の複数ビットデータ素片ファイル、TはD−
A変換器、8は出力レベルコントロール用データ、9は
出力レベルコントロール用アツテネータである。第2図
は零交叉波と通常の素片波形とを適宜選択して出力する
ためのブロック図である。第2図において、5は零交叉
波の波形形状のメモリで、例えば正極信号に対しては1
、負極信号に対してはφが、書き込まれている。書き込
みの順序は、例えば1ワード当り8ビットのメモリを使
用する場合には、1ワード毎にLSBから始まつてMS
Bで終わるようにすればよい。摩擦子音の場合は一般に
素片長が音声ピツチに無関係に選べるので、各素片のデ
ータはあるメモリワードのL引切ゝら始まり別のメモリ
ワードのMSBで終わるように選べば、読み出しの際便
利である。6は摩擦子音以外の素片形状のメモリで、1
サンプル点当り1ワードの全ビツトを用いて素片形状を
表現している。
In Figure 2, 1 is a conversion table for bit patterns given externally, 2 is a table for reading prime group start addresses for word construction, 3 is a prime group table, and 4 is a 1-bit output for zero-crossing wave or normal 5 is the zero-crossing wave segment file, 6 is the normal multi-bit data segment file, T is D-
A converter, 8 is data for output level control, and 9 is an attenuator for output level control. FIG. 2 is a block diagram for appropriately selecting and outputting a zero-crossing wave and a normal elemental waveform. In Fig. 2, 5 is a memory for the waveform shape of a zero-crossing wave, for example, 1 for a positive signal.
, φ is written for the negative signal. For example, when using a memory with 8 bits per word, the writing order starts from the LSB and MSB for each word.
It should end in B. In the case of fricative consonants, the segment length can generally be selected regardless of the phonetic pitch, so it is convenient when reading out data for each segment, starting from the L-cut of one memory word and ending with the MSB of another memory word. It is. 6 is a memory of elemental shapes other than fricative consonants, 1
The shape of a segment is expressed using all bits of one word per sample point.

上記5及びeは素片の形状に関するメモリであるため、
以後素片フアイルと呼ぶ。3は上記素片フアイルを読み
出すためのスタートアドレス、ストツプアドレス、素片
繰り返し回数の他、さらに下記の4及び8のデータが書
かれたメモリで、同一素片の何回かの繰り返しからなる
波形(素群と呼ぶ)を規定をするものであり、素群テー
ブルと呼ぶ。
Since the above 5 and e are memories regarding the shape of the elemental piece,
Hereafter, it will be called a segment file. 3 is a memory in which, in addition to the start address, stop address, and number of repetitions of the fragments for reading the fragment file mentioned above, the following data 4 and 8 are written, which consists of several repetitions of the same fragment. It defines waveforms (called prime groups) and is called a prime group table.

4はこの素群テーブル中のデータで、指定する素片が摩
擦子音であるかどうかをlビツトで示している。
4 is data in this prime group table, which indicates whether or not the specified elementary piece is a fricative consonant using l bits.

又、同図中7はD−A変換器、9はデジタルにコントロ
ール可能なアツテネータであり、素群テーブル中のデー
タ8は素片の再生レベルを示しており、9のアツテナー
タをコントロールしている。ある単語を合成するには先
に述べた素群を複数個接続して出力することが必要であ
るが、メモリ2には種々の素群テーブルのスタートアド
レスが連続して書き込まれており、このメモリ2を順に
読み出していけば、目的とする単語音声の合成に必要な
素群が次々に出力できるようになつている。メモリ1は
外部から与えられたビツトパターンを2のメモリのスタ
ートアドレスに変換するためのメモリである。一方音声
合成に必要なプログラムを第3図に示す。
Also, in the figure, 7 is a D-A converter, 9 is an attenuator that can be controlled digitally, and data 8 in the elementary group table indicates the reproduction level of the elementary piece, which controls the attenuator 9. . To synthesize a certain word, it is necessary to connect and output multiple prime groups mentioned above, but the start addresses of various prime group tables are written in succession in memory 2, and this By sequentially reading out the memory 2, the prime groups necessary for synthesizing the target word speech can be output one after another. Memory 1 is a memory for converting an externally applied bit pattern into a start address of memory 2. On the other hand, the program necessary for speech synthesis is shown in FIG.

10のステツプにおいて、先に述べた素群テーブル中の
データ4が参照され、プログラムのブランチ方向が指定
される。
In step 10, data 4 in the prime group table mentioned above is referenced to specify the branch direction of the program.

出力素片が摩擦子音の場合には、素片フアイル中の1ワ
ードを読み取り、これをLSBから1ビツトづつ出力し
、lワード中の全てのビツトが出力し終われば次のワー
ドをアドレスするようになつている。一方、出力素片が
摩擦子音でない場合には、1ワード全体を出力すればよ
い。以上、第2図の機能プロツクを第3図のプログラム
で動作させることにより、摩擦子音の場合には零交叉波
を、摩擦子音以外の場合には通常の素片データを出力し
て素片編集法による合成音声信号を得ることができるも
のである。
When the output segment is a fricative consonant, read one word in the segment file and output it one bit at a time starting from the LSB, and when all bits in the l word have been output, address the next word. It's getting old. On the other hand, if the output segment is not a fricative consonant, it is sufficient to output one entire word. As described above, by operating the function block in Figure 2 with the program in Figure 3, you can output zero-crossing waves for fricative consonants and normal segment data for non-fricative consonants to edit the segments. It is possible to obtain a synthesized speech signal using the method.

本発明の音声合成方式は上記のような構成であり、母音
部の素片等に比較して、より長い素片長を必要とする摩
擦子音用の素片に対して零交叉波を適用するためデータ
の縮少化が可能であり、一方上記摩擦子音部以外には通
常の複数ビツトワードのデータを用いるため、音韻性の
欠損が少ない合成音声を得ることができる利点を有する
ものである。
The speech synthesis method of the present invention has the above-mentioned configuration, and the zero-crossing wave is applied to the fragments for fricative consonants, which require a longer fragment length compared to the fragments for vowels, etc. It is possible to reduce the data, and on the other hand, since normal multi-bit word data is used for the parts other than the fricative consonant part, it has the advantage that synthesized speech with less phonological defects can be obtained.

【図面の簡単な説明】[Brief explanation of drawings]

第1図Aは自然音声波形図、第1図Bは合成音声波形図
、第1図Cは摩擦子音部に零交叉波を用いた合成音声波
形図、第1図Dは摩擦子音部(Tf)の自然音声波形図
およびその零交叉波形図、第2図は本発明の音声合成方
式を実施する装置のプロツク図、第3図は同装置のプロ
グラムフロチヤート図である。 1 ・・・・・・変換テーブル、2・・・・・・素群ス
タートアドレス読み出し用テーブル、3・・・・・・素
群テーブル、4・・・・・・切換え用ビツトデータ、5
・・・・・・零交叉波用素片フアイル、6・・・・・・
複数ビツトデータ素片フアィル、T・・・・・・D −
A変換器、8・・・・・・出力レベルコントロール用
データ、9・・・・・・アツテネータ。
Figure 1A is a natural speech waveform diagram, Figure 1B is a synthetic speech waveform diagram, Figure 1C is a synthetic speech waveform diagram using zero-crossing waves in the fricative consonant part, and Figure 1D is a diagram of the fricative consonant part (Tf ) and its zero-crossing waveform diagram, FIG. 2 is a block diagram of an apparatus implementing the speech synthesis method of the present invention, and FIG. 3 is a program flowchart diagram of the same apparatus. 1... Conversion table, 2... Table for reading prime group start address, 3... Prime group table, 4... Bit data for switching, 5
・・・・・・Element file for zero crossing wave, 6・・・・・・
Multiple bit data segment file, T...D-
A converter, 8...Output level control data, 9...Attenuator.

Claims (1)

【特許請求の範囲】[Claims] 1 摩擦子音又はこれに類する雑音波形の素片に対して
は、該当する摩擦子音又はこれに類する雑音波形の零交
又波を用い、一方上記摩擦子音又はこれに類する雑音波
形以外の素片に対しては、複数ビットで量子化されたデ
ジタルデータ素片を用いることを特徴とする音声合成方
式。
1. For fragments of fricative consonants or similar noise waveforms, use the zero-cross or wave of the corresponding fricative consonants or similar noise waveforms, while for fragments other than the above fricative consonants or similar noise waveforms. On the other hand, there is a speech synthesis method characterized by using digital data segments quantized with multiple bits.
JP53155350A 1978-12-15 1978-12-15 Speech synthesis method Expired JPS5948399B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP53155350A JPS5948399B2 (en) 1978-12-15 1978-12-15 Speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP53155350A JPS5948399B2 (en) 1978-12-15 1978-12-15 Speech synthesis method

Publications (2)

Publication Number Publication Date
JPS5581400A JPS5581400A (en) 1980-06-19
JPS5948399B2 true JPS5948399B2 (en) 1984-11-26

Family

ID=15603964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53155350A Expired JPS5948399B2 (en) 1978-12-15 1978-12-15 Speech synthesis method

Country Status (1)

Country Link
JP (1) JPS5948399B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02177927A (en) * 1988-12-28 1990-07-11 Sanyo Electric Co Ltd Vacuum cleaner
WO2018088490A1 (en) 2016-11-10 2018-05-17 日本電信電話株式会社 Information storage device, information storage method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH067342B2 (en) * 1984-03-23 1994-01-26 株式会社東芝 Speech synthesis method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02177927A (en) * 1988-12-28 1990-07-11 Sanyo Electric Co Ltd Vacuum cleaner
WO2018088490A1 (en) 2016-11-10 2018-05-17 日本電信電話株式会社 Information storage device, information storage method, and program

Also Published As

Publication number Publication date
JPS5581400A (en) 1980-06-19

Similar Documents

Publication Publication Date Title
JPS5948399B2 (en) Speech synthesis method
JP3617603B2 (en) Audio information encoding method and generation method thereof
JPS5975294A (en) musical tone synthesizer
JPH0642158B2 (en) Speech synthesizer
JPS6295595A (en) Voice response method
JPS58178395A (en) Time axis extension for voice signal
JPS5880699A (en) Voice synthesizing system
JP3083829B2 (en) Voice pitch conversion method and apparatus
JPS58196594A (en) Musical tone synthesizer
JPH0355840B2 (en)
JPH0355839B2 (en)
JPH0378639B2 (en)
JPS58196598A (en) Rule type voice synthesizer
JPS5968793A (en) Voice synthesizer
JPH0431120B2 (en)
JPS5948398B2 (en) Speech synthesis method
JP3351543B2 (en) Signal processing method
JPS5951000B2 (en) speech synthesizer
JPS59177597A (en) musical tone synthesizer
JPH0145919B2 (en)
JPS59124386A (en) Musical interval varying apparatus
JPH03144498A (en) Sound source signal generation device
JPS63210900A (en) speech synthesizer
JPH0374400B2 (en)
JPS62150398A (en) Voice rule synthesizer