Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH0644199B2 - Variable-length frame speech analysis / synthesis method - Google Patents
[go: Go Back, main page]

JPH0644199B2 - Variable-length frame speech analysis / synthesis method - Google Patents

Variable-length frame speech analysis / synthesis method

Info

Publication number
JPH0644199B2
JPH0644199B2 JP59159846A JP15984684A JPH0644199B2 JP H0644199 B2 JPH0644199 B2 JP H0644199B2 JP 59159846 A JP59159846 A JP 59159846A JP 15984684 A JP15984684 A JP 15984684A JP H0644199 B2 JPH0644199 B2 JP H0644199B2
Authority
JP
Japan
Prior art keywords
representative
section
frame
approximation
parameter vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59159846A
Other languages
Japanese (ja)
Other versions
JPS6136800A (en
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP59159846A priority Critical patent/JPH0644199B2/en
Publication of JPS6136800A publication Critical patent/JPS6136800A/en
Publication of JPH0644199B2 publication Critical patent/JPH0644199B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (技術分野) 本発明は可変長フレーム音声分析合成方式、とくに、例
えば10秒程度の比較的長い音声信号を全体として最適
な可変長フレーム処理を行なうようにした可変長フレー
ム音声分析合成方式に関するものである。
Description: TECHNICAL FIELD The present invention relates to a variable length frame voice analysis / synthesis method, and more particularly, to a variable length voice signal for relatively long voice signals of about 10 seconds, which is optimum for variable length frame processing as a whole. The present invention relates to a frame voice analysis / synthesis method.

(従来技術) 例えば10秒程度を単位とする音声信号の分析合成に
は、ボイスメール,パブリックアドレス等の種種の利用
分野が考えられる。このような音声信号の分析合成に可
変長フレーム処理を適用して情報量の圧縮等を図る場合
は、一般に、下記のように行なわれる。
(Prior Art) For analyzing and synthesizing a voice signal in units of, for example, about 10 seconds, various fields of application such as voice mail, public address, etc. can be considered. When the variable length frame processing is applied to the analysis and synthesis of such a voice signal to achieve the compression of the amount of information or the like, it is generally performed as follows.

すなわち、例えば10秒の区間を50等分して、200
mSEC程度の区分を作り、この各区分ごとに独立に可変
長フレーム処理を行なうという方式が用いられる。
That is, for example, a section of 10 seconds is divided into 50 equal parts and 200
A method is used in which sections of about mSEC are created and variable-length frame processing is performed independently for each section.

しかしながらこの方式によると、200mSECの各区分
ごとには最適の可変長フレーム処理を行なうことができ
るが、10秒を全体として見た場合には必らずしもまだ
最適化が達成されていないという欠点を有している。
However, according to this method, optimal variable-length frame processing can be performed for each section of 200 mSEC, but if 10 seconds is viewed as a whole, optimization is not necessarily achieved yet. It has drawbacks.

一方、はじめから10秒全体を一単位として、ダイナミ
ックプログラミング(DP)を用いた可変長フレーム処
理により最適化を行うことも理論的には可能であるが、
こうするとDPを行なうための演算量が莫大なものとな
り、また分析合成装置では遅延が大となり、伝送路エラ
ーに対して復元性に欠ける等の問題が生じ現実的でな
い。
On the other hand, it is theoretically possible to perform optimization by variable length frame processing using dynamic programming (DP) with the entire 10 seconds as a unit.
In this case, the amount of calculation for performing DP becomes enormous, and the analysis and synthesis apparatus has a large delay, which causes a problem such as lack of resilience against a transmission line error, which is not realistic.

(発明の目的) 本発明の目的は、10秒程度の比較的長い単位の音声信
号を全体として可変長フレーム処理による最適化を行な
い情報量のより効率的な圧縮を可能にする現実的な可変
長フレーム音声分析合成方式を提供するにある。
(Object of the Invention) It is an object of the present invention to optimize a voice signal in a relatively long unit of about 10 seconds by variable length frame processing as a whole and realize a realistic variable that enables more efficient compression of information amount. It is to provide a long frame speech analysis and synthesis method.

(発明の構成) 本発明の方式は、予め定めた一定の分析周期ごとに周期
的に入力音声信号を分析して特徴パラメータベクトルを
抽出する音声分析手段と、予め定めた複数個の相連続す
る前記分析周期からなる各区分ごとに各区分中の前記特
徴パラメータベクトルから任意の数の代表パラメータベ
クトルを選出して各区分を区分的最適関数近似を行なっ
た場合に得られる各区分ごとの前記代表パラメータベク
トルの構成とこの場合の各区分ごとの最適近似による残
留歪とを演算する区分的最適関数近似手段と、予め定め
た複数個の相連続する前記区分からなる大区間において
前記区分的最適関数近似手段により演算された各区分ご
との前記残留歪を比較して残留歪の最も大きい区分の前
記代表パラメータベクトルの構成をより多くの前記代表
パラメータベクトルを含む前記代表パラメータベクトル
の構成に置換えるという処理ステップを繰返すことによ
り前記大区間を最適近似する予め定めた数のすべての代
表パラメータベクトルを選出するようにした相互最適フ
レーム選択手段とを有する。
(Structure of the Invention) According to the method of the present invention, a voice analysis unit that periodically analyzes an input voice signal at a predetermined fixed analysis period to extract a feature parameter vector, and a plurality of predetermined continuous phases. The representative for each section obtained by selecting an arbitrary number of representative parameter vectors from the characteristic parameter vectors in each section for each section consisting of the analysis cycle and performing each piecewise optimal function approximation A piecewise optimal function approximating means for calculating the configuration of the parameter vector and the residual strain due to the optimal approximation in each case in this case, and the piecewise optimal function in a large section consisting of a plurality of predetermined consecutive sections By comparing the residual strains calculated by the approximating means for each of the sections, the configuration of the representative parameter vector of the section having the largest residual strain can be determined by using more representative patterns. Mutual optimum frame selecting means for selecting a predetermined number of all the representative parameter vectors that optimally approximates the large section by repeating the processing step of replacing with the configuration of the representative parameter vector including the parameter vector. Have.

(実施例) 次に図面を参照して本発明を詳細に説明する。第1図は
本発明の一実施例を示すブロック図である。
(Example) Next, this invention is demonstrated in detail with reference to drawings. FIG. 1 is a block diagram showing an embodiment of the present invention.

本実施例は音声分析側1と音声合成側2とよりなる。The present embodiment comprises a voice analysis side 1 and a voice synthesis side 2.

分析側1はさらに、低域波器およびA/D変換器(L
PF&A/D)101、窓関数処理器102、LSP分
析器103、区分的最適関数近似器104、総合最適フ
レーム選択器105、量子化器106、音源情報分析器
107、コーダ108、およびメモリ109を含み、ま
た、合成側2は、メモリ201、デコーダ202、パル
ス発振器203、雑音発生器204、V/UV切替器2
05、電力制御器206、LSP合成フィルタ207、
D/A変換器および低域波器’(D/A&LPF)2
08、および補間器209を含んでいる。
The analysis side 1 is further provided with a low pass filter and an A / D converter (L
PF & A / D) 101, window function processor 102, LSP analyzer 103, piecewise optimal function approximator 104, total optimal frame selector 105, quantizer 106, source information analyzer 107, coder 108, and memory 109. In addition, the synthesis side 2 includes a memory 201, a decoder 202, a pulse oscillator 203, a noise generator 204, and a V / UV switch 2
05, power controller 206, LSP synthesis filter 207,
D / A converter and low-pass filter '(D / A & LPF) 2
08 and an interpolator 209 are included.

本実施例の動作は下記の通りである。The operation of this embodiment is as follows.

ライン1000から入力した音声信号は、低域波器および
A/D変換器(LPF&A/D)101において、周波数帯
域が例えば3.4kHzに制限された後、8kHzのサンプリ
ング周波数でサンプルされ、量子化されてディジタルデ
ータに変換され、こうして得られたデータは窓関数処理
器102に供給される。
The audio signal input from the line 1000 is sampled at a sampling frequency of 8 kHz and quantized in the low pass filter and the A / D converter (LPF & A / D) 101 after the frequency band is limited to, for example, 3.4 kHz. Data is converted into digital data, and the data thus obtained is supplied to the window function processor 102.

窓関数処理器102は供給されたデータの1ブロック分
(例えば240サンプル)を一時的に記憶し、これに予
め定まっている窓関数による荷重乗算を施こし、この処
理結果のデータをLSP分析器103および音源情報分
析器107に供給する。窓関数処理器102によるこの
ような処理は例えば10mSECごとの周期で繰返され
る。従って、LSP分析器103および音源情報分析器
107は10mSECの周期で1ブロック分の窓関数処
理されたデータの供給を受ける。
The window function processor 102 temporarily stores one block (for example, 240 samples) of the supplied data, applies weight multiplication by a predetermined window function to this, and outputs the data of the processing result to the LSP analyzer. 103 and the sound source information analyzer 107. Such processing by the window function processor 102 is repeated, for example, in a cycle of every 10 mSEC. Therefore, the LSP analyzer 103 and the sound source information analyzer 107 are supplied with the data subjected to the window function processing for one block at a cycle of 10 mSEC.

さてLSP分析器103は供給された1ブロック分のデ
ータを用いて公知の手法によるLSP(線スペクトル
対)分析を行ない、LSPパラメータベクトルを決定す
る。このLSPパラメータベクトルは、S(偶数)個の
成分をもつS次元のベクトル =(P,P,…,P) で、この各成分P〜Pは、この1ブロック分の音声
を発声するときの声道の形態に関する情報を共振周波数
の組の形で抽出したデータである。上述のように、この
ようなLSPパラメータベクトルの生成は10mSEC
の基本分析周期ごとに行なわれ、かくして得られたベク
トルの各成分は、次の区分的最適関数近似器104に
各基本分析周期の10mSEC(以後これを基本フレーム
と呼ぶ)ごとに供給される。
The LSP analyzer 103 performs LSP (line spectrum pair) analysis by a known method using the supplied data for one block, and determines the LSP parameter vector. This LSP parameter vector is an S-dimensional vector having S (even number) components = (P 1 , P 2 , ..., P s ), and each of these components P 1 to P s is a speech for one block. It is data obtained by extracting the information on the form of the vocal tract when uttering a voice in the form of a set of resonance frequencies. As mentioned above, the generation of such an LSP parameter vector is 10 mSEC.
Each of the components of the vector thus obtained is supplied to the next piecewise optimal function approximator 104 every 10 mSEC of each basic analysis period (hereinafter referred to as a basic frame).

さて、区分的最適関数近似器104は、こうしてつぎつ
ぎに連続して供給されるパラメータベクトルのK個ずつ
を一つにまとめて取扱う。
Now, the piecewise optimum function approximator 104 collectively handles K parameter vectors which are successively supplied one after another.

すなわち、各基本フレームはそれぞれこの基本フレーム
に属するパラメータベクトルによって代表されている
が、この相連続するKの個の基本フレームを一つにまと
めて、これを一区分とし、この各区分ごとに、以下に示
すような区分的最適関数近似の処理を行なう。ここでは
この区分的最適関数近似に用いる関数として矩形近似を
行なう場合について説明する。また1区分中の基本フレ
ーム数を20個(つまりK=20)、したがって1区分
の時間長を200mSECと仮定する。
That is, each basic frame is represented by a parameter vector belonging to this basic frame, respectively, but this continuous K basic frames are combined into one, and this is divided into one section. The following piecewise optimal function approximation processing is performed. Here, a case where a rectangle approximation is performed as a function used for this piecewise optimal function approximation will be described. It is also assumed that the number of basic frames in one section is 20 (that is, K = 20), and thus the time length of one section is 200 mSEC.

さて、区分的最適関数近似器104による処理は以下の
ようなものである。
The processing by the piecewise optimum function approximator 104 is as follows.

すなわち、1区分中の20個の基本フレームの中からi
個(i=1,2,…,20)の代表フレームを選び、こ
の代表フレームに属するパラメータベクトルを用いて、
この区分中の他の基本フレームに属するパラメータベク
トルをも代表(近似)させ、これによって矩形近似を行
なう。こうして、この近似による歪が最小になるよう
に、前述のi個の代表フレーム(代表ベクトル)を選出
する。またこのときのi個の代表フレームで近似したと
きに達し得られる歪の最小値Eも同時に求める。
That is, i is selected from the 20 basic frames in one section.
(I = 1, 2, ..., 20) representative frames are selected, and using the parameter vector belonging to this representative frame,
Parameter vectors belonging to other basic frames in this section are also represented (approximated), and thereby a rectangle is approximated. In this way, the above-mentioned i representative frames (representative vectors) are selected so that the distortion due to this approximation is minimized. At the same time, the minimum value E i of the distortion that can be achieved by approximation with i representative frames at this time is also obtained.

なお、この場合の矩形近似による歪は以下のようにして
演算される。
The distortion due to the rectangular approximation in this case is calculated as follows.

例えば今、i=2として、2個の代表フレームのパラメ
ータベクトルを用いて矩形近似を行なう場合について説
明すると、第1の代表フレームとして第4番目の基本フ
レームが選択され、この代表フレームに属するパラメー
タベクトル(4)を第1の代表バクトルとして第1番目
の基本フレームから第9番目の基本フレームまでの9個
の区間を近似し、次に第2の代表フレームとして、第1
3番目の基本フレームが選択され、この代表フレームに
属するパラメータベクトル(13)を第2の代表ベクトル
として残りの第10番目の基本フレームから第20番目
の基本フレームまでの11個の区間を近似した場合にお
ける矩形近似による歪は以下に示すようにして求められ
る。
For example, supposing that i = 2 and performing the rectangle approximation using the parameter vectors of the two representative frames, the fourth basic frame is selected as the first representative frame, and the parameters belonging to this representative frame are selected. The vector (4) is used as the first representative vector to approximate the nine sections from the first basic frame to the ninth basic frame, and then as the second representative frame, the first representative frame is used.
The third basic frame was selected, and the 11th section from the remaining 10th basic frame to the 20th basic frame was approximated using the parameter vector (13) belonging to this typical frame as the second typical vector. The distortion due to the rectangular approximation in this case is obtained as follows.

但しW(l=1,2,…S)は、パラメータベクトル
の各成分のスペクトル位置における差によって歪に与え
る影響が異なってくるのを補正するための予め定めた荷
重係数である。
However, W l (l = 1, 2, ... S) is a predetermined weighting factor for correcting that the influence on the distortion is different due to the difference in the spectral position of each component of the parameter vector.

例えばi=2と与えた場合の最適矩形近似とは、このよ
うにして求められる歪が最小になるような、2個の代表
ベクトルを含む代表パラメータベクトルの構成を決定す
ること、つまり2個の代表フレームと、各代表フレーム
に属するパラメータベクトルが代表すべき2個の基本フ
レーム区間とを決定することである。これとともにこの
決定された代表パラメータベクトルの構成により達し得
られた残留歪の値をもデータとして求めておく。
For example, the optimal rectangle approximation when i = 2 is given is to determine the configuration of the representative parameter vector including the two representative vectors so that the distortion obtained in this way is minimized, that is, This is to determine a representative frame and two basic frame sections that the parameter vector belonging to each representative frame should represent. At the same time, the value of the residual strain reached and obtained by the configuration of the determined representative parameter vector is also obtained as data.

以上に述べた演算はダイナミックプログラミング(D
P)を用いて容易に行なうことができる。
The operations described above are dynamic programming (D
P) can be easily used.

今、区分の最初からa個の基本フレームでできる区間
を、最後の基本フレーム(第a番目の基本フレーム)を
含むb個の代表フレームで近似した場合に達し得られる
最小の歪(残留歪)をG(b,a)と定義すると、b=
1、つまり代表ベクトルの数が1個の場合には、代表パ
ラメータベクトルの構成は(a)が第1番目から第a番
目までの基本フレームの区間を代表するので残留歪G
(1,a)は、 となり、a=1〜20に対して一義的に定まる。
Now, the minimum distortion (residual distortion) that can be reached when the section formed by a basic frames from the beginning of the partition is approximated by b representative frames including the final basic frame (a-th basic frame) Is defined as G (b, a), b =
1, that is, when the number of representative vectors is 1, the configuration of the representative parameter vector (a) represents the section of the basic frame from the first to the a-th, and therefore the residual distortion G
(1, a) is Therefore, it is uniquely determined for a = 1 to 20.

但しdk,aは第k番目の基本フレームのパラメータベ
クトルを第a番目の基本フレーム(代表フレーム)のパ
ラメータベクトル(代表ベクトル)で代表した場合の歪
である。
However, d k, a is distortion when the parameter vector of the k-th basic frame is represented by the parameter vector (representative vector) of the a-th basic frame (representative frame).

次に、第x番目の基本フレームから第y番目の基本フレ
ームの区間(但しy>xとする)を両端を代表フレーム
として近似する場合(つまりこの区間を代表ベクトルP
(x)(y)を用いて近似する場合)に達し得られる最小
の歪をDx,yで表わすDx,yで容易に求めることができる。このDx,yは、代表ベ
クトル(x)の代表する区間を最初は第X番目の基本フ
レームだけ、次には第X番目と第X+1番目の基本フレ
ームの区間、さらにつぎには第X番目、第X+1番目お
よび第X+2番の基本フレームの区間というように次次
に増してゆき、残りの区間を(y)で代表させた場合の
歪をそれぞれ求めてその中の最小の歪を選出したもので
ある。
Next, when approximating a section from the x-th basic frame to the y-th basic frame (provided that y> x) as representative frames (that is, this section is represented by a representative vector P
minimum distortion of the D x obtained reached when) approximated by using (x) and a (y), D represented by y x, y is Can be easily obtained at. This D x, y is the section represented by the representative vector (x) , which is initially the Xth basic frame, the Xth and X + 1th basic frames, and then the Xth basic frame. , The X + 1th and X + 2th basic frame sections, and so on. The distortions when the remaining section is represented by (y) are obtained, and the minimum distortion among them is selected. It is a thing.

さて以上に求めたG(1,a)とDx,yとを用いて、
代表フレーム数を2個とした場合のG(2,a)を下記
のようにして容易に求めることができる。
Now, using G (1, a) and D x, y obtained above,
G (2, a) when the number of representative frames is 2 can be easily obtained as follows.

すなわち、第1の代表フレームとして、第a−1番目の
基本フレームを選んだ場合(勿論第2の代表フレームは
第a番目の基本フレームである)の歪は明らかに上式右
辺の第1番目に示すG(1,a−1)である。
That is, the distortion when the (a-1) th basic frame is selected as the first representative frame (of course, the second representative frame is the ath basic frame) is obviously the first distortion on the right side of the above equation. G (1, a-1) shown in FIG.

次に第1の代表フレームを一つだけ前に進めて第a−2
番目に選んだ場合には達し得られる歪の最小値は、上式
右辺の第2番目に示すG(1,a−2)+Da−2,a
となる。すなわち、G(1,a−2)は第1番目から第
a−2番目までの区間を第a−2番目の基本フレームに
よる代表フレーム(代表ベクトル(a−2)で代表し
た場合の歪を表わしDa−2,aは第a−2番目から第
a番目までの区間をその両端の第a−2番目と第a番目
の基本フレームによる代表フレーム(代表ベクトルP
(a−2)(a)で代表した場合に達し得られる最
小の歪を表わしていてこの場合の最小の歪は両者の和に
なることは明らかである(第a−2番目の基本フレーム
の歪は0になるのでG(1,a−2)とDa−2との代
表する区間はこの基本フレームでダブッてもよい。) 同様にして第1の代表フレームを一つずつ前に進め、こ
のときに達し得られる最小歪を次次に求める。
Next, the first representative frame is moved forward by one, and the a-2
Minimum value of the resulting strain reached if chosen th, G shown in the second upper right side of equation (1, a-2) + D a-2, a
Becomes That is, G (1, a-2) represents the distortion when the section from the 1st to the a-2nd section is represented by the representative frame (representative vector (a-2)) of the a-2nd basic frame. The symbol D a−2, a represents the section from the a−2nd section to the ath section, which is a representative frame (representative vector P based on the a−2nd and ath basic frames at both ends thereof).
It represents the minimum distortion that can be reached in the case represented by (a-2) and (a) , and it is clear that the minimum distortion in this case is the sum of both (a-2nd basic frame). Since the distortion of 0 becomes 0, the section representative of G (1, a-2) and D a-2 may be doubled with this basic frame.) Similarly, the first representative frame is forwarded one by one. The next step is to find the minimum distortion that can be reached at this time.

第1の代表フレームを最も前に進めて、第1番目の基本
フレームに選んだ場合には、達し得られる最小歪として
上式右辺の最も下に示すG(1,1)+D1,aになる
ことは明らかである。勿論G(1,1)=0である。
When the first representative frame is advanced to the front and selected as the first basic frame, the minimum distortion that can be reached is G (1,1) + D 1, a shown at the bottom of the right side of the above equation. It is clear that Of course, G (1,1) = 0.

以上より、第1番目から第a番目までの区間を、2個の
代表フレーム(但しその中の一つは第a番目の基本フレ
ームを代表フレームとする)で代表した場合に達し得ら
れる最小歪(残留歪)G(2,a)は以上に得られたす
べての歪の中の最小の歪を選出することによって求めら
れこれは上式によって示される。こうして残留歪G
(2,a)が求められるが、これとともにこの残留歪を
与える場合の代表パラメータベクトルの構成、つまり二
つの代表ベクトル(X)(a)およびそれぞれの
代表ベクトルが代表する区間幅B,a−Bとが定ま
る。こうしてG(2,a)およびそれに対応する代表パ
ラメータベクトルの構成もa=1〜20に対してすべて
求められる。
From the above, the minimum distortion that can be reached when the first to a-th sections are represented by two representative frames (one of which is the a-th basic frame as a representative frame) The (residual strain) G (2, a) is obtained by selecting the minimum strain among all the strains obtained above, and this is shown by the above equation. Thus residual strain G
(2, a) is obtained, and together with this, the configuration of the representative parameter vector when giving this residual distortion, that is, the two representative vectors (X) , (a) and the section width B x , which each representative vector represents, a−B x is determined. In this way, the configurations of G (2, a) and the corresponding representative parameter vector are also obtained for a = 1 to 20.

さらに代表フレーム数を一個増した場合のG(3,a)
は、上に求めたG(2,a)とDx,yを用いてG
(2,a)と全く同様にして下式により求められる。
G (3, a) when the number of representative frames is increased by one
Is calculated by using G (2, a) obtained above and D x, y.
It is obtained by the following equation in exactly the same manner as (2, a).

こうしてG(3,a)がa=3〜20に対して求められ
ると、次に代表フレーム数をさらに一個増したG(4,
a)が全く同様にしてa=4〜20に対して求められ
る。
Thus, when G (3, a) is obtained for a = 3 to 20, G (4,4), which is the number of representative frames, is increased by one.
a) is obtained in the same manner for a = 4 to 20.

このようにして、DPを用いることにより代表フレーム
数を次次に増して達し得られる歪の最小値を求めてゆく
ことにより、任意のi,j(但しj=1,2,…20:
ij)に対するG(i,j)および、そのときの代表
パラメータベクトルの構成つまり、i個の代表ベクトル
と各代表ベクトルが代表する基本フレームの区間幅の
組をすべて決定することができる。
In this way, by using DP, the number of representative frames is increased next and the minimum value of the distortion that can be reached is obtained, whereby any i, j (where j = 1, 2, ... 20:
It is possible to determine G (i, j) for ij) and the configuration of the representative parameter vector at that time, that is, all the sets of i representative vectors and the interval width of the basic frame represented by each representative vector.

こうして求められたG(i,20)は、基本フレーム2
0個からなる前述の一つの区分をi個の代表フレームで
近似する場合に達し得られる歪の最小値を表わしている
が、前述したようにi個の代表フレームの中の1個は第
20番目の基本フレームを用いるという拘束条件が入っ
ている。
G (i, 20) thus obtained is the basic frame 2
It represents the minimum value of the distortion that can be reached when approximating one section consisting of 0 pieces by i pieces of representative frames. As described above, one of the i pieces of representative frames is the 20th frame. There is a constraint that the second basic frame is used.

この拘束条件を除いて、基本フレーム20個からなる一
区分の中に任意のi個の代表フレームを選んで最適近似
をする場合に達し得られる歪の最小値(残留歪)をE
とすると、Eは、上に求めた(i,j)を用いて以下
のようにして求められる。
Excluding this constraint, the minimum value of the distortion (residual distortion) that can be reached when optimal i approximation is performed by selecting any i representative frames in one section consisting of 20 basic frames is E i.
Then, E i is obtained as follows using (i, j) obtained above.

今、第k番目の基本フレームから第20番目の基本フレ
ームまでの区間を第k番目の基本フレームを代表フレー
ムとして用いて(つまり(k)を用いて)近似する場
合の歪をDで表わすと、 として容易に求められる。
Now, the distortion when approximating the section from the kth basic frame to the 20th basic frame using the kth basic frame as a representative frame (that is, using (k)) is represented by D k When, As easily requested.

このDを用いると。例えばEは、 として求められ、また任意のi(但しi=1,2,…2
0)に対するEとして求めることができる。こうしてEが求まると、
前述のように、この残留歪を与える代表パラメータベク
トルの構成つまりi個の代表ベクトルの組と、これらの
i個の各代表ベクトルが代表する基本フレームの区間幅
を表わすi個の数の組と、が決定される。
With this D k . For example, E 1 is And any i (where i = 1, 2, ... 2)
E i for 0) is Can be asked as Thus, when E i is obtained,
As described above, the configuration of the representative parameter vector that gives this residual distortion, that is, the set of i representative vectors and the set of i numbers representing the section width of the basic frame represented by each of these i representative vectors, , Are determined.

さて、区分的最適関数近似器104は、基本フレーム2
0個分(時間長200mSEC)からなる各区分ごとに、
上述の演算を行なって、任意のi個の代表ベクトルを含
む代表パラメータベクトルの構成と、この構成をとる場
合の残留歪とを決定する。つまり、区分的最適関数近似
器104は、各区分ごとに、上述の演算を行なってE
(但しi=1〜20のすべて)の組{E}および、各E
に対応するi個の代表ベクトルの組{}およびこ
れらの代表ベクトルの代表するi個の区間の幅Bの組
{B}を決定し、これらのデータを次の総合最適フレー
ム選択器105に供給する。
Now, the piecewise optimal function approximator 104 uses the basic frame 2
For each division consisting of 0 (time length 200 mSEC),
The above calculation is performed to determine the configuration of the representative parameter vector including any i representative vectors and the residual distortion in the case of adopting this configuration. That is, the piecewise optimum function approximator 104 performs the above-mentioned calculation for each section to obtain E i
(However, i = 1 to 20) All {E} and each E
The set of i representative vectors {} corresponding to i and the set of widths B of the i sections representative of these representative vectors {B} are determined, and these data are sent to the next total optimum frame selector 105. Supply.

総合最適フレーム選択器105は、以上に述べた基本フ
レーム20個分よりなる1区分をさらに例えば50個分
集めてなる大区間(例えば時間長10SEC)に対する最
適フレーム選択の処理を行なう処理器である。
The total optimum frame selector 105 is a processor that performs optimum frame selection processing for a large section (for example, a time length of 10 SEC) that is obtained by collecting, for example, one section consisting of 20 basic frames described above, for example, 50 sections. .

選択器105は上述のようにして供給された、各区分毎
のデータ{E},{}および{B}をそれぞれ少くも
1大区間分(50区分分)だけ貯わえられるメモリを有
し、一つの大区間分の上述のデータの供給が終了する
と、これらのデータを用いて以下に説明するような総合
最適フレーム選択処理を開始する。
The selector 105 has a memory capable of storing the data {E}, {} and {B} for each section supplied as described above for at least one large section (for 50 sections). When the supply of the above-mentioned data for one large section is completed, the comprehensive optimum frame selection processing as described below is started using these data.

さて、各区分ごとの{E}は選択器105のメモリのワ
ークエリヤに、第2図に示すようなマトリクス状のテー
ブルとして格納される。但し▲E(j) ▼の上方のサ
フィックスの(j)はこれが第j番目の区分の歪であるこ
とを示し、下方のサフィックスのiは、この区分をi個
の代表フレーム(i個の代表ベクトル)で最適矩形近似
を行なった場合に達し得られる歪の最小値(残留歪)で
あることを表わしている。従って同じ(j)の値に対して
は(同じ縦列内においては)iが大きくなる程▲(j)
▼が小さくなることは明らかである。
Now, {E} for each section is stored in the work area of the memory of the selector 105 as a matrix table as shown in FIG. However, the suffix (j) above ▲ E (j) i ▼ indicates that this is the distortion of the j-th section, and the suffix i below indicates that this section has i representative frames (i This represents the minimum value of the distortion (residual distortion) that can be reached when the optimum rectangle approximation is performed using the representative vector). Therefore, for the same value of (j), the larger i becomes (in the same column ),(j)
It is clear that i ▼ becomes small.

本実施例においては、上述の如く、区分的最適関数近似
器104は、区分的最適関数近似により、各区分毎に、
任意のi個を代表フレームとして選んだ場合における最
適近似の残留歪Eをすべて求めてこれに関係するデー
タを供給しているが、実際に各区分毎の代表パラメータ
ベクトル構成としてこれらの中からいかにその一つを選
択すべきかについてはこれを決定していない。
In the present embodiment, as described above, the piecewise optimal function approximator 104 performs the piecewise optimal function approximation for each segment.
Although all the residual strains E i of the optimum approximation in the case of selecting arbitrary i pieces as the representative frame are obtained and the data related thereto are supplied, from among these as the representative parameter vector configuration for each section, It has not decided on how to choose that one.

これに対して総合最適フレーム選択器105は、各大区
間を代表する代表フレーム(代表ベクトル)の総数を、
予めN個と固定した場合に、できるかぎりこの大区間に
おける全体の歪が、各区分ごとにバランスして小さくな
るように、この大区間における代表フレーム構成を選択
決定する機能を有している。
On the other hand, the total optimum frame selector 105 calculates the total number of representative frames (representative vectors) representing each large section as
It has a function of selecting and deciding the representative frame configuration in this large section so that the total distortion in this large section is balanced and small in each section as much as possible when fixed to N in advance.

この大区間における代表フレーム(代表ベクトル)の総
数Nとしては、各区分毎の代表フレーム数の平均値を、
例えば5個とするとN=5×50=250となる。
As the total number N of representative frames (representative vectors) in this large section, the average value of the number of representative frames in each section is
For example, if there are five, N = 5 × 50 = 250.

総合最適フレーム選択処理は、上述の第2図に示すテー
ブルを用いて以下に示すアルゴリズムに従って行なわれ
る。
The overall optimum frame selection process is performed according to the following algorithm using the table shown in FIG.

(A0):最初に、各区分ごとに代表フレームを1個ず
つ選出するものとして、N=50と設定する。この場合
には、上述のマトリクスの第1の横列▲E(i)
(但しj=1〜50)の内容が各区分の歪を表わしてい
る。勿論各区分内においては1個の代表フレーム(代表
ベクトル)を用いた場合の最適近似が行なわれている。
(A0): First, N = 50 is set assuming that one representative frame is selected for each section. In this case, the first row ▲ E (i) 1 ▼ of the above matrix
The content of (where j = 1 to 50) represents the distortion of each section. Of course, optimal approximation is performed in each section when one representative frame (representative vector) is used.

(A1):上述の第1の横列▲E(i) ▼(j=1〜
50)の内容を比較して、この中の最大値をとる▲E
(i) ▼を選出する。すなわち上述のような大区間の
代表フレーム構成をとった場合において最大の歪を生ず
る区分を選出する。
(A1): First row ▲ E (i) 1 ▼ (j = 1 to 1 ) described above
Compare the contents of 50) and take the maximum value among them ▲ E
(I) Select 1 ▼. That is, the section that produces the maximum distortion when the representative frame configuration of the large section as described above is taken is selected.

(A2):上に選出された最大値を▲E(m) ▼とす
る。すなわち、第m番目の縦列(第m番目の区分)に属
する歪が選出されたとすると、その縦列がすべての▲E
(m) ▼を一個分だけ上方にシフトする。すなわち、
▲E(m) ▼を▲E(m) i+1▼でおきかえる(但
し、i=1,2,…,19)。
(A2): Let the maximum value selected above be ▲ E (m) 1 ▼. In other words, if a distortion belonging to the m-th column (m-th section) is selected, that column has all ▲ E.
(M) Shift i ▼ upward by one. That is,
▲ E (m) i ▼ is replaced with ▲ E (m) i + 1 ▼ (however, i = 1, 2, ..., 19).

明らかに、▲E(j) 20▼は(j)の値如何にかかわら
ず常に0であるので、このような上方シフトを行なうこ
とによって、シフトされた縦列の後尾には0が一つだけ
増すことになる。
Obviously, ▲ E (j) 20 ▼ is always 0 regardless of the value of (j), so performing such an upward shift will add only 0 to the tail of the shifted column. It will be.

以上の(A1),(A2)による処理は、この大区間の
代表フレーム構成において最大の歪を発生する区分を見
出し、この区分の代表フレーム数だけを1個増して、こ
の区分をより高度の近似に更新するという処理になって
いる。
The processing by the above (A1) and (A2) finds a section that generates the maximum distortion in the representative frame configuration of this large section, increases only the number of representative frames in this section, and The process is to update to an approximation.

(A3):上述の(A2)の処理により大区間の代表フ
レーム数が1個増したことに対応してNの値を1だけ増
加する。この結果Nの値が予め定めた大区間における代
表フレームの総数250に達した場合には、次の(A
4)の処理を行ない、これに達しない場合には、再び
(A1)の処理に戻り、この大区間の代表フレーム構成
において最大歪を発生する区分を見出し、この区分の代
表フレーム数だけを1個増加して最適近似の更新を行な
うという処理を繰返す。
(A3): The value of N is increased by 1 in response to the increase in the number of representative frames in the large section by 1 due to the processing in (A2). As a result, when the value of N reaches the total number of representative frames 250 in a predetermined large section, the following (A
If the process of 4) is not performed, and if this is not reached, the process returns to the process of (A1) again, finds the section in which the maximum distortion occurs in the representative frame configuration of this large section, and sets only the number of representative frames of this section to 1 The process of increasing the number and updating the optimum approximation is repeated.

(A4):以上の処理により、前述の▲E(j) ▼テ
ーブルの第1番目の横列には、この大区間を250代表
フレームを用いて最適近似を行なった場合の各区分に対
する残留歪が示されている。またこのテーブルの各j
(j=1〜50)に対する縦列の後尾に含まれる0の数
をMとすると、前述のような理由から、この数M
は、拾度この大区間に対する近似が行なわれた場合
の、各j番目の区分に対する代表フレームの数を表わす
ことになる。
(A4): As a result of the above processing, the residual distortion for each section when this large section is optimally approximated using 250 representative frames is shown in the first row of the above-mentioned ( E ) (j) i table. It is shown. Also, each j in this table
Assuming that the number of 0s included in the tail of the column for (j = 1 to 50) is M j , this number M is set for the reason described above.
j represents the number of representative frames for each j-th segment when approximation is performed for this large interval.

以上の理由により、大区間を250代表フレームを用い
て最適近似を行なった場合の、各区分における代表ベク
トルの数、各代表ベクトルの成分の値、および各代表ベ
クトルが代表する区間幅の構成が決定されたので、選択
器105は、これらの各区分の代表ベクトルの成分の
値、およびこの代表ベクトルが代表する各区間幅(基本
フレーム数)の値を貯えられているメモリ領域から読出
して、各代表ベクトルの成分の値をつぎつぎに、量子化
器106に供給するとともに、この各代表ベクトルが代
表する区間幅(基本フレーム数)の値を、このベクトル
の各基本フレームごとの繰返しを指定する数としてコー
ダ108に供給する。
For the above reasons, the configuration of the number of representative vectors in each section, the value of the component of each representative vector, and the section width represented by each representative vector when the large section is optimally approximated using 250 representative frames Since it is determined, the selector 105 reads the value of the component of the representative vector of each of these sections and the value of each section width (the number of basic frames) represented by this representative vector from the stored memory area, The values of the components of each representative vector are supplied to the quantizer 106 one after another, and the value of the interval width (the number of basic frames) represented by each representative vector is designated as the repetition of each basic frame of this vector. It is supplied to the coder 108 as a number.

量子化器106は、供給された各代表ベクトルの成分
を、伝送路および伝送品質の要求り定まる粗さで再量子
化した後、コーダ108に供給する。
The quantizer 106 requantizes the supplied components of each representative vector with the roughness determined by the required transmission path and transmission quality, and then supplies them to the coder 108.

一方、音源情報分析器107は窓関数処理器102から
供給された音声データより、ピッチ情報、有声音/無声
音情報(V/UV)、音量情報等を公知の手段を用いて
抽出し、これらの情報をコーダ108に供給する。
On the other hand, the sound source information analyzer 107 extracts pitch information, voiced sound / unvoiced sound information (V / UV), sound volume information, etc. from the sound data supplied from the window function processor 102 using a known means, and extracts these. Information is provided to the coder 108.

コーダ108は、以上のようにして供給された各情報
を、伝送に適する形に合成符号化してメモリ109に供
給する。
The coder 108 composite-encodes each information supplied as described above into a form suitable for transmission, and supplies it to the memory 109.

メモリ109は、供給されたデータを音声の蓄積伝送を
行なうために一時記憶し、伝送路1200の空き状態に応じ
て合成側2に送出する。
The memory 109 temporarily stores the supplied data in order to store and transmit the voice, and sends it to the synthesizing side 2 in accordance with the empty state of the transmission path 1200.

さて、合成側2においては、伝送路1200を介して伝送さ
れたデータは、いったん、メモリ201に貯えられ、音
声発生の必要に応じてこのメモリ201から流出され、
以下の処理によって音声が再現される。
Now, on the synthesis side 2, the data transmitted via the transmission path 1200 is once stored in the memory 201, and is flown out of the memory 201 as needed for voice generation.
The sound is reproduced by the following processing.

すなわち、メモリ201から読出されたデータは、デコ
ーダ202によってデコードされ、これにより分析側1
のコーダ108の入力側に供給されたデータが復元され
る。
That is, the data read from the memory 201 is decoded by the decoder 202, whereby the analysis side 1
The data supplied to the input side of the coder 108 is restored.

復元されたデータ中の、音源情報分析器107からのピ
ッチ情報は、パルス発振器203に供給され、この発振
周波数がピッチの基本周波数になるように制御する。ま
た、有声/無声情報(V/UV)は、V/UV切替器2
05の切替制御信号として供給かれ、これが有声音(V)
指定する場合には、切替器205がパルス発振器203
の出力側を選択し、無声音(UV)を指定する場合に
は、切替器205が雑音発生器204の出力側を選択す
るように制御する。
The pitch information from the sound source information analyzer 107 in the restored data is supplied to the pulse oscillator 203, and the oscillation frequency is controlled so as to become the fundamental frequency of the pitch. In addition, voiced / unvoiced information (V / UV) is V / UV switcher 2.
It is supplied as a switching control signal of 05, and this is a voiced sound (V)
When designating, the switching unit 205 sets the pulse oscillator 203
When the unvoiced sound (UV) is designated by selecting the output side of, the switching unit 205 controls so as to select the output side of the noise generator 204.

さらにまた、音量情報は、電力制御器206の制御情報
として供給され、これにより電力制御器206が、切替
器205の選択出力を可変増幅してその出力が指定され
た電力量になるように制御する。
Furthermore, the volume information is supplied as the control information of the power controller 206, whereby the power controller 206 variably amplifies the selected output of the switch 205 and controls it so that the output has a specified power amount. To do.

こうして得られた電力制御器206の出力は、LSP合
成フィルタを駆動する音源信号としてLSP合成フィル
タ207に供給される。
The output of the power controller 206 thus obtained is supplied to the LSP synthesis filter 207 as a sound source signal for driving the LSP synthesis filter.

一方、デコーダ202からデコードされた、各代表ベク
トルの各成分、および各代表ベクトルが代表する各区間
幅の情報は、補間器209を介してLSP合成フィルタ
207に供給される。
On the other hand, the information on each component of each representative vector and each section width represented by each representative vector decoded by the decoder 202 is supplied to the LSP synthesis filter 207 via the interpolator 209.

補間器209は供給された各代表ベクトルの各成分を、
これらの各代表ベクトルが代表する区間幅分だけ各基本
フレームごとに繰返し再生することにより矩形近似に対
する補間を行ない、各基本フレーム毎のLSPパラメー
タベクトルの各成分を生成してこれをLSP合成フィル
タ207に供給する。
The interpolator 209 calculates each component of each supplied representative vector as
Interpolation for the rectangular approximation is performed by repeatedly reproducing for each basic frame by the section width represented by each of these representative vectors, each component of the LSP parameter vector for each basic frame is generated, and this is used for the LSP synthesis filter 207. Supply to.

LSP合成フィルタ207は、こうして供給されたLS
Pパラメータベクトルの各成分と音源信号とを用いて公
知の手段により音声信号を合成しこれを、D/A変換器
および低域波器208に出力する。
The LSP synthesis filter 207 determines the LS thus supplied.
A sound signal is synthesized by a known means using each component of the P parameter vector and the sound source signal, and the synthesized sound signal is output to the D / A converter and the low pass filter 208.

かくして、合成されたディジタル音声信号は、アナログ
音声信号に変換され、不要な周波数成分が除かれて出力
ライン2000から出力される。
Thus, the synthesized digital voice signal is converted into an analog voice signal, unnecessary frequency components are removed, and the resultant digital voice signal is output from the output line 2000.

以上のように本実施例によると、伝送される音声情報
は、200mSEC程度の各区分毎に、この区分に割当て
られた代表フレーム数に対する最適近似になっているば
かりでなく、これらの区分の50個程度からなる10S
ECにおよぶ大区間においても、各区分に対する歪がよ
くバランスされた形の最適近似になっている。
As described above, according to the present embodiment, the transmitted voice information is not only the optimum approximation for the number of representative frames assigned to each section of about 200 mSEC, but also 50 of these sections. 10S consisting of about 10 pieces
Even in the large section up to EC, the distortion is well balanced in the optimum approximation.

すなわち、音声情報の激しく変化する区分においては、
より多くの代表フレームを用いることにより、より高度
の最適近似を行ない、一方音声情報の変化の少ない区分
に対しては少ない数の代表フレームによる粗い近似を行
なっていて、伝送すべき全情報量を一定に制限した場合
に、できるだけ各区分に対する歪がバランスして小さく
なるような最適近似が行なわれていることになる。これ
により各区分の代表フレーム数を一定に固定した場合に
較べて、大区間内の各区分ごとの音声情報量のゆらぎを
一層忠実に追随することができるため、より効率的な情
報量の圧縮または、より高品質の音声の再現が達成され
る。
That is, in the section where the voice information changes drastically,
By using a larger number of representative frames, a higher degree of optimal approximation is performed, while a rough approximation is performed by using a small number of representative frames for sections with little change in audio information, and the total amount of information to be transmitted is calculated. Optimal approximation is performed so as to balance and reduce the distortion for each section as much as possible when the value is limited to a fixed value. As a result, it is possible to more faithfully follow the fluctuations in the audio information amount for each segment in a large section, as compared to the case where the number of representative frames in each segment is fixed, and thus more efficient compression of the information amount. Alternatively, a higher quality audio reproduction is achieved.

しかも、例えば基本分析フレームを1000個も含む10秒
もの大区間を、区分的最適近似で述べたような手法によ
り直接この大区間全体に対して最適近似を行なおうとす
ると、莫大な計算量となってしまって、その実現は殆ん
ど不可能になる。本実施例においては、この大区間を、
200mSEC程度の通常広く用いられている区分に分
割し、この各区分に対する区分的最適関数近似により、
まず各区分に任意の数の代表フレームを割当てた場合の
各区分に対する最適近似を行ないそれ等の場合の各歪を
求めておき、これを巧に利用することによって大区間に
対する最適近似を実現可能なものとしている。
Moreover, for example, if a large section of 10 seconds including 1000 basic analysis frames is directly subjected to the optimum approximation by the method described in the piecewise optimal approximation, a large amount of calculation is required. It becomes almost impossible to realize it. In this embodiment, this large section is
It is divided into commonly used sections of about 200 mSEC, and by piecewise optimal function approximation for each section,
First, when an arbitrary number of representative frames are assigned to each segment, optimal approximation is performed for each segment, distortions in those cases are calculated, and by using this distortion optimally for large sections can be realized. It is supposed to be.

なお、以上は本発明の一実施例を示したもので本発明は
以上の実施例に限定されるものでないことは明らかであ
る。
It should be noted that the above shows one embodiment of the present invention, and it is obvious that the present invention is not limited to the above embodiment.

例えば、以上の実施例においては、基本フレーム長とし
て10mSEC、1区分の基本フレーム数20個(従っ
て1区分長200mSEC)、大区間における区分数5
0個(従って大区間の時間長10SEC、またその中に
含まれる基本フレーム数1000個)および大区間中におけ
る代表フレーム数250個等と、特定の値を用いて説明
したが、勿論これらは一例を示したのみで何もこれらの
値に限定される必要はない。
For example, in the above embodiment, the basic frame length is 10 mSEC, the number of basic frames in one segment is 20 (hence, the one segment length is 200 mSEC), and the number of segments in the large section is 5.
0 (therefore, the time length of the large section is 10 SEC, and the number of basic frames included in the large section is 1000) and the number of representative frames in the large section are 250, etc., and the explanation is given using specific values. Is shown and nothing need be limited to these values.

また区分的最適関数近似を行なうためのダイナミックプ
ログラミングの方法も一例を示したもので勿論これに限
定される必要はない。
The dynamic programming method for performing the piecewise optimal function approximation is also an example, and need not be limited to this.

さらにまた、音声の特徴パラメータベクトルとしてLS
P(線スペクト対)を用いる方法について説明したが、
これもLSPパラメータベクトルに限定される必要はな
く、例えばLPCパラメータベクトルその他の特徴パラ
メータベクトルを用いて実施できることも明らかであ
る。
Furthermore, LS is used as a voice feature parameter vector.
The method using P (line-spect pair) has been described,
It is also clear that this need not be limited to the LSP parameter vector, and can be implemented using, for example, the LPC parameter vector or other characteristic parameter vector.

さらに、本実施例においては、区分的最適関数近似に用
いる関数として矩形近似を用いたが、この代わりに、線
形近似または台形近似を用いることもできる。
Further, in this embodiment, the rectangular approximation is used as the function used for the piecewise optimal function approximation, but linear approximation or trapezoidal approximation may be used instead.

線形近似とは、選出されたつぎつぎの各代表ベクトルの
先端を直線で結び、これにより、代表される各基本フレ
ームのベクトルを直線補間により決定してこれをこられ
の代表される基本フレームの実際のパラメータベクトル
のかわりに用いるもので、このような近似を行なった場
合における歪も、実際の各基本フレームのパラメータベ
クトルと、かわりに用いるベクトルとの各成分の差から
前述と同様にして容易に求められるので、本実施例に用
いた手法を殆どそのまま適用して、区分的最適関数近似
および総合最適フレーム選択を行なうことができる。
Linear approximation is to connect the tip of each selected next representative vector with a straight line, thereby determining the vector of each representative basic frame by linear interpolation, and to determine this by the actual of the representative basic frame. Is used instead of the parameter vector of, and the distortion in the case of performing such an approximation can be easily performed in the same manner as described above from the difference of each component between the actual parameter vector of each basic frame and the vector used instead. Therefore, the method used in the present embodiment can be applied almost as it is, and piecewise optimal function approximation and total optimal frame selection can be performed.

すなわち、区分的最適関数近似器により、各区分の代表
ベクトル数(代表フレーム数)を必要な範囲内で任意に
変えて最適線形近似を行なった場合の各歪をすべて求め
ておき、総合最適フレーム選択器においてこの結果を利
用して上述と全く同様な総合最適フレーム選択を行な
う。
That is, the piecewise optimal function approximator is used to find all distortions when optimal linear approximation is performed by arbitrarily changing the number of representative vectors (the number of representative frames) of each section within a required range, and the total optimal frame is calculated. This result is used in the selector to perform the total optimum frame selection exactly as described above.

つまり、大区間中の各区分に対し、最初に同数の最小の
代表ベクトル数を与えるように仮想設定する。次にこの
設定において最大の歪を発生する区分を上述の結果を用
いて見出し、この区分の代表ベクトル数を一つ増し歪を
低減する。次にこうして更新された設定に対し再び最大
の歪を発生する区分を見出しこの区分の代表ベクトル数
を一つ増し、さらに歪を低減する。こうして各設定のス
テップにおいて最大の歪を発生する区分を見出しこの区
分の代表ベクトル数を増すことにより、大区間全体の代
表ベクトル数を一つずつ増し、これが予め定めた数にな
るまで以上のステップを繰返して総合最適フレーム選択
を行なう。
In other words, virtual setting is performed so that the same number of minimum representative vectors is first given to each section in the large section. Next, the section that produces the maximum distortion in this setting is found using the above results, and the number of representative vectors in this section is increased by one to reduce the distortion. Next, the section which generates the maximum distortion again with respect to the updated setting is found, the number of representative vectors of this section is increased by one, and the distortion is further reduced. In this way, by finding the section that produces the maximum distortion in each setting step, and increasing the number of representative vectors of this section, the number of representative vectors of the entire large section is increased by one, until the number reaches a predetermined number. Is repeated to select a total optimum frame.

なお、直線近似を行なった場合には合成側2の補間器2
09は、デコーダ202から供給される次次の代表パラ
メータベクトルとこれらのパラメータベクトル間の基本
フレーム数とを用いて直線補間を行なって各基本フレー
ムに対するパラメータベクトルを生成しこれを合成フィ
ルタ207に供給する。
When linear approximation is performed, the interpolator 2 on the synthesis side 2
Reference numeral 09 denotes a next-order representative parameter vector supplied from the decoder 202 and the number of basic frames between these parameter vectors to perform linear interpolation to generate a parameter vector for each basic frame, and supplies this to the synthesis filter 207. To do.

また台形近似とは、音声情報の特徴として、音声情報の
激しく変化する過渡部分は、ほぼ一定の約20mSEC
程度の時間長を有することを利用して、変化部分の時間
長を予め定めた一定の時間長(例えば2基本フレーム
分)とする台形関数を用いて最適近似を行なうもので音
声の特徴パラメータベクトルの最適近似にはとくに有効
である。このような台形近似を用いることによりパラメ
ータベクトルの急激な変化に伴なう反響音等の悪影響を
軽減することができる。
In addition, the trapezoidal approximation is a feature of voice information, in which a transient portion of the voice information that changes drastically is approximately 20 mSEC.
A characteristic parameter vector of a voice is obtained by performing optimal approximation using a trapezoidal function in which the time length of a change portion is set to a predetermined constant time length (for example, two basic frames) by having a time length of about Is particularly effective for the optimal approximation of. By using such a trapezoidal approximation, it is possible to reduce adverse effects such as reverberant sound that accompany a sudden change in the parameter vector.

このような台形近似を用いる場合についても、近似によ
る歪を求めることは本実施例に述べたのとほぼ同様に行
なうことができ、従って、上に述べた区分的最適関数近
似とこの結果を用いる総合最適フレーム選択とによる本
発明の方式はそのまま適用できることは明らかである。
Also in the case of using such a trapezoidal approximation, the distortion due to the approximation can be obtained almost in the same manner as described in the present embodiment, and therefore, the piecewise optimum function approximation described above and this result are used. It is clear that the method of the present invention based on the total optimum frame selection can be applied as it is.

また本実施例においては、分析側1においてメモリ10
9を設け、これにより、伝送路に送出するのに適する形
に整えられた音声情報を蓄積しておき、伝送路の都合の
よい時間を利用してこれを合成側2に伝送し、合成側2
においては、伝送された音声情報をそのままメモリ20
1に蓄積し、使用者の都合のよいときにこれを再生させ
るボイスメール等のいわゆる音声蓄積伝送装置に本発明
の方式を適用する例を示したが、これ以外のボコーダ等
のような通常の音声分析合成装置に適用できることは明
らかである。この場合には、本実施例に示した分析側の
メモリ109、および合成側のメモリ201を省略する
こともできる。
Further, in this embodiment, the memory 10 is provided on the analysis side 1.
9 is provided, whereby voice information arranged in a form suitable for sending to the transmission path is stored, and this is transmitted to the synthesizing side 2 by utilizing a convenient time of the transmission path. Two
In the memory 20, the transmitted voice information is directly stored in the memory 20.
Although the example of applying the method of the present invention to a so-called voice storing and transmitting apparatus such as a voice mail that stores the data in No. 1 and reproduces it when it is convenient for the user has been shown, other normal vocoders and the like can be used. Obviously, it can be applied to a voice analysis / synthesis device. In this case, the memory 109 on the analysis side and the memory 201 on the combining side shown in this embodiment can be omitted.

さらにまた、予め蓄積している各種の短音声素片を指定
に応じて組合せて発生させる例えばパブリックアドレス
装置等にも本方式を適用できる。つまりこのような音声
合成器に用いる各音声素片を生成する場合に本方式を適
用して情報量の圧縮および/または音質の改善を図るこ
とができる。
Furthermore, the present method can also be applied to, for example, a public address device or the like that generates various short speech units stored in advance in combination according to a designation. That is, the present method can be applied to the generation of each speech unit used in such a speech synthesizer to reduce the amount of information and / or improve the sound quality.

本発明の方式によると、例えば10SEC程度にも及ぶ
大区間に対する最適近似が行なわれているにもかかわら
ず、合成側においては音声を再現するに当って、区分時
間幅(20mSEC程度)以上の時間遅れを必要としない
という特徴を有している。これはボイスメール,バブリ
ックアドレス等の装置に適用した場合に、使用者の要求
に応じて遅滞なく音声再現を可能にするという点で特に
有効である。
According to the method of the present invention, although the optimum approximation is performed for a large section of up to about 10 SEC, for example, the time of the section time width (about 20 mSEC) or more is required for reproducing the voice on the synthesis side. It has the feature that no delay is required. This is particularly effective in that when applied to a device such as a voice mail or a public address, the voice can be reproduced without delay according to the user's request.

(発明の効果) 以上述べたように本発明によると、基本フレームを1000
個のオーダーで含むような音声ブロックに対してこの莫
大な数の基本フレームを含む音声ブロックを全体として
可変長フレームによる最適近似を行なえるような可変長
フレーム音声分析合成方式を実現できる。
As described above, according to the present invention, the basic frame is
It is possible to realize a variable-length frame speech analysis / synthesis method capable of optimally approximating a speech block including a huge number of basic frames by a variable-length frame to a speech block including a plurality of basic frames.

これによって、より効果的な音声情報量の圧縮および/
または音質の向上を達成でき、音声分析合成装置,音声
蓄積伝送装置および音声合成装置の性能向上を達成でき
る。
This enables more effective compression and / or
Alternatively, the sound quality can be improved, and the performance of the voice analysis / synthesis device, the voice storage / transmission device, and the voice synthesis device can be improved.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の一実施例を示すブロック図および第2
図は前記実施例の総合最適フレーム選択器中のメモリの
ワークエリヤの内容を説明するための図である。 図において、1……音声分析側、2……音声合成側、1
01……低域波器およびA/D変換器(LPF&A/
D)、102……窓関数処理器、103……LSP分析
器、104……区分的最適関数近似器、105……総合
最適フレーム選択器、106……量子化器、109……
メモリ、201……メモリ、202……デコーダ、20
3……パルス発振器、204……雑音発生器、205…
…V/UV切替器、206……電力制御器、208……
D/A変換器および低域波器(D/A&LPF)、2
09……補間器。
FIG. 1 is a block diagram showing an embodiment of the present invention and FIG.
The figure is a diagram for explaining the contents of the work area of the memory in the comprehensive optimum frame selector of the above embodiment. In the figure, 1 ... voice analysis side, 2 ... voice synthesis side, 1
01 …… Low-pass filter and A / D converter (LPF & A /
D), 102 ... Window function processor, 103 ... LSP analyzer, 104 ... Piecewise optimal function approximator, 105 ... Total optimal frame selector, 106 ... Quantizer, 109 ...
Memory, 201 ... Memory, 202 ... Decoder, 20
3 ... Pulse oscillator, 204 ... Noise generator, 205 ...
… V / UV switch, 206 …… Power controller, 208 ……
D / A converter and low-pass filter (D / A & LPF), 2
09 ... Interpolator.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】予め定めた一定の分析周期ごとに周期的に
入力音声信号を分析して特徴パラメータベクトルを抽出
する音声分析手段と、 予め定めた複数個の相連続する前記分析周期からなる各
区分ごとに各区分中の前記特徴パラメータベクトルから
任意の数の代表パラメータベクトルを選出して各区分を
区分的最適関数近似を行なった場合に得られる各区分ご
との前記代表パラメータベクトルの構成とこの場合の各
区分ごとの最適近似による残留歪とを演算する区分的最
適関数近似手段と、 予め定めた複数個の相連続する前記区分からなる大区間
において前記区分的最適関数近似手段により演算された
各区分ごとの前記残留歪を比較して残留歪の最も大きい
区分の前記代表パラメータベクトルの構成をより多くの
前記代表パラメータベクトルを含む前記代表パラメータ
ベクトルの構成に置換えるという処理ステップを繰返す
ことにより前記大区間を最適近似する予め定めた数のす
べての代表パラメータベクトルを選出するようにした総
合最適フレーム選択手段と、 を有することを特徴とする可変長フレーム音声分析合成
方式。
1. A voice analysis means for periodically analyzing an input voice signal at a predetermined constant analysis cycle to extract a characteristic parameter vector, and a plurality of predetermined continuous analysis cycles. The configuration of the representative parameter vector for each section obtained when selecting an arbitrary number of representative parameter vectors from the feature parameter vector in each section for each section and performing the piecewise optimal function approximation In this case, the piecewise optimum function approximating means for calculating the residual strain by the optimum approximation for each section, and the piecewise optimum function approximating means for the large section consisting of a plurality of predetermined continuous sections are calculated. Comparing the residual strain for each segment, the configuration of the representative parameter vector of the segment with the largest residual strain is determined by adding more representative parameter vectors. A total optimum frame selecting means for selecting a predetermined number of all the representative parameter vectors that optimally approximate the large section by repeating the processing step of replacing with the configuration of the representative parameter vector including A variable length frame speech analysis and synthesis method characterized by:
JP59159846A 1984-07-30 1984-07-30 Variable-length frame speech analysis / synthesis method Expired - Lifetime JPH0644199B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59159846A JPH0644199B2 (en) 1984-07-30 1984-07-30 Variable-length frame speech analysis / synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59159846A JPH0644199B2 (en) 1984-07-30 1984-07-30 Variable-length frame speech analysis / synthesis method

Publications (2)

Publication Number Publication Date
JPS6136800A JPS6136800A (en) 1986-02-21
JPH0644199B2 true JPH0644199B2 (en) 1994-06-08

Family

ID=15702512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59159846A Expired - Lifetime JPH0644199B2 (en) 1984-07-30 1984-07-30 Variable-length frame speech analysis / synthesis method

Country Status (1)

Country Link
JP (1) JPH0644199B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3164808B2 (en) * 1989-01-25 2001-05-14 日本電気株式会社 Variable frame vocoder
JPH04101200A (en) * 1990-08-21 1992-04-02 Nec Corp Voice analyzing and synthesizing device

Also Published As

Publication number Publication date
JPS6136800A (en) 1986-02-21

Similar Documents

Publication Publication Date Title
EP0714089B1 (en) Code-excited linear predictive coder and decoder, and method thereof
US5682502A (en) Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters
JPH06222797A (en) Voice encoding system
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
JPH11504492A (en) Signal transmission system with reduced complexity
US3909533A (en) Method and apparatus for the analysis and synthesis of speech signals
JP2003255974A (en) Singing synthesis device, method and program
JPH07271396A (en) Voice encoding method and voice sound source device
US7750229B2 (en) Sound synthesis by combining a slowly varying underlying spectrum, pitch and loudness with quicker varying spectral, pitch and loudness fluctuations
JP2000075862A (en) Time axis compression / expansion device for waveform signals
JPH0644199B2 (en) Variable-length frame speech analysis / synthesis method
EP0729133B1 (en) Determination of gain for pitch period in coding of speech signal
JPH09319391A (en) Speech synthesis method
JP4433668B2 (en) Bandwidth expansion apparatus and method
JP3471889B2 (en) Audio encoding method and apparatus
JP3059751B2 (en) Residual driven speech synthesizer
JP3319551B2 (en) Vector quantizer
JP2003066983A (en) Speech synthesis apparatus, speech synthesis method, and program recording medium
JP2615856B2 (en) Speech synthesis method and apparatus
JP3063088B2 (en) Speech analysis and synthesis device, speech analysis device and speech synthesis device
JP2650355B2 (en) Voice analysis and synthesis device
JPS61204697A (en) Tone signal generator
JPH05127697A (en) Speech synthesis method by division of linear transfer section of formant
JP2709198B2 (en) Voice synthesis method
JP3561654B2 (en) Voice synthesis method