JPH0632032B2 - Speech band signal coding method and apparatus - Google Patents
Speech band signal coding method and apparatusInfo
- Publication number
- JPH0632032B2 JPH0632032B2 JP59042307A JP4230784A JPH0632032B2 JP H0632032 B2 JPH0632032 B2 JP H0632032B2 JP 59042307 A JP59042307 A JP 59042307A JP 4230784 A JP4230784 A JP 4230784A JP H0632032 B2 JPH0632032 B2 JP H0632032B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- pulse
- code
- band signal
- circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 60
- 238000001228 spectrum Methods 0.000 claims description 50
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 35
- 230000005540 biological transmission Effects 0.000 claims description 30
- 230000015572 biosynthetic process Effects 0.000 claims description 27
- 238000003786 synthesis reaction Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 230000011664 signaling Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 description 25
- 238000013139 quantization Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 206010001497 Agitation Diseases 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Description
【発明の詳細な説明】 <産業上の利用分野> 本発明は音声帯域信号(音声信号,データモデム信号
等)の低ビットレイト波形符号化方式、特に伝送情報量
を16kビット/秒以下とするような符号化方式と装置に
関する。DETAILED DESCRIPTION OF THE INVENTION <Industrial Field of Application> The present invention sets a low bit rate waveform coding method for a voice band signal (voice signal, data modem signal, etc.), and particularly sets a transmission information amount to 16 kbit / sec or less. Such an encoding method and device.
<従来技術とその問題点> 音声信号を16kビット/秒程度以下の伝送情報量で符号
化するための方式として、最近マルチパルス駆動形音声
符号化方式が提案されている。これは、駆動音源信号系
列を表わす複数個のパルス系列(マルチパルス)を、短
時間毎に、符号器側でA−b−S(ANALYSIS-BY-SYNTHE
SIS)の手法を用いて遂次的に求め、このパルス系列を
符号化伝送する方式である。本発明はこの方式に関係す
るものである。この方式の詳細については、ビー・エス
・アタール(B.S.ATAL)氏らによるアイ・シー・エー・
エス・ピー(I.C.A.S.S.P.)の予稿集、1982年614〜617
頁に掲載の「ア.ニュー.モデル.オブ.エル.ピー.
シー.エクサイティション.フォー.プロデューシン
グ.ナチュラル.サウンディング.スピーチ.アット.
ロウ.ビット.レイツ」(“A NEW MODEL OF LPC EXCIT
ATION FOR PRODUCING NATURAL-SOUNDING SPEECH AT LOW
BIT RATES”)と題した論文(文献1)に説明されてい
るので、ここでは簡単に説明を行なうにとどめる。<Prior Art and Problems Thereof> A multi-pulse drive type audio encoding system has recently been proposed as a system for encoding an audio signal with a transmission information amount of about 16 kbit / sec or less. This is a system in which a plurality of pulse sequences (multi-pulses) representing a driving sound source signal sequence are transmitted at a short time by the encoder side at A-B-S (ANALYSIS-BY-SYNTHE).
This is a method of coding and transmitting this pulse sequence sequentially using the method of SIS). The present invention relates to this system. For more details on this method, see ICA by BSATAL et al.
Proceedings of ICSP, 1982 614-617
"A. New Model of L.P.
C. Exhibition. Four. Producing. natural. Sounding. speech. at.
Row. bit. Rates "(" A NEW MODEL OF LPC EXCIT
ATION FOR PRODUCING NATURAL-SOUNDING SPEECH AT LOW
Since it is explained in the paper (reference 1) entitled "BIT RATES"), only a brief explanation will be given here.
第1図は、前記文献1、に記載された従来方式における
符号器側の処理を示すブロック図である。図において、
100は符号器入力端子を示し、A/D変換された音声信
号系列x(n)が入力される。110はバッファメモリ回路で
あり、音声信号系列を1フレーム(例えば8KHZサンプリ
ングの場合でフレーム長を10msecとすると80サンプ
ル)分、蓄積する。バッファメモリ回路110の出力値
は減算器120と、Kパラメータ計算回路180とに出
力される。但し、文献1、によれKパラメータのかわり
にレフレクション・エコフィシエンツ(REFLECTION COE
FFICIENTS)と記載されているが、これなKパラメータ
と同一のパラメータである。Kパラメータ計算回路18
0は、バッファメモリ回路110の出力値を用い、共分
散法に従って、フレーム毎の音声信号スペクトルを表わ
すKパラメータKiを16次分(1≦i≦16)求め、こ
れらを合成フィルタ回路130へ出力する。140は、
音源パルス発生回路であり、1フレーム内にあらかじめ
定められた個数のパルス系列を発生させる。ここでは、
このパルス系列をd(n)と記する。音源パルス発生回路1
40によって発生された音源パルス系列の一例を第2図
に示す。第2図で横軸は離散的な時刻を、縦軸は振幅を
それぞれに示す。ここでは、1フレーム内に8個のパル
スを発生させる場合について示してある。音源パルス発
生回路140によって発生されたパルス系列d(n)は、合
成フィルタ130を駆動する。合成フィルタ130は、
d(n)を入力し、音声信号x(n)に対応する再生信号 を求め、これを減算器120へ出力する。ここで、合成
フィルタ130は、KパラメータKiを入力し、これら予
測パラメータai(1≦i≦16)へ変換し、aiを用いて
再生信号x(n)を計算する。FIG. 1 is a block diagram showing the processing on the encoder side in the conventional method described in Document 1 above. In the figure,
Reference numeral 100 denotes an encoder input terminal to which the A / D converted audio signal sequence x (n) is input. Reference numeral 110 denotes a buffer memory circuit, which stores the audio signal sequence for one frame (for example, 80 samples when the frame length is 10 msec in the case of 8 KHZ sampling). The output value of the buffer memory circuit 110 is output to the subtractor 120 and the K parameter calculation circuit 180. However, according to Ref. 1, instead of the K parameter, the Reflection COE
FFICIENTS) is the same parameter as the K parameter. K parameter calculation circuit 18
0 uses the output value of the buffer memory circuit 110, calculates the K parameter K i representing the audio signal spectrum for each frame for the 16th order (1 ≦ i ≦ 16) according to the covariance method, and outputs them to the synthesis filter circuit 130. Output. 140 is
A sound source pulse generation circuit that generates a predetermined number of pulse sequences in one frame. here,
This pulse sequence will be referred to as d (n). Source pulse generation circuit 1
An example of the sound source pulse sequence generated by the 40 is shown in FIG. In FIG. 2, the horizontal axis represents discrete time and the vertical axis represents amplitude. Here, the case where eight pulses are generated in one frame is shown. The pulse sequence d (n) generated by the sound source pulse generation circuit 140 drives the synthesis filter 130. The synthesis filter 130 is
Input d (n), and play signal corresponding to audio signal x (n) And outputs it to the subtractor 120. Here, the synthesis filter 130 inputs the K parameter K i , converts the K parameter K i into these prediction parameters ai (1 ≦ i ≦ 16), and calculates the reproduction signal x (n) using ai.
は、d(n)とaiを用いて下式のように表わすことができ
る。 Can be expressed as follows using d (n) and ai.
上式でPは合成フィルタの次数を示し、ここではP=1
6としている。減算器120は、原信号 と再生信号x(n)と差e(n)を計算し、重み付け回路190
へ出力する。190は、e(n)を入力し、重み付け関数w
(n)を用い、次式に従って重み付け誤差ew(n)を計算す
る。 In the above equation, P indicates the order of the synthesis filter, where P = 1.
6 is set. The subtractor 120 outputs the original signal And the reproduction signal x (n) and the difference e (n) are calculated, and the weighting circuit 190
Output to. 190 inputs e (n) and weighting function w
Using (n), the weighting error e w (n) is calculated according to the following equation.
ew(n)=w(n)*e(n) −(2) 上式で、記号“*”はたたみこみ積分を表やす。また、
重み付け関数w(n)は、周波数軸上で重み付けを行なうも
のであり、そのZ変換値をW(Z)とすると、合成フィルタ
の予測パラメータaiを用いて、次式により表わされる。e w (n) = w (n) * e (n)-(2) In the above equation, the symbol "*" represents convolution integral. Also,
The weighting function w (n) is used to perform weighting on the frequency axis, and when its Z-transformed value is W (Z), it is expressed by the following equation using the prediction parameter a i of the synthesis filter.
上式でrは0≦r≦1の定数であり、W(Z)の周波数特性
を決定する。つまり、r=1とすると、W(Z)=1とな
り、W(Z)の周波数特性は平担となる。一方、r=0とす
ると、W(Z)は合成フィルタの周波数特性の逆特性とな
る。従って、rの値によってW(Z)の特性を変えることが
できる。また、(3)式に示したようにW(Z)の特性を合成
フィルタの周波数特性に依存させて決めているのは、聴
感的なマスク効果を利用しているためである。つまり、
入力音声信号のスペクトルのパワが大きな箇所では(例
えばフォルマント周波数の近傍)、再生信号のスペクト
ルとの誤差が少々大きくても、その誤差は耳につきにく
いという聴感的な性質による。第3図に、あるフレーム
における入力音声信号のスペクトルと、W(Z)の周波数特
性の一例とを示した。ここではr=0.8とした。図にお
いて、横軸は周波数(最大4KHz)を、縦軸は対数振幅
(最大60dB)をそれぞれ示す。また、上部の曲線は音
声信号のスペクトルを、下部の曲線は重み付け関数の周
波数特性を表わしている。 In the above equation, r is a constant of 0 ≦ r ≦ 1, and determines the frequency characteristic of W (Z). That is, when r = 1, W (Z) = 1 and the frequency characteristic of W (Z) is flat. On the other hand, when r = 0, W (Z) has the inverse characteristic of the frequency characteristic of the synthesis filter. Therefore, the characteristic of W (Z) can be changed by the value of r. Also, the reason why the W (Z) characteristic is determined depending on the frequency characteristic of the synthesizing filter as shown in the equation (3) is that the perceptual masking effect is used. That is,
At a place where the power of the spectrum of the input audio signal is large (for example, near the formant frequency), even if the error with the spectrum of the reproduction signal is a little large, the error is hard to hear, which is due to the auditory property. FIG. 3 shows the spectrum of the input audio signal in a certain frame and an example of the frequency characteristic of W (Z). Here, r = 0.8. In the figure, the horizontal axis represents frequency (up to 4 KHz) and the vertical axis represents logarithmic amplitude (up to 60 dB). The upper curve represents the spectrum of the audio signal, and the lower curve represents the frequency characteristic of the weighting function.
第1図へ戻って、重み付け誤差ew(n)は、誤差最小化回
路150へフィードバックされる。誤差最小化回路15
0は、ew(n)の値を1フレーム分記憶し、これらを用い
て次式に従い、重み付けられた誤差電力εを計算する。Returning to FIG. 1, the weighting error e w (n) is fed back to the error minimization circuit 150. Error minimization circuit 15
For 0, the value of e w (n) for one frame is stored, and using these, the weighted error power ε is calculated according to the following equation.
ここでNは誤差電力を計算するサンプルを示す。文献
1、の方式では、この時間長を5msecとしており、こ
れは8KHzサンプリングの場合にはN=40に相当する。
次に、誤差最小化回路150は、前記(4)式で計算した
誤差電力εを小さくするように音源パルスの振幅及び位
置を求め、この振幅情報と位置情報とを音源パルス発生
回路140に出力する。音源パルス発生回路140はこ
の情報に基づいて音源パルス系列を発生させる。 Here, N represents a sample for calculating the error power. In the method of Reference 1, this time length is set to 5 msec, which corresponds to N = 40 in the case of 8 KHz sampling.
Next, the error minimization circuit 150 obtains the amplitude and position of the sound source pulse so as to reduce the error power ε calculated by the equation (4), and outputs this amplitude information and position information to the sound source pulse generation circuit 140. To do. The sound source pulse generation circuit 140 generates a sound source pulse sequence based on this information.
合成フィルタ回路130は、この音源パルス系列を駆動
源として再生信号 を求める。減算器120では、原信号と先に計算した再
生信号との誤差e(n)から上記のようにして求まった再生
信号 を減算して、これを新たな誤差e(n)とする。重み付け回
路190はe(n)を入力して重み付け誤差ew(n)を計算
し、これを誤差最小化回路150へフィードバックす
る。誤差最小化回路150は、再び誤差電力を計算し、
この誤差電力を小さくするように音源パルス系列の振幅
と位置とを調整する。こうして音源パルス系列の発生か
ら誤差最小化による音源パルス系列の調整までの一連の
処理は、音源パルス系列フレーム内のパルス数があらか
じめ定められた数に達するまでくり返され、音源パルス
系列が決定される。The synthesis filter circuit 130 uses this sound source pulse sequence as a driving source Ask for. In the subtractor 120, the reproduction signal obtained as described above from the error e (n) between the original signal and the reproduction signal previously calculated Is subtracted to obtain a new error e (n). The weighting circuit 190 inputs e (n), calculates a weighting error e w (n), and feeds it back to the error minimizing circuit 150. The error minimization circuit 150 calculates the error power again,
The amplitude and position of the sound source pulse sequence are adjusted so as to reduce this error power. In this way, a series of processes from generation of the sound source pulse sequence to adjustment of the sound source pulse sequence by error minimization is repeated until the number of pulses in the sound source pulse sequence frame reaches a predetermined number, and the sound source pulse sequence is determined. It
以上で従来方式の説明を終了する。This is the end of the description of the conventional method.
この方式の場合に、伝送すべき情報は、合成フィルタの
KパラメータKi(1≦i≦16)と、音源パルス系列の
パルス位置及び振幅であり、1フレーム内になるパルス
の数によって任意の伝送レイトを実現できる。さらに、
伝送レイトを16Kbps〜10Kbpsとする領域に対して
は、良好な再生音質が得られ有効な方式の一つと考えら
れる。In the case of this method, the information to be transmitted is the K parameter K i (1 ≦ i ≦ 16) of the synthesizing filter, the pulse position and the amplitude of the sound source pulse sequence, and is arbitrary depending on the number of pulses in one frame. A transmission rate can be realized. further,
It is considered to be one of the effective methods in which a good reproduction sound quality is obtained for a region where the transmission rate is 16 Kbps to 10 Kbps.
しかしながら、この従来方式は、演算量が非常に多いと
いう欠点がある。これは音源パルス系列におけるパルス
の位置と振幅を計算する際に、そのパルスに基づいて再
生した信号と原信号との誤差及び誤差電力を計算し、そ
れらをフィードバックさせて誤差電力を小さくするよう
にパルス位置と振幅とを調整していることに起因してい
る。更には、これらパルスの発生から誤差電力をフィー
ドバックさせてパルス振幅と位置とを調整するまでの処
理を、パルスの数があらかじめ定められた値に達するま
でくり返すことに起因している。However, this conventional method has a drawback that the amount of calculation is very large. This is to calculate the error and error power between the reproduced signal and the original signal based on the pulse when calculating the position and amplitude of the pulse in the sound source pulse sequence, and feed them back to reduce the error power. This is because the pulse position and amplitude are adjusted. Furthermore, it is caused by repeating the processes from the generation of these pulses to the adjustment of the pulse amplitude and the position by feeding back the error power until the number of pulses reaches a predetermined value.
また、16kビット/秒以下の伝送ビットレイトの場合、
音声信号の無声部分では従来方式によれば音源パルス数
が十分に多くはできないので、このような箇所では良好
な特性が得られなかった。In the case of a transmission bit rate of 16 kbit / sec or less,
In the unvoiced part of the voice signal, the number of sound source pulses cannot be increased sufficiently according to the conventional method, so that good characteristics cannot be obtained in such a part.
最近の動向として、16kビット/秒程度の伝送ビットレ
イトで2400ビット/秒程度の音声帯域データモデム信号
を良好に伝送したいという要請が非常に強い。音声帯域
データモデム信号に対しては、従来方式によれば、パル
ス数が十分に多くはないので良好な特性を得ることが困
難であった。As a recent trend, there is a strong demand for good transmission of a voice band data modem signal of about 2400 bits / sec at a transmission bit rate of about 16 kbits / sec. According to the conventional method, it is difficult to obtain good characteristics for a voice band data modem signal because the number of pulses is not sufficiently large.
<発明の目的> 本発明の目的は、16kビット/秒、あるいは16kビット/
秒以下の伝送ビットレイトで音声信号に対しては勿論の
こと、2400ビット/秒程度の音声帯域データモデム信号
に対しても比較的少ない演算量で良好な特性が得られる
音声帯域信号符号化方式とその装置を提供することにあ
る。<Object of the Invention> The object of the present invention is 16 kbit / sec, or 16 kbit / sec.
Voice band signal coding method that can obtain good characteristics with a relatively small amount of calculation not only for voice signals with a transmission bit rate of less than a second but also for voice band data modem signals of about 2400 bits / sec. And to provide the device.
<発明の構成> 本発明によれば、送信側では、離散的な音声帯域信号系
列を入力し短時間スペクトル包絡を表すスペクトルパラ
メータ系列を抽出し、前記音声帯域信号系列と前記スペ
クトルパラメータ系列をもとに前記音声帯域信号系列を
良好に表し得るパルス系列を探索し、前記スペクトルパ
ラメータ系列抽出結果または前記パルス系列探索結果を
もとに送出パルス系列の個数をきめる判別符号を作り、
前記判別符号に従い前記送出パルス系列と前記スペクト
ルパラメータ系列とを符号化し前記判別符号と組み合わ
せて出力し、受信側では、前記組み合わされた符号か
ら、前記判別符号を分離し、前記判別符号に従って前記
スペクトルパラメータ系列を表す符号と前記送出パルス
系列を表す符号とを分離し復号し、前記復号されたスペ
クトルパラメータ系列と前記復号されたパルス系列とを
用い前記音声帯域信号系列を再生するようにしたことを
特徴とする音声帯域信号化方法が得られる。<Configuration of Invention> According to the present invention, on the transmission side, a discrete voice band signal sequence is input, a spectrum parameter sequence representing a short-time spectrum envelope is extracted, and the voice band signal sequence and the spectrum parameter sequence are also extracted. To search for a pulse sequence that can satisfactorily represent the voice band signal sequence, and to create a discrimination code that determines the number of transmitted pulse sequences based on the spectrum parameter sequence extraction result or the pulse sequence search result,
The transmission pulse sequence and the spectrum parameter sequence are encoded according to the discrimination code and output in combination with the discrimination code, and on the receiving side, the discrimination code is separated from the combined code, and the spectrum is determined according to the discrimination code. A code representing a parameter sequence and a code representing the transmission pulse sequence are separated and decoded, and the voice band signal sequence is reproduced using the decoded spectrum parameter sequence and the decoded pulse sequence. A featured voice band signaling method is obtained.
また、本発明によれば、離散的な音声帯域信号系列を入
力し、前記音声帯域信号系列から短時間スペクトル包絡
を表すスペクトルパラメータ系列を抽出するパラメータ
計算回路と、前記音声帯域信号系列と前記スペクトルパ
ラメータ系列をもとに前記音声帯域信号系列を良好に表
し得るパルス系列を探索するパルス系列探索回路と、前
記スペクトルパラメータ系列抽出結果または前記パルス
系列探索結果をもとに送出パルス系列の個数を決める判
別符号を作る判別回路と、前記判別符号に従って前記送
出パルス系列と前記スペクトルパラメータ系列を符号化
し前記判別符号と組み合わせて出力する手段とを有する
ことを特徴とする音声帯域信号系列符号化装置が得られ
る。Further, according to the present invention, a parameter calculation circuit that inputs a discrete voice band signal sequence and extracts a spectrum parameter sequence representing a short-time spectrum envelope from the voice band signal sequence, the voice band signal sequence, and the spectrum A pulse sequence search circuit that searches for a pulse sequence that can satisfactorily represent the voice band signal sequence based on a parameter sequence, and determines the number of transmission pulse sequences based on the spectrum parameter sequence extraction result or the pulse sequence search result. A voice band signal sequence encoding device comprising: a discriminating circuit for producing a discriminating code; and means for encoding the transmission pulse sequence and the spectrum parameter sequence in accordance with the discriminating code and outputting in combination with the discriminating code. To be
さらに本発明によれば、送信側から離散的な音声帯域信
号系列より短時間スペクトル包絡を表すスペクトルパラ
メータ系列を抽出し、前記音声帯域信号系列と前記スペ
クトルパラメータ系列をもとに前記音声帯域信号系列を
良好に表し得るパルス系列を探索し、前記スペクトルパ
ラメータ系列抽出結果または前記パルス系列探索結果を
もとに送出パルス系列の個数をきめる判別符号を作り、
前記判別符号に従い前記送出パルス系列と前記スペクト
ルパラメータ系列とを符号化し前記判別符号と組み合わ
せて出力された符号が入力され、前記組み合わされた符
号系列から前記判別符号を分離しさらに前記判別符号に
従ってスペクトルパラメータ系列を表す符号とパルス系
列を表す符号とを分離し復号する手段と、前記復号され
たパルス系列を用いて駆動パルス系列を発生するパルス
系列発生回路と、前記復号されたスペクトルパラメータ
系列と前記駆動パルス系列とを用いて音声帯域信号系列
を再生し出力する合成フィルタ回路とを有することを特
徴とする音声帯域信号復号化装置が得られる。Further, according to the present invention, a spectrum parameter sequence representing a short-time spectrum envelope is extracted from a discrete voice band signal sequence from the transmitting side, and the voice band signal sequence is based on the voice band signal sequence and the spectrum parameter sequence. Is searched for a pulse sequence that can be expressed well, and a discrimination code that determines the number of transmitted pulse sequences based on the spectral parameter sequence extraction result or the pulse sequence search result is created,
A code output by combining the transmission pulse sequence and the spectrum parameter sequence according to the discrimination code and combining with the discrimination code is input, and the discrimination code is separated from the combined code sequence, and further the spectrum is determined according to the discrimination code. Means for separating and decoding the code representing the parameter sequence and the code representing the pulse sequence, a pulse sequence generation circuit for generating a drive pulse sequence using the decoded pulse sequence, the decoded spectrum parameter sequence and the A voice band signal decoding device is provided which has a synthesis filter circuit for reproducing and outputting a voice band signal sequence using a drive pulse sequence.
<実施例> 本発明による音声符号化方式の構成を図面を用いて詳細
に説明する。第4図(a)は、本発明による音声符号化方
式の符号器側の一実施例を示すブロック図であり、第4
図(b)は復号器側の一実施例を示すブロック図である。
第4図(a)において、音声信号系列x(n)は、入力端子1
95から入力され、あらかじめ定められたサンプル数だ
け区切られてバッファメモリ回路340に蓄積される。
次にKパラメータ計算回路280は、バッファメモリ回
路340に蓄積されている音声信号のうち、あらかじめ
定められたサンプル数を入力し、入力音声信号のスペク
トル包絡を表わすLPCパラメータを計算する。LPC
パラメータとしては種々あるが以下ではKパラメータを
用いるものとして説明を進める。尚、Kパラメータはパ
ーコール係数と同一のパラメータである。Kパラメータ
の計算法としては代表的な方法として自己相関法と、共
分散法がよく知られている。ここでは自己相関法による
Kパラメータの計算法を、ジョン・マクホウル(JOHN M
AKHOUL)氏らによるアイ・イー・イー・イートランザク
ションズ オン エー・エス・エス・ピー(IEEE TRANS
ACTIONS ON A.S.S.P.)誌1975年6月号.309〜321頁に
掲載の「クォンタイゼイション プロパティズ オブ
トランスミッション パラメーターズ イン リニア、
プリディクティブ システム」(“QUANTIZATION PROPE
RTIES OF TRANS MISSION PARAMETERS IN LINEAR PREDIC
TIVE SYSTEMS”)と題した論文(文献2)等に説明され
ている方法を引用して以下に示す。<Embodiment> The configuration of the audio encoding system according to the present invention will be described in detail with reference to the drawings. FIG. 4 (a) is a block diagram showing an embodiment of the encoder side of the audio encoding system according to the present invention.
FIG. 6B is a block diagram showing an embodiment of the decoder side.
In FIG. 4 (a), the audio signal sequence x (n) is input terminal 1
The data is input from 95, divided into a predetermined number of samples, and stored in the buffer memory circuit 340.
Next, the K parameter calculation circuit 280 inputs a predetermined number of samples of the audio signal stored in the buffer memory circuit 340, and calculates the LPC parameter representing the spectral envelope of the input audio signal. LPC
There are various parameters, but in the following description, the K parameter is used. The K parameter is the same parameter as the Percoll coefficient. The autocorrelation method and the covariance method are well known as typical methods for calculating the K parameter. Here, the calculation method of the K parameter by the autocorrelation method is described by JOHN M.
AKHOUL) et al. IE TRANSACTIONS ON AS TRANS
ACTIONS ON ASSP) June 1975 issue. See Quantization Properties of Pages 309-321.
Transmission Parameters Linear,
Predictive system "(" QUANTIZATION PROPE
RTIES OF TRANS MISSION PARAMETERS IN LINEAR PREDIC
The method described in the paper (Reference 2) entitled "TIVE SYSTEMS") is cited below.
E0=R(o) (5a) ai (i)=ki (5c) ▲aj (i)▼=▲aj (i-1)▼+▲kiai-j (i-1)▼,(1≦
j≦i−1) (5d) Ei=(1−ki 2)・Ei-1 (5e) aj=aj (p),(1≦j≦p) (5f) 式(5a)から式(5f)はj=1,2,……pとして再帰的に
解くことができる。式において、kiはi次目のKパラメ
ータ値を示す。またR(i)は入力音声に対する遅れ時間i
の自己相関々数を示す。Pは予測分析次数を示す。▲a
j (p)▼は分析次数dの場合のj番目の線形予測係数を示
す。ここで式(5e)のEiの値は次数iの予測における予測
誤差電力を示している。従って計算の各段階で次数iの
予測の予測誤差電力を監視することができる。Eiを用い
て正規化予測誤差は次式のように表わせる。E 0 = R (o) (5a) a i (i) = k i (5c) ▲ a j (i) ▼ = ▲ a j (i-1) ▼ + ▲ k i a ij (i-1) ▼, (1 ≤
j ≦ i−1) (5d) E i = (1-k i 2 ) · E i-1 (5e) a j = a j (p) , (1 ≦ j ≦ p) (5f) Formula (5a) Therefore, equation (5f) can be recursively solved with j = 1, 2, ... P. In the equation, k i indicates the i-th order K parameter value. R (i) is the delay time i with respect to the input voice.
The autocorrelation number of is shown. P indicates the prediction analysis order. ▲ a
j (p) ▼ indicates the j-th linear prediction coefficient in the case of the analysis order d. Here, the value of E i in equation (5e) represents the prediction error power in the prediction of order i. Therefore, the prediction error power of the prediction of order i can be monitored at each stage of the calculation. The normalized prediction error can be expressed as follows using E i .
Vi=Ei/R(o) (6) i=pの場合には(5e)式を用いて と表わせる。ここで1/Vpは予測利得ともよばれる。従
って(7)式を用いればp次予測分析の場合の正規化予測
誤差を知ることができる。以上で自己相関法によるKパ
ラメータ計算法の説明を終える。V i = E i / R (o) (6) When i = p, use equation (5e) Can be expressed as Here, 1 / Vp is also called a prediction gain. Therefore, if the equation (7) is used, the normalized prediction error in the p-th order prediction analysis can be known. This is the end of the description of the K parameter calculation method based on the autocorrelation method.
第4図(a)に戻って、Kパラメータ計算回路280は、
式(5a)から式(5e)に従ってあらかじめ定められた次数M1
(例えばM1=4)のKパラメータKi(1≦i≦M1)を計
算する。また(7)式に従ってM1次の正規化予測誤差VM1
を計算する。次に求まった正規化予測誤差VM1をあらか
じめ定められたしきい値と比較して、VM1がしきい値よ
りも小さければ入力信号は一例として有声と判別する。
一方、VM1がしきい値よりも大きければ入力音声は無声
と判別する。このようにしたのは、音声信号の場合、有
声部では相関が大きいために予測し易く正規化予測誤差
はかなり小さな値となる。一方、音声信号の無声部およ
びデータモデム信号は相関が小さいために予測しにく
く、正規化予測誤差はあまり小さくはならないことにも
とずいている。ただし、ここでは説明の簡便さのため
に、有声と無声の2種類に分類したが、特に有声と無声
に分類する必要はなく、また、分類は2種類以上でもよ
い。Kパラメータ計算回路280は正規化予測誤差VPを
用いた有声/無声判別結果を1ビット情報dとしてKパ
ラメータ符号化回路200とインパルス応答計算回路2
10とパルス計算回路390と合成フィルタ回路400
と重み付け回路410と符号化回路470とマルチプレ
クサ450とへ出力する。更にKパラメータ計算回路2
80は、判別結果が無声であった場合にはM1次まで求め
たKパラメータ値Ki(1≦i≦M1,例えばM1=4)をK
パラメータ符号化回路200へ出力する。この場合、信
号の相関が小さいのでM1は4次程度以上としても予測利
得の向上はごくわずかである。一方、判別結果が有声で
あった場合には音声信号のスペクトル包絡をより精密に
表わすために更にM2次(M2≧M1,例えばM2=12)まで
のKパラメータ値Ki(1≦i≦M2)を引き続き計算し、
Ki(1≦i≦M2)をKパラメータ符号化回路200へ出
力する。Returning to FIG. 4 (a), the K parameter calculation circuit 280
Predetermined order M 1 according to equation (5a) to equation (5e)
The K parameter K i (1 ≦ i ≦ M 1 ) of (for example, M 1 = 4) is calculated. Also, according to Eq. (7), the M 1 -order normalized prediction error V M1
To calculate. Next, the obtained normalized prediction error V M1 is compared with a predetermined threshold value, and if V M1 is smaller than the threshold value, the input signal is determined to be voiced as an example.
On the other hand, if V M1 is larger than the threshold value, the input voice is determined to be unvoiced. The reason for this is that in the case of a voice signal, the correlation is large in the voiced part, so that it is easy to predict and the normalized prediction error is a considerably small value. On the other hand, the unvoiced part of the voice signal and the data modem signal are difficult to predict because the correlation is small, and the reason is that the normalized prediction error is not so small. However, for simplification of the description, the voiced and unvoiced voices are classified into two types, but it is not necessary to specifically classify into voiced voices and unvoiced voices, and two or more types may be used. The K parameter calculation circuit 280 sets the K parameter coding circuit 200 and the impulse response calculation circuit 2 as the voiced / unvoiced discrimination result using the normalized prediction error V P as 1-bit information d.
10, pulse calculation circuit 390, synthesis filter circuit 400
To the weighting circuit 410, the encoding circuit 470, and the multiplexer 450. Furthermore, K parameter calculation circuit 2
80, K parameter value K i (1 ≦ i ≦ M 1, for example, M 1 = 4) obtained up to the primary M when discrimination result is silent with K
It is output to the parameter encoding circuit 200. In this case, since the correlation of the signals is small, the improvement of the prediction gain is very small even if M 1 is set to the fourth order or more. On the other hand, when the discrimination result is voiced, in order to more accurately represent the spectral envelope of the speech signal, K parameter values K i (1) up to M 2 nd order (M 2 ≧ M 1 , for example M 2 = 12) ≦ i ≦ M 2 ) is continuously calculated,
The K i (1 ≦ i ≦ M 2 ) is output to the K parameter encoding circuit 200.
Kパラメータ符号化回路200は、Kパラメータ計算回
路280から有声/無声判別情報dとKパラメータ値Ki
とを入力する。Kパラメータ符号化回路200は有声に
対する最適な量子化特性と無声に対する最適な量子化特
性の2種の量子化特性をもっており、判別情報dに従っ
てこの特性を切り換え、入力したKパラメータKiを符号
化し、符号lkiをマルチプレクサ450へ出力する。ま
たKパラメータ符号化回路200は、lkiを復号化して
得たKパラメータ復号値Kiを用い前述の(5c),(5d),(5f)
式を用いて予測係数値a′iに変換する。この際に有声/
無声判別情報dを用いて次数pをM1またはM2に切り換え
ておく。Kパラメータ符号化回路200は、予測係数値
a′Kiをインパルス応答計算回路210と重み付け回路
410と合成フィルタ回路400とへ出力する。The K parameter encoding circuit 200 receives the voiced / unvoiced discrimination information d and the K parameter value K i from the K parameter calculation circuit 280.
Enter and. The K parameter coding circuit 200 has two kinds of quantization characteristics, that is, an optimum quantization characteristic for voiced voice and an optimum quantization characteristic for unvoiced voice. These characteristics are switched according to the discrimination information d, and the input K parameter Ki is encoded. , Code l ki is output to the multiplexer 450. In addition, the K parameter encoding circuit 200 uses the K parameter decoded value K i obtained by decoding l ki, as described in (5c), (5d), and (5f) above.
The prediction coefficient value a ′ i is converted using the formula. Voice /
The order p is switched to M 1 or M 2 using the unvoiced discrimination information d. The K parameter encoding circuit 200 uses the prediction coefficient value
The a′K i is output to the impulse response calculation circuit 210, the weighting circuit 410, and the synthesis filter circuit 400.
次にインパルス応答計算回路210は、Kパラメータ計
算回路280から有声/無声判別情報dとKパラメータ
符号化回路200から予測係数値a′iを入力し、次式で
示される重み付けされた合成フィルタの伝達関数を表わ
すインパルス応答hw(n)を、あらかじめ定められたサン
プル数だけ計算する。Next, the impulse response calculation circuit 210 inputs the voiced / unvoiced discrimination information d from the K parameter calculation circuit 280 and the prediction coefficient value a ′ i from the K parameter encoding circuit 200, and outputs the weighted synthesis filter of the following equation. The impulse response h w (n) representing the transfer function is calculated by a predetermined number of samples.
ここでPは予測計数値a′iの次数を示す。Pは有声/無
声判別情報dに従って切り換えられ、有声の場合はPは
M2(例えば12)次にセットされ、無声の場合はPはM1
(例えば4)次にセットされる。また、W(Z)は前記(3)
式で示した重み付け関数のZ変換表現である。但し次数
Pは、有声/無声情報dに従いM2またはM1に切り換えら
れる。インパルス応答計算回路210はインパルス応答
hw(n)を自己相関々数計算回路360と相互相関々数計
算回路350とへ出力する。 Where P represents the order of the prediction count a 'i. P is switched according to the voiced / unvoiced discrimination information d. In the case of voiced, P is
M 2 (eg 12) Set next, P is M 1 if unvoiced
(Eg 4) is set next. Also, W (Z) is the above (3)
It is a Z-transform expression of the weighting function shown by a formula. However, the order P is switched to M 2 or M 1 according to the voiced / unvoiced information d. The impulse response calculation circuit 210 is an impulse response
It outputs h w (n) to the autocorrelation coefficient calculation circuit 360 and the cross-correlation coefficient calculation circuit 350.
次に自己相関々数計算回路360は、インパルス応答計
算回路210からインパルス応答hw(n)を入力し、次式
に従って自己相関々数Rhh(・)をあらかじめ定められた遅
れ時間τだけ計算する。Next, the autocorrelation coefficient calculation circuit 360 inputs the impulse response h w (n) from the impulse response calculation circuit 210 and calculates the autocorrelation coefficient R hh (.) According to the following equation for a predetermined delay time τ. To do.
自己相関々数Rhh(τ)はパルス計算回路390へ出力
される。 The autocorrelation factor R hh (τ) is output to the pulse calculation circuit 390.
次に減算器285は、バッファメモリ回路340に蓄積
された音声信号x(n)を入力し、x(n)から合成フィルタ回
路400の出力系列を1フレームサンプル分減算し、減
算結果e(n)を重み付け回路410へ出力する。Next, the subtractor 285 inputs the audio signal x (n) accumulated in the buffer memory circuit 340, subtracts the output sequence of the synthesis filter circuit 400 by one frame sample from x (n), and subtracts the result e (n ) Is output to the weighting circuit 410.
次に重み付け回路410は、減算器285から減算結果
e(n)を入力し、またKパラメータ符号化回路200から
予測係数値a′iを入力し、Kパラメータ計算回路280
から有声/無声判別情報dを入力し、e(n)に対して重み
付けを施しew(n)を出力する。ここでew(n)はZ変換表現
で次式のように書ける。Next, the weighting circuit 410 outputs the subtraction result from the subtractor 285.
e (n) is input, the prediction coefficient value a ′ i is input from the K parameter encoding circuit 200, and the K parameter calculation circuit 280 is input.
The voiced / unvoiced discrimination information d is input from the above, weighting is applied to e (n), and e w (n) is output. Here, e w (n) is a Z-transform expression and can be written as
Ew(Z)=E(2)・W(Z) (10) ここでEw(Z),E(Z)はそれぞれew(n)のZ変換値,e(n)の
Z変換値を示す。またW(Z)は前記(3)式で示される重み
付け関数のZ変換値を示す。但しW(Z)の次数pは有声/
無声情報dに従いM2またはM1に切り換えられる。重み付
け回路410は、求めたew(n)を相互相関々数計算回路
350へ出力する。E w (Z) = E (2) ・ W (Z) (10) where E w (Z) and E (Z) are the Z conversion value of e w (n) and the Z conversion value of e (n), respectively. Indicates. W (Z) represents the Z-transformed value of the weighting function represented by the above equation (3). However, the degree p of W (Z) is voiced /
It is switched to M 2 or M 1 according to the unvoiced information d. The weighting circuit 410 outputs the obtained e w (n) to the cross correlation coefficient calculation circuit 350.
次に相互相関々数計算回路350は、重み付け回路41
0からew(n)を入力し、またインパルス応答計算回路2
10からインパルス応答hw(n)を入力し、次式に従って
相互相関々数hx(n)をあらかじめ定められたサンプル
数だけ計算する。Next, the cross correlation coefficient calculation circuit 350 uses the weighting circuit 41.
Input e w (n) from 0, and impulse response calculation circuit 2
The impulse response h w (n) is input from 10 and the number of cross-correlation parameters h x (n) is calculated by a predetermined number of samples according to the following equation.
相互相関々数hx(・)はパルス計算回路390へ出力さ
れる。 The cross correlation number hx ( .multidot. ) Is output to the pulse calculation circuit 390.
次にパルス計算回路390は、相互相関々数計算回路3
50から相互相関々数hx(・)を入力し、自己相関々数
計算回路360から自己相関々数Rhh(・)を入力し、Kパ
ラメータ計算回路280から有声/無声判別情報dを入
力する。ここでパルス計算回路390は、有声/無声判
別情報dに従って、1フレーム内に求められるパルス数
を切り換える。つまり有声の場合にはL1個のパルスを求
め、無声の場合にはL2個のパルスを求める。但し、L1<
L2とする。無声の場合に、有声の場合と比較してパルス
数を増やす必要があるのは、前述したように無声の場合
は有声の場合に比べ予測利得が少ないためである。ここ
でパルス数は伝送ビットレイトに応じて決定されなくて
はならない。例えば、伝送ビットレイトを16kビット/
秒とすると、後述する量子化回路における量子化ビット
配分に従えば、有声の場合にL1=32,無声の場合にL2=
50個程度となる。Next, the pulse calculation circuit 390 uses the cross correlation coefficient calculation circuit 3
The cross-correlation coefficient hx (.) Is input from 50, the auto-correlation coefficient R hh (.) Is input from the auto-correlation coefficient calculation circuit 360, and the voiced / unvoiced discrimination information d is input from the K-parameter calculation circuit 280. . Here, the pulse calculation circuit 390 switches the number of pulses required in one frame according to the voiced / unvoiced discrimination information d. That prompted the L 1 pulses in the case of voiced, in the case of silent determine the L 2 pulses. However, L 1 <
Set to L 2 . The reason why it is necessary to increase the number of pulses in the unvoiced case as compared with the voiced case is that the unvoiced case has a smaller prediction gain than the voiced case as described above. Here, the number of pulses must be determined according to the transmission bit rate. For example, the transmission bit rate is 16 kbit /
In terms of seconds, according to the quantization bit allocation in the quantization circuit described later, L 1 = 32 for voiced and L 2 = unvoiced.
It will be about 50 pieces.
パルス計算回路390では、入力信号と合成信号との重
み付け誤差電力を最小化するパルス系列を、次式に従っ
て1パルスずつ順次計算する。The pulse calculation circuit 390 sequentially calculates a pulse sequence that minimizes the weighted error power between the input signal and the combined signal, pulse by pulse, according to the following equation.
ここでgiはフレーム内のi番目にたつパルスの振幅を示
す。miはi番目のパルスのフレーム内のサンプル位置を
示す。またLは1フレーム内に求めるパルス数を示し、
この値は前述のように有声/無声判別情報に従ってL
1(有声の場合),またはL2(無声の場合)に切り換え
られる。パルスの位置miはgiの絶対値最大値をとるフレ
ーム内位置から求まる。 Here, g i represents the amplitude of the i-th pulse in the frame. m i indicates the sample position within the frame of the i-th pulse. L represents the number of pulses to be obtained in one frame,
This value is L according to the voiced / unvoiced discrimination information as described above.
Switchable to 1 (if voiced) or L 2 (if unvoiced). The position m i of the pulse is obtained from the position in the frame where the maximum absolute value of g i is taken.
次に、(12)に従ってパルスを1つずつ求める過程を、図
面を用いて説明する。第5図(a)は相互相関々数計算回
路350で計算され、パルス計算回路390へ出力され
た1フレーム分の相互相関々数を示す。図において横軸
は1フレーム内のサンプル時刻を示す。フレーム長は1
60としている。縦軸は振幅である。第5図(b)は(12)
式に従って求めた第1番目のパルスg1を示す図である。
第5図(c)は第5図(b)で求めたパルスの影響を差し引い
た後の図である。第5図(d)は第2番目のパルスg2を求
めた図である。第5図(e)は第2番目のパルスg2の影響
を差し引いた後の図である。第5図(d)から(e)の処理を
くり返してL1またはL2個のパルスを求める。Next, the process of obtaining the pulses one by one according to (12) will be described with reference to the drawings. FIG. 5A shows the cross-correlation count for one frame which is calculated by the cross-correlation count calculation circuit 350 and output to the pulse calculation circuit 390. In the figure, the horizontal axis represents the sample time within one frame. Frame length is 1
It is set to 60. The vertical axis is the amplitude. Figure 5 (b) is (12)
It is a figure which shows the 1st pulse g1 calculated | required according to a formula.
FIG. 5 (c) is a diagram after subtracting the influence of the pulse obtained in FIG. 5 (b). FIG. 5 (d) is a diagram in which the second pulse g 2 is obtained. FIG. 5 (e) is a diagram after subtracting the influence of the second pulse g 2 . The processes of FIG. 5 (d) to (e) are repeated to obtain L 1 or L 2 pulses.
第4図(a)に戻って、パルス計算回路390は(12)式に
従って求めたパルス系列を符号化回路470へ出力す
る。Returning to FIG. 4A, the pulse calculation circuit 390 outputs the pulse sequence obtained according to the equation (12) to the encoding circuit 470.
次に符号化回路470は、パルス計算回路390からパ
ルス系列を入力し、Kパラメータ計算回路280から有
声/無声判別情報dを入力する。符号化回路470は、
有声/無声判別情報dに従い、有声、無声の場合に対し
て量子化ビット数及び量子化特性を切り換える。量子化
特性を切り換えるのは、有声と無声の場合ではパルス振
幅の頻度分布が異なるので、各々の分布に対し最適な量
子化を施すためである。符号化回路470は、入力した
パルスの振幅,位置を符号化し、マルチプレクサ450
へ出力する。また、パルスの振幅,位置の復号値g′i,
m′iをパルス発生回路420へ出力する。ここでパルス
系列の符号化法は種々考えられる。一つは、パルス系列
の振幅,位置を別々に符号化する方法であり、また一つ
は振幅,位置を一緒に符号化する方法である。Next, the encoding circuit 470 inputs the pulse sequence from the pulse calculation circuit 390 and the voiced / unvoiced discrimination information d from the K parameter calculation circuit 280. The encoding circuit 470 is
According to the voiced / unvoiced discrimination information d, the number of quantization bits and the quantization characteristic are switched for voiced and unvoiced. The reason why the quantization characteristics are switched is that the frequency distributions of the pulse amplitudes are different between voiced and unvoiced voices, so that optimum quantization is applied to each distribution. The encoding circuit 470 encodes the amplitude and position of the input pulse, and the multiplexer 450
Output to. Also, the amplitude of the pulse and the decoded value g ′ i of the position,
m ′ i is output to the pulse generation circuit 420. Here, various pulse sequence encoding methods can be considered. One is a method of separately encoding the amplitude and the position of the pulse sequence, and the other is a method of encoding the amplitude and the position together.
前者の方法について一例を説明する。まず、パルス系列
の振幅の符号化法としては、フレーム内のパルス系列の
振幅の最大値を正規化計数として、この値を用いて各パ
ルスの振幅を正規化した後に、量子化,符号化する方法
が考えられる。量子化特性については、有声,無声,各
々の場合の振幅分布に応じた最適な特性を用いる。ま
た、各パルスの振幅を直交関係にある他のパラメータに
変換した後に量子化,符号化を施してもよい。また、パ
ルス振幅毎にビット割り当てを変えてもよい。次に、パ
ルス位置の符号化についても種々の方法が考えられる。
例えば、ファクシミリ信号符号化等でよく知られている
ランレングス符号等を用いてもよい。これは符号“0”
または“1”の続く長さをあらかじめ定められた符号系
列を用いて表わすものである。また、正規化係数の符号
化には、従来よく知られている対数圧縮符号化等を用い
ることができる。An example of the former method will be described. First, as the encoding method of the amplitude of the pulse sequence, the maximum value of the amplitude of the pulse sequence in the frame is used as a normalization count, and the amplitude of each pulse is normalized using this value, and then quantized and encoded. A method can be considered. As the quantization characteristic, the optimum characteristic according to the amplitude distribution in each case of voiced and unvoiced is used. Further, the amplitude of each pulse may be quantized and encoded after being converted into another parameter having an orthogonal relationship. Also, bit allocation may be changed for each pulse amplitude. Next, various methods can be considered for encoding the pulse position.
For example, a run length code or the like which is well known in facsimile signal coding or the like may be used. This is the code "0"
Alternatively, the length following "1" is represented by using a predetermined code sequence. Further, conventionally well-known logarithmic compression encoding or the like can be used for encoding the normalization coefficient.
次に有声,無声の各場合に対する量子化ビット配分の一
例を以下に示す。伝送ビットレイトは16kビット/秒と
する。もし判別情報dが有声であった場合には、パルス
振幅の量子化ビット数は5ビット,パルス位置のビット
数は3ビットとする。一方、判別情報が無声であった場
合には、パルス振幅の量子化ビット数は4ビット、パル
ス位置のビット数は2ビットとする。このビット配分に
従えば、伝送ビットレイトを16kビット/秒とした場合
に、前述のように、有声に対するパルス数は32,無声に
対するパルス数は50程度となる。An example of quantized bit allocation for voiced and unvoiced cases is shown below. The transmission bit rate is 16 kbit / sec. If the discrimination information d is voiced, the quantization bit number of the pulse amplitude is 5 bits and the bit number of the pulse position is 3 bits. On the other hand, when the discrimination information is unvoiced, the quantization bit number of the pulse amplitude is 4 bits and the bit number of the pulse position is 2 bits. According to this bit allocation, when the transmission bit rate is 16 kbit / sec, the number of pulses for voiced voice is 32 and the number of pulses for unvoiced voice is about 50, as described above.
尚、パルス系列の符号化に関しては、ここで説明した符
号化方法方式に限らず、衆知の最良の方法を用いること
ができることは勿論である。Regarding the encoding of the pulse sequence, it is needless to say that the best known method can be used without being limited to the encoding method described here.
第4図(a)に戻って、パルス発生回路420は、パルス
系列復号値g′i,m′iを用いてm′iの位置に振幅g′iを
もつ駆動パルス系列を発生させる。パルス発生回路42
0は、駆動パルス系列を合成フィルタ回路400へ出力
する。Returning to 4 (a), the pulse generating circuit 420, the pulse sequence decoded value g 'i, m' with i m 'to the position of the i amplitude g' generates a drive pulse sequence with i. Pulse generation circuit 42
0 outputs the drive pulse sequence to the synthesis filter circuit 400.
合成フィルタ回路400は、パルス発生回路420から
駆動パルス系列を入力し、Kパラメータ計算回路280
から有声/無声判別情報dを入力し、Kパラメータ符号
化回路200から予測係数復号値a′iを入力する。合成
フィルタ回路400は、入力した駆動パルス系列と予測
係数復号値a′iとを用いて1フレーム分の応答信号系列 を次式に従って計算する。The synthesis filter circuit 400 inputs the drive pulse sequence from the pulse generation circuit 420, and receives the K parameter calculation circuit 280.
The voiced / unvoiced discrimination information d is input from, and the prediction coefficient decoded value a ′ i is input from the K parameter encoding circuit 200. The synthesis filter circuit 400 uses the input drive pulse sequence and decoded prediction coefficient a ′ i to generate a response signal sequence for one frame. Is calculated according to the following formula.
ここで の値は2フレーム分(1≦n≦2N)計算される。d(n)
は駆動信号を表わし、1≦n≦Nではパルス発生回路4
20から入力した駆動パルス系列を用いる。またN+1≦
n≦2Nでは全て0の系列を用いる。次数pは判別情報d
に従って切り換え、有声の場合はM2(例えば12)次,無
声の場合はM1(例えば4)次とする。(13)で求めた のうち、2フレーム目の の値が減算器285へ出力される。 here The value of is calculated for two frames (1 ≦ n ≦ 2N). d (n)
Represents a drive signal, and when 1 ≦ n ≦ N, the pulse generation circuit 4
The drive pulse sequence input from 20 is used. Also N + 1 ≤
When n ≦ 2N, a sequence of all 0 is used. The order p is the discrimination information d
In the case of voiced, M 2 (for example, 12th) order is selected, and in the case of unvoiced, M 1 (for example, 4th) order. Found in (13) Of the second frame Is output to the subtractor 285.
次にマルチプレクサ450は、符号化回路470の出力
符号とKパラメータ符号化回路200の出力符号とKパ
ラメータ符号化回路280からの判別情報を表わす1ビ
ット符号とを入力し、これらを組み合わせて送信側出力
端子480から通信路へ出力する。以上で本発明による
音声符号化方式の符号器側の説明を終える。Next, the multiplexer 450 inputs the output code of the encoding circuit 470, the output code of the K parameter encoding circuit 200, and the 1-bit code representing the discrimination information from the K parameter encoding circuit 280, and combines them to the transmitting side. Output from the output terminal 480 to the communication path. This is the end of the description of the encoder side of the speech encoding system according to the present invention.
次に本発明による音声符号化方式の復号器側について第
4図(b)を参照して説明する。デマルチプレクサ500
は、復号器側入力端子490から組み合わされた符号を
入力する。デマルチプレクサ500は入力した符号のう
ち、Kパラメータを表わす符号とパルス系列を表わす符
号と有声/無声判別情報を表わす1ビット符号とを分離
し、Kパラメータを表わす符号をKパラメータ復号回路
520へ出力し、パルス系列を表わす符号をパルス系列
復号回路530へ出力し、有声/無声判別情報を表わす
1ビット符号をKパラメータ復号回路520とパルス系
列復号回路530と合成フィルタ回路550とへ出力す
る。Next, the decoder side of the voice encoding system according to the present invention will be described with reference to FIG. 4 (b). Demultiplexer 500
Inputs the combined code from the decoder side input terminal 490. Of the input codes, the demultiplexer 500 separates the code representing the K parameter, the code representing the pulse sequence, and the 1-bit code representing the voiced / unvoiced discrimination information, and outputs the code representing the K parameter to the K parameter decoding circuit 520. Then, the code representing the pulse sequence is output to pulse sequence decoding circuit 530, and the 1-bit code representing the voiced / unvoiced discrimination information is output to K parameter decoding circuit 520, pulse sequence decoding circuit 530, and synthesis filter circuit 550.
次にパルス系列復号回路530は、有声/無声判別情報
を表わす符号とパルス系列を表わす符号とを入力し、有
声/無声判別情報を表わす符号に従って、有声の場合に
はL1(例えば32)個のパルス系列を復号化する。一方、
無声の場合にはL2(例えば50)個のパルス系列を復号化
する。復号化されたパルス系列の振幅,位置情報はパル
ス発生回路540へ出力される。パルス発生回路540
は、復号化された振幅,位置情報を入力し駆動パルス系
列を発生させ、合成フィルタ回路550へ出力する。Next, the pulse sequence decoding circuit 530 inputs the code representing the voiced / unvoiced discrimination information and the code representing the pulse sequence, and according to the code representing the voiced / unvoiced discrimination information, L 1 (for example, 32) Decode the pulse sequence of. on the other hand,
When unvoiced, L 2 (eg 50) pulse sequences are decoded. The amplitude and position information of the decoded pulse sequence are output to the pulse generation circuit 540. Pulse generation circuit 540
Receives the decoded amplitude and position information, generates a drive pulse sequence, and outputs the drive pulse sequence to the synthesis filter circuit 550.
次にKパラメータ復号回路520は、有声/無声判別情
報を表わす符号とKパラメータを表わす符号とを入力
し、有声/無声判別情報を表わす符号に従って、有声の
場合にはM2(例えば12)次のKパラメータを復号化す
る。一方、無声の場合にはM1(例えば4)次のKパラメ
ータを復号化する。復号化され求めたパラメータ値Kiは
合成フィルタ回路550へ出力される。Next, the K parameter decoding circuit 520 inputs a code representing the voiced / unvoiced discrimination information and a code representing the K parameter, and in accordance with the code representing the voiced / unvoiced discrimination information, in the case of voiced M 2 (for example, 12) th order Decode the K parameters of On the other hand, in the case of being unvoiced, the M 1 (for example, 4) th order K parameter is decoded. The decoded and obtained parameter value K i is output to the synthesis filter circuit 550.
次に合成フィルタ回路550は、有声/無声判別情報を
表わす符号と駆動パルス系列と、Kパラメータ復号値Ki
とを入力する。Kパラメータ復号値Kiは前述の(5c),(5
d),(5f)式を用いて予測係数値a′iに変換される。この
際に有声/無声判別情報を表わす符号に従って次数pを
M1またはM2に切り換えておく。合成フィルタ回路550
は次式に従って合成信号 を1フレーム分計算し、受信側出力端子560から出力
する。Next, the synthesis filter circuit 550 outputs a code representing the voiced / unvoiced discrimination information, the driving pulse sequence, and the K parameter decoded value K i.
Enter and. The K parameter decoded value K i is the same as (5c), (5
Prediction coefficient value a ′ i is converted using d) and (5f). At this time, the order p is determined according to the code representing the voiced / unvoiced discrimination information.
Switch to M 1 or M 2 . Synthesis filter circuit 550
Is the combined signal according to Is calculated for one frame and is output from the reception side output terminal 560.
ここでd(n)は駆動パルス系列を示す。また次数pは有声
/無声判別情報を表わす符号に従ってM1またはM2に切り
換えられる。以上で本発明による復号器側の説明を終え
る。 Here, d (n) represents a drive pulse sequence. The order p is switched to M 1 or M 2 according to a code representing voiced / unvoiced discrimination information. This is the end of the description on the decoder side according to the present invention.
本実施例の構成によれば、パルス系列を前述の(12)式に
従い求めているので、文献1の従来方式のように、音源
パルスで合成フィルタを駆動して再生信号を求め、原信
号との2乗誤差をフードバックしてパルスを調整すると
いう径路がなく、またその処理をくり返す必要もないの
で、演算量を大幅に低減できる。但し、パルス計算アル
ゴリズムを実施例にて説明した方法に限定するものでは
なく、演算量の増加を許せば、文献1に例を示すような
A−b−S的手法によるパルス計算アルゴリスムを用い
てもよい。According to the configuration of the present embodiment, since the pulse sequence is obtained according to the above-mentioned equation (12), the reproduction signal is obtained by driving the synthesis filter with the sound source pulse as in the conventional method of Document 1 to obtain the original signal. Since there is no path for adjusting the pulse by hooding back the squared error of 1 and there is no need to repeat the processing, the amount of calculation can be greatly reduced. However, the pulse calculation algorithm is not limited to the method described in the embodiment, and if the calculation amount is allowed to increase, a pulse calculation algorithm based on the A-B-S method as shown in Reference 1 is used. Good.
尚、(12)式に示したパルス計算法においては、パルスを
1つずつ順番に計算していた。この方法においては次の
パルスを計算する際にこれより過去に求まった複数個の
パルスの振幅を再調整するようにしてもよい。このよう
にすることによってパルス間の距離が短く、パルスが互
いに独立でない場合に特性が向上する。また音源パルス
を求める方法としては、より最適なパルス系列を計算す
る方法のような他の良好なパルス系列計算法を用いても
よい。In the pulse calculation method shown in the equation (12), pulses were calculated one by one. In this method, the amplitudes of a plurality of pulses obtained in the past may be readjusted when the next pulse is calculated. By doing this, the characteristics are improved when the distance between the pulses is short and the pulses are not independent of each other. As a method for obtaining the sound source pulse, another good pulse sequence calculation method such as a method for calculating a more optimal pulse sequence may be used.
また本実施例においては、符号器側で正規化予測誤差を
前述の(7)式に従い計算し、この値に応じて有声/無声
判別情報をつくっていたが、有声/無声判別情報のつく
り方としては次に示すようにしてもよい。今、伝送ビッ
トレイトを16kビット/秒とする。パルス計算回路3
90では無声と判断された場合の個数L1(例えば50)個
のパルスを求め、符号化回路470では例えば各パルス
の振幅に対し4ビットの量子化を施し、各パルス位置を
2ビットの符号で表わす。各パルスの振幅,位置を復号
化し、次式に従って誤差電力E1を計算する。Further, in the present embodiment, the normalized prediction error is calculated on the encoder side in accordance with the above equation (7), and the voiced / unvoiced discrimination information is created according to this value. May be as follows. Now, assume that the transmission bit rate is 16 kbit / sec. Pulse calculation circuit 3
At 90, the number L 1 (for example, 50) of pulses when it is determined to be unvoiced is obtained, and at the encoding circuit 470, for example, 4-bit quantization is performed on the amplitude of each pulse, and each pulse position is a 2-bit code. Express with. The amplitude and position of each pulse are decoded, and the error power E 1 is calculated according to the following equation.
ここでRee(o)は重み付け回路410の出力値ew(n)のN
サンプル分の電力を示す。Lはパルスの個数(この場合
はL1)、g′iはi番目のパルスの復号されたパルス振
幅,m′iはi番目のパルスの復号された位置、hx(・)
は相互相関々数を示す。さらにL1個のパルスのうち振幅
の大きな方から順に有声と判断された場合の個数L2(例
えば32)個のパルスを選び、符号化回路470において
各パルス振幅に対し5ビット量子化を施し、各パルス位
置を3ビット符号で表わし復号化する。復号値を用いて
前述の(15)式に従って誤差電力E2を計算する。但し、(1
5)式のLはL2としなくてはならない。次にE1とE2とを比
較し、E1の方が小さければ無声と判断し、判別符号を無
声を示す符号にセットし、パルス数をL1個とする。一
方、E2の方が小さければ有声と判断し、判別符号を有声
を示す符号にセットし、パルス数をL2個とする。このよ
うな構成とすることによって、量子化効果も含めたオー
バーオールの特性による有声/無声判別を行なうことが
できるので、特性がさらに向上する。 Here, R ee (o) is N of the output value e w (n) of the weighting circuit 410.
The power of the sample is shown. L is the number of pulses (in this case L 1), g 'i is the i th decoded pulse amplitude of the pulse, m' i is the i th decoded position of the pulse, hx (·)
Indicates the number of cross correlations. Further, among the L 1 pulses, the number L 2 (for example, 32) pulses when the voices are judged to be voiced in order from the largest amplitude are selected, and the encoding circuit 470 performs 5-bit quantization on each pulse amplitude. , Each pulse position is represented by a 3-bit code and decoded. Using the decoded value, the error power E 2 is calculated according to the above equation (15). However, (1
L in equation (5) must be L 2 . Next, E 1 and E 2 are compared, and if E 1 is smaller, it is determined to be unvoiced, the discrimination code is set to a code indicating unvoiced, and the number of pulses is L 1 . On the other hand, if E 2 is smaller, it is determined to be voiced, the discrimination code is set to a code indicating voiced, and the number of pulses is L 2 . With such a configuration, it is possible to perform voiced / unvoiced discrimination based on the overall characteristic including the quantization effect, so that the characteristic is further improved.
また本実施例においては、有声/無声判別情報を用い
て、符号器側ではKパラメータ符号化回路200,符号
化回路470の量子化特性,量子化ビット配分を切り換
え、復号器側ではKパラメータ復号回路520,パルス
復号回路の復号特性を切り換えていた。装置構成をより
簡略化するために、量子化特性,量子化ビット配分,復
号特性は有声,無声で切り換えずに同じ特性としてもよ
い。Further, in the present embodiment, using the voiced / unvoiced discrimination information, the encoder side switches the K parameter encoding circuit 200, the quantization characteristic of the encoding circuit 470, and the quantization bit distribution, and the decoder side performs the K parameter decoding. The decoding characteristics of the circuit 520 and the pulse decoding circuit were switched. In order to further simplify the device configuration, the quantization characteristic, the quantization bit allocation, and the decoding characteristic may be voiced or unvoiced and may be the same characteristic without switching.
また本実施例においては、有声/無声判別情報を用い
て、符号器側ではKパラメータ計算回路280でKパラ
メータの次数を切り換えていた。一方、復号器側ではK
パラメータ復号回路520,合成フィルタ回路550の
次数を切り換えていたが、この次数に関する切り換え操
作はなくてもよい。Further, in this embodiment, the order of the K parameter is switched by the K parameter calculation circuit 280 on the encoder side using the voiced / unvoiced discrimination information. On the other hand, K on the decoder side
Although the orders of the parameter decoding circuit 520 and the synthesis filter circuit 550 are switched, the switching operation regarding this order may not be performed.
また本実施例においては、合成フィルタ回路550の次
数を、有声/無声判別情報を入力して切り換えていた
が、有声/無声判別情報を用いた切り換え操作はなくて
もよい。これはKパラメータ復号回路520から入力す
るKパラメータ復号値の次数が有声/無声判別情報に応
じてすでに切り換えられているためである。Further, in the present embodiment, the order of the synthesis filter circuit 550 is switched by inputting the voiced / unvoiced discrimination information, but the switching operation using the voiced / unvoiced discrimination information may be omitted. This is because the order of the K parameter decoded value input from the K parameter decoding circuit 520 has already been switched according to the voiced / unvoiced discrimination information.
また本実施例においては、パルス計算回路390におい
て有声/無声判別情報を用いてフレーム内に求めるパル
ス数Lを切り換えていたが、パルス計算回路390で求
めるパルス数は有声,無声とも同じ数としL1(例えば5
0)個計算しておき、マルチプレクサ450においてパ
ルス系列を表わす符号を伝送する際に、有声/無声判別
情報を用いて伝送するパルス数を切り換えてもよい。こ
のような構成とした場合、パルス数の少ない方に切り換
えて伝送する際には例えばパルス振幅の大きなものから
L2(例えば32)個選び出して伝送すればよい。Further, in the present embodiment, the pulse calculation circuit 390 uses the voiced / unvoiced discrimination information to switch the number of pulses L to be obtained in the frame, but the number of pulses calculated by the pulse calculation circuit 390 is the same for both voiced and unvoiced L. 1 (eg 5
0) pieces may be calculated and the number of pulses to be transmitted may be switched using voiced / unvoiced discrimination information when transmitting a code representing a pulse sequence in the multiplexer 450. With such a configuration, when switching to the one with a smaller number of pulses and transmitting, for example, from the one with a large pulse amplitude
L 2 (for example, 32) pieces may be selected and transmitted.
また本実施例においては、パルス数を切り換える種類を
L1個またはL2個の種類としたが、3種類以上のパルス数
に切り換えるようにしてもよい。但しこのようにした場
合には、符号器側で有声/無声判別を行なうためのしき
い値を2種類以上用意することと復号器側に伝送する判
別符号のビット数を増やす必要がある。In addition, in this embodiment, the type of switching the pulse number is
Although the number of pulses is L 1 or L 2 , the number of pulses may be switched to three or more. However, in this case, it is necessary to prepare two or more thresholds for the voiced / unvoiced discrimination on the encoder side and increase the number of bits of the discrimination code transmitted to the decoder side.
本実施例の構成においては、短時間スペクトル構造を表
わすインパルス応答系列の自己相関々数を計算する際
に、インパルス応答計算回路210によってKパラメー
タ復号値を用いてインパルス応答を計算した後に、この
インパルス応答を用いて自己相関々数計算回路360に
て自己相関々数を計算していた。ディジタル信号処理の
分野でよく知られているように、インパルス応答の自己
相関々数はパワスペクトルと対応関係にある。従ってま
ずKパラメータ復号値を用いてパワスペクトルを求め、
その後にこの対応関係を用いて自己相関々数を計算する
ような構成としてもよい。一方、音声信号と短時間スペ
クトル包絡を表わすインパルス応答との相関々数を計算
する際に、本実施例の構成では重み付け回路410の出
力値ew(n)とKパラメータ復号器Kiを用いてインパルス
応答計算回路210にて計算したインパルス応答hw(n)
を用いて相互相関々数hx(・)を計算していた。よく知
られているように、相互相関々数はクロス・パワスペク
トルと対応関係にある。従ってまずew(n)とKiとを用い
てクロス・パワスペクトルを求め、その後に相互相関々
数を計算するような構成としてもよい。尚、パワスペク
トルと自己相関々数との対応関係,クロス・パワスペク
トルと相互相関々数との対応関係については、エー・ブ
イ・オッペンハイム(A.V.OPPENHEIM)氏らによる「デ
ィジタル信号処理」(“DIGITAL SIGNAL PROCESSING")
と題した単行本(文献3)の第8章にて詳細に説明され
ているので、ここでは説明を省略する。In the configuration of the present embodiment, when calculating the autocorrelation coefficient of the impulse response sequence representing the short-time spectrum structure, the impulse response calculation circuit 210 calculates the impulse response using the K parameter decoded value, and then the impulse response is calculated. The autocorrelation coefficient calculation circuit 360 calculates the autocorrelation coefficient using the response. As is well known in the field of digital signal processing, the autocorrelation number of the impulse response corresponds to the power spectrum. Therefore, first, the power spectrum is obtained using the K parameter decoded value,
After that, the correspondence relationship may be used to calculate the autocorrelation number. On the other hand, when calculating the correlation coefficient between the speech signal and the impulse response representing the short-time spectrum envelope, the output value e w (n) of the weighting circuit 410 and the K parameter decoder K i are used in the configuration of this embodiment. Impulse response h w (n) calculated by the impulse response calculation circuit 210
Was used to calculate the cross-correlation number hx (•). As is well known, the cross correlation number corresponds to the cross power spectrum. Therefore, the configuration may be such that the cross-power spectrum is first obtained using e w (n) and K i, and then the number of cross-correlation is calculated. Regarding the correspondence between the power spectrum and the autocorrelation number and the correspondence between the cross power spectrum and the crosscorrelation number, "Digital Signal Processing" by AVOPPENHEIM et al. SIGNAL PROCESSING ")
Since it has been described in detail in Chapter 8 of the book entitled (Reference 3), its explanation is omitted here.
本実施例においては、1フレーム内のパルス系列の符号
化は、パルス系列が全て求まった後に、第4図(a)の符
号化回路470によって符号化を施したが、符号化をパ
ルス系列の計算に含めて、パルスを1つ計算する毎に、
符号化を行ない、次のパルスを計算するという構成にし
てもよい。このような構成をとることによって、符号化
の歪をも含めた誤差を最小とするようなパルス系列が求
まるので、更に品質を向上させることができる。In the present embodiment, the encoding of the pulse sequence within one frame is performed by the encoding circuit 470 of FIG. 4 (a) after all the pulse sequences have been obtained. Included in the calculation, every time one pulse is calculated,
The encoding may be performed and the next pulse may be calculated. By adopting such a configuration, a pulse sequence that minimizes an error including coding distortion can be obtained, so that the quality can be further improved.
本実施例によれば、フレーム境界での波形の不連続に起
因したフレーム境界近傍での再生信号がほとんどない。
これは、符号器側において、現フレームのパルス系列を
計算する際に、1フレーム過去の駆動音源パルス系列に
よって合成フィルタを駆動してて得られた応答信号系列
を、現フレームにまで伸ばして求め、これを入力音声信
号系から減算した結果に対して現フレームのパルス系列
を計算するという構成にしたことに起因している。ま
た、本実施例ではフレーム長を一定とした場合について
説明したが、フレーム長を時間的に変化させる可変長フ
レームとしてもよい。また、1フレーム内にたてる音源
パルスの個数は一定でなくてもよい。例えばS/Nを一定
とするように各フレームのパルス系列の個数を変化させ
るようにしてもよい。According to this embodiment, there is almost no reproduced signal near the frame boundary due to the discontinuity of the waveform at the frame boundary.
This is because when the encoder side calculates the pulse sequence of the current frame, the response signal sequence obtained by driving the synthesis filter by the drive excitation pulse sequence of one frame past is extended to the current frame and obtained. This is due to the fact that the pulse sequence of the current frame is calculated for the result of subtracting this from the input audio signal system. Further, although the case where the frame length is constant has been described in the present embodiment, a variable length frame in which the frame length is temporally changed may be used. Further, the number of sound source pulses generated in one frame may not be constant. For example, the number of pulse sequences in each frame may be changed so that the S / N is constant.
また、本実施例においては、短時間音声信号系列のスペ
クトル包絡を表わすパラメータとしてはKパラメータを
用いたが、これはよく知られている他のパラメータ(例
えばLSPパラメータ等)を用いてもよい。更に前述の
(8)式,(10)式において重み付け関数W(Z)はなくてもよ
い。Further, in this embodiment, the K parameter is used as the parameter representing the spectrum envelope of the short-time speech signal sequence, but other well-known parameters (for example, LSP parameter etc.) may be used. Further above
The weighting function W (Z) may be omitted in Eqs. (8) and (10).
また、本実施例においては、フレーム境界での再生波形
の不連続に起因する品質劣化を防ぐために、現フレーム
より1フレーム過去の駆動音源パルスに由来した応答信
号系列を計算し、現フレームの入力音声からこの応答信
号を減算した後に、パルス系列を計算したが、第6図に
示すように、パルス系列の計算に用いるデータとして、
パルスを伝送するフレームのデータとそれよりも過去の
データとを含むような構成にしてもよい。図6で、NTは
パルスを伝送するフレームを示し、Nは音源パルスを計
算するフレームを示す。このような構成とすることによ
って、1フレーム過去の駆動音源パルスに由来した応答
信号系列を計算する必要がなくなる。Further, in the present embodiment, in order to prevent the quality deterioration due to the discontinuity of the reproduced waveform at the frame boundary, the response signal sequence derived from the driving sound source pulse one frame before the current frame is calculated, and the current frame is input. After subtracting this response signal from the voice, the pulse sequence was calculated. As shown in FIG. 6, the data used to calculate the pulse sequence was:
It may be configured so as to include data of a frame transmitting a pulse and data in the past. In FIG. 6, N T indicates a frame for transmitting a pulse, and N indicates a frame for calculating a sound source pulse. With such a configuration, it is not necessary to calculate the response signal sequence derived from the driving sound source pulse of one frame past.
<発明の効果> 以上説明したように本発明によれば、常に良好な品質の
再生信号を提供できるように、フレームあたりのパルス
数を変化させているので、伝送ビットレイトが16kビッ
ト/秒程度でパルス数が十分でない場合には良好な特性
を得ることが困難であった音声信号の子音部の特性を改
善することができるだけでなく、やはり良好な特性を得
ることが困難であった2400ビット/秒程度の音声帯域デ
ータモデム信号も良好に伝送できるという効果がある。<Advantages of the Invention> As described above, according to the present invention, the number of pulses per frame is changed so that a reproduction signal of good quality can be provided at all times, so that the transmission bit rate is about 16 kbit / sec. It was difficult to obtain good characteristics when the number of pulses was not enough in 2. Not only could the characteristics of the consonant part of the audio signal be improved, but it was also difficult to obtain good characteristics 2400 bits There is an effect that a voice band data modem signal of about 1 / second can be satisfactorily transmitted.
第1図は従来方式の構成を示すブロック図、第2図は音
源パルス系列の一例を示す図、第3図は入力音声信号系
列の周波数特性と第1図に記載の重み付け回路の周波数
特性の一例を示す図、第4図(a),(b)は本発明による音
声符号化方式の一実施例を示すブロック図、第5図(a)
〜(e)はパルス探索過程の一例を示す図、第6図はパル
ス伝送フレームと音源パルス計算フレームとの位置関係
を説明するための図である。 図において、110,340……バッファメモリ回路、120,285
……減算回路、130,400,550……合成フィルタ回路、14
0,420,540……パルス発生回路、150……誤差最小化回
路、180,280……Kパラメータ計算回路、190,410……重
み付け回路、200……Kパラメータ符号化回路、210……
インパルス応答計算回路、350……相互相関関数計算回
路、360……自己相関関数計算回路、390……パルス計算
回路、470……符号化回路、450……マルチプレクサ、50
0……デマルチプレクサ、520……Kパラメータ復号回
路、530……パルス復号回路をそれぞれ示す。FIG. 1 is a block diagram showing a configuration of a conventional system, FIG. 2 is a diagram showing an example of a sound source pulse sequence, and FIG. 3 is a frequency characteristic of an input audio signal sequence and a frequency characteristic of a weighting circuit shown in FIG. FIG. 4 (a) and FIG. 4 (b) are block diagrams showing an embodiment of a voice coding system according to the present invention, and FIG. 5 (a).
(E) is a figure which shows an example of a pulse search process, FIG. 6 is a figure for demonstrating the positional relationship between a pulse transmission frame and a sound source pulse calculation frame. In the figure, 110,340 ... buffer memory circuit, 120,285
...... Subtraction circuit, 130,400,550 …… Synthesis filter circuit, 14
0,420,540 …… Pulse generation circuit, 150 …… Error minimization circuit, 180,280 …… K parameter calculation circuit, 190,410 …… Weighting circuit, 200 …… K parameter coding circuit, 210 ……
Impulse response calculation circuit, 350 ... Cross-correlation function calculation circuit, 360 ... Autocorrelation function calculation circuit, 390 ... Pulse calculation circuit, 470 ... Encoding circuit, 450 ... Multiplexer, 50
0 ... Demultiplexer, 520 ... K parameter decoding circuit, 530 ... Pulse decoding circuit, respectively.
Claims (3)
入力し短時間スペクトル包絡を表すスペクトルパラメー
タ系列を抽出し、前記音声帯域信号系列と前記スペクト
ルパラメータ系列をもとに前記音声帯域信号系列を良好
に表し得るパルス系列を探索し、前記スペクトルパラメ
ータ系列抽出結果または前記パルス系列探索結果をもと
に送出パルス系列の個数をきめる判別符号を作り、前記
判別符号に従い前記送出パルス系列と前記スペクトルパ
ラメータ系列とを符号化し前記判別符号と組み合わせて
出力し、受信側では、前記組み合わされた符号から、前
記判別符号を分離し、前記判別符号に従って前記スペク
トルパラメータ系列を表す符号と前記送出パルス系列を
表す符号とを分離し復号し、前記復号されたスペクトル
パラメータ系列と前記復号されたパルス系列とを用い前
記音声帯域信号系列を再生するようにしたことを特徴と
する音声帯域信号化方法。1. A transmitter side inputs a discrete voice band signal sequence, extracts a spectrum parameter sequence representing a short-time spectrum envelope, and outputs the voice band signal based on the voice band signal sequence and the spectrum parameter sequence. A pulse sequence that can represent a sequence satisfactorily is searched for, a discrimination code that determines the number of transmission pulse sequences based on the spectral parameter sequence extraction result or the pulse sequence search result is created, and the transmission pulse sequence and the The spectrum parameter sequence is encoded and output in combination with the discrimination code, the receiving side separates the discrimination code from the combined code, and the code representing the spectrum parameter sequence according to the discrimination code and the transmission pulse sequence. Is separated and decoded, and the decoded spectrum parameter sequence and Voice band signaling method characterized by using a serial decoded pulse sequence and to reproduce the voice band signal sequence.
音声帯域信号系列から短時間スペクトル包絡を表すスペ
クトルパラメータ系列を抽出するパラメータ計算回路
と、前記音声帯域信号系列と前記スペクトルパラメータ
系列をもとに前記音声帯域信号系列を良好に表し得るパ
ルス系列を探索するパルス系列探索回路と、前記スペク
トルパラメータ系列抽出結果または前記パルス系列探索
結果をもとに送出パルス系列の個数を決める判別符号を
作る判別回路と、前記判別符号に従って前記送出パルス
系列と前記スペクトルパラメータ系列を符号化し前記判
別符号と組み合わせて出力する手段とを有することを特
徴とする音声帯域信号系列符号化装置。2. A parameter calculation circuit for inputting a discrete voice band signal sequence and extracting a spectrum parameter sequence representing a short-time spectrum envelope from the voice band signal sequence, the voice band signal sequence and the spectrum parameter sequence. Based on a pulse sequence search circuit that searches for a pulse sequence that can satisfactorily represent the voice band signal sequence, and a discrimination code that determines the number of transmission pulse sequences based on the spectrum parameter sequence extraction result or the pulse sequence search result. A voice band signal sequence encoding apparatus comprising: a discriminating circuit to be produced, and means for encoding the transmission pulse sequence and the spectrum parameter sequence in accordance with the discriminating code and outputting in combination with the discriminating code.
短時間スペクトル包絡を表すスペクトルパラメータ系列
を抽出し、前記音声帯域信号系列と前記スペクトルパラ
メータ系列をもとに前記音声帯域信号系列を良好に表し
得るパルス系列を探索し、前記スペクトルパラメータ系
列抽出結果または前記パルス系列探索結果をもとに送出
パルス系列の個数をきめる判別符号を作り、前記判別符
号に従い前記送出パルス系列と前記スペクトルパラメー
タ系列とを符号化し前記判別符号と組み合わせて出力さ
れた符号が入力され、前記組み合わされた符号系列から
前記判別符号を分離しさらに前記判別符号に従ってスペ
クトルパラメータ系列を表す符号とパルス系列を表す符
号とを分離し復号する手段と、前記復号されたパルス系
列を用いて駆動パルス系列を発生するパルス系列発生回
路と、前記復号されたスペクトルパラメータ系列と前記
駆動パルス系列とを用いて音声帯域信号系列を再生し出
力する合成フィルタ回路とを有することを特徴とする音
声帯域信号復号化装置。3. A spectrum parameter sequence representing a short-time spectrum envelope is extracted from a discrete voice band signal sequence from the transmitting side, and the voice band signal sequence is made good based on the voice band signal sequence and the spectrum parameter sequence. A pulse sequence that can be represented by, and create a discrimination code that determines the number of transmission pulse sequences based on the spectrum parameter sequence extraction result or the pulse sequence search result, and according to the discrimination code, the transmission pulse sequence and the spectrum parameter sequence And a code output by combining with the discrimination code is input, the discrimination code is separated from the combined code sequence, and a code representing a spectrum parameter sequence and a code representing a pulse sequence are further generated according to the discrimination code. A means for separating and decoding, and a drive pattern using the decoded pulse sequence. A voice band signal including a pulse sequence generation circuit for generating a voice sequence, and a synthesis filter circuit for reproducing and outputting a voice band signal sequence using the decoded spectrum parameter sequence and the driving pulse sequence. Decoding device.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59042307A JPH0632032B2 (en) | 1984-03-06 | 1984-03-06 | Speech band signal coding method and apparatus |
| CA000475777A CA1229681A (en) | 1984-03-06 | 1985-03-05 | Method and apparatus for speech-band signal coding |
| US07/462,981 US4945567A (en) | 1984-03-06 | 1990-01-10 | Method and apparatus for speech-band signal coding |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59042307A JPH0632032B2 (en) | 1984-03-06 | 1984-03-06 | Speech band signal coding method and apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60186899A JPS60186899A (en) | 1985-09-24 |
| JPH0632032B2 true JPH0632032B2 (en) | 1994-04-27 |
Family
ID=12632359
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59042307A Expired - Lifetime JPH0632032B2 (en) | 1984-03-06 | 1984-03-06 | Speech band signal coding method and apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0632032B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2006487C (en) * | 1988-12-23 | 1994-01-11 | Kazunori Ozawa | Communication system capable of improving a speech quality by effectively calculating excitation multipulses |
-
1984
- 1984-03-06 JP JP59042307A patent/JPH0632032B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60186899A (en) | 1985-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0409239B1 (en) | Speech coding/decoding method | |
| EP0957472B1 (en) | Speech coding apparatus and speech decoding apparatus | |
| EP0390975B1 (en) | Encoder Device capable of improving the speech quality by a pair of pulse producing units | |
| JP3582589B2 (en) | Speech coding apparatus and speech decoding apparatus | |
| JP3063668B2 (en) | Voice encoding device and decoding device | |
| JP2829978B2 (en) | Audio encoding / decoding method, audio encoding device, and audio decoding device | |
| JP3303580B2 (en) | Audio coding device | |
| JP3319396B2 (en) | Speech encoder and speech encoder / decoder | |
| JPH0632032B2 (en) | Speech band signal coding method and apparatus | |
| JP3299099B2 (en) | Audio coding device | |
| JP2560682B2 (en) | Speech signal coding / decoding method and apparatus | |
| JP3063087B2 (en) | Audio encoding / decoding device, audio encoding device, and audio decoding device | |
| JP3006790B2 (en) | Voice encoding / decoding method and apparatus | |
| JP2900431B2 (en) | Audio signal coding device | |
| JPH058839B2 (en) | ||
| JP2001142499A (en) | Speech encoding device and speech decoding device | |
| JP2946528B2 (en) | Voice encoding / decoding method and apparatus | |
| JP2853170B2 (en) | Audio encoding / decoding system | |
| JPH0683149B2 (en) | Speech band signal encoding / decoding device | |
| JPH0481199B2 (en) | ||
| JP3092654B2 (en) | Signal encoding device | |
| JPH0632035B2 (en) | Speech coding method and apparatus thereof | |
| JP2847730B2 (en) | Audio coding method | |
| JPH077275B2 (en) | Audio signal coding system and its equipment | |
| JPH0632031B2 (en) | Speech coding method and apparatus thereof |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |