JP3630082B2 - Audio signal encoding method and apparatus - Google Patents
Audio signal encoding method and apparatus Download PDFInfo
- Publication number
- JP3630082B2 JP3630082B2 JP2000204915A JP2000204915A JP3630082B2 JP 3630082 B2 JP3630082 B2 JP 3630082B2 JP 2000204915 A JP2000204915 A JP 2000204915A JP 2000204915 A JP2000204915 A JP 2000204915A JP 3630082 B2 JP3630082 B2 JP 3630082B2
- Authority
- JP
- Japan
- Prior art keywords
- bits
- signal
- quantization
- bit
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims description 23
- 238000000034 method Methods 0.000 title claims description 20
- 238000013139 quantization Methods 0.000 claims description 72
- 238000001228 spectrum Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、オーディオ信号を周波数領域に変換した後に符号化を行なうオーディオ信号符号化方法に係り、特に装置の許容歪み、使用ビット数が許容範囲の適正値に入れるまでの算出推定ループの回数を削減可能なオーディオ信号符号化装置に関する。
【0002】
【従来の技術】
従来より、オーディオ信号の符号化方法には、例えば適応スペクトル聴感制御エントロピー符号化法(ASPEC, Adaptive Spectral Perceptual Entropy Coding)、MPEG1オーディオ・レイヤ3、MPEG2オーディオAAC(Advanced Audio Coding)がある。
これらは、非線形量子化とハフマン符号化のために2重ループを構成して、量子化歪みと、符号量を制御している。
【0003】
それぞれのループは、アウターループ、インナーループと呼ばれており、アウターループでは、量子化歪みが、聴覚心理モデルから得られた許容ノイズレベル以下になるように制御し、インナーループでは、量子化を行ない所定のビット数の範囲内に収まるように制御を行なう。
【0004】
図4には、従来の量子化符号化部におけるイタレーションループ処理を示す。
従来の処理では、所定ビット数に収める処理と量子化歪みを所定量に収める処理とに対して、それぞれループを作ることで実現している。
所定ビット数とは、設定されたビットレートより求められる1オーディオフレームにおいて使用可能なビット数を意味する。
【0005】
まず、インナーループでは、量子化(STEP11A)とハフマン符号化(STEP12A)により求められる使用ビット数が所定ビット数に収まっているかの判断を行ない(STEP13A)、収まっていない場合には、周波数スペクトルを全ての帯域に対して一様に可変する変数(global gain)を調整することで、量子化器のステップサイズに相当するglobal gainを調整する(STEP14A)ことにより、所定のビット数に納める。
【0006】
インナーループを実行するために必要なglobal gainの初期値は初期化部で求められる(STEP1A)。
初期化部では、周波数スペクトル中の最大値を量子化式により量子化した際に、量子化値がハフマン符号化を行なうための制限値を超えないようなglobal gainを求め、これを初期値とする。
この初期値は、周波数スペクトルの最大値を基準に求めるため、量子化値全体が小さい値となる。
そのため、所定のビット数に対してビットが余る傾向になる。
【0007】
つぎに、アウターループでは、インナーループで求められた量子化結果を元に逆量子化を行ない、周波数スペクトルのバンド単位で量子化歪みを求める(STEP3A)。
【0008】
求めた量子化歪みが聴覚モデル部の信号対マスキング率SMR(Signal−to−Mask−ratio)から求めた許容歪み内に収まっているかを判断し(STEP4A)、収まっていない場合、そのバンドのscalefactor(sfb)を調整する(STEP5A)。
量子化歪みが収まっていないバンドが1バンド以上存在する場合には、再びインナーループからやり直す。
【0009】
収まっていないバンドが残っている場合は、量子化歪みが収まるまでscalefactor(sfb)を何度も調整し(STEP5A)、インナーループを繰り返す。
よって、これまでのやり方では収束するまで時間が掛かってしまう。
【0010】
【発明が解決しようとする課題】
前記のインナー、アウターの2重ループ処理では、外側に存在するアウターループが満足されない場合に、再び内側にあるインナーループを呼び出さねばならないため、収束時間の確定が難しい。
この収束時間を速めること、即ち、ループの回数を削減するには、ループを開始する初期値の決定が重要となる。
そこで本発明は、ループの初期値の決定手段を有する符号化装置及びその方法を提供することで、ループ回数を削減することを目的とする。
【0011】
【課題を解決するための手段】
上記目的を達成するための手段として、前記インナーループ内で用いるパラメータの初期値を推測するブロックを用意して、周波数スペクトルを別の符号化方法で符号化を行ない算出した使用ビット数と所定ビット数を用いてパラメータの初期値を推測し、求められた初期値を用いてインナーループ処理を行なう。
【0012】
本発明の第1の発明は、入力されたオーディオ信号を時間軸から周波数軸へ変換して周波数スペクトル信号を出力し、前記周波数スペクトル信号を所定のビット数に収まるように符号量を制御するためのパラメータを用いて量子化符号化し、前記量子化符号化された信号をビットストリームとして出力するオーディオ信号符号化方法において、
前記量子化符号化は、予め前記周波数スペクトル信号を符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、前記所定のビット数とから、前記パラメータの初期値を推測して行うことを特徴とするオーディオ信号符号化方法を提供する。
第2の発明は、入力されたオーディオ信号を時間軸から周波数軸へ変換して周波数スペクトル信号を出力する時間−周波数変換手段と、前記入力された前記オーディオ信号から量子化雑音量を制御するための許容雑音量を算出する聴覚モデル手段と、前記時間−周波数変換手段と聴覚モデル手段の各出力が供給され前記周波数スペクトル信号を量子化符号化する量子化符号化手段と、前記量子化符号化手段で量子化符号化された信号をビットストリームに変換して出力するビットストリーム化手段とを備えたオーディオ信号符号化装置において、
前記量子化符号化手段は、
前記時間−周波数変換手段から出力された周波数スペクトル信号を予め符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、所定のビット数とから、前記周波数スペクトルを所定のビット数内に収まるように符号量を制御するためのパラメータの初期値を推測する全帯域レベル推測手段と、前記全帯域レベル推測手段で推測された前記初期値に基づいて、前記周波数スペクトル信号を量子化符号化してビット信号として出力する量子化符号化変換手段と、前記量子化符号化変換手段から出力された前記ビット信号を逆量子化して逆量子化信号を出力する逆量子化手段と、前記符号量を制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力する全帯域レベル変更手段と、前記量子化符号化変換手段から出力された前記ビット信号が前記所定のビット数内に収まっているかどうかを判断して、前記ビット信号が前記所定のビット数以内に収まっていない場合には、前記全帯域レベル変更手段に制御信号を出力し、前記ビット信号が前記所定のビット数以内に収まっている場合には、前記ビット信号を前記逆量子化手段に出力する使用ビット数算出判断手段と、前記周波数スペクトル信号のバンドレベルを制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力するバンドレベル変更手段と、前記逆量子化手段から出力された前記逆量子化信号が前記聴覚モデル手段で算出された前記許容雑音量以内に収まっているかどうかを判断し、前記ビット信号が前記許容雑音量以内に収まっている場合には、何も出力せず、前記ビット信号が前記許容雑音量以内に収まっていない場合には、前記バンドレベル変更手段に制御信号を出力する量子化歪算出判断手段と、からなることを特徴とするオーディオ信号符号化装置を提供する。
【0013】
【発明の実施の形態】
本発明のオーディオ符号化装置及びその方法の一実施例について、図と共に以下に説明する。
図1は本発明のオーディオ信号符号化装置の一実施例のブロック構成図を示し、図2には本発明のオーディオ信号符号化装置の量子化符号化部の一実施例のブロック構成図を示す。
【0014】
図1に示される本発明のオーディオ信号符号化装置の一実施例は、時間−周波数変換部11、聴覚モデル部12、量子化符号化部13、及びビットストリーム化部14より構成されている。
【0015】
図2に示されている本発明のオーディオ符号化装置の量子化符号化部13の一実施例は、量子化、符号化器130、全帯域レベル (global gain)推測器131、使用ビット数算出判断器132、全帯域レベル (global gain) 変更器133、量子化歪算出判断器134、バンドレベル(scalefactor)変更器135、及び逆量子化器136より構成されている。
【0016】
まず、図1に示される、入力されたPCM信号は、時間−周波数変換部11においてFFTやMDCT等を用いて、時間軸から周波数軸への変換が行なわれ、その周波数スペクトルが量子化符号化部13に供給される。
【0017】
聴覚モデル部12では、入力された信号に対して聴覚心理に基づいたマスキングレベルの計算により求められた信号対マスキング率SMR(Signal to Mask Ratio)が量子化符号化部13に供給される。
【0018】
量子化符号化部13においては、各周波数に対するレベルを所定のビット数でかつ、前記SMRより求められた許容歪み内に量子化歪みが収まるように量子化、符号化を行ない、量子化、符号化された信号をビットストリーム化部14に出力する。
ビットストリーム化部14では、量子化符号化部13より供給された信号をビットストリームとして出力する。
【0019】
下記の(数1)及び(数2)には、量子化符号化部13において、量子化、及び逆量子化で使用される各式の一実施例を示した。
【0020】
【数1】
【0021】
【数2】
【0022】
前記(数1)の量子化式において、mdct line(k)は、時間−周波数変換部11より出力される周波数スペクトルを示しており、global gainは、周波数スペクトル全帯域のレベルを全帯域レベル変更器133により変更するものである。
【0023】
また、scalefactor(sfb)は、バンド単位で周波数スペクトルのレベルをバンドレベル変更器135により変更するものである。
Global gainは、量子化器のステップサイズに相当し、scalefactor(sfb)は各スケールファクタバンドの増幅度を決定する。
【0024】
インナーループでは、量子化とハフマン符号化により求められる使用ビット数が所定ビット数に収まっているかどうかの判断を行ない、収まっていない場合には、周波数スペクトルを全ての帯域に対して一様に可変する全帯域レベル(global gain)変更器133の変数(global gain)を調整することで、所定のビット数に納めるようにする。
【0025】
そこで、インナーループで求められた量子化結果を元に逆量子化を行ない、バンド単位で量子化歪みを求める。
求めた量子化歪みが聴覚モデル部12の信号対マスキング率SMRから求めた許容歪み内に収まっているかどうかを判断し、収まっていない場合、そのバンドのscalefactor (sfb)をバンドレベル(scalefactor)変更器135により調整する。
量子化歪みが収まっていないバンドが1バンド以上存在する場合には、再びインナーループからやり直す。
【0026】
図3に本発明のオーディオ信号符号化装置及びその方法におけるイタレーションループを示す。
本発明のイタレーションループは、先に示した図4に対して、その先頭に、所定ビット数に収まるglobal gain値を推測するブロックである、全帯域レベル(global gain)推測器131を追加した形のものになる。
【0027】
これは、図4の従来の初期化部におけるglobal gain算出方法を変更して、最初から最終結果に近いglobal gain値を推測することが可能な算出方法としたものである。
【0028】
このブロックにおいて使用される、global gain算出方法について、以下に説明する。
ここで求めたglobal gain値を初期値として(STEP1)、つぎのインナーループ(STEP2)を実行する。
【0029】
この(STEP1)の、前記所定ビット数に収まるglobal gain値を推測する全帯域レベル推測器131において使用される、別の符号化法を用いて使用ビット数を求め、global gain値を算出推測する一実施例について、以下に示す。
【0030】
量子化は前記(数1)より変形すると、下記(数3)となる。
【0031】
【数3】
【0032】
量子化された値が、何ビットで表現されるかを求めると、下記(数4)のnum−bitのように示される。
【0033】
【数4】
【0034】
ところで、前記num−bitは入力信号が16ビットPCMである場合、絶対値を取っているため、正負の符号を取り除いた15ビットまで取り得る。
【0035】
つぎに、例えば、それをビットストリームのように、ビット単位の羅列をした場合、サンプルx1,x2が何ビットで表現されているかが情報として与えられていないと、取り出せなくなる。
そのため、取り出すためのサイド情報として0〜15まで表現出来るように4ビットを別に使用する(補助情報としての第2のビット数 4×1024)。
【0036】
また、初期値を求めるので、scalefactor(sfb) = all zero とすると、前記(数4)は、下記(数5)のようになる。
【0037】
【数5】
【0038】
さらに、前式をサンプル数1024個分求めると、下記の(数6)のようになる。
【0039】
【数6】
【0040】
このtotal num bitが前記所定ビット数(average bit)であるような、global gainを下記(数7)より求める。
【0041】
【数7】
【0042】
よって、前記(数7)を整理すると下記(数8)が得られる。
【0043】
【数8】
【0044】
この(数8)に従って、前記時間−周波数変換部11より供給される周波数スペクトルを量子化して得られる量子化値に対して、全帯域レベル(global gain)推測器131は、2の対数を取ることで求められる、量子化値をビット表現するのに必要な第1のビット数((1/192)×(3/4)Σ(log2(x))と、そのビット表現が何ビット幅であるかを示す補助情報としての第2のビット数(1/192×4096)と、前記所定ビット数(1/192)×(average bit)とから、前記全帯域レベル変更手段133の初期値(global gain)を推測する。
これによって、ループが収束した時に得られる値に近い値が推測される。
【0045】
第1ブロックのインナーループでは、量子化とハフマン符号化により求められる使用ビット数(STEP12)が所定ビット数に収まっているかの判断を、使用ビット数算出判断器132により行なう(STEP13)。
【0046】
収まっていない場合には、周波数スペクトルを全ての帯域に対して一様に可変する全帯域レベル変更器133の変数(global gain)を調整する(STEP14)ことにより、所定のビット数に納めるようにする。
【0047】
第2ブロックのアウターループでは、インナーループ(STEP2)で求められた量子化結果を元に逆量子化を行ない、バンド単位で量子化歪みを求める(STEP3)。
【0048】
求めた量子化歪みが聴覚モデル部12の信号対マスキング率SMRから求めた許容歪み内に収まっているかどうかを量子化歪算出判断器134により判断し、収まっていない場合(STEP4)には、そのバンドのscalefactor(sfb)をバンドレベル(scalefactor)変更器135により調整を行なう(STEP5)。
【0049】
量子化歪みが収まっていないバンドが1バンド以上存在する場合(STEP4)には、再びインナーループ(STEP2)からやり直す。
【0050】
インナーループを実行するために必要なglobal gainの初期値は従来のものでは初期化部で求められる。
この初期化部では、周波数スペクトル中の最大値を量子化式により量子化した際に、量子化値がハフマン符号化を行なうための制限値を超えないようなglobal gainを求め、これを初期値としている。
【0051】
よって、この初期値は、周波数スペクトルの最大値を基準に求めるため、量子化値全体が小さい値となる。
【0052】
そのため、所定のビット数に対してビットが余る傾向になるが、本発明のものは所定のビット数が的確に推定されるので、大幅にループの改善がなされ、ループの回数を減少させることが出来る。
【0053】
本発明は全帯域レベル(global gain)推測器131により初期値の推定を最適に近く出来る(STEP1)ことにより、インナーループからやり直す回数は従来のものと比較すると大幅に削減させることが出来る。
【0054】
【発明の効果】
本発明のオーディオ符号化装置及びその方法によれば、前記第1のブロック内のパラメータ(global gain)の初期値を推測する全帯域レベル推測手段により求められた初期値は、ループが収束した時に得られる値に近い値が推測されるため、第2のブロックにおけるインナーループの回数を大幅に削減させることが出来る。
【図面の簡単な説明】
【図1】本発明のオーディオ符号化装置及びその方法の一実施例のブロック構成を示した図である。
【図2】本発明のオーディオ符号化装置及びその方法の一実施例のブロック構成を示した図である。
【図3】本発明のオーディオ符号化装置及びその方法のイタレーションループのフローを示した図である。
【図4】従来のイタレーションループのフローを示した図である。
【符号の説明】
11 時間−周波数変換部(時間−周波数変換ステップ)
12 聴覚モデル部(聴覚モデルステップ)
13 量子化符号化部(量子化符号化ステップ)
130 量子化符号化器
131 全帯域レベル(global gain)推測器(全帯域レベル推測手段、ステップ)
132 使用ビット数算出判断器(使用ビット数算出判断手段、ステップ)
133 全帯域レベル (global gain) 変更器(全帯域レベル変更手段、ステップ)
134 量子化歪算出判断器(量子化歪算出判断手段、ステップ)
135 バンドレベル(scalefactor)変更器(バンドレベル変更手段、ステップ)
136 逆量子化器
14 ビットストリーム化部(ビットストリーム化ステップ)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal encoding method that performs encoding after converting an audio signal into a frequency domain, and in particular, calculates the number of calculation estimation loops until the allowable distortion of the apparatus and the number of bits used fall within an allowable range. The present invention relates to a reducible audio signal encoding apparatus.
[0002]
[Prior art]
Conventionally, audio signal encoding methods include, for example, adaptive spectrum auditory control entropy encoding (ASPEC, Adaptive Perceptual Entropy Coding),
In these, a double loop is formed for nonlinear quantization and Huffman coding, and quantization distortion and code amount are controlled.
[0003]
Each loop is called an outer loop and an inner loop. In the outer loop, the quantization distortion is controlled to be less than the allowable noise level obtained from the psychoacoustic model. Control is performed so as to be within a predetermined number of bits.
[0004]
FIG. 4 shows an iteration loop process in the conventional quantization coding unit.
The conventional processing is realized by creating a loop for each of the processing for storing a predetermined number of bits and the processing for storing the quantization distortion by a predetermined amount.
The predetermined number of bits means the number of bits that can be used in one audio frame obtained from a set bit rate.
[0005]
First, in the inner loop, it is determined whether the number of used bits obtained by quantization (STEP 11A) and Huffman coding (STEP 12A) is within the predetermined number of bits (
[0006]
The initial value of global gain necessary for executing the inner loop is obtained by the initialization unit (STEP 1A).
The initialization unit obtains a global gain such that when the maximum value in the frequency spectrum is quantized by the quantization formula, the quantized value does not exceed the limit value for performing the Huffman coding, this is determined as the initial value. To do.
Since this initial value is obtained based on the maximum value of the frequency spectrum, the entire quantized value is a small value.
For this reason, the number of bits tends to remain with respect to a predetermined number of bits.
[0007]
Next, in the outer loop, inverse quantization is performed based on the quantization result obtained in the inner loop, and quantization distortion is obtained in band units of the frequency spectrum (STEP 3A).
[0008]
It is determined whether the obtained quantization distortion is within the allowable distortion obtained from the signal-to-masking ratio SMR (Signal-to-Mask-ratio) of the auditory model part (
If there is one or more bands in which the quantization distortion is not settled, the process starts again from the inner loop.
[0009]
If there is a band that does not fit, the scale factor (sfb) is adjusted many times until the quantization distortion is settled (STEP 5A), and the inner loop is repeated.
Therefore, in the conventional method, it takes time to converge.
[0010]
[Problems to be solved by the invention]
In the inner and outer double loop processing, when the outer loop existing outside is not satisfied, it is difficult to determine the convergence time because the inner loop inside must be called again.
In order to speed up the convergence time, that is, to reduce the number of loops, it is important to determine an initial value for starting the loop.
Therefore, an object of the present invention is to reduce the number of loops by providing an encoding apparatus having a means for determining an initial value of a loop and a method therefor.
[0011]
[Means for Solving the Problems]
As means for achieving the above object, a block for estimating an initial value of a parameter used in the inner loop is prepared, and the number of used bits and a predetermined bit calculated by encoding the frequency spectrum by another encoding method are prepared. The initial value of the parameter is estimated using the number, and the inner loop processing is performed using the obtained initial value.
[0012]
According to a first aspect of the present invention, an input audio signal is converted from a time axis to a frequency axis, a frequency spectrum signal is output, and a code amount is controlled so that the frequency spectrum signal falls within a predetermined number of bits. In an audio signal encoding method for quantizing and encoding using the parameters, and outputting the quantized and encoded signal as a bit stream,
In the quantization coding, the first bit number obtained by multiplying the number of bits when the quantized value obtained by previously coding the frequency spectrum signal is represented in binary number by the first coefficient. And the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number by a second coefficient, and the predetermined number of bits, Provided is an audio signal encoding method characterized by estimating an initial value.
According to a second aspect of the present invention, there is provided time-frequency conversion means for converting an input audio signal from a time axis to a frequency axis to output a frequency spectrum signal, and for controlling a quantization noise amount from the input audio signal. Auditory model means for calculating the permissible noise amount, quantization encoding means for quantizing and encoding the frequency spectrum signal supplied with the outputs of the time-frequency conversion means and the auditory model means, and the quantization coding An audio signal encoding device comprising: a bit stream converting means for converting a signal quantized and encoded by the means into a bit stream and outputting the bit stream;
The quantization encoding means includes:
A first value obtained by multiplying the number of bits when the quantized value obtained by previously encoding the frequency spectrum signal output from the time-frequency conversion means is expressed in binary number by a first coefficient. From the number of bits, the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number and the second coefficient, and the predetermined number of bits, the frequency Based on the whole band level estimation means for estimating the initial value of the parameter for controlling the code amount so that the spectrum is within a predetermined number of bits, and the initial value estimated by the whole band level estimation means, Quantization coding conversion means for quantizing and outputting a frequency spectrum signal as a bit signal, and dequantizing the bit signal output from the quantization coding conversion means to output an inverse quantization signal Inverse quantization means, all-band level changing means for outputting a change control signal to the quantization coding means, and the quantization coding conversion means for changing a parameter for controlling the code amount It is determined whether or not the output bit signal is within the predetermined number of bits, and if the bit signal is not within the predetermined number of bits, a control signal is sent to the entire band level changing means. When the bit signal is within the predetermined number of bits, the used bit number calculation judging means for outputting the bit signal to the inverse quantization means, and the band level of the frequency spectrum signal In order to change a parameter for control, a band level changing unit that outputs a change control signal to the quantization encoding unit, and an output from the inverse quantization unit. It is determined whether the dequantized signal is within the allowable noise amount calculated by the auditory model means, and if the bit signal is within the allowable noise amount, nothing is output. An audio signal encoding device comprising: a quantization distortion calculation judging means for outputting a control signal to the band level changing means when the bit signal does not fall within the allowable noise amount. I will provide a.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of an audio encoding apparatus and method according to the present invention will be described below with reference to the drawings.
FIG. 1 shows a block configuration diagram of an embodiment of an audio signal encoding device of the present invention, and FIG. 2 shows a block configuration diagram of an embodiment of a quantization encoding unit of the audio signal encoding device of the present invention. .
[0014]
An embodiment of the audio signal encoding apparatus of the present invention shown in FIG. 1 includes a time-
[0015]
An embodiment of the
[0016]
First, the input PCM signal shown in FIG. 1 is converted from the time axis to the frequency axis using FFT, MDCT, or the like in the time-
[0017]
In the
[0018]
The
The
[0019]
In the following (Equation 1) and (Equation 2), an example of each equation used in quantization and inverse quantization in the
[0020]
[Expression 1]
[0021]
[Expression 2]
[0022]
In the quantization formula of (Equation 1), mdct line (k) indicates the frequency spectrum output from the time-
[0023]
The scale factor (sfb) is used to change the level of the frequency spectrum by the band
Global gain corresponds to the step size of the quantizer, and scale factor (sfb) determines the amplification factor of each scale factor band.
[0024]
In the inner loop, it is determined whether the number of used bits obtained by quantization and Huffman coding is within a predetermined number of bits, and if not, the frequency spectrum is uniformly changed for all bands. By adjusting a variable (global gain) of the global
[0025]
Therefore, inverse quantization is performed based on the quantization result obtained in the inner loop, and quantization distortion is obtained in band units.
It is determined whether or not the obtained quantization distortion is within the allowable distortion obtained from the signal-to-masking rate SMR of the
If there is one or more bands in which the quantization distortion is not settled, the process starts again from the inner loop.
[0026]
FIG. 3 shows an iteration loop in the audio signal encoding apparatus and method according to the present invention.
The iteration loop of the present invention adds a
[0027]
This is a calculation method capable of estimating a global gain value close to the final result from the beginning by changing the global gain calculation method in the conventional initialization unit of FIG.
[0028]
The global gain calculation method used in this block will be described below.
The global gain value obtained here is set as the initial value (STEP 1), and the next inner loop (STEP 2) is executed.
[0029]
In this (STEP 1), the number of used bits is obtained using another encoding method used in the all-
[0030]
When the quantization is modified from the above (Equation 1), the following (Equation 3) is obtained.
[0031]
[Equation 3]
[0032]
The number of bits in which the quantized value is expressed is expressed as num-bit in the following (Equation 4).
[0033]
[Expression 4]
[0034]
By the way, when the input signal is 16-bit PCM, the num-bit takes an absolute value, and can take up to 15 bits from which the positive and negative signs are removed.
[0035]
Next, for example, when it is arranged in bit units like a bit stream, it cannot be extracted unless the number of bits represented by the samples x1 and x2 is given as information.
Therefore, 4 bits are separately used so that 0 to 15 can be expressed as side information to be extracted (second bit number 4 × 1024 as auxiliary information).
[0036]
Further, since the initial value is obtained, if scalefactor (sfb) = all zero, the above (Equation 4) becomes the following (Equation 5).
[0037]
[Equation 5]
[0038]
Further, when the previous equation is obtained for 1024 samples, the following (Equation 6) is obtained.
[0039]
[Formula 6]
[0040]
The global gain such that the total num bit is the predetermined number of bits (average bit) is obtained from the following (Equation 7).
[0041]
[Expression 7]
[0042]
Therefore, rearranging (Equation 7) yields (Equation 8) below.
[0043]
[Equation 8]
[0044]
According to this (Equation 8), the
As a result, a value close to the value obtained when the loop converges is estimated.
[0045]
In the inner loop of the first block, the used bit number
[0046]
If not, the variable (global gain) of the entire
[0047]
In the outer loop of the second block, inverse quantization is performed based on the quantization result obtained in the inner loop (STEP 2), and quantization distortion is obtained in band units (STEP 3).
[0048]
It is judged by the quantized distortion
[0049]
When there is one or more bands in which the quantization distortion is not settled (STEP 4), the process starts again from the inner loop (STEP 2).
[0050]
The initial value of the global gain necessary for executing the inner loop is obtained by the initialization unit in the conventional one.
In this initialization unit, when the maximum value in the frequency spectrum is quantized by the quantization formula, a global gain is obtained such that the quantized value does not exceed the limit value for performing the Huffman coding, and this initial value is obtained. It is said.
[0051]
Therefore, since the initial value is obtained based on the maximum value of the frequency spectrum, the entire quantized value is a small value.
[0052]
For this reason, the number of bits tends to remain with respect to a predetermined number of bits. However, according to the present invention, since the predetermined number of bits is accurately estimated, the loop can be greatly improved and the number of loops can be reduced. I can do it.
[0053]
In the present invention, since the initial value can be estimated almost optimally by the global band estimator 131 (STEP 1), the number of times of redoing from the inner loop can be greatly reduced as compared with the conventional one.
[0054]
【The invention's effect】
According to the audio encoding apparatus and method of the present invention, the initial value obtained by the all-band level estimating means for estimating the initial value of the parameter (global gain) in the first block is obtained when the loop converges. Since a value close to the obtained value is estimated, the number of inner loops in the second block can be greatly reduced.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of an audio encoding apparatus and method according to the present invention.
FIG. 2 is a block diagram showing an audio encoding apparatus and method according to an embodiment of the present invention.
FIG. 3 is a diagram showing an iteration loop flow of the audio encoding apparatus and method according to the present invention.
FIG. 4 is a diagram showing a flow of a conventional iteration loop.
[Explanation of symbols]
11 Time-frequency conversion unit (time-frequency conversion step)
12 Auditory model part (auditory model step)
13 Quantization encoding part (quantization encoding step)
130
132 Used bit number calculation judgment device (used bit number calculation judgment means, step)
133 All band level changer (all band level changing means, step)
134 Quantization distortion calculation judgment device (quantization distortion calculation judgment means, step)
135 Band level changer (band level changing means, step)
136
Claims (2)
前記量子化符号化は、予め前記周波数スペクトル信号を符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、前記所定のビット数とから、前記パラメータの初期値を推測して行うことを特徴とするオーディオ信号符号化方法。 The input audio signal is converted from the time axis to the frequency axis to output a frequency spectrum signal, and the frequency spectrum signal is quantized and encoded using parameters for controlling the code amount so as to be within a predetermined number of bits. In the audio signal encoding method for outputting the quantized and encoded signal as a bit stream,
In the quantization coding, the first bit number obtained by multiplying the number of bits when the quantized value obtained by previously coding the frequency spectrum signal is represented in binary number by the first coefficient. And the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number by a second coefficient, and the predetermined number of bits, An audio signal encoding method characterized in that an initial value is estimated.
前記量子化符号化手段は、
前記時間−周波数変換手段から出力された周波数スペクトル信号を予め符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、所定のビット数とから、前記周波数スペクトルを所定のビット数内に収まるように符号量を制御するためのパラメータの初期値を推測する全帯域レベル推測手段と、
前記全帯域レベル推測手段で推測された前記初期値に基づいて、前記周波数スペクトル信号を量子化符号化してビット信号として出力する量子化符号化変換手段と、
前記量子化符号化変換手段から出力された前記ビット信号を逆量子化して逆量子化信号を出力する逆量子化手段と、
前記符号量を制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力する全帯域レベル変更手段と、
前記量子化符号化変換手段から出力された前記ビット信号が前記所定のビット数内に収まっているかどうかを判断して、前記ビット信号が前記所定のビット数以内に収まっていない場合には、前記全帯域レベル変更手段に制御信号を出力し、前記ビット信号が前記所定のビット数以内に収まっている場合には、前記ビット信号を前記逆量子化手段に出力する使用ビット数算出判断手段と、
前記周波数スペクトル信号のバンドレベルを制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力するバンドレベル変更手段と、
前記逆量子化手段から出力された前記逆量子化信号が前記聴覚モデル手段で算出された前記許容雑音量以内に収まっているかどうかを判断し、前記ビット信号が前記許容雑音量以内に収まっている場合には、何も出力せず、前記ビット信号が前記許容雑音量以内に収まっていない場合には、前記バンドレベル変更手段に制御信号を出力する量子化歪算出判断手段と、
からなることを特徴とするオーディオ信号符号化装置。Time-frequency conversion means for converting the input audio signal from the time axis to the frequency axis to output a frequency spectrum signal, and calculating an allowable noise amount for controlling the quantization noise amount from the input audio signal Auditory model means, quantized encoding means for quantizing and encoding the frequency spectrum signal supplied with outputs of the time-frequency converting means and the auditory model means, and quantized coding by the quantized encoder means In an audio signal encoding device comprising: a bit stream converting means for converting a converted signal into a bit stream and outputting the bit stream;
The quantization encoding means includes:
A first value obtained by multiplying the number of bits when the quantized value obtained by pre- encoding the frequency spectrum signal output from the time-frequency conversion means is expressed in binary number by a first coefficient. From the number of bits, the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number and the second coefficient, and the predetermined number of bits, the frequency An all-band level estimating means for estimating an initial value of a parameter for controlling the amount of code so that the spectrum falls within a predetermined number of bits;
Based on the initial value estimated by the all-band level estimation means, quantization coding conversion means for quantizing and encoding the frequency spectrum signal as a bit signal;
Inverse quantization means for inversely quantizing the bit signal output from the quantization encoding conversion means and outputting an inverse quantization signal;
An all-band level changing unit that outputs a change control signal to the quantization encoding unit in order to change a parameter for controlling the code amount;
It is determined whether the bit signal output from the quantization coding conversion means is within the predetermined number of bits, and when the bit signal is not within the predetermined number of bits, A control signal is output to the entire band level changing means, and when the bit signal is within the predetermined number of bits, the used bit number calculation judging means for outputting the bit signal to the inverse quantization means,
Band level changing means for outputting a change control signal to the quantization coding means in order to change a parameter for controlling the band level of the frequency spectrum signal;
It is determined whether the inverse quantized signal output from the inverse quantizing means is within the allowable noise amount calculated by the auditory model means, and the bit signal is within the allowable noise amount. In this case, nothing is output, and when the bit signal is not within the allowable noise amount, a quantization distortion calculation determining unit that outputs a control signal to the band level changing unit,
An audio signal encoding device comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000204915A JP3630082B2 (en) | 2000-07-06 | 2000-07-06 | Audio signal encoding method and apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000204915A JP3630082B2 (en) | 2000-07-06 | 2000-07-06 | Audio signal encoding method and apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002026736A JP2002026736A (en) | 2002-01-25 |
| JP3630082B2 true JP3630082B2 (en) | 2005-03-16 |
Family
ID=18702095
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000204915A Expired - Lifetime JP3630082B2 (en) | 2000-07-06 | 2000-07-06 | Audio signal encoding method and apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3630082B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005004113A1 (en) | 2003-06-30 | 2005-01-13 | Fujitsu Limited | Audio encoding device |
| EP2002426B1 (en) | 2006-04-04 | 2009-09-02 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the mdct domain |
| JP4862136B2 (en) * | 2006-12-08 | 2012-01-25 | 株式会社Jvcケンウッド | Audio signal processing device |
-
2000
- 2000-07-06 JP JP2000204915A patent/JP3630082B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002026736A (en) | 2002-01-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8041563B2 (en) | Apparatus for coding a wideband audio signal and a method for coding a wideband audio signal | |
| KR100547113B1 (en) | Audio data encoding apparatus and method | |
| JP4212591B2 (en) | Audio encoding device | |
| CN101004914B (en) | Audio coding apparatus and audio decoding method | |
| CN101836253A (en) | Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing | |
| US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
| JP3630082B2 (en) | Audio signal encoding method and apparatus | |
| JP5379871B2 (en) | Quantization for audio coding | |
| JP2003233397A (en) | Device, program, and data transmission device for audio encoding | |
| JP3616307B2 (en) | Voice / musical sound signal encoding method and recording medium storing program for executing the method | |
| JP4409733B2 (en) | Encoding apparatus, encoding method, and recording medium therefor | |
| JP3580485B2 (en) | Audio signal encoding method | |
| CN101192410A (en) | A method and device for adjusting quantization quality in codec | |
| JP2000347679A (en) | Audio encoding device and audio encoding method | |
| JP4116628B2 (en) | Audio encoding method and audio encoding apparatus | |
| JP3349858B2 (en) | Audio coding device | |
| JP4822816B2 (en) | Audio signal encoding apparatus and method | |
| JP5010197B2 (en) | Speech encoding device | |
| JP2003271199A (en) | Audio signal encoding method and encoding device | |
| JP4516345B2 (en) | Speech coding information processing apparatus and speech coding information processing program | |
| JP2002311993A (en) | Audio coding equipment | |
| JP2002023798A (en) | Speech encoding method | |
| CN110534119A (en) | A kind of audio encoding and decoding method based on human auditory system dimensions in frequency signal decomposition | |
| JP2001154695A (en) | Audio encoding device and its method | |
| JP2001154697A (en) | Audio signal encoding method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040611 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040809 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040903 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041101 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041124 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041207 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 3630082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071224 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081224 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091224 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101224 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111224 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111224 Year of fee payment: 7 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111224 Year of fee payment: 7 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121224 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121224 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131224 Year of fee payment: 9 |
|
| EXPY | Cancellation because of completion of term |