Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3630082B2 - Audio signal encoding method and apparatus - Google Patents
[go: Go Back, main page]

JP3630082B2 - Audio signal encoding method and apparatus - Google Patents

Audio signal encoding method and apparatus Download PDF

Info

Publication number
JP3630082B2
JP3630082B2 JP2000204915A JP2000204915A JP3630082B2 JP 3630082 B2 JP3630082 B2 JP 3630082B2 JP 2000204915 A JP2000204915 A JP 2000204915A JP 2000204915 A JP2000204915 A JP 2000204915A JP 3630082 B2 JP3630082 B2 JP 3630082B2
Authority
JP
Japan
Prior art keywords
bits
signal
quantization
bit
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000204915A
Other languages
Japanese (ja)
Other versions
JP2002026736A (en
Inventor
定浩 安良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2000204915A priority Critical patent/JP3630082B2/en
Publication of JP2002026736A publication Critical patent/JP2002026736A/en
Application granted granted Critical
Publication of JP3630082B2 publication Critical patent/JP3630082B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、オーディオ信号を周波数領域に変換した後に符号化を行なうオーディオ信号符号化方法に係り、特に装置の許容歪み、使用ビット数が許容範囲の適正値に入れるまでの算出推定ループの回数を削減可能なオーディオ信号符号化装置に関する。
【0002】
【従来の技術】
従来より、オーディオ信号の符号化方法には、例えば適応スペクトル聴感制御エントロピー符号化法(ASPEC, Adaptive Spectral Perceptual Entropy Coding)、MPEG1オーディオ・レイヤ3、MPEG2オーディオAAC(Advanced Audio Coding)がある。
これらは、非線形量子化とハフマン符号化のために2重ループを構成して、量子化歪みと、符号量を制御している。
【0003】
それぞれのループは、アウターループ、インナーループと呼ばれており、アウターループでは、量子化歪みが、聴覚心理モデルから得られた許容ノイズレベル以下になるように制御し、インナーループでは、量子化を行ない所定のビット数の範囲内に収まるように制御を行なう。
【0004】
図4には、従来の量子化符号化部におけるイタレーションループ処理を示す。
従来の処理では、所定ビット数に収める処理と量子化歪みを所定量に収める処理とに対して、それぞれループを作ることで実現している。
所定ビット数とは、設定されたビットレートより求められる1オーディオフレームにおいて使用可能なビット数を意味する。
【0005】
まず、インナーループでは、量子化(STEP11A)とハフマン符号化(STEP12A)により求められる使用ビット数が所定ビット数に収まっているかの判断を行ない(STEP13A)、収まっていない場合には、周波数スペクトルを全ての帯域に対して一様に可変する変数(global gain)を調整することで、量子化器のステップサイズに相当するglobal gainを調整する(STEP14A)ことにより、所定のビット数に納める。
【0006】
インナーループを実行するために必要なglobal gainの初期値は初期化部で求められる(STEP1A)。
初期化部では、周波数スペクトル中の最大値を量子化式により量子化した際に、量子化値がハフマン符号化を行なうための制限値を超えないようなglobal gainを求め、これを初期値とする。
この初期値は、周波数スペクトルの最大値を基準に求めるため、量子化値全体が小さい値となる。
そのため、所定のビット数に対してビットが余る傾向になる。
【0007】
つぎに、アウターループでは、インナーループで求められた量子化結果を元に逆量子化を行ない、周波数スペクトルのバンド単位で量子化歪みを求める(STEP3A)。
【0008】
求めた量子化歪みが聴覚モデル部の信号対マスキング率SMR(Signal−to−Mask−ratio)から求めた許容歪み内に収まっているかを判断し(STEP4A)、収まっていない場合、そのバンドのscalefactor(sfb)を調整する(STEP5A)。
量子化歪みが収まっていないバンドが1バンド以上存在する場合には、再びインナーループからやり直す。
【0009】
収まっていないバンドが残っている場合は、量子化歪みが収まるまでscalefactor(sfb)を何度も調整し(STEP5A)、インナーループを繰り返す。
よって、これまでのやり方では収束するまで時間が掛かってしまう。
【0010】
【発明が解決しようとする課題】
前記のインナー、アウターの2重ループ処理では、外側に存在するアウターループが満足されない場合に、再び内側にあるインナーループを呼び出さねばならないため、収束時間の確定が難しい。
この収束時間を速めること、即ち、ループの回数を削減するには、ループを開始する初期値の決定が重要となる。
そこで本発明は、ループの初期値の決定手段を有する符号化装置及びその方法を提供することで、ループ回数を削減することを目的とする。
【0011】
【課題を解決するための手段】
上記目的を達成するための手段として、前記インナーループ内で用いるパラメータの初期値を推測するブロックを用意して、周波数スペクトルを別の符号化方法で符号化を行ない算出した使用ビット数と所定ビット数を用いてパラメータの初期値を推測し、求められた初期値を用いてインナーループ処理を行なう。
【0012】
本発明の第1の発明は、入力されたオーディオ信号を時間軸から周波数軸へ変換して周波数スペクトル信号を出力し、前記周波数スペクトル信号を所定のビット数に収まるように符号量を制御するためのパラメータを用いて量子化符号化し、前記量子化符号化された信号をビットストリームとして出力するオーディオ信号符号化方法において、
前記量子化符号化は、予め前記周波数スペクトル信号を符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、前記所定のビット数とから、前記パラメータの初期値を推測して行うことを特徴とするオーディオ信号符号化方法を提供する。
第2の発明は、入力されたオーディオ信号を時間軸から周波数軸へ変換して周波数スペクトル信号を出力する時間−周波数変換手段と、前記入力された前記オーディオ信号から量子化雑音量を制御するための許容雑音量を算出する聴覚モデル手段と、前記時間−周波数変換手段と聴覚モデル手段の各出力が供給され前記周波数スペクトル信号を量子化符号化する量子化符号化手段と、前記量子化符号化手段で量子化符号化された信号をビットストリームに変換して出力するビットストリーム化手段とを備えたオーディオ信号符号化装置において、
前記量子化符号化手段は、
前記時間−周波数変換手段から出力された周波数スペクトル信号を予め符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、所定のビット数とから、前記周波数スペクトルを所定のビット数内に収まるように符号量を制御するためのパラメータの初期値を推測する全帯域レベル推測手段と、前記全帯域レベル推測手段で推測された前記初期値に基づいて、前記周波数スペクトル信号を量子化符号化してビット信号として出力する量子化符号化変換手段と、前記量子化符号化変換手段から出力された前記ビット信号を逆量子化して逆量子化信号を出力する逆量子化手段と、前記符号量を制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力する全帯域レベル変更手段と、前記量子化符号化変換手段から出力された前記ビット信号が前記所定のビット数内に収まっているかどうかを判断して、前記ビット信号が前記所定のビット数以内に収まっていない場合には、前記全帯域レベル変更手段に制御信号を出力し、前記ビット信号が前記所定のビット数以内に収まっている場合には、前記ビット信号を前記逆量子化手段に出力する使用ビット数算出判断手段と、前記周波数スペクトル信号のバンドレベルを制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力するバンドレベル変更手段と、前記逆量子化手段から出力された前記逆量子化信号が前記聴覚モデル手段で算出された前記許容雑音量以内に収まっているかどうかを判断し、前記ビット信号が前記許容雑音量以内に収まっている場合には、何も出力せず、前記ビット信号が前記許容雑音量以内に収まっていない場合には、前記バンドレベル変更手段に制御信号を出力する量子化歪算出判断手段と、からなることを特徴とするオーディオ信号符号化装置を提供する。
【0013】
【発明の実施の形態】
本発明のオーディオ符号化装置及びその方法の一実施例について、図と共に以下に説明する。
図1は本発明のオーディオ信号符号化装置の一実施例のブロック構成図を示し、図2には本発明のオーディオ信号符号化装置の量子化符号化部の一実施例のブロック構成図を示す。
【0014】
図1に示される本発明のオーディオ信号符号化装置の一実施例は、時間−周波数変換部11、聴覚モデル部12、量子化符号化部13、及びビットストリーム化部14より構成されている。
【0015】
図2に示されている本発明のオーディオ符号化装置の量子化符号化部13の一実施例は、量子化、符号化器130、全帯域レベル (global gain)推測器131、使用ビット数算出判断器132、全帯域レベル (global gain) 変更器133、量子化歪算出判断器134、バンドレベル(scalefactor)変更器135、及び逆量子化器136より構成されている。
【0016】
まず、図1に示される、入力されたPCM信号は、時間−周波数変換部11においてFFTやMDCT等を用いて、時間軸から周波数軸への変換が行なわれ、その周波数スペクトルが量子化符号化部13に供給される。
【0017】
聴覚モデル部12では、入力された信号に対して聴覚心理に基づいたマスキングレベルの計算により求められた信号対マスキング率SMR(Signal to Mask Ratio)が量子化符号化部13に供給される。
【0018】
量子化符号化部13においては、各周波数に対するレベルを所定のビット数でかつ、前記SMRより求められた許容歪み内に量子化歪みが収まるように量子化、符号化を行ない、量子化、符号化された信号をビットストリーム化部14に出力する。
ビットストリーム化部14では、量子化符号化部13より供給された信号をビットストリームとして出力する。
【0019】
下記の(数1)及び(数2)には、量子化符号化部13において、量子化、及び逆量子化で使用される各式の一実施例を示した。
【0020】
【数1】

Figure 0003630082
【0021】
【数2】
Figure 0003630082
【0022】
前記(数1)の量子化式において、mdct line(k)は、時間−周波数変換部11より出力される周波数スペクトルを示しており、global gainは、周波数スペクトル全帯域のレベルを全帯域レベル変更器133により変更するものである。
【0023】
また、scalefactor(sfb)は、バンド単位で周波数スペクトルのレベルをバンドレベル変更器135により変更するものである。
Global gainは、量子化器のステップサイズに相当し、scalefactor(sfb)は各スケールファクタバンドの増幅度を決定する。
【0024】
インナーループでは、量子化とハフマン符号化により求められる使用ビット数が所定ビット数に収まっているかどうかの判断を行ない、収まっていない場合には、周波数スペクトルを全ての帯域に対して一様に可変する全帯域レベル(global gain)変更器133の変数(global gain)を調整することで、所定のビット数に納めるようにする。
【0025】
そこで、インナーループで求められた量子化結果を元に逆量子化を行ない、バンド単位で量子化歪みを求める。
求めた量子化歪みが聴覚モデル部12の信号対マスキング率SMRから求めた許容歪み内に収まっているかどうかを判断し、収まっていない場合、そのバンドのscalefactor (sfb)をバンドレベル(scalefactor)変更器135により調整する。
量子化歪みが収まっていないバンドが1バンド以上存在する場合には、再びインナーループからやり直す。
【0026】
図3に本発明のオーディオ信号符号化装置及びその方法におけるイタレーションループを示す。
本発明のイタレーションループは、先に示した図4に対して、その先頭に、所定ビット数に収まるglobal gain値を推測するブロックである、全帯域レベル(global gain)推測器131を追加した形のものになる。
【0027】
これは、図4の従来の初期化部におけるglobal gain算出方法を変更して、最初から最終結果に近いglobal gain値を推測することが可能な算出方法としたものである。
【0028】
このブロックにおいて使用される、global gain算出方法について、以下に説明する。
ここで求めたglobal gain値を初期値として(STEP1)、つぎのインナーループ(STEP2)を実行する。
【0029】
この(STEP1)の、前記所定ビット数に収まるglobal gain値を推測する全帯域レベル推測器131において使用される、別の符号化法を用いて使用ビット数を求め、global gain値を算出推測する一実施例について、以下に示す。
【0030】
量子化は前記(数1)より変形すると、下記(数3)となる。
【0031】
【数3】
Figure 0003630082
【0032】
量子化された値が、何ビットで表現されるかを求めると、下記(数4)のnum−bitのように示される。
【0033】
【数4】
Figure 0003630082
【0034】
ところで、前記num−bitは入力信号が16ビットPCMである場合、絶対値を取っているため、正負の符号を取り除いた15ビットまで取り得る。
【0035】
つぎに、例えば、それをビットストリームのように、ビット単位の羅列をした場合、サンプルx1,x2が何ビットで表現されているかが情報として与えられていないと、取り出せなくなる。
そのため、取り出すためのサイド情報として0〜15まで表現出来るように4ビットを別に使用する(補助情報としての第2のビット数 4×1024)。
【0036】
また、初期値を求めるので、scalefactor(sfb) = all zero とすると、前記(数4)は、下記(数5)のようになる。
【0037】
【数5】
Figure 0003630082
【0038】
さらに、前式をサンプル数1024個分求めると、下記の(数6)のようになる。
【0039】
【数6】
Figure 0003630082
【0040】
このtotal num bitが前記所定ビット数(average bit)であるような、global gainを下記(数7)より求める。
【0041】
【数7】
Figure 0003630082
【0042】
よって、前記(数7)を整理すると下記(数8)が得られる。
【0043】
【数8】
Figure 0003630082
【0044】
この(数8)に従って、前記時間−周波数変換部11より供給される周波数スペクトルを量子化して得られる量子化値に対して、全帯域レベル(global gain)推測器131は、2の対数を取ることで求められる、量子化値をビット表現するのに必要な第1のビット数((1/192)×(3/4)Σ(log2(x))と、そのビット表現が何ビット幅であるかを示す補助情報としての第2のビット数(1/192×4096)と、前記所定ビット数(1/192)×(average bit)とから、前記全帯域レベル変更手段133の初期値(global gain)を推測する。
これによって、ループが収束した時に得られる値に近い値が推測される。
【0045】
第1ブロックのインナーループでは、量子化とハフマン符号化により求められる使用ビット数(STEP12)が所定ビット数に収まっているかの判断を、使用ビット数算出判断器132により行なう(STEP13)。
【0046】
収まっていない場合には、周波数スペクトルを全ての帯域に対して一様に可変する全帯域レベル変更器133の変数(global gain)を調整する(STEP14)ことにより、所定のビット数に納めるようにする。
【0047】
第2ブロックのアウターループでは、インナーループ(STEP2)で求められた量子化結果を元に逆量子化を行ない、バンド単位で量子化歪みを求める(STEP3)。
【0048】
求めた量子化歪みが聴覚モデル部12の信号対マスキング率SMRから求めた許容歪み内に収まっているかどうかを量子化歪算出判断器134により判断し、収まっていない場合(STEP4)には、そのバンドのscalefactor(sfb)をバンドレベル(scalefactor)変更器135により調整を行なう(STEP5)。
【0049】
量子化歪みが収まっていないバンドが1バンド以上存在する場合(STEP4)には、再びインナーループ(STEP2)からやり直す。
【0050】
インナーループを実行するために必要なglobal gainの初期値は従来のものでは初期化部で求められる。
この初期化部では、周波数スペクトル中の最大値を量子化式により量子化した際に、量子化値がハフマン符号化を行なうための制限値を超えないようなglobal gainを求め、これを初期値としている。
【0051】
よって、この初期値は、周波数スペクトルの最大値を基準に求めるため、量子化値全体が小さい値となる。
【0052】
そのため、所定のビット数に対してビットが余る傾向になるが、本発明のものは所定のビット数が的確に推定されるので、大幅にループの改善がなされ、ループの回数を減少させることが出来る。
【0053】
本発明は全帯域レベル(global gain)推測器131により初期値の推定を最適に近く出来る(STEP1)ことにより、インナーループからやり直す回数は従来のものと比較すると大幅に削減させることが出来る。
【0054】
【発明の効果】
本発明のオーディオ符号化装置及びその方法によれば、前記第1のブロック内のパラメータ(global gain)の初期値を推測する全帯域レベル推測手段により求められた初期値は、ループが収束した時に得られる値に近い値が推測されるため、第2のブロックにおけるインナーループの回数を大幅に削減させることが出来る。
【図面の簡単な説明】
【図1】本発明のオーディオ符号化装置及びその方法の一実施例のブロック構成を示した図である。
【図2】本発明のオーディオ符号化装置及びその方法の一実施例のブロック構成を示した図である。
【図3】本発明のオーディオ符号化装置及びその方法のイタレーションループのフローを示した図である。
【図4】従来のイタレーションループのフローを示した図である。
【符号の説明】
11 時間−周波数変換部(時間−周波数変換ステップ)
12 聴覚モデル部(聴覚モデルステップ)
13 量子化符号化部(量子化符号化ステップ)
130 量子化符号化器
131 全帯域レベル(global gain)推測器(全帯域レベル推測手段、ステップ)
132 使用ビット数算出判断器(使用ビット数算出判断手段、ステップ)
133 全帯域レベル (global gain) 変更器(全帯域レベル変更手段、ステップ)
134 量子化歪算出判断器(量子化歪算出判断手段、ステップ)
135 バンドレベル(scalefactor)変更器(バンドレベル変更手段、ステップ)
136 逆量子化器
14 ビットストリーム化部(ビットストリーム化ステップ)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal encoding method that performs encoding after converting an audio signal into a frequency domain, and in particular, calculates the number of calculation estimation loops until the allowable distortion of the apparatus and the number of bits used fall within an allowable range. The present invention relates to a reducible audio signal encoding apparatus.
[0002]
[Prior art]
Conventionally, audio signal encoding methods include, for example, adaptive spectrum auditory control entropy encoding (ASPEC, Adaptive Perceptual Entropy Coding), MPEG1 audio layer 3, and MPEG2 audio AAC (Advanced Audio Coding).
In these, a double loop is formed for nonlinear quantization and Huffman coding, and quantization distortion and code amount are controlled.
[0003]
Each loop is called an outer loop and an inner loop. In the outer loop, the quantization distortion is controlled to be less than the allowable noise level obtained from the psychoacoustic model. Control is performed so as to be within a predetermined number of bits.
[0004]
FIG. 4 shows an iteration loop process in the conventional quantization coding unit.
The conventional processing is realized by creating a loop for each of the processing for storing a predetermined number of bits and the processing for storing the quantization distortion by a predetermined amount.
The predetermined number of bits means the number of bits that can be used in one audio frame obtained from a set bit rate.
[0005]
First, in the inner loop, it is determined whether the number of used bits obtained by quantization (STEP 11A) and Huffman coding (STEP 12A) is within the predetermined number of bits (STEP 13A). The global gain corresponding to the step size of the quantizer is adjusted (STEP 14A) by adjusting a variable (global gain) that is uniformly variable for all bands, so that the predetermined number of bits is obtained.
[0006]
The initial value of global gain necessary for executing the inner loop is obtained by the initialization unit (STEP 1A).
The initialization unit obtains a global gain such that when the maximum value in the frequency spectrum is quantized by the quantization formula, the quantized value does not exceed the limit value for performing the Huffman coding, this is determined as the initial value. To do.
Since this initial value is obtained based on the maximum value of the frequency spectrum, the entire quantized value is a small value.
For this reason, the number of bits tends to remain with respect to a predetermined number of bits.
[0007]
Next, in the outer loop, inverse quantization is performed based on the quantization result obtained in the inner loop, and quantization distortion is obtained in band units of the frequency spectrum (STEP 3A).
[0008]
It is determined whether the obtained quantization distortion is within the allowable distortion obtained from the signal-to-masking ratio SMR (Signal-to-Mask-ratio) of the auditory model part (STEP 4A). If not, the scale factor of the band is determined. (Sfb) is adjusted (STEP 5A).
If there is one or more bands in which the quantization distortion is not settled, the process starts again from the inner loop.
[0009]
If there is a band that does not fit, the scale factor (sfb) is adjusted many times until the quantization distortion is settled (STEP 5A), and the inner loop is repeated.
Therefore, in the conventional method, it takes time to converge.
[0010]
[Problems to be solved by the invention]
In the inner and outer double loop processing, when the outer loop existing outside is not satisfied, it is difficult to determine the convergence time because the inner loop inside must be called again.
In order to speed up the convergence time, that is, to reduce the number of loops, it is important to determine an initial value for starting the loop.
Therefore, an object of the present invention is to reduce the number of loops by providing an encoding apparatus having a means for determining an initial value of a loop and a method therefor.
[0011]
[Means for Solving the Problems]
As means for achieving the above object, a block for estimating an initial value of a parameter used in the inner loop is prepared, and the number of used bits and a predetermined bit calculated by encoding the frequency spectrum by another encoding method are prepared. The initial value of the parameter is estimated using the number, and the inner loop processing is performed using the obtained initial value.
[0012]
According to a first aspect of the present invention, an input audio signal is converted from a time axis to a frequency axis, a frequency spectrum signal is output, and a code amount is controlled so that the frequency spectrum signal falls within a predetermined number of bits. In an audio signal encoding method for quantizing and encoding using the parameters, and outputting the quantized and encoded signal as a bit stream,
In the quantization coding, the first bit number obtained by multiplying the number of bits when the quantized value obtained by previously coding the frequency spectrum signal is represented in binary number by the first coefficient. And the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number by a second coefficient, and the predetermined number of bits, Provided is an audio signal encoding method characterized by estimating an initial value.
According to a second aspect of the present invention, there is provided time-frequency conversion means for converting an input audio signal from a time axis to a frequency axis to output a frequency spectrum signal, and for controlling a quantization noise amount from the input audio signal. Auditory model means for calculating the permissible noise amount, quantization encoding means for quantizing and encoding the frequency spectrum signal supplied with the outputs of the time-frequency conversion means and the auditory model means, and the quantization coding An audio signal encoding device comprising: a bit stream converting means for converting a signal quantized and encoded by the means into a bit stream and outputting the bit stream;
The quantization encoding means includes:
A first value obtained by multiplying the number of bits when the quantized value obtained by previously encoding the frequency spectrum signal output from the time-frequency conversion means is expressed in binary number by a first coefficient. From the number of bits, the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number and the second coefficient, and the predetermined number of bits, the frequency Based on the whole band level estimation means for estimating the initial value of the parameter for controlling the code amount so that the spectrum is within a predetermined number of bits, and the initial value estimated by the whole band level estimation means, Quantization coding conversion means for quantizing and outputting a frequency spectrum signal as a bit signal, and dequantizing the bit signal output from the quantization coding conversion means to output an inverse quantization signal Inverse quantization means, all-band level changing means for outputting a change control signal to the quantization coding means, and the quantization coding conversion means for changing a parameter for controlling the code amount It is determined whether or not the output bit signal is within the predetermined number of bits, and if the bit signal is not within the predetermined number of bits, a control signal is sent to the entire band level changing means. When the bit signal is within the predetermined number of bits, the used bit number calculation judging means for outputting the bit signal to the inverse quantization means, and the band level of the frequency spectrum signal In order to change a parameter for control, a band level changing unit that outputs a change control signal to the quantization encoding unit, and an output from the inverse quantization unit. It is determined whether the dequantized signal is within the allowable noise amount calculated by the auditory model means, and if the bit signal is within the allowable noise amount, nothing is output. An audio signal encoding device comprising: a quantization distortion calculation judging means for outputting a control signal to the band level changing means when the bit signal does not fall within the allowable noise amount. I will provide a.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of an audio encoding apparatus and method according to the present invention will be described below with reference to the drawings.
FIG. 1 shows a block configuration diagram of an embodiment of an audio signal encoding device of the present invention, and FIG. 2 shows a block configuration diagram of an embodiment of a quantization encoding unit of the audio signal encoding device of the present invention. .
[0014]
An embodiment of the audio signal encoding apparatus of the present invention shown in FIG. 1 includes a time-frequency conversion unit 11, an auditory model unit 12, a quantization encoding unit 13, and a bitstreaming unit 14.
[0015]
An embodiment of the quantization encoding unit 13 of the audio encoding apparatus of the present invention shown in FIG. 2 includes a quantization and encoding unit 130, a global band level estimator 131, and a calculation of the number of used bits. It comprises a decision unit 132, a global band level changer 133, a quantization distortion calculation decision unit 134, a band level changer 135, and an inverse quantizer 136.
[0016]
First, the input PCM signal shown in FIG. 1 is converted from the time axis to the frequency axis using FFT, MDCT, or the like in the time-frequency conversion unit 11, and the frequency spectrum is quantized and encoded. Supplied to the unit 13.
[0017]
In the auditory model unit 12, a signal-to-masking ratio SMR (Signal to Mask Ratio) obtained by calculating a masking level based on auditory psychology for the input signal is supplied to the quantization encoding unit 13.
[0018]
The quantization encoding unit 13 performs quantization and encoding so that the level for each frequency is a predetermined number of bits and the quantization distortion falls within the allowable distortion obtained from the SMR. The converted signal is output to the bitstreaming unit 14.
The bit stream generator 14 outputs the signal supplied from the quantization encoder 13 as a bit stream.
[0019]
In the following (Equation 1) and (Equation 2), an example of each equation used in quantization and inverse quantization in the quantization encoding unit 13 is shown.
[0020]
[Expression 1]
Figure 0003630082
[0021]
[Expression 2]
Figure 0003630082
[0022]
In the quantization formula of (Equation 1), mdct line (k) indicates the frequency spectrum output from the time-frequency converter 11, and global gain changes the level of the entire frequency spectrum band. It is changed by the device 133.
[0023]
The scale factor (sfb) is used to change the level of the frequency spectrum by the band level changing unit 135 in units of bands.
Global gain corresponds to the step size of the quantizer, and scale factor (sfb) determines the amplification factor of each scale factor band.
[0024]
In the inner loop, it is determined whether the number of used bits obtained by quantization and Huffman coding is within a predetermined number of bits, and if not, the frequency spectrum is uniformly changed for all bands. By adjusting a variable (global gain) of the global band level changer 133, a predetermined number of bits is set.
[0025]
Therefore, inverse quantization is performed based on the quantization result obtained in the inner loop, and quantization distortion is obtained in band units.
It is determined whether or not the obtained quantization distortion is within the allowable distortion obtained from the signal-to-masking rate SMR of the auditory model unit 12, and if not, the scale factor (sfb) of the band is changed to the band level (scale factor). Adjustment is performed by the device 135.
If there is one or more bands in which the quantization distortion is not settled, the process starts again from the inner loop.
[0026]
FIG. 3 shows an iteration loop in the audio signal encoding apparatus and method according to the present invention.
The iteration loop of the present invention adds a global gain estimator 131, which is a block for estimating a global gain value falling within a predetermined number of bits, to the head of FIG. 4 shown above. It will be in shape.
[0027]
This is a calculation method capable of estimating a global gain value close to the final result from the beginning by changing the global gain calculation method in the conventional initialization unit of FIG.
[0028]
The global gain calculation method used in this block will be described below.
The global gain value obtained here is set as the initial value (STEP 1), and the next inner loop (STEP 2) is executed.
[0029]
In this (STEP 1), the number of used bits is obtained using another encoding method used in the all-band level estimator 131 for estimating the global gain value falling within the predetermined number of bits, and the global gain value is calculated and estimated. One embodiment is shown below.
[0030]
When the quantization is modified from the above (Equation 1), the following (Equation 3) is obtained.
[0031]
[Equation 3]
Figure 0003630082
[0032]
The number of bits in which the quantized value is expressed is expressed as num-bit in the following (Equation 4).
[0033]
[Expression 4]
Figure 0003630082
[0034]
By the way, when the input signal is 16-bit PCM, the num-bit takes an absolute value, and can take up to 15 bits from which the positive and negative signs are removed.
[0035]
Next, for example, when it is arranged in bit units like a bit stream, it cannot be extracted unless the number of bits represented by the samples x1 and x2 is given as information.
Therefore, 4 bits are separately used so that 0 to 15 can be expressed as side information to be extracted (second bit number 4 × 1024 as auxiliary information).
[0036]
Further, since the initial value is obtained, if scalefactor (sfb) = all zero, the above (Equation 4) becomes the following (Equation 5).
[0037]
[Equation 5]
Figure 0003630082
[0038]
Further, when the previous equation is obtained for 1024 samples, the following (Equation 6) is obtained.
[0039]
[Formula 6]
Figure 0003630082
[0040]
The global gain such that the total num bit is the predetermined number of bits (average bit) is obtained from the following (Equation 7).
[0041]
[Expression 7]
Figure 0003630082
[0042]
Therefore, rearranging (Equation 7) yields (Equation 8) below.
[0043]
[Equation 8]
Figure 0003630082
[0044]
According to this (Equation 8), the global band estimator 131 takes the logarithm of 2 with respect to the quantized value obtained by quantizing the frequency spectrum supplied from the time-frequency converter 11. The first number of bits ((1/192) × (3/4) Σ (log2 (x)) required to express the quantized value in bits, and how many bits the bit expression is From the second bit number (1/192 × 4096) as auxiliary information indicating whether or not, and the predetermined bit number (1/192) × (average bit), an initial value of the all band level changing means 133 ( infer global gain).
As a result, a value close to the value obtained when the loop converges is estimated.
[0045]
In the inner loop of the first block, the used bit number calculation determination unit 132 determines whether the number of used bits (STEP 12) obtained by quantization and Huffman coding is within a predetermined number of bits (STEP 13).
[0046]
If not, the variable (global gain) of the entire band level changer 133 that uniformly varies the frequency spectrum for all the bands is adjusted (STEP 14), so that it can be accommodated in a predetermined number of bits. To do.
[0047]
In the outer loop of the second block, inverse quantization is performed based on the quantization result obtained in the inner loop (STEP 2), and quantization distortion is obtained in band units (STEP 3).
[0048]
It is judged by the quantized distortion calculation judging unit 134 whether or not the obtained quantized distortion falls within the allowable distortion obtained from the signal-to-masking rate SMR of the auditory model unit 12, and if not (STEP 4), The band scale factor (sfb) is adjusted by the band level changing unit 135 (STEP 5).
[0049]
When there is one or more bands in which the quantization distortion is not settled (STEP 4), the process starts again from the inner loop (STEP 2).
[0050]
The initial value of the global gain necessary for executing the inner loop is obtained by the initialization unit in the conventional one.
In this initialization unit, when the maximum value in the frequency spectrum is quantized by the quantization formula, a global gain is obtained such that the quantized value does not exceed the limit value for performing the Huffman coding, and this initial value is obtained. It is said.
[0051]
Therefore, since the initial value is obtained based on the maximum value of the frequency spectrum, the entire quantized value is a small value.
[0052]
For this reason, the number of bits tends to remain with respect to a predetermined number of bits. However, according to the present invention, since the predetermined number of bits is accurately estimated, the loop can be greatly improved and the number of loops can be reduced. I can do it.
[0053]
In the present invention, since the initial value can be estimated almost optimally by the global band estimator 131 (STEP 1), the number of times of redoing from the inner loop can be greatly reduced as compared with the conventional one.
[0054]
【The invention's effect】
According to the audio encoding apparatus and method of the present invention, the initial value obtained by the all-band level estimating means for estimating the initial value of the parameter (global gain) in the first block is obtained when the loop converges. Since a value close to the obtained value is estimated, the number of inner loops in the second block can be greatly reduced.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of an audio encoding apparatus and method according to the present invention.
FIG. 2 is a block diagram showing an audio encoding apparatus and method according to an embodiment of the present invention.
FIG. 3 is a diagram showing an iteration loop flow of the audio encoding apparatus and method according to the present invention.
FIG. 4 is a diagram showing a flow of a conventional iteration loop.
[Explanation of symbols]
11 Time-frequency conversion unit (time-frequency conversion step)
12 Auditory model part (auditory model step)
13 Quantization encoding part (quantization encoding step)
130 Quantization Encoder 131 Global Band Estimator (Full Band Level Estimator, Step)
132 Used bit number calculation judgment device (used bit number calculation judgment means, step)
133 All band level changer (all band level changing means, step)
134 Quantization distortion calculation judgment device (quantization distortion calculation judgment means, step)
135 Band level changer (band level changing means, step)
136 Inverse Quantizer 14 Bit Streaming Unit (Bit Streaming Step)

Claims (2)

入力されたオーディオ信号を時間軸から周波数軸へ変換して周波数スペクトル信号を出力し、前記周波数スペクトル信号を所定のビット数に収まるように符号量を制御するためのパラメータを用いて量子化符号化し、前記量子化符号化された信号をビットストリームとして出力するオーディオ信号符号化方法において、
前記量子化符号化は、予め前記周波数スペクトル信号を符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、前記所定のビット数とから、前記パラメータの初期値を推測して行うことを特徴とするオーディオ信号符号化方法。
The input audio signal is converted from the time axis to the frequency axis to output a frequency spectrum signal, and the frequency spectrum signal is quantized and encoded using parameters for controlling the code amount so as to be within a predetermined number of bits. In the audio signal encoding method for outputting the quantized and encoded signal as a bit stream,
In the quantization coding, the first bit number obtained by multiplying the number of bits when the quantized value obtained by previously coding the frequency spectrum signal is represented in binary number by the first coefficient. And the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number by a second coefficient, and the predetermined number of bits, An audio signal encoding method characterized in that an initial value is estimated.
入力されたオーディオ信号を時間軸から周波数軸へ変換して周波数スペクトル信号を出力する時間−周波数変換手段と、前記入力された前記オーディオ信号から量子化雑音量を制御するための許容雑音量を算出する聴覚モデル手段と、前記時間−周波数変換手段と聴覚モデル手段の各出力が供給され前記周波数スペクトル信号を量子化符号化する量子化符号化手段と、前記量子化符号化手段で量子化符号化された信号をビットストリームに変換して出力するビットストリーム化手段とを備えたオーディオ信号符号化装置において、
前記量子化符号化手段は、
前記時間−周波数変換手段から出力された周波数スペクトル信号を予め符号化して得られた量子化値を2進数で表わしたときのビットの個数に第1の係数を乗算して得られた第1のビット数と、前記ビットの個数を2進数で表わすために予め用意されたビットの個数に第2の係数を乗算して得られた第2のビット数と、所定のビット数とから、前記周波数スペクトルを所定のビット数内に収まるように符号量を制御するためのパラメータの初期値を推測する全帯域レベル推測手段と、
前記全帯域レベル推測手段で推測された前記初期値に基づいて、前記周波数スペクトル信号を量子化符号化してビット信号として出力する量子化符号化変換手段と、
前記量子化符号化変換手段から出力された前記ビット信号を逆量子化して逆量子化信号を出力する逆量子化手段と、
前記符号量を制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力する全帯域レベル変更手段と、
前記量子化符号化変換手段から出力された前記ビット信号が前記所定のビット数内に収まっているかどうかを判断して、前記ビット信号が前記所定のビット数以内に収まっていない場合には、前記全帯域レベル変更手段に制御信号を出力し、前記ビット信号が前記所定のビット数以内に収まっている場合には、前記ビット信号を前記逆量子化手段に出力する使用ビット数算出判断手段と、
前記周波数スペクトル信号のバンドレベルを制御するためのパラメータを変更するために、前記量子化符号化手段に変更制御信号を出力するバンドレベル変更手段と、
前記逆量子化手段から出力された前記逆量子化信号が前記聴覚モデル手段で算出された前記許容雑音量以内に収まっているかどうかを判断し、前記ビット信号が前記許容雑音量以内に収まっている場合には、何も出力せず、前記ビット信号が前記許容雑音量以内に収まっていない場合には、前記バンドレベル変更手段に制御信号を出力する量子化歪算出判断手段と、
からなることを特徴とするオーディオ信号符号化装置。
Time-frequency conversion means for converting the input audio signal from the time axis to the frequency axis to output a frequency spectrum signal, and calculating an allowable noise amount for controlling the quantization noise amount from the input audio signal Auditory model means, quantized encoding means for quantizing and encoding the frequency spectrum signal supplied with outputs of the time-frequency converting means and the auditory model means, and quantized coding by the quantized encoder means In an audio signal encoding device comprising: a bit stream converting means for converting a converted signal into a bit stream and outputting the bit stream;
The quantization encoding means includes:
A first value obtained by multiplying the number of bits when the quantized value obtained by pre- encoding the frequency spectrum signal output from the time-frequency conversion means is expressed in binary number by a first coefficient. From the number of bits, the second number of bits obtained by multiplying the number of bits prepared in advance to represent the number of bits in binary number and the second coefficient, and the predetermined number of bits, the frequency An all-band level estimating means for estimating an initial value of a parameter for controlling the amount of code so that the spectrum falls within a predetermined number of bits;
Based on the initial value estimated by the all-band level estimation means, quantization coding conversion means for quantizing and encoding the frequency spectrum signal as a bit signal;
Inverse quantization means for inversely quantizing the bit signal output from the quantization encoding conversion means and outputting an inverse quantization signal;
An all-band level changing unit that outputs a change control signal to the quantization encoding unit in order to change a parameter for controlling the code amount;
It is determined whether the bit signal output from the quantization coding conversion means is within the predetermined number of bits, and when the bit signal is not within the predetermined number of bits, A control signal is output to the entire band level changing means, and when the bit signal is within the predetermined number of bits, the used bit number calculation judging means for outputting the bit signal to the inverse quantization means,
Band level changing means for outputting a change control signal to the quantization coding means in order to change a parameter for controlling the band level of the frequency spectrum signal;
It is determined whether the inverse quantized signal output from the inverse quantizing means is within the allowable noise amount calculated by the auditory model means, and the bit signal is within the allowable noise amount. In this case, nothing is output, and when the bit signal is not within the allowable noise amount, a quantization distortion calculation determining unit that outputs a control signal to the band level changing unit,
An audio signal encoding device comprising:
JP2000204915A 2000-07-06 2000-07-06 Audio signal encoding method and apparatus Expired - Lifetime JP3630082B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000204915A JP3630082B2 (en) 2000-07-06 2000-07-06 Audio signal encoding method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000204915A JP3630082B2 (en) 2000-07-06 2000-07-06 Audio signal encoding method and apparatus

Publications (2)

Publication Number Publication Date
JP2002026736A JP2002026736A (en) 2002-01-25
JP3630082B2 true JP3630082B2 (en) 2005-03-16

Family

ID=18702095

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000204915A Expired - Lifetime JP3630082B2 (en) 2000-07-06 2000-07-06 Audio signal encoding method and apparatus

Country Status (1)

Country Link
JP (1) JP3630082B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005004113A1 (en) 2003-06-30 2005-01-13 Fujitsu Limited Audio encoding device
EP2002426B1 (en) 2006-04-04 2009-09-02 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
JP4862136B2 (en) * 2006-12-08 2012-01-25 株式会社Jvcケンウッド Audio signal processing device

Also Published As

Publication number Publication date
JP2002026736A (en) 2002-01-25

Similar Documents

Publication Publication Date Title
US8041563B2 (en) Apparatus for coding a wideband audio signal and a method for coding a wideband audio signal
KR100547113B1 (en) Audio data encoding apparatus and method
JP4212591B2 (en) Audio encoding device
CN101004914B (en) Audio coding apparatus and audio decoding method
CN101836253A (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
JP3630082B2 (en) Audio signal encoding method and apparatus
JP5379871B2 (en) Quantization for audio coding
JP2003233397A (en) Device, program, and data transmission device for audio encoding
JP3616307B2 (en) Voice / musical sound signal encoding method and recording medium storing program for executing the method
JP4409733B2 (en) Encoding apparatus, encoding method, and recording medium therefor
JP3580485B2 (en) Audio signal encoding method
CN101192410A (en) A method and device for adjusting quantization quality in codec
JP2000347679A (en) Audio encoding device and audio encoding method
JP4116628B2 (en) Audio encoding method and audio encoding apparatus
JP3349858B2 (en) Audio coding device
JP4822816B2 (en) Audio signal encoding apparatus and method
JP5010197B2 (en) Speech encoding device
JP2003271199A (en) Audio signal encoding method and encoding device
JP4516345B2 (en) Speech coding information processing apparatus and speech coding information processing program
JP2002311993A (en) Audio coding equipment
JP2002023798A (en) Speech encoding method
CN110534119A (en) A kind of audio encoding and decoding method based on human auditory system dimensions in frequency signal decomposition
JP2001154695A (en) Audio encoding device and its method
JP2001154697A (en) Audio signal encoding method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041207

R151 Written notification of patent or utility model registration

Ref document number: 3630082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071224

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091224

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111224

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111224

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121224

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121224

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131224

Year of fee payment: 9

EXPY Cancellation because of completion of term