Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5328883B2 - CELP speech decoding apparatus and CELP speech decoding method - Google Patents
[go: Go Back, main page]

JP5328883B2 - CELP speech decoding apparatus and CELP speech decoding method - Google Patents

CELP speech decoding apparatus and CELP speech decoding method Download PDF

Info

Publication number
JP5328883B2
JP5328883B2 JP2011264561A JP2011264561A JP5328883B2 JP 5328883 B2 JP5328883 B2 JP 5328883B2 JP 2011264561 A JP2011264561 A JP 2011264561A JP 2011264561 A JP2011264561 A JP 2011264561A JP 5328883 B2 JP5328883 B2 JP 5328883B2
Authority
JP
Japan
Prior art keywords
frame
peak position
pitch
pitch peak
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2011264561A
Other languages
Japanese (ja)
Other versions
JP2012042984A (en
Inventor
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2011264561A priority Critical patent/JP5328883B2/en
Publication of JP2012042984A publication Critical patent/JP2012042984A/en
Application granted granted Critical
Publication of JP5328883B2 publication Critical patent/JP5328883B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To suppress quality degradation of a decoded voice signal caused by disappearance of a frame from being propagated in a communication system using a CELP type voice decoding device. <P>SOLUTION: In the CELP type voice decoding device, an adaptive code book corrector 603 corrects the content of an adaptive code book 304. The adaptive code book corrector 603 inputs pitch peak position information in the end of a previous frame of a frame to be decoded from a demultiplexer 455, and corrects the content of a sound source signal buffer stored in the adaptive code book 304 so that a pitch peak position in a sound source portion which is stored in the adaptive code book 304 and has been generated in the previous frame corresponds to the pitch peak position. <P>COPYRIGHT: (C)2012,JPO&amp;INPIT

Description

本発明は、CELP型音声復号化装置およびCELP型音声復号化方法に関する。 The present invention relates to a CELP speech decoding apparatus and a CELP speech decoding method .

インターネット通信に代表されるパケット通信においては、伝送路においてパケット(又はフレーム)が消失するなどして復号器側で符号化情報を受信できない時に、消失補償(隠蔽)処理を行うのが一般的である(例えば、特許文献1及び特許文献2等参照。)。   In packet communication typified by Internet communication, erasure compensation (concealment) processing is generally performed when encoded information cannot be received at the decoder side due to loss of packets (or frames) in the transmission path. (For example, see Patent Document 1 and Patent Document 2).

従来の音声信号伝送システムとして、図25に示すものがある。図25に示すように、従来の音声信号伝送システムは、音声信号送信装置1及び音声信号受信装置10を具備している。音声信号送信装置1は、入力装置2、A/D(アナログ/ディジタル)変換装置3、音声符号化装置4、信号処理装置5、RF変調装置6、送信装置7及びアンテナ8を有している。入力装置2は、音声信号を受け、これを電気信号であるアナログ音声信号に変換し、A/D変換装置3に与える。A/D変換装置3は、入力装置2からのアナログ音声信号をディジタル音声信号に変換し音声符号化装置4に与える。音声符号化装置4は、A/D変換装置3からのディジタル音声信号を符号化して音声符号化情報を生成し信号処理装置5に与える。信号処理装置5は、音声符号化装置4からの音声符号化情報にチャネル符号化処理、多重化処理、パケット化処理及び送信バッファリング処理等を行った後、その音声符号化情報をRF(Radio Frequency)変調装置6に与える。RF変調装置6は、信号処理装置5からの音声符号化信号を変調して送信装置7に与える。送信装置7は、RF変調装置6からの音声符号化信号をアンテナ8を介して電波(RF信号)として送信する。   A conventional audio signal transmission system is shown in FIG. As shown in FIG. 25, the conventional audio signal transmission system includes an audio signal transmission device 1 and an audio signal reception device 10. The audio signal transmitter 1 includes an input device 2, an A / D (analog / digital) converter 3, an audio encoder 4, a signal processor 5, an RF modulator 6, a transmitter 7, and an antenna 8. . The input device 2 receives the audio signal, converts it into an analog audio signal, which is an electrical signal, and provides it to the A / D conversion device 3. The A / D conversion device 3 converts the analog speech signal from the input device 2 into a digital speech signal and gives it to the speech coding device 4. The speech encoding device 4 encodes the digital speech signal from the A / D conversion device 3 to generate speech encoded information, and provides it to the signal processing device 5. The signal processing device 5 performs channel coding processing, multiplexing processing, packetization processing, transmission buffering processing, and the like on the speech coding information from the speech coding device 4, and then converts the speech coding information to RF (Radio). Frequency) to the modulation device 6. The RF modulation device 6 modulates the voice encoded signal from the signal processing device 5 and gives the modulated signal to the transmission device 7. The transmission device 7 transmits the voice encoded signal from the RF modulation device 6 as a radio wave (RF signal) via the antenna 8.

音声信号受信装置10は、アンテナ9、受信装置11、RF復調装置12、信号処理装置13、音声復号化装置14、D/A(ディジタル/アナログ)変換装置15及び出力装置16を有している。   The audio signal receiver 10 includes an antenna 9, a receiver 11, an RF demodulator 12, a signal processor 13, an audio decoder 14, a D / A (digital / analog) converter 15, and an output device 16. .

受信装置11は、アンテナ9を介して音声符号化信号である電波(RF信号)を受けてアナログ電気信号である受信音声信号を生成し、これをRF復調装置12に与える。アンテナ9によって受けられた電波(RF信号)は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置1から送信された電波(RF信号)と全く同じものとなる。   The receiving device 11 receives a radio wave (RF signal) that is a voice encoded signal via the antenna 9 to generate a received voice signal that is an analog electric signal, and gives this to the RF demodulator 12. The radio wave (RF signal) received by the antenna 9 is exactly the same as the radio wave (RF signal) transmitted from the audio signal transmitting apparatus 1 if there is no signal attenuation or noise superposition in the transmission path.

RF復調装置12は、受信装置11からの受信音声信号を復調し信号処理装置13に与える。信号処理装置13は、RF復調装置12からの受信音声信号のジッタ吸収バッファリング処理、パケット組みたて処理、多重分離処理及びチャネル復号化処理等を行った後、その受信音声信号を音声復号化装置14に与える。   The RF demodulator 12 demodulates the received audio signal from the receiver 11 and provides it to the signal processor 13. The signal processing device 13 performs jitter absorption buffering processing, packet assembling processing, demultiplexing processing, channel decoding processing, and the like of the received voice signal from the RF demodulator 12, and then decodes the received voice signal. To device 14.

また、信号処理装置13は、パケットが所定の時間内に到着しない場合は、パケット消失が発生したことを音声復号化装置14へ知らせる。音声復号化装置14は、信号処理装置13からの受信音声信号を復号化して復号音声信号を生成し、これをD/A変換装置15に与える。   If the packet does not arrive within a predetermined time, the signal processing device 13 notifies the speech decoding device 14 that packet loss has occurred. The audio decoding device 14 decodes the received audio signal from the signal processing device 13 to generate a decoded audio signal, and supplies this to the D / A conversion device 15.

なお、音声復号化装置14は、信号処理装置13からパケット損失情報を受け取った場合は、該当パケットの受信音声信号を受け取れないため、フレーム消失補償処理を行い、音声信号を生成する。D/A変換装置15は、音声復号化装置14からのディジタル復号音声信号をアナログ復号音声信号に変換して出力装置16に与える。出力装置16は、D/A変換装置15からのアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。   When receiving the packet loss information from the signal processing device 13, the speech decoding device 14 cannot receive the received speech signal of the corresponding packet, and thus performs a frame loss compensation process to generate a speech signal. The D / A conversion device 15 converts the digital decoded speech signal from the speech decoding device 14 into an analog decoded speech signal and gives it to the output device 16. The output device 16 converts the analog decoded audio signal from the D / A conversion device 15 into air vibration and outputs it as a sound wave so that it can be heard by the human ear.

音声復号化装置14は、音声復号化部56及びフレーム消失補償部57を有している。音声復号化部56は3つの入力端子をもち、そのうち2つは信号処理装置の2つの出力端子にそれぞれ接続されている。残りの1つの入力端子はフレーム消失補償部57の出力端子に接続されている。音声復号化部56の出力端子は2つあり、D/A変換装置15とフレーム消失補償部57にそれぞれ接続されている。フレーム消失補償部57の入力端子と出力端子は、音声復号化部56の出力端子と入力端子にそれぞれ接続されている。フレーム消失補償部57は、音声復号化部56において過去に復号されたパラメータ情報を入力し、受信音声信号のフレームが損失している場合に必要となる音声パラメータを生成して音声復号化部56へ出力する。   The speech decoding apparatus 14 includes a speech decoding unit 56 and a frame erasure compensation unit 57. The speech decoding unit 56 has three input terminals, two of which are connected to two output terminals of the signal processing device, respectively. The remaining one input terminal is connected to the output terminal of the frame loss compensation unit 57. The audio decoding unit 56 has two output terminals, which are connected to the D / A converter 15 and the frame loss compensation unit 57, respectively. The input terminal and output terminal of the frame erasure compensation unit 57 are connected to the output terminal and input terminal of the speech decoding unit 56, respectively. The frame erasure compensation unit 57 receives the parameter information decoded in the past by the speech decoding unit 56, generates speech parameters required when the frame of the received speech signal is lost, and creates the speech decoding unit 56. Output to.

音声復号化部56は、信号処理装置13の一方の出力端子からフレーム損失信号を受けていない時に、信号処理装置13の他方の出力端子からの受信音声信号に通常の復号化処理を施して復号音声信号を生成する。また、音声復号化部56は、フレーム損失信号を受けている時には、フレーム消失補償部57から入力される音声パラメータを用いて復号処理を行う。フレーム消失補償処理としては、音声符号化方式に応じて様々なものがあり、例えばITU−T勧告G.729などでは復号化アルゴリズムの一部として規定されている。   The voice decoding unit 56 performs a normal decoding process on the received voice signal from the other output terminal of the signal processing device 13 when the frame loss signal is not received from the one output terminal of the signal processing device 13 and performs decoding. Generate an audio signal. Also, when receiving a frame loss signal, the speech decoding unit 56 performs a decoding process using the speech parameter input from the frame loss compensation unit 57. There are various types of frame erasure compensation processing depending on the audio coding method. 729 and the like are defined as part of the decoding algorithm.

特開平09−120297号公報Japanese Patent Laid-Open No. 09-120297 特開平09−120297号公報Japanese Patent Laid-Open No. 09-120297

しかしながら、従来の音声信号伝送システムにおいては、伝送したフレーム(またはパケット)が伝送路上で消失した場合、音声復号化装置14が過去に受信済みの符号化情報を用いてフレーム(又はパケット)の消失補償処理を行う。このとき音声符号化装置4と音声復号化装置14との間で内部状態の同期がとれなくなるため、フレームの消失部分のみならずフレーム消失以降のフレームの復号化処理にパケット消失の影響が伝播して復号音声信号の品質を大きく劣化させる場合があるという問題があった。 However, in the conventional audio signal transmission system, when a transmission frame (or packet) is lost on the transmission path, sound Koefuku Goka device 14 by using the encoding information received in the past frames (or packets) Perform erasure compensation processing. Influence for the synchronization of the internal states will not be taken, the packet lost decoding of frame erasure portion later becoming not frame erasure only frames between the time the speech encoder 4 and the sound Koefuku Goka 14 There is a problem that the quality of the decoded speech signal may be greatly deteriorated by propagation.

例えば、音声符号化方式として、ITU−T勧告G.729に示すCELP(Code Excited Linear Prediction)方式を用いる場合には、過去の復号駆動音源信号を用いて音声の符号化及び復号化処理が行われることにより、フレーム消失補償処理によって符号器と復号器とで異なる駆動音源信号が合成されてしまうとその後しばらくの間において符号器と復号器の内部状態が一致せず、復号音声信号の品質が大きく劣化してしまう場合があるという問題がある。内部状態の中でも、過去に生成した音源信号のバッファである適応符号帳の内容の不一致による品質劣化が顕著である。   For example, ITU-T Recommendation G. When the CELP (Code Excited Linear Prediction) scheme shown in 729 is used, the encoder and the decoder are subjected to frame erasure compensation processing by performing speech encoding and decoding processing using a past decoded driving excitation signal. If different driving sound source signals are combined with each other, the internal states of the encoder and decoder do not match for a while, and the quality of the decoded speech signal may be greatly degraded. Even in the internal state, the quality degradation due to the mismatch of the contents of the adaptive codebook which is a buffer of the excitation signal generated in the past is remarkable.

本発明は、かかる点に鑑みてなされたものであり、フレーム消失部およびフレーム消失の直後の復号音声信号の品質を向上させることができるCELP型音声復号化装置およびCELP型音声復号化方法を提供することを目的とする。 The present invention has been made in view of this point, and provides a CELP speech decoding apparatus and a CELP speech decoding method capable of improving the quality of a decoded speech signal immediately after the frame erasure unit and the frame erasure. The purpose is to do.

本発明のCELP型音声復号化装置は、通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号手段と、適応符号帳と、適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出手段と、復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行うことにより前記適応符号帳に格納されている音源信号の内容を修正する適応符号帳修正手段と、を備え、復号するフレームが消失フレームである場合には、フレーム消失補償処理を行うとともに、復号するフレームが消失フレームでなく1つ前フレームが消失フレームである場合には、前記適応符号帳修正手段は、過去の前記フレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する、構成を採る。 The CELP speech decoding apparatus according to the present invention includes a decoding means for decoding pitch peak position information, which is encoded and transmitted after being delayed by one frame from the speech encoded information at the communication partner, an adaptive codebook, and an adaptive code said detection means for detecting a pitch peak position in the rearmost past excitation signal stored in the book, the decoded said pitch peak position, by performing a process of aligning the said detected pitch peak position Adaptive codebook correction means for correcting the content of the excitation signal stored in the adaptive codebook, and when the frame to be decoded is an erasure frame, performs a frame erasure compensation process and the frame to be decoded is erasure If the previous frame not the frame is an erased frame, the adaptive codebook correcting means, depending on the past the frame loss compensation processing Modifying the contents of the sound source signal buffer stored in the generated adaptive code book, a configuration.

本発明のCELP型音声復号化装置は、通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号手段と、適応符号帳と、適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出手段と、復号対象の現フレームが消失フレームでは無く、1つ前のフレームが消失フレームで有る場合に、2つ前のフレームにおけるピッチピーク位置情報と、1つ前のフレームにおけるピッチピーク位置情報と、2つ前のフレームにおけるピッチ周期情報と、を用いて1つ前のフレームにおけるピッチ周期を算出し、前記1つ前のフレームにおけるピッチ周期を用いて1つ前のフレームにおけるフレーム消失補償処理をやり直すことによって1つ前のフレームにおいて生成された適応符号帳の内容を修正する適応符号帳修正手段と、を備え、前記適応符号帳の内容の修正を行ってから復号化処理を行う、構成を採る。 The CELP speech decoding apparatus according to the present invention includes a decoding means for decoding pitch peak position information, which is encoded and transmitted after being delayed by one frame from the speech encoded information at the communication partner, an adaptive codebook, and an adaptive code When detecting means for detecting the pitch peak position at the back of the past sound source signal stored in the book, and when the current frame to be decoded is not a lost frame but the previous frame is a lost frame, Calculating the pitch period in the previous frame using the pitch peak position information in the previous frame, the pitch peak position information in the previous frame, and the pitch period information in the previous frame; The frame loss compensation process in the previous frame is re-executed using the pitch period in the previous frame, thereby performing the previous frame. And a adaptive codebook correction means for correcting the contents of the generated adaptive code book in arm, performs a decoding process after performing the correction of the contents of the adaptive codebook, a configuration.

本発明のCELP型音声復号化方法は、通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号工程と、適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出工程と、復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行うことにより前記適応符号帳に格納されている音源信号の内容を修正する適応符号帳修正工程と、を備え、復号するフレームが消失フレームである場合には、フレーム消失補償処理を行うとともに、復号するフレームが消失フレームでなく1つ前フレームが消失フレームである場合には、前記適応符号帳修正工程により、過去の前記フレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する。 The CELP speech decoding method of the present invention includes a decoding step of decoding pitch peak position information encoded and transmitted after being delayed by one frame from speech encoded information at a communication partner, and stored in an adaptive codebook. A detection step of detecting a pitch peak position at the back of a past sound source signal and a process of matching the detected pitch peak position with the decoded pitch peak position are stored in the adaptive codebook And an adaptive codebook correction step for correcting the content of the generated excitation signal. When the frame to be decoded is a lost frame, a frame loss compensation process is performed, and one decoded frame is not the lost frame. If the previous frame is a lost frame, it is generated by the previous frame lost compensation process by the adaptive codebook correction step. Modifying the content of the source signal buffer stored in the adaptive codebook.

本発明のCELP型音声復号化方法は、通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号工程と、適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出工程と、復号対象の現フレームが消失フレームでは無く、1つ前のフレームが消失フレームで有る場合に、2つ前のフレームにおけるピッチピーク位置情報と、1つ前のフレームにおけるピッチピーク位置情報と、2つ前のフレームにおけるピッチ周期情報と、を用いて1つ前のフレームにおけるピッチ周期を算出し、前記1つ前のフレームにおけるピッチ周期を用いて1つ前のフレームにおけるフレーム消失補償処理をやり直すことによって1つ前のフレームにおいて生成された適応符号帳の内容を修正する適応符号帳修正工程と、前記適応符号帳の内容の修正を行ってから復号化処理を行う復号化処理工程と、を備える。
The CELP speech decoding method of the present invention includes a decoding step of decoding pitch peak position information encoded and transmitted after being delayed by one frame from speech encoded information at a communication partner, and stored in an adaptive codebook. A detection step for detecting the pitch peak position at the back of the past sound source signal, and the second previous frame when the current frame to be decoded is not a lost frame but the previous frame is a lost frame. Pitch pitch position information in the previous frame, pitch peak position information in the previous frame, and pitch period information in the second previous frame are used to calculate a pitch period in the previous frame. By using the pitch period in the frame and performing the frame erasure compensation process in the previous frame again, Comprising an adaptive codebook modifying step of modifying the content of the adaptive codebook which is, and a decoding step of performing decoding after performing the correction of the contents of the adaptive codebook.

本発明によれば、少ないビット数の増加であるいはビット数の増加なしに、消失フレームおよびフレーム消失直後の復号音声品質の劣化を改善することが可能である。   According to the present invention, it is possible to improve the loss of a lost frame and the quality of decoded speech immediately after the loss of a frame with a small increase in the number of bits or without an increase in the number of bits.

本発明の実施の形態1に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図1 is a block diagram showing a speech signal transmitting apparatus including a speech coding apparatus and a speech signal receiving apparatus including a speech decoding apparatus according to Embodiment 1 of the present invention. 本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図The block diagram which shows the structure of the audio | voice coding apparatus which concerns on Embodiment 1 of this invention. ピッチピーク位置検出部の動作原理の説明に供する信号図Signal diagram for explaining the operating principle of the pitch peak position detector 本発明の実施の形態1に係る音声符号化装置から送出されるパケットを示す略線図FIG. 2 is a schematic diagram showing a packet transmitted from the speech encoding apparatus according to Embodiment 1 of the present invention. 本発明の実施の形態1に係る音声復号化装置の構成を示すブロック図The block diagram which shows the structure of the speech decoding apparatus which concerns on Embodiment 1 of this invention. 本発明の実施の形態1に係る音声復号化装置の動作の説明に供する信号波形図Signal waveform diagram for explaining the operation of the speech decoding apparatus according to Embodiment 1 of the present invention. 本発明の実施の形態1に係る音声復号化装置の動作の説明に供する信号波形図Signal waveform diagram for explaining the operation of the speech decoding apparatus according to Embodiment 1 of the present invention. 本発明の実施の形態1に係る音声復号化装置の動作の説明に供する信号波形図Signal waveform diagram for explaining the operation of the speech decoding apparatus according to Embodiment 1 of the present invention. 本発明の実施の形態1に係る音声符号化処理手順を示すフローチャートThe flowchart which shows the audio | voice coding processing procedure which concerns on Embodiment 1 of this invention. 本発明の実施の形態1に係る音声復号化処理手順を示すフローチャートThe flowchart which shows the speech decoding processing procedure which concerns on Embodiment 1 of this invention. 本発明の実施の形態2に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図FIG. 3 is a block diagram showing a speech signal transmitting apparatus including a speech coding apparatus and a speech signal receiving apparatus including a speech decoding apparatus according to Embodiment 2 of the present invention. 本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図FIG. 3 is a block diagram showing the configuration of a speech encoding apparatus according to Embodiment 2 of the present invention. 本発明の実施の形態2に係る音声符号化装置から送出されるパケットを示す略線図Outline diagram showing packet transmitted from speech coding apparatus according to embodiment 2 of the present invention. 本発明の実施の形態2に係る音声復号化装置の構成を示すブロック図The block diagram which shows the structure of the speech decoding apparatus which concerns on Embodiment 2 of this invention. 本発明の実施の形態3に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図A block diagram showing a speech signal transmitting apparatus including a speech encoding apparatus and a speech decoding apparatus including a speech encoding apparatus according to Embodiment 3 of the present invention. 本発明の実施の形態3に係る音声復号化装置の構成を示すブロック図The block diagram which shows the structure of the speech decoding apparatus which concerns on Embodiment 3 of this invention. 本発明の実施の形態3に係る音声復号化装置の動作の説明に供する略線図Outline diagram for explaining the operation of the speech decoding apparatus according to Embodiment 3 of the present invention. 本発明の実施の形態4に係る音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置を示すブロック図FIG. 7 is a block diagram showing a speech signal transmitting apparatus including a speech encoding apparatus and a speech decoding apparatus including a speech encoding apparatus according to Embodiment 4 of the present invention. 本発明の実施の形態4に係る音声符号化装置の構成を示すブロック図Block diagram showing the configuration of a speech encoding apparatus according to Embodiment 4 of the present invention. 本発明の実施の形態4に係る音声符号化装置のピッチピーク位置の検出方法の説明に供する信号波形図Signal waveform diagram for explaining the method of detecting the pitch peak position of the speech coding apparatus according to Embodiment 4 of the present invention. 本発明の実施の形態4に係る音声符号化装置のピッチピーク位置検出処理手順を示すフローチャートThe flowchart which shows the pitch peak position detection processing procedure of the speech coder according to Embodiment 4 of the present invention. 本発明の実施の形態4に係る音声復号化装置の構成を示すブロック図Block diagram showing the configuration of a speech decoding apparatus according to Embodiment 4 of the present invention. 本発明の実施の形態4に係る音声符号化処理手順を示すフローチャートThe flowchart which shows the speech-encoding processing procedure which concerns on Embodiment 4 of this invention. 本発明の実施の形態4に係る音声復号化処理手順を示すフローチャートThe flowchart which shows the speech decoding processing procedure which concerns on Embodiment 4 of this invention. 従来の音声符号化装置を含む音声信号送信装置および音声復号化装置を含む音声信号受信装置の構成を示すブロック図A block diagram showing a configuration of a speech signal transmitting apparatus including a conventional speech encoding apparatus and a speech signal receiving apparatus including a speech decoding apparatus

本発明の第1の態様は、音声符号化装置が、入力音声信号を符号化する音声信号符号化手段と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出手段と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出手段と、を具備する構成を採る。   According to a first aspect of the present invention, an audio encoding device includes an audio signal encoding unit that encodes an input audio signal, an audio signal transmission unit that transmits the encoded audio signal in a predetermined data unit, Pitch peak position detecting means for detecting the pitch peak position of the transmitted audio signal; and pitch peak position information transmitting means for transmitting information representing the detected pitch peak position together with the encoded audio signal. The structure to comprise is taken.

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。   According to this configuration, since the pitch peak position of the encoded excitation signal is transmitted as information in addition to the conventional excitation encoding information, the receiver side transmits the information by examining the pitch peak position of the decoded excitation signal. It is possible to confirm whether or not there is a discrepancy between the sound source signal on the side and the sound source signal on the reception side.

本発明の第2の態様は、音声符号化装置が、上記構成において、前記音声信号符号化手段は、前記入力音声信号の線形予測分析を行って線形予測係数を算出する線形予測分析部と、前記線形予測係数の量子化及び符号化を行う符号化部と、量子化された線形予測係数によって構成される線形予測フィルタと、前記線形予測フィルタを駆動する音源信号を符号化及び生成する音源符号化部と、を含むCELP型音声符号化手段である構成を採る。   According to a second aspect of the present invention, in the speech encoding apparatus according to the above configuration, the speech signal encoding means performs a linear prediction analysis of the input speech signal to calculate a linear prediction coefficient, and An encoding unit that performs quantization and encoding of the linear prediction coefficient, a linear prediction filter that is configured by the quantized linear prediction coefficient, and an excitation code that encodes and generates an excitation signal that drives the linear prediction filter And a CELP-type speech encoding means including a conversion unit.

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側で復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。   According to this configuration, since the pitch peak position of the encoded excitation signal is transmitted as information in addition to the conventional excitation encoding information, transmission is performed by examining the pitch peak position of the excitation signal decoded on the receiver side. It is possible to confirm whether or not there is a discrepancy between the sound source signal on the side and the sound source signal on the reception side.

本発明の第3の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置情報送出手段は、前記検出されたピッチピーク位置情報と前記符号化された音声信号とを多重化して送出する構成を採る。   According to a third aspect of the present invention, in the speech coding apparatus according to the above configuration, the pitch peak position information sending means multiplexes and sends the detected pitch peak position information and the coded speech signal. The structure to do is taken.

この構成によれば、符号化された音声信号とピッチピーク位置情報とをセットで送出することができる。従って、この多重化された情報を受け取った復号器側においては、これらを分離することにより、符号化された音声信号及びピッチピーク位置情報を得ることができる。   According to this configuration, the encoded audio signal and pitch peak position information can be transmitted as a set. Therefore, the decoder receiving the multiplexed information can obtain the encoded speech signal and pitch peak position information by separating them.

本発明の第4の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置情報送出手段は、前記符号化部によって符号化された情報の一部を、前記検出されたピッチピーク位置情報に置き換えて送出する構成を採る。   According to a fourth aspect of the present invention, in the speech coding apparatus according to the above-described configuration, the pitch peak position information sending unit uses a part of the information coded by the coding unit as the detected pitch peak position. A configuration is adopted in which information is transmitted and transmitted.

この構成によれば、符号化された音源信号のピッチピーク位置情報を送出するため、受信器側で復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。また、前記ピッチピーク位置情報を、LPC符号化情報の誤り感度の低い部分の代わりに伝送する構成とすることで、ビットレートの増加を伴わず、かつ、復号音声の品質劣化を抑えることが可能である。   According to this configuration, in order to send out the pitch peak position information of the encoded sound source signal, by checking the pitch peak position of the sound source signal decoded on the receiver side, It is possible to check whether there is a mismatch between the two. In addition, the pitch peak position information is transmitted in place of the low error sensitivity portion of the LPC encoded information, so that it is possible to suppress the quality deterioration of the decoded speech without increasing the bit rate. It is.

本発明の第5の態様は、音声符号化装置が、上記構成において、前記ピッチピーク位置検出手段は、音声信号のフレーム内の最も後ろに位置するピッチピーク位置を前記ピッチピーク位置情報として検出する構成を採る。   According to a fifth aspect of the present invention, in the speech coding apparatus according to the above configuration, the pitch peak position detection unit detects a pitch peak position located at the rearmost position in the frame of the speech signal as the pitch peak position information. Take the configuration.

この構成によれば、復号器側で復号した音源信号においてフレーム内の最後尾のピッチピーク位置と受信したピッチピーク位置とを比較することによって復号している音源信号(適応符号帳の内容)が正しいかどうか確認することが可能となる。また、前記音源信号(適応符号帳の内容)が正しくない場合、受信したピッチピーク位置に、復号している音源信号(適応符号帳)のピッチピーク位置を合わせることによって、音源信号(適応符号帳の内容)を修正することが可能となる。   According to this configuration, the excitation signal (contents of the adaptive codebook) decoded by comparing the last pitch peak position in the frame with the received pitch peak position in the excitation signal decoded on the decoder side It is possible to confirm whether it is correct. If the excitation signal (contents of the adaptive codebook) is not correct, the excitation signal (adaptive codebook) is obtained by matching the pitch peak position of the decoded excitation signal (adaptive codebook) to the received pitch peak position. Can be modified.

本発明の第6の態様は、音声符号化装置が、上記構成において、前フレームにおいて検出されたピッチピーク位置情報を、現フレームにおける符号化情報とともに多重化及び伝送する構成を採る。   The sixth aspect of the present invention employs a configuration in which the speech coding apparatus multiplexes and transmits the pitch peak position information detected in the previous frame together with the coding information in the current frame in the above configuration.

この構成によれば、前フレームが消失フレームであった場合において、復号器が前フレームのフレーム消失補償によって生成した音源信号(適応符号帳)の妥当性を復号器側で確認することを可能とする。   According to this configuration, when the previous frame is an erasure frame, the decoder can confirm the validity of the excitation signal (adaptive codebook) generated by the frame erasure compensation of the previous frame on the decoder side. To do.

本発明の第7の態様は、音声符号化装置が、上記構成において、次フレームにおいて検出されたピッチピーク位置情報を、現フレームにおける符号化情報とともに多重化及び送出する構成を採る。   The seventh aspect of the present invention employs a configuration in which the speech encoding apparatus multiplexes and transmits the pitch peak position information detected in the next frame together with the encoding information in the current frame in the above configuration.

この構成によれば、現フレームが消失フレームであった場合に、復号器が前フレームで受信したピッチピーク位置情報を利用して、より精度の良いフレーム消失補償処理を行うことを可能とする。   According to this configuration, when the current frame is an erasure frame, it is possible to perform more accurate frame erasure compensation processing using the pitch peak position information received by the decoder in the previous frame.

本発明の第8の態様は、音声復号化装置が、符号化された音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備する構成を取る。   According to an eighth aspect of the present invention, an audio decoding device includes: an audio signal decoding unit that decodes an encoded audio signal; and information on a pitch peak position of the audio signal based on information representing a pitch peak position of the audio signal. Compensation means for performing compensation processing for quality degradation caused by the lost frame when the lost frame exists is adopted.

この構成によれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。   According to this configuration, compensation for the lost frame itself and compensation for the frame after the lost frame can be performed based on the pitch peak position information as compensation for the quality degradation caused by the lost frame. In particular, in an audio signal, by adjusting the pitch peak position, it is possible to perform compensation processing for a lost frame and compensation that avoids a shift in the pitch of the frame following the lost frame, and quality degradation can be reduced. .

本発明の第9の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、を含むCELP型音声復号化手段である構成を採る。   According to a ninth aspect of the present invention, in the speech decoding apparatus according to the above configuration, the speech signal decoding unit includes a linear prediction coefficient decoding unit that performs a decoding process of a linear prediction coefficient, and a decoded linear prediction coefficient. A linear prediction filter that controls the gains of the adaptive codebook and the fixed codebook based on the decoded gain parameter, and the linear prediction filter based on the contents of the controlled adaptive codebook and fixed codebook. The structure is a CELP speech decoding unit including a driving sound source decoding unit.

この構成によれば、正しいピッチピーク位置となるように適応符号帳を生成することが可能であるので、フレーム消失後の正常フレームにおける符号器側と復号器側との適応符号帳の内容の不一致を低減することが可能となる。   According to this configuration, since it is possible to generate an adaptive codebook so that the correct pitch peak position is obtained, the mismatch of the contents of the adaptive codebook between the encoder side and the decoder side in the normal frame after frame erasure Can be reduced.

本発明の第10の態様は、音声復号化装置が、上記構成において、前記ピッチピーク位置情報は前記符号化された音声信号に多重化されており、前記多重化されたピッチピーク位置情報を前記符号化された音声信号から分離する分離手段を具備する構成を採る。   According to a tenth aspect of the present invention, in the audio decoding device according to the above configuration, the pitch peak position information is multiplexed with the encoded audio signal, and the multiplexed pitch peak position information is A configuration including separation means for separating the encoded audio signal is adopted.

本発明の第11の態様は、音声復号化装置が、上記構成において、前記符号化された音声信号の一部は、前記ピッチピーク位置情報に置き換えられており、前記置き換えられたピッチピーク位置情報を前記符号化された音声信号から分離する分離手段を具備する構成を採る。   According to an eleventh aspect of the present invention, in the speech decoding apparatus according to the above configuration, a part of the encoded speech signal is replaced with the pitch peak position information, and the replaced pitch peak position information Is separated from the encoded speech signal.

これらの構成によれば、ピッチピーク位置情報を、LPC符号化情報の誤り感度の低い部分の代わりに伝送するシステムに音声復号化装置を適用することができるので、ビットレートの増加を伴わず、かつ、復号音声の品質劣化を抑えることが可能である。   According to these configurations, since the speech decoding apparatus can be applied to a system that transmits pitch peak position information instead of a low error sensitivity portion of LPC encoded information, without increasing the bit rate, In addition, it is possible to suppress quality degradation of decoded speech.

本発明の第12の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、を含むCELP型音声復号化手段であり、前記補償手段は、前記音声信号復号化手段が復号する音声信号のうち、現在フレームの直前のフレームが消失フレームであった場合に、前記ピッチピーク位置情報に基づいて、前記適応符号帳の内容を修正する構成を採る。   According to a twelfth aspect of the present invention, in the speech decoding apparatus according to the above configuration, the speech signal decoding unit includes a linear prediction coefficient decoding unit that performs a decoding process of a linear prediction coefficient, and a decoded linear prediction coefficient. A linear prediction filter that controls the gains of the adaptive codebook and the fixed codebook based on the decoded gain parameter, and the linear prediction filter based on the contents of the controlled adaptive codebook and fixed codebook. A CELP speech decoding unit including a driving sound source decoding unit, and the compensation unit includes a frame immediately before the current frame among the speech signals decoded by the speech signal decoding unit. In such a case, the content of the adaptive codebook is modified based on the pitch peak position information.

この構成によれば、直前のフレームにおけるピッチピークの位置を正確に適応符号帳に反映させることが出来るので、フレーム消失後の正常フレームにおける符号器側と復号器側の適応符号帳の内容の不一致を軽減することが可能となる。   According to this configuration, since the position of the pitch peak in the immediately preceding frame can be accurately reflected in the adaptive codebook, the contents of the adaptive codebook on the encoder side and the decoder side in the normal frame after the frame disappearance do not match. Can be reduced.

本発明の第13の態様は、音声復号化装置が、上記構成において、前記音声信号復号化手段は、直前フレームにおいて受信した符号化パラメータの復号処理を現在フレームにおいて行うものであり、前記補償手段は、前記直前フレームが消失フレームであった場合に、現在フレームにおいて受信したピッチピーク位置情報を用いて前記消失フレームの補償処理を行う構成を採る。   According to a thirteenth aspect of the present invention, in the speech decoding apparatus according to the above configuration, the speech signal decoding means performs a decoding process on the encoding parameter received in the immediately preceding frame in the current frame, and the compensation means Adopts a configuration in which, when the immediately preceding frame is a lost frame, compensation processing for the lost frame is performed using pitch peak position information received in the current frame.

この構成によれば、消失フレームのピッチピーク位置情報と後続正常フレームの復号情報と直前正常フレームの復号情報とを用いてフレーム消失補償を行うので、より精度の良いフレーム消失補償処理を行うことが可能となる。   According to this configuration, since the frame erasure compensation is performed using the pitch peak position information of the lost frame, the decoding information of the succeeding normal frame, and the decoding information of the immediately preceding normal frame, it is possible to perform a more accurate frame erasure compensation process. It becomes possible.

本発明の第14の態様は、音声復号化装置が、上記構成において、前記補償手段は、前記音声信号復号化手段が復号する音声信号のうち、現在フレームが消失フレームであった場合に、その直前フレームにおいて受信したピッチピーク位置情報を用いて、前記消失フレームの補償処理を行う構成を採る。   According to a fourteenth aspect of the present invention, in the speech decoding apparatus according to the above configuration, when the current frame is an erasure frame among the speech signals decoded by the speech signal decoding unit, A configuration is adopted in which the lost frame compensation processing is performed using the pitch peak position information received in the immediately preceding frame.

この構成によれば、フレーム消失が発生した際、直前の正常フレームにおいて受信したピッチピーク位置情報を利用できるので、より精度の良いフレーム消失補償処理が可能となり、正しいピッチピーク位置となるように音源信号(適応符号帳)を生成することが可能であるので、フレーム消失後の正常フレームにおける符号器側と復号器側との適応符号帳の内容の不一致を低減することが可能となる。特に、音声符号化装置において、次フレームにおいて検出されたピッチピーク位置情報を現在フレームにおける符号化情報(符号化された音声信号)とともに伝送されている場合には、消失フレームのピッチピーク位置情報を直前の正常フレームにおいて受信することができ、消失フレームの補償処理をその消失フレームそのもののピッチピーク位置情報に基づいて行うことができる。   According to this configuration, when the frame loss occurs, the pitch peak position information received in the immediately preceding normal frame can be used, so that more accurate frame loss compensation processing can be performed and the sound source is set so that the correct pitch peak position is obtained. Since it is possible to generate a signal (adaptive codebook), it is possible to reduce inconsistencies in the contents of the adaptive codebook between the encoder side and the decoder side in a normal frame after frame loss. In particular, in the speech encoding apparatus, when the pitch peak position information detected in the next frame is transmitted together with the encoded information (encoded speech signal) in the current frame, the pitch peak position information of the lost frame is It can be received in the immediately preceding normal frame, and the lost frame compensation process can be performed based on the pitch peak position information of the lost frame itself.

本発明の第15の態様は、移動局装置が、入力音声信号を符号化する音声信号符号化部と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送信するピッチピーク位置情報送信手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。   According to a fifteenth aspect of the present invention, a mobile station apparatus encodes an audio signal encoding unit that encodes an input audio signal, audio signal transmission means that transmits the encoded audio signal in a predetermined data unit, Pitch peak position detecting means for detecting the pitch peak position of the transmitted audio signal; and pitch peak position information transmitting means for transmitting information representing the detected pitch peak position together with the encoded audio signal. And the structure which performs radio | wireless communication between base station apparatuses is taken.

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、基地局側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。   According to this configuration, since the pitch peak position of the encoded excitation signal is transmitted as information in addition to the conventional excitation encoding information, the base station side transmits the information by examining the pitch peak position of the decoded excitation signal. It is possible to confirm whether or not there is a discrepancy between the sound source signal on the side and the sound source signal on the reception side.

本発明の第16の態様は、移動局装置が、受信した符号化音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記受信した音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。   According to a sixteenth aspect of the present invention, the mobile station apparatus decodes the received audio signal based on audio signal decoding means for decoding the received encoded audio signal, and information indicating the pitch peak position of the audio signal. And a compensation means for performing compensation processing for quality degradation caused by the lost frame when a lost frame exists in the network, and adopts a configuration for performing wireless communication with the base station apparatus.

この構成によれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。   According to this configuration, compensation for the lost frame itself and compensation for the frame after the lost frame can be performed based on the pitch peak position information as compensation for the quality degradation caused by the lost frame. In particular, in an audio signal, by adjusting the pitch peak position, it is possible to perform compensation processing for a lost frame and compensation that avoids a shift in the pitch of the frame following the lost frame, and quality degradation can be reduced. .

本発明の第17の態様は、基地局装置が、入力音声信号を符号化する音声信号符号化部と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のピッチピーク位置を検出するピッチピーク位置検出手段と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送信するピッチピーク位置情報送信手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。   According to a seventeenth aspect of the present invention, a base station apparatus encodes an audio signal encoding unit that encodes an input audio signal, audio signal transmitting means that transmits the encoded audio signal in a predetermined data unit, Pitch peak position detecting means for detecting the pitch peak position of the transmitted audio signal; and pitch peak position information transmitting means for transmitting information representing the detected pitch peak position together with the encoded audio signal. And the structure which performs radio | wireless communication between mobile station apparatuses is taken.

この構成によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、移動局側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。   According to this configuration, since the pitch peak position of the encoded excitation signal is transmitted as information in addition to the conventional excitation encoding information, the mobile station transmits the information by examining the pitch peak position of the decoded excitation signal. It is possible to confirm whether or not there is a discrepancy between the sound source signal on the side and the sound source signal on the reception side.

本発明の第18の態様は、基地局装置が、受信した符号化音声信号を復号化する音声信号復号化手段と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記受信した音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。   According to an eighteenth aspect of the present invention, the base station apparatus decodes the received audio signal based on the audio signal decoding means for decoding the received encoded audio signal, and information indicating the pitch peak position of the audio signal. And a compensation means for performing compensation processing for quality degradation caused by the lost frame when a lost frame exists in the mobile station apparatus, and adopts a configuration for performing wireless communication with the mobile station apparatus.

この構成によれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。   According to this configuration, compensation for the lost frame itself and compensation for the frame after the lost frame can be performed based on the pitch peak position information as compensation for the quality degradation caused by the lost frame. In particular, in an audio signal, by adjusting the pitch peak position, it is possible to perform compensation processing for a lost frame and compensation that avoids a shift in the pitch of the frame following the lost frame, and quality degradation can be reduced. .

本発明の第19の態様は、音声信号伝送方法が、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出工程と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出工程と、前記符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償工程と、を具備するようにした。   According to a nineteenth aspect of the present invention, an audio signal transmission method includes: an audio signal encoding step for encoding an input audio signal; an audio signal transmission step for transmitting the encoded audio signal in a predetermined data unit; A pitch peak position detecting step of detecting a pitch peak position of the transmitted audio signal; a pitch peak position information transmitting step of transmitting information representing the detected pitch peak position together with the encoded audio signal; Deterioration of quality caused by a lost frame when a lost frame exists in the audio signal based on an audio signal decoding step for decoding the encoded audio signal and information indicating a pitch peak position of the audio signal And a compensation process for performing the compensation process.

この方法によれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。また、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。   According to this method, since the pitch peak position of the encoded excitation signal is transmitted as information in addition to the conventional excitation encoding information, the receiver side transmits the information by examining the pitch peak position of the decoded excitation signal. It is possible to confirm whether or not there is a discrepancy between the sound source signal on the side and the sound source signal on the reception side. Further, as compensation for quality degradation caused by a lost frame, compensation for the lost frame itself and compensation for a frame after the lost frame can be performed based on the pitch peak position information. In particular, in an audio signal, by adjusting the pitch peak position, it is possible to perform compensation processing for a lost frame and compensation that avoids a shift in the pitch of the frame following the lost frame, and quality degradation can be reduced. .

本発明の第20の態様は、プログラムが、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、前記送出される音声信号のピッチピーク位置を検出するピッチピーク位置検出工程と、前記検出されたピッチピーク位置を表す情報を前記符号化された音声信号とともに送出するピッチピーク位置情報送出工程と、を音声符号化装置に実行させるようにする。   According to a twentieth aspect of the present invention, there is provided an audio signal encoding step of encoding an input audio signal, an audio signal transmission step of transmitting the encoded audio signal in a predetermined data unit, and the transmission A voice peak encoding step for detecting a pitch peak position of a voice signal to be detected and a pitch peak position information sending step for sending information representing the detected pitch peak position together with the encoded voice signal. Let the device run.

このプログラムによれば、従来の音源符号化情報に加えて、符号化された音源信号のピッチピーク位置を情報として送出するため、受信器側は復号した音源信号のピッチピーク位置を調べることによって送信側の音源信号と受信側の音源信号との間に不一致があるかどうかを確認することが可能となる。   According to this program, since the pitch peak position of the encoded excitation signal is sent as information in addition to the conventional excitation encoding information, the receiver side transmits the information by examining the pitch peak position of the decoded excitation signal. It is possible to confirm whether or not there is a discrepancy between the sound source signal on the side and the sound source signal on the reception side.

本発明の第21の態様は、プログラムが、符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のピッチピーク位置を表す情報に基づいて、前記音声信号に消失フレームが存在する場合の当該消失フレームに起因する品質劣化の補償処理を行う補償工程と、を音声復号化装置に実行させるようにする。   In a twenty-first aspect of the present invention, an audio frame includes an erasure frame in the audio signal based on an audio signal decoding step in which the program decodes the encoded audio signal and information indicating a pitch peak position of the audio signal. A speech decoding apparatus is caused to execute a compensation process for compensating for quality degradation caused by the lost frame if present.

このプログラムによれば、消失フレームに起因する品質劣化の補償として、消失フレームそのものの補償や消失フレーム後のフレームの補償を、ピッチピーク位置情報に基づいて行うことができる。特に、音声信号においては、ピッチピーク位置を合わせることによって、消失フレームの補償処理や、消失フレームに続くフレームのピッチのずれを回避した補償を行うことが可能となり、品質劣化を低減することができる。   According to this program, compensation for the lost frame itself and compensation for the frame after the lost frame can be performed based on the pitch peak position information as compensation for quality degradation caused by the lost frame. In particular, in an audio signal, by adjusting the pitch peak position, it is possible to perform compensation processing for a lost frame and compensation that avoids a shift in the pitch of the frame following the lost frame, and quality degradation can be reduced. .

以下、本発明の実施の形態について、図面を参照して詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

(実施の形態1)
図1は、本発明の実施の形態1に係る音声信号伝送システムの構成を示すブロック図である。
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of an audio signal transmission system according to Embodiment 1 of the present invention.

音声信号伝送システムは、音声信号送信装置100及び音声信号受信装置199を具備している。   The audio signal transmission system includes an audio signal transmitting apparatus 100 and an audio signal receiving apparatus 199.

音声信号送信装置100は、入力装置102、A/D変換装置103、音声符号化装置104、信号処理装置105、RF変調装置106、送信装置107及びアンテナ108を有している。A/D変換装置103は入力装置102に接続されている。   The audio signal transmission device 100 includes an input device 102, an A / D conversion device 103, an audio encoding device 104, a signal processing device 105, an RF modulation device 106, a transmission device 107, and an antenna 108. The A / D conversion device 103 is connected to the input device 102.

音声符号化装置104の入力端子はA/D変換装置103の出力端子に接続されている。信号処理装置105の入力端子は、音声符号化装置104の出力端子に接続されている。RF変調装置106の入力端子は信号処理装置105の出力端子に接続されている。送信装置107の入力端子はRF変調装置106の出力端子に接続されている。アンテナ108は、送信装置107の出力端子に接続されている。   The input terminal of the speech encoding device 104 is connected to the output terminal of the A / D conversion device 103. The input terminal of the signal processing device 105 is connected to the output terminal of the speech encoding device 104. The input terminal of the RF modulation device 106 is connected to the output terminal of the signal processing device 105. The input terminal of the transmitter 107 is connected to the output terminal of the RF modulator 106. The antenna 108 is connected to the output terminal of the transmission device 107.

入力装置102は、音声信号を受けてこれを電気信号であるアナログ音声信号に変換し、A/D変換装置103に与える。A/D変換装置103は、入力装置102からのアナログの音声信号をディジタル音声信号に変換し、これを音声符号化装置104に与える。音声符号化装置104は、A/D変換装置103からのディジタル音声信号を符号化して音声符号化情報を生成し信号処理装置105に与える。   The input device 102 receives the audio signal, converts it into an analog audio signal, which is an electrical signal, and gives it to the A / D conversion device 103. The A / D conversion device 103 converts an analog voice signal from the input device 102 into a digital voice signal, and gives this to the voice coding device 104. The audio encoding device 104 encodes the digital audio signal from the A / D conversion device 103 to generate audio encoding information, and provides the generated signal to the signal processing device 105.

信号処理装置105は、音声符号化装置104からの音声符号化情報にチャネル符号化処理、パケット化処理及び送信バッファ処理等を行った後、その音声符号化情報をRF変調装置106に与える。RF変調装置106は、信号処理装置105からの音声符号化信号を変調して送信装置107に与える。送信装置107は、RF変調装置106からの音声符号化信号をアンテナ108を介して電波(RF信号)として送信する。   The signal processing device 105 performs channel coding processing, packetization processing, transmission buffer processing, and the like on the speech coding information from the speech coding device 104, and then provides the speech coding information to the RF modulation device 106. The RF modulation device 106 modulates the voice encoded signal from the signal processing device 105 and provides the modulated signal to the transmission device 107. The transmission device 107 transmits the audio encoded signal from the RF modulation device 106 as a radio wave (RF signal) via the antenna 108.

音声信号送信装置100においては、A/D変換装置103を介して得られるディジタル音声信号に対して数十msのフレーム単位で処理が行われ、1フレーム又は数フレームの符号化データを1つのパケットに入れこのパケットをパケット網に送出する。本実施の形態では、伝送遅延を最小限にするために、1フレームを1パケットで伝送することを想定している。したがって、パケット損失はフレーム消失に相当する。   In the audio signal transmitting apparatus 100, the digital audio signal obtained through the A / D conversion apparatus 103 is processed in units of several tens of milliseconds, and one frame or several frames of encoded data is processed into one packet. And send this packet to the packet network. In this embodiment, it is assumed that one frame is transmitted in one packet in order to minimize transmission delay. Therefore, packet loss corresponds to frame loss.

なお、本発明はパケット交換網に限らず、回線交換網にも適用可能で、その場合は、パケット化処理、ジッタ吸収バッファリング処理及びパケット組みたて処理は不要である。   The present invention can be applied not only to a packet switching network but also to a circuit switching network. In this case, packetization processing, jitter absorption buffering processing, and packet assembly processing are unnecessary.

音声信号受信装置199は、アンテナ110、受信装置111、RF復調装置112、信号処理装置113、音声復号化装置114、D/A変換装置115及び出力装置116を有している。受信装置111の入力端子は、アンテナ110に接続されている。RF復調装置112の入力端子は、受信装置111の出力端子に接続されている。信号処理装置113の入力端子は、RF復調装置112の出力端子に接続されている。音声復号化装置114の2つの入力端子は、信号処理装置113の2つの出力端子に一対一接続されている。D/A変換装置115の入力端子は、音声復号化装置114の出力端子に接続されている。出力装置116の入力端子は、D/A変換装置115の出力端子に接続されている。   The audio signal receiving apparatus 199 includes an antenna 110, a receiving apparatus 111, an RF demodulating apparatus 112, a signal processing apparatus 113, an audio decoding apparatus 114, a D / A conversion apparatus 115, and an output apparatus 116. An input terminal of the receiving device 111 is connected to the antenna 110. The input terminal of the RF demodulator 112 is connected to the output terminal of the receiver 111. The input terminal of the signal processing device 113 is connected to the output terminal of the RF demodulation device 112. The two input terminals of the speech decoding apparatus 114 are connected to the two output terminals of the signal processing apparatus 113 on a one-to-one basis. The input terminal of the D / A conversion device 115 is connected to the output terminal of the speech decoding device 114. The input terminal of the output device 116 is connected to the output terminal of the D / A converter 115.

受信装置111は、アンテナ110を介して音声符号化情報である電波(RF信号)を受けてアナログの電気信号である受信音声信号を生成し、これをRF復調装置112に与える。アンテナ110を介して受けた電波(RF信号)は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置100において送信された電波(RF信号)と全く同じものとなる。   The receiving device 111 receives a radio wave (RF signal) that is voice encoded information via the antenna 110, generates a received voice signal that is an analog electric signal, and supplies this to the RF demodulator 112. The radio wave (RF signal) received via the antenna 110 is exactly the same as the radio wave (RF signal) transmitted by the audio signal transmitting apparatus 100 if there is no signal attenuation or noise superposition in the transmission path.

RF復調装置112は、受信装置111からの受信音声信号を復調し信号処理装置113に与える。信号処理装置113は、RF復調装置112からの受信音声信号のジッタ吸収バッファリング処理、パケット組みたて処理、パケット消失検出処理、多重分離処理及びチャネル復号化処理等を行って受信音声信号とパケット消失情報とをそれぞれ音声復号化装置114に与える。   The RF demodulator 112 demodulates the received audio signal from the receiver 111 and supplies it to the signal processor 113. The signal processing device 113 performs jitter absorption buffering processing, packet assembling processing, packet loss detection processing, demultiplexing processing, channel decoding processing, and the like of the received voice signal from the RF demodulation device 112, and performs reception voice signal and packet processing. The erasure information is provided to the speech decoding device 114, respectively.

音声復号化装置114は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成しD/A変換装置115に与える。D/A変換装置115は、音声復号化装置114からのディジタル復号音声信号をアナログ復号音声信号に変換して出力装置116に与える。出力装置116は、D/A変換装置115からのアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。   The audio decoding device 114 decodes the received audio signal from the signal processing device 113 to generate a decoded audio signal, and provides the decoded audio signal to the D / A conversion device 115. The D / A conversion device 115 converts the digital decoded speech signal from the speech decoding device 114 into an analog decoded speech signal and provides it to the output device 116. The output device 116 converts the analog decoded audio signal from the D / A converter 115 into air vibrations and outputs the sound as a sound wave to the human ear.

次に、音声符号化装置104について図1、図2及び図3を参照して詳細に説明する。図2は音声符号化装置104の構成を示すブロック図である。図3は、ピッチピーク位置検出部の動作を説明するための模式図である。   Next, the speech encoding apparatus 104 will be described in detail with reference to FIGS. FIG. 2 is a block diagram showing the configuration of the speech encoding apparatus 104. FIG. 3 is a schematic diagram for explaining the operation of the pitch peak position detector.

図1に示すように、音声符号化装置104は、ピッチピーク位置検出部151、多重化部152、音声符号化部153及び1フレーム遅延部154を有している。音声符号化部153の入力端子は、A/D変換装置103の出力端子に接続されている。ピッチピーク位置検出部151の入力端子は、音声符号化部153の2つの出力端子のうちの一方に接続されている。1フレーム遅延部154の入力端子は音声符号化部153の2つの出力端子のうちのもう一方に接続されている。多重化部152は、ピッチピーク位置検出部151及び1フレーム遅延部154の出力端子と信号処理装置105の入力端子との間に接続されている。   As shown in FIG. 1, the speech encoding apparatus 104 includes a pitch peak position detection unit 151, a multiplexing unit 152, a speech encoding unit 153, and a 1-frame delay unit 154. The input terminal of the speech encoding unit 153 is connected to the output terminal of the A / D conversion device 103. The input terminal of the pitch peak position detector 151 is connected to one of the two output terminals of the speech encoder 153. The input terminal of the 1-frame delay unit 154 is connected to the other of the two output terminals of the speech encoding unit 153. The multiplexing unit 152 is connected between the output terminals of the pitch peak position detection unit 151 and the one-frame delay unit 154 and the input terminal of the signal processing device 105.

音声符号化部153は、A/D変換装置103から入力したディジタル音声信号の符号化処理を行い、符号化パラメータ情報を1フレーム遅延部154へ出力する。同時に、音声符号化部153は、後述するピッチパラメータ(量子化ピッチ周期)と適応符号帳に保持されている音源信号とをピッチピーク位置検出部151へ出力する。ピッチピーク位置検出部151は、ピッチパラメータである量子化ピッチ周期情報と過去の音源信号系列とを用いて、過去1ピッチ周期長の音源信号におけるピッチピーク位置を検出し、多重化部152へ出力する。   The audio encoding unit 153 performs encoding processing on the digital audio signal input from the A / D conversion apparatus 103 and outputs encoding parameter information to the 1-frame delay unit 154. At the same time, speech encoding section 153 outputs a pitch parameter (quantization pitch period), which will be described later, and a sound source signal held in the adaptive codebook to pitch peak position detection section 151. The pitch peak position detection unit 151 detects the pitch peak position in the sound source signal of the past one pitch period length using the quantized pitch period information that is the pitch parameter and the past sound source signal sequence, and outputs the detected position to the multiplexing unit 152. To do.

なお、ピッチピーク位置は現在のフレームの最後尾から過去に1ピッチ周期分だけさかのぼった範囲の中に存在する、フレーム最後尾に最も近いものとする。したがって、1フレームが複数のサブフレームに分割されている場合は、最後のサブフレームにおいてピッチピーク位置検出を行う。また、ピッチ周期が長く、現フレーム中にピッチピークが存在しない場合でも、現フレーム末尾の点から1ピッチ周期の範囲内でピッチピーク位置を探索して直前フレーム区間にあるピッチピーク位置を検出することとする。   It is assumed that the pitch peak position is closest to the end of the frame, which exists in the range of one pitch period in the past from the end of the current frame. Therefore, when one frame is divided into a plurality of subframes, pitch peak position detection is performed in the last subframe. Even if the pitch period is long and there is no pitch peak in the current frame, the pitch peak position in the previous frame section is detected by searching for the pitch peak position within the range of one pitch period from the end of the current frame. I will do it.

多重化部152は、ピッチピーク位置検出部151によって検出された現フレームにおけるピッチピーク位置情報と、1フレーム遅延部154から出力される前フレームにおける音声符号化情報とを多重化し、信号処理装置105へ出力する。   The multiplexing unit 152 multiplexes the pitch peak position information in the current frame detected by the pitch peak position detection unit 151 and the speech coding information in the previous frame output from the 1-frame delay unit 154, and the signal processing device 105. Output to.

次に、音声符号化部153について、図2を用いてより詳細に説明する。音声符号化部153は、図2に示されるように、前処理部201、線形予測係数を求める線形予測分析器202、線形予測係数の量子化及び符号化を行うLPC量子化器203、聴覚重みフィルタ204、聴覚重みフィルタ205、量子化された線形予測係数によって構成される線形予測フィルタとしてのLPC合成フィルタ206、加算器207、適応符号帳208、乗算器209、固定符号帳210、乗算器211、利得量子化器212、加算器213、音源パラメータ決定部214および符号化部215とを有している。適応符号帳208、固定符号帳210及び利得量子化器212によって音源符号化部が構成され、この音源符号化部によってLPC合成フィルタ206が駆動される。   Next, the speech encoding unit 153 will be described in more detail with reference to FIG. As shown in FIG. 2, the speech encoding unit 153 includes a preprocessing unit 201, a linear prediction analyzer 202 for obtaining a linear prediction coefficient, an LPC quantizer 203 that performs quantization and encoding of the linear prediction coefficient, an auditory weight Filter 204, auditory weight filter 205, LPC synthesis filter 206 as a linear prediction filter composed of quantized linear prediction coefficients, adder 207, adaptive codebook 208, multiplier 209, fixed codebook 210, multiplier 211 , Gain quantizer 212, adder 213, excitation parameter determination unit 214, and encoding unit 215. The adaptive codebook 208, fixed codebook 210, and gain quantizer 212 constitute a sound source encoding unit, and the LPC synthesis filter 206 is driven by this sound source encoding unit.

前処理部201は、A/D変換装置103(図1)からディジタル音声信号を入力し、背景雑音抑圧処理やプリエンファシス処理のように音声の品質を改善するための処理やDC成分をカットするためのハイパスフィルタ処理などを行って線形予測分析器202と聴覚重みフィルタ204とに出力する。線形予測分析器202は、前処理部201から入力した前処理後のディジタル音声信号の線形予測分析を行って線形予測係数を算出し、LPC量子化器203と聴覚重みフィルタ204と聴覚重みフィルタ205とにそれぞれ出力する。   The preprocessing unit 201 inputs a digital audio signal from the A / D conversion device 103 (FIG. 1), and cuts processing for improving the quality of the audio and DC components such as background noise suppression processing and pre-emphasis processing. High-pass filter processing is performed for output to the linear prediction analyzer 202 and the auditory weight filter 204. The linear prediction analyzer 202 performs linear prediction analysis of the preprocessed digital speech signal input from the preprocessing unit 201 to calculate a linear prediction coefficient, and an LPC quantizer 203, auditory weight filter 204, and auditory weight filter 205. And output respectively.

LPC量子化器203は、線形予測分析器202から入力した線形予測係数の量子化・符号化処理を行い、量子化した線形予測係数をLPC合成フィルタ206に出力するとともに符号化結果をパラメータLとして出力する。パラメータLは符号化部215に入力され、他の符号化音源パラメータとともにまとめて符号化される。聴覚重みフィルタ204と聴覚重みフィルタ205は、線形予測分析器202によって算出された線形予測係数を用いたARMA型のディジタルフィルタで、後述する音声符号化部による量子化誤差に対して人間の聴覚特性に合わせた重み付けをするためのものであり、2つの聴覚重みフィルタ204及び205は同じフィルタ特性を有する。   The LPC quantizer 203 quantizes and encodes the linear prediction coefficient input from the linear prediction analyzer 202, outputs the quantized linear prediction coefficient to the LPC synthesis filter 206, and sets the encoding result as a parameter L. Output. The parameter L is input to the encoding unit 215 and encoded together with other encoded excitation parameters. The auditory weight filter 204 and the auditory weight filter 205 are ARMA type digital filters using the linear prediction coefficient calculated by the linear prediction analyzer 202, and human auditory characteristics with respect to a quantization error by a speech encoding unit to be described later. The two auditory weighting filters 204 and 205 have the same filter characteristics.

聴覚重みフィルタ204は、前処理部201から前処理後のディジタル音声信号を入力し、聴覚重み付けをするARMAフィルタ処理を行って加算器213へ出力する。聴覚重みフィルタ205は、LPC合成フィルタ206によって合成されたディジタル音声信号を入力し、同じ聴覚重み付けをするARMAフィルタ処理を行って加算器213へ出力する。   The auditory weight filter 204 receives the pre-processed digital audio signal from the pre-processing unit 201, performs an ARMA filter process for performing auditory weighting, and outputs the result to the adder 213. The auditory weight filter 205 receives the digital audio signal synthesized by the LPC synthesis filter 206, performs an ARMA filter process for performing the same auditory weighting, and outputs the result to the adder 213.

LPC合成フィルタ206は、LPC量子化器203によって量子化された線形予測係数を用いて構成されるAR型のディジタルフィルタであり、加算器207から出力された音源信号を用いて合成音声信号を生成し、聴覚重みフィルタ205へ出力する。加算器207は、適応符号帳208から乗算器209を介して入力した適応符号帳ベクトルと、固定符号帳210から乗算器211を介して入力した固定符号帳ベクトルとのベクトル加算を行って、音源ベクトルを生成し、LPC合成フィルタ206へ出力する。また、生成した音源ベクトルは、適応符号帳208へフィードバックされて、適応符号帳208の内容が更新される。更新後の適応符号帳の音源信号バッファは、ピッチピーク位置検出部151へ出力される。   The LPC synthesis filter 206 is an AR type digital filter configured using the linear prediction coefficient quantized by the LPC quantizer 203, and generates a synthesized speech signal using the sound source signal output from the adder 207. And output to the auditory weight filter 205. The adder 207 performs vector addition of the adaptive codebook vector input from the adaptive codebook 208 via the multiplier 209 and the fixed codebook vector input from the fixed codebook 210 via the multiplier 211 to generate a sound source A vector is generated and output to the LPC synthesis filter 206. The generated excitation vector is fed back to adaptive codebook 208, and the contents of adaptive codebook 208 are updated. The updated excitation signal buffer of the adaptive codebook is output to pitch peak position detector 151.

適応符号帳208は、加算器207によって過去に生成された音源ベクトルを蓄積・保持しているメモリであり、加算器207から出力された音源ベクトルによって逐次更新される。また、適応符号帳208は、適正な位置からベクトルを切り出して乗算器209へ出力する。有声信号の場合、音源信号が周期性を有することから、過去に生成した音源信号を利用して効率的に音源信号を符号化することができることから、このような適応符号帳が一般に用いられる。適応符号帳ベクトルの切りだし位置はピッチパラメータPによって決定される。ピッチパラメータPは、音源パラメータ決定部によって決定される。   The adaptive codebook 208 is a memory that stores and holds the excitation vectors generated in the past by the adder 207, and is sequentially updated by the excitation vector output from the adder 207. Further, adaptive codebook 208 cuts out a vector from an appropriate position and outputs the vector to multiplier 209. In the case of a voiced signal, since the sound source signal has periodicity, it is possible to efficiently encode a sound source signal using a sound source signal generated in the past. Therefore, such an adaptive codebook is generally used. The extraction position of the adaptive codebook vector is determined by the pitch parameter P. The pitch parameter P is determined by the sound source parameter determination unit.

固定符号帳210は、雑音系列や少数のパルスの組み合わせなどによって任意のベクトルを生成するもので、予め定められた数のベクトルを格納もしくは生成できるようになっており、各ベクトルには固有の番号が振られており、その番号を指定することで対応する形状の固定符号帳ベクトルが生成される。番号は固定符号帳インデックスCとして、音源パラメータ決定部214で決定される。   Fixed codebook 210 generates an arbitrary vector based on a noise sequence or a combination of a small number of pulses, and can store or generate a predetermined number of vectors. Each vector has a unique number. A fixed codebook vector having a corresponding shape is generated by designating the number. The number is determined by the sound source parameter determination unit 214 as a fixed codebook index C.

なお、図2では示していないが、固定符号帳は複数のチャンネルや複数のサブセットから構成されていたり、固定符号帳ベクトルに対してピッチ周期化処理が行われたりすることが一般的である。   Although not shown in FIG. 2, the fixed codebook is generally composed of a plurality of channels and a plurality of subsets, or pitch periodicization processing is performed on the fixed codebook vector.

乗算器209は、利得量子化器212によって量子化された適応符号帳利得(ピッチ利得)を、適応符号帳208から出力されたベクトルに乗じて加算器207へ出力する。乗算器211は、利得量子化器212によって量子化された固定符号帳利得を固定符号帳210から出力されたベクトルに乗じて加算器207へ出力する。   Multiplier 209 multiplies the adaptive codebook gain (pitch gain) quantized by gain quantizer 212 by the vector output from adaptive codebook 208 and outputs the result to adder 207. Multiplier 211 multiplies the vector output from fixed codebook 210 by the fixed codebook gain quantized by gain quantizer 212 and outputs the result to adder 207.

利得量子化器212は、音源利得パラメータGで示される量子化適応符号帳利得および量子化固定符号帳利得をそれぞれ乗算器209及び211へ出力する。音源利得パラメータGは音源パラメータ決定部214で決定される。音源パラメータ決定部214は、加算器213から出力される、聴覚重みフィルタ204によって聴覚重み付けされた入力音声信号と聴覚重みフィルタ205によって聴覚重み付けされたLPC合成フィルタ206の合成音声信号との出力の誤差を最小化するように、適応符号帳パラメータPと固定符号帳パラメータCと利得パラメータGを決定する。   Gain quantizer 212 outputs quantized adaptive codebook gain and quantized fixed codebook gain indicated by excitation gain parameter G to multipliers 209 and 211, respectively. The sound source gain parameter G is determined by the sound source parameter determination unit 214. The sound source parameter determination unit 214 outputs an error between the input audio signal that is perceptually weighted by the perceptual weighting filter 204 and the synthetic speech signal of the LPC synthesis filter 206 perceptually weighted by the perceptual weighting filter 205 that is output from the adder 213. The adaptive codebook parameter P, the fixed codebook parameter C, and the gain parameter G are determined so as to minimize.

加算器213は、聴覚重みフィルタ205からの出力ベクトルと聴覚重みフィルタ204からの出力ベクトルとの差分ベクトルを算出して音源パラメータ決定部214へ出力する。音源パラメータ決定部によって決定された適応符号帳パラメータPと固定符号帳パラメータCと利得符号帳パラメータGと、LPC量子化器203によって符号化された線形予測パラメータLとは、符号化部215により一括して一つの符号としてまとめられ、1フレーム遅延部154へ出力される。1フレーム遅延部154は、符号化部215より入力した音声符号化情報を1フレームの時間だけ保持した後、多重化部152へ出力する。   The adder 213 calculates a difference vector between the output vector from the auditory weight filter 205 and the output vector from the auditory weight filter 204 and outputs the difference vector to the sound source parameter determination unit 214. The adaptive codebook parameter P, the fixed codebook parameter C, the gain codebook parameter G determined by the excitation parameter determination unit, and the linear prediction parameter L encoded by the LPC quantizer 203 are collectively processed by the encoding unit 215. Are combined into one code and output to the one-frame delay unit 154. The 1-frame delay unit 154 holds the speech coding information input from the coding unit 215 for a time of 1 frame, and then outputs the speech coding information to the multiplexing unit 152.

次に、ピッチピーク位置検出部151の動作について、図3を参照してより詳細に説明する。   Next, the operation of the pitch peak position detector 151 will be described in more detail with reference to FIG.

図3に示すように、ピッチピーク位置検出部151は、ピッチパラメータPと、最新の適応符号帳の内容(過去に生成した音源信号系列)を少なくとも1ピッチ周期長以上を入力し、最も時間的に後ろにあるピッチピーク位置を検出する。ピッチピーク位置の検出法の最も単純なものは、適応符号帳の末尾(最新のサンプル:図3は1101)から過去に1ピッチ周期Pまでさかのぼる間において、絶対値が最大となるサンプル(図3は1102)をピッチピーク位置として検出する方法である。なお、現在の入力音声信号にピッチ周期性がない場合(無声部や雑音部である場合)には、ピッチピーク位置を無理に設定せず、ピッチ周期性がない区間であることを示すコードを別途割り当てて、その情報をピッチピーク位置情報として出力する。   As shown in FIG. 3, pitch peak position detection section 151 inputs pitch parameter P and the latest adaptive codebook content (sound signal sequence generated in the past) at least one pitch period length or longer, and is the most temporal. The pitch peak position behind is detected. The simplest method for detecting the pitch peak position is the sample (FIG. 3) whose absolute value is the maximum during the period from the end of the adaptive codebook (latest sample: 1101 in FIG. 3) to one pitch period P in the past. Is a method of detecting 1102) as the pitch peak position. If the current input audio signal has no pitch periodicity (if it is a voiceless part or a noise part), the pitch peak position is not set excessively and a code indicating that there is no pitch periodicity is used. It is assigned separately and the information is output as pitch peak position information.

次に、音声復号化装置114について図1、図4、図5〜図7を参照して詳細に説明する。図4は送信パケットの略線図、図5は音声復号化装置114の構成を示すブロック図、図6〜図8はフレーム消失補償処理を説明するための概念図である。   Next, the speech decoding apparatus 114 will be described in detail with reference to FIGS. 1, 4, and 5 to 7. FIG. 4 is a schematic diagram of a transmission packet, FIG. 5 is a block diagram showing the configuration of the speech decoding apparatus 114, and FIGS. 6 to 8 are conceptual diagrams for explaining frame erasure compensation processing.

図1に示すように、音声復号化装置114は、多重分離部155、音声復号化部156、1フレーム遅延部157及びフレーム消失補償部158を有している。   As shown in FIG. 1, the speech decoding apparatus 114 includes a demultiplexing unit 155, a speech decoding unit 156, a frame delay unit 157, and a frame erasure compensation unit 158.

多重分離部155の入力端子は信号処理装置113の2つの出力端子の一方に接続されている。音声復号化部156は3つの入力端子を持ち、第1の入力端子は多重分離部155の1つの出力端子に、第2の入力端子は信号処理装置113の1つの出力端子に、第3の入力端子はフレーム消失補償部158に、それぞれ接続されている。また、音声復号化部156は2つの出力端子をもち、一方はフレーム消失補償部158の2つの入力端子の一方に接続されており、他方はD/A変換装置115へ接続されている。1フレーム遅延部157の入力端子は、多重分離部155の出力端子の一つに接続されている。フレーム消失補償部158は2つの入力端子をもち、一方は1フレーム遅延部157の出力端子に接続されており、他方は音声復号化部156の1つの出力端子に接続されている。   The input terminal of the demultiplexing unit 155 is connected to one of the two output terminals of the signal processing device 113. The speech decoding unit 156 has three input terminals, the first input terminal is one output terminal of the demultiplexing unit 155, the second input terminal is one output terminal of the signal processing device 113, and the third input terminal The input terminals are connected to the frame loss compensation unit 158, respectively. Speech decoding section 156 has two output terminals, one connected to one of the two input terminals of frame erasure compensation section 158 and the other connected to D / A converter 115. The input terminal of the 1-frame delay unit 157 is connected to one of the output terminals of the demultiplexing unit 155. Frame erasure compensation unit 158 has two input terminals, one connected to the output terminal of one frame delay unit 157 and the other connected to one output terminal of speech decoding unit 156.

多重分離部155は、信号処理装置113から入力した多重化情報を、音声符号化情報とピッチピーク位置情報とに分離し、音声復号化部156と1フレーム遅延部157とにそれぞれ出力する。また、信号処理装置113は、フレーム消失情報を音声復号化部156へ出力する。音声復号化部156は、多重分離部155から入力した音声符号化情報を用いて復号処理を行い、復号音声信号をD/A変換装置115へ出力する。また、フレーム消失補償処理において更新が必要なパラメータをフレーム消失補償部158へ出力する。   The demultiplexing unit 155 demultiplexes the multiplexed information input from the signal processing device 113 into audio encoded information and pitch peak position information, and outputs them to the audio decoding unit 156 and the 1-frame delay unit 157, respectively. Further, the signal processing device 113 outputs the frame erasure information to the speech decoding unit 156. The audio decoding unit 156 performs decoding processing using the audio encoding information input from the demultiplexing unit 155 and outputs the decoded audio signal to the D / A conversion device 115. In addition, parameters that need to be updated in the frame erasure compensation process are output to the frame erasure compensation unit 158.

なお、音声復号化部156において、信号処理装置113から出力されたフレーム消失補償情報が「現在のフレームは消失している」ことを示す場合は、多重分離部155からの情報が入力されないので、フレーム消失補償部158から入力されるパラメータ情報を用いて音声信号を生成し、D/A変換装置115へ出力する。このときもフレーム消失補償処理において更新が必要なパラメータはフレーム消失補償部158へ出力される。1フレーム遅延部157は、多重分離部155より入力したピッチピーク位置情報を1フレーム分の時間だけ保持してからフレーム消失補償部158へ出力する。フレーム消失補償部158は、1フレーム遅延部157から出力された、現フレーム(1フレーム前に送られてきているピッチピーク位置情報は、1フレーム前において1フレーム先のピッチピーク位置情報なので、現フレームのピッチピーク位置情報である)におけるピッチピーク位置情報を入力し、現フレームにおけるピッチピーク位置が入力されたピッチピーク位置情報で示される位置に合うようにフレーム消失補償処理を行う。フレーム消失補償処理は、1フレーム遅延部157から入力した現フレームの最後尾ピッチピーク位置と、音声復号化部156から入力した前フレームまでに復号している音声符号化パラメータとを用いて行われる。   In addition, in the speech decoding unit 156, when the frame erasure compensation information output from the signal processing device 113 indicates that “the current frame is lost”, the information from the demultiplexing unit 155 is not input. An audio signal is generated using the parameter information input from the frame erasure compensation unit 158 and output to the D / A converter 115. Also at this time, parameters that need to be updated in the frame erasure compensation process are output to the frame erasure compensation unit 158. The one-frame delay unit 157 holds the pitch peak position information input from the demultiplexing unit 155 for a time corresponding to one frame, and then outputs the information to the frame erasure compensation unit 158. The frame erasure compensator 158 outputs the current frame (pitch peak position information sent one frame before the pitch peak position information one frame ahead of the current frame) output from the one frame delay unit 157. The pitch peak position information (which is the pitch peak position information of the frame) is input, and the frame erasure compensation process is performed so that the pitch peak position in the current frame matches the position indicated by the input pitch peak position information. The frame erasure compensation process is performed using the last pitch peak position of the current frame input from the 1-frame delay unit 157 and the speech coding parameters decoded up to the previous frame input from the speech decoding unit 156. .

因みに、音声復号化装置114において、1フレーム遅延部157から出力されたピッチピーク位置情報が、現フレームにおけるピッチピーク位置である理由を図4を参照しながら説明する。   Incidentally, the reason why the pitch peak position information output from the one-frame delay unit 157 in the speech decoding apparatus 114 is the pitch peak position in the current frame will be described with reference to FIG.

図4は、音声符号化装置104において符号化された各フレームの音声符号化情報とピッチピーク位置情報とをパケット化して送信する際の説明に供する略線図である。図4に示すように、音声符号化装置104では、符号化されてなる音声符号化情報を1フレーム分遅延させるとともに、ピッチピーク位置情報は遅延させることなく、多重化している。   FIG. 4 is a schematic diagram for explaining the case where the speech encoding information and pitch peak position information of each frame encoded by the speech encoding device 104 are packetized and transmitted. As shown in FIG. 4, in the speech encoding device 104, the encoded speech encoded information is delayed by one frame, and the pitch peak position information is multiplexed without being delayed.

従って、図4において、例えばフレームf2のピッチピーク位置情報1001pは、遅延なく第1のパケット1001によって送信されるのに対して、そのフレームf2の音声符号化情報1002aは1フレーム遅延し、次のフレームf3のピッチピーク位置情報1002pとともにパケット1002によって送信される。   Accordingly, in FIG. 4, for example, the pitch peak position information 1001p of the frame f2 is transmitted by the first packet 1001 without delay, whereas the speech coding information 1002a of the frame f2 is delayed by one frame, The packet 1002 is transmitted together with the pitch peak position information 1002p of the frame f3.

このようにして音声符号化装置104(音声信号送信装置100)から送信されたパケット化された音声符号化情報及びピッチピーク位置情報は、音声信号受信装置199の音声復号化部156において復号される。この場合、例えばパケット1001によって送信された、フレームf2のピッチピーク位置情報1001pは、送信側で1フレーム遅延されて送信されたフレームf2の音声符号化情報1002aがパケット1002によって到来するのを待って処理される。   The packetized speech coding information and pitch peak position information transmitted from speech coding apparatus 104 (speech signal transmitting apparatus 100) in this way are decoded by speech decoding section 156 of speech signal receiving apparatus 199. . In this case, for example, the pitch peak position information 1001p of the frame f2 transmitted by the packet 1001 waits for the voice encoded information 1002a of the frame f2 transmitted after being delayed by one frame on the transmission side to arrive by the packet 1002. It is processed.

次に、音声復号化部156について、図5を参照してより詳細に説明する。音声復号化部156は、図5に示されるように、パラメータ復号部301、利得復号器302、切り替えスイッチ303、適応符号帳304、固定符号帳305、線形予測係数の復号処理を行うLPC復号器306、乗算器307、乗算器308、加算器309、LPC復号器306において復号された線形予測係数によって構成される線形予測フィルタであるLPC合成フィルタ310及び後処理部311を有する。適応符号帳304、固定符号帳305及び利得復号器302によって音源復号部が構成され、この音源復号部によってLPC合成フィルタ310を駆動する。   Next, the speech decoding unit 156 will be described in more detail with reference to FIG. As shown in FIG. 5, the speech decoding unit 156 includes a parameter decoding unit 301, a gain decoder 302, a changeover switch 303, an adaptive codebook 304, a fixed codebook 305, and an LPC decoder that performs linear prediction coefficient decoding processing. 306, a multiplier 307, a multiplier 308, an adder 309, an LPC synthesis filter 310 that is a linear prediction filter constituted by the linear prediction coefficients decoded in the LPC decoder 306, and a post-processing unit 311. The adaptive codebook 304, fixed codebook 305, and gain decoder 302 constitute a sound source decoding unit, and this sound source decoding unit drives the LPC synthesis filter 310.

パラメータ復号器301の入力端子は多重分離部155の出力端子の1つに接続されている。利得復号器302の入力端子はパラメータ復号部301の出力端子の一つに接続されている。LPC復号器306の入力端子はパラメータ復号部301の出力端子の一つに接続されている。切り替えスイッチ303の入力端子はパラメータ復号部301の出力端子と利得復号器の出力端子とLPC復号器306の出力端子とフレーム消失補償部の出力端子にそれぞれ接続されている。また、切り替えスイッチ303のフレーム消失情報を受信する端子が、信号処理装置113(図1)に接続されている。適応符号帳304の入力端子は、スイッチ303の出力端子と加算器309の出力端子に接続されている。   The input terminal of the parameter decoder 301 is connected to one of the output terminals of the demultiplexing unit 155. The input terminal of the gain decoder 302 is connected to one of the output terminals of the parameter decoding unit 301. The input terminal of the LPC decoder 306 is connected to one of the output terminals of the parameter decoding unit 301. The input terminal of the changeover switch 303 is connected to the output terminal of the parameter decoding unit 301, the output terminal of the gain decoder, the output terminal of the LPC decoder 306, and the output terminal of the frame erasure compensation unit. In addition, a terminal for receiving frame loss information of the changeover switch 303 is connected to the signal processing device 113 (FIG. 1). The input terminal of the adaptive codebook 304 is connected to the output terminal of the switch 303 and the output terminal of the adder 309.

固定符号帳305の入力端子は、切り替えスイッチ303の出力端子に接続している。乗算器307の2つの入力端子は、一方が適応符号帳304の出力端子に、他方が切り替えスイッチ303の出力端子にそれぞれ接続している。乗算器308の2つの入力端子は、一方が固定符号帳305に、他方が切り替えスイッチ303の出力端子に、それぞれ接続している。加算器309の2つの入力端子は、一方が乗算器307の出力端子に、他方が乗算器308の出力端子に、それぞれ接続されている。LPC合成フィルタ310の2つの入力端子は、一方が加算器309に、他方が切り替えスイッチ303に、それぞれ接続している。後処理部311の入力端子は、LPC合成フィルタ310の出力端子に接続しており、ディジタル復号音声信号をD/A変換装置115へ出力する。   The input terminal of the fixed codebook 305 is connected to the output terminal of the changeover switch 303. One of the two input terminals of the multiplier 307 is connected to the output terminal of the adaptive codebook 304, and the other is connected to the output terminal of the changeover switch 303. One of the two input terminals of the multiplier 308 is connected to the fixed codebook 305 and the other is connected to the output terminal of the changeover switch 303. One of the two input terminals of the adder 309 is connected to the output terminal of the multiplier 307, and the other is connected to the output terminal of the multiplier 308. One of the two input terminals of the LPC synthesis filter 310 is connected to the adder 309 and the other is connected to the changeover switch 303. The input terminal of the post-processing unit 311 is connected to the output terminal of the LPC synthesis filter 310, and outputs the digital decoded speech signal to the D / A converter 115.

パラメータ復号部301は、多重分離部155から入力した音声符号化情報(ビットストリーム)から音声符号化パラメータ(ピッチ(適応符号帳)パラメータP、固定符号帳パラメータC、線形予測パラメータL、利得パラメータG)を復号し、利得パラメータGを利得復号器302へ、線形予測係数パラメータLをLPC復号器306へ、その他のパラメータを切り替えスイッチ303へそれぞれ出力する。   The parameter decoding unit 301 converts speech encoding parameters (pitch (adaptive codebook) parameter P, fixed codebook parameter C, linear prediction parameter L, gain parameter G) from speech encoding information (bitstream) input from the demultiplexing unit 155. ), The gain parameter G is output to the gain decoder 302, the linear prediction coefficient parameter L is output to the LPC decoder 306, and the other parameters are output to the changeover switch 303.

利得復号器302は、パラメータ復号部301から入力した利得パラメータGから適応符号帳利得Gpと固定符号帳利得Gcをそれぞれ復号し、切り替えスイッチ303へ出力する。LPC復号器306は、パラメータ復号部301から入力した線形予測係数パラメータLから復号量子化線形予測係数αを復号し、切り替えスイッチ303へ出力する。切り替えスイッチ303は、パラメータ復号器301、利得復号器302およびLPC復号器306から入力されるパラメータ群と、フレーム消失補償部158から入力されるパラメータ群との切替を行うためのスイッチで、信号処理装置113(図1)から受信したフレーム消失情報が「現フレームは消失フレームである」を示す場合にはフレーム消失補償処理部158が生成したパラメータ側にスイッチが切り替わり、それ以外の場合はパラメータ復号部301、利得復号器302およびLPC復号器306から出力されるパラメータ側にスイッチが接続される。   The gain decoder 302 decodes the adaptive codebook gain Gp and the fixed codebook gain Gc from the gain parameter G input from the parameter decoding unit 301, and outputs them to the changeover switch 303. The LPC decoder 306 decodes the decoded quantized linear prediction coefficient α from the linear prediction coefficient parameter L input from the parameter decoding unit 301 and outputs the decoded quantized linear prediction coefficient α to the changeover switch 303. The changeover switch 303 is a switch for switching between a parameter group input from the parameter decoder 301, the gain decoder 302, and the LPC decoder 306 and a parameter group input from the frame erasure compensation unit 158. When the frame erasure information received from the device 113 (FIG. 1) indicates “the current frame is a erasure frame”, the switch is switched to the parameter side generated by the frame erasure compensation processing unit 158; A switch is connected to the parameter side output from the unit 301, the gain decoder 302 and the LPC decoder 306.

切り替えスイッチ303は、適応符号帳パラメータ(ピッチ)PまたはP’を適応符号帳304へ、適応符号帳利得GpまたはGp’を乗算器307へ、固定符号帳パラメータCまたはC’を固定符号帳305へ、固定符号帳利得GcまたはGc’を乗算器308へ、復号量子化線形予測係数αまたはα’をLPC復号器306へ、それぞれ出力する。また、切り替えスイッチ303は、適応符号帳304、固定符号帳305、乗算器307、乗算器308、LPC合成フィルタ310へ出力した各パラメータをフレーム消失補償部158にも同時に出力する。   The changeover switch 303 sets the adaptive codebook parameter (pitch) P or P ′ to the adaptive codebook 304, the adaptive codebook gain Gp or Gp ′ to the multiplier 307, and the fixed codebook parameter C or C ′ to the fixed codebook 305. The fixed codebook gain Gc or Gc ′ is output to the multiplier 308, and the decoded quantized linear prediction coefficient α or α ′ is output to the LPC decoder 306, respectively. The changeover switch 303 also outputs the parameters output to the adaptive codebook 304, fixed codebook 305, multiplier 307, multiplier 308, and LPC synthesis filter 310 to the frame erasure compensation unit 158 simultaneously.

適応符号帳304は、過去に生成された音源信号をバッファリングしており、加算器309から最新の音源信号が入力されるたびに更新される。適応符号帳304のバッファリングしている信号長は、最大ピッチ周期長+フレーム長以上である。切り替えスイッチ303から入力した適応符号帳パラメータ(ピッチ)PまたはP’によって指定される位置から適応符号帳ベクトルを切り出して乗算器307へ出力するとともに、1フレーム前以前の音源信号をフレーム消失補償処理部158へ出力する。乗算器307は、適応符号帳304から出力された適応符号ベクトルに、切り替えスイッチ303から入力した適応符号帳利得GpまたはGp’を乗じて加算器309へ出力する。 The adaptive codebook 304 buffers the excitation signal generated in the past, and is updated each time the latest excitation signal is input from the adder 309. The buffered signal length of the adaptive codebook 304 is equal to or greater than the maximum pitch period length + frame length. An adaptive codebook vector is cut out from the position specified by the adaptive codebook parameter (pitch) P or P ′ input from the changeover switch 303 and output to the multiplier 307, and the sound source signal before one frame is subjected to frame erasure compensation processing. To the unit 158. Multiplier 307 multiplies the adaptive code vector output from adaptive codebook 304 by adaptive codebook gain Gp or Gp ′ input from changeover switch 303 and outputs the result to adder 309.

固定符号帳305は、切り替えスイッチ303から入力した固定符号帳パラメータCまたはC’によって指定される固定符号帳ベクトルを生成し、乗算器308へ出力する。乗算器308は、固定符号帳305から入力した固定符号帳ベクトルに、切り替えスイッチ303から入力した固定符号帳利得GcまたはGc’を乗じて加算器309へ出力する。加算器309は、乗算器307から入力した適応符号帳ベクトルと、乗算器308から入力した固定符号帳ベクトルとを加算し、LPC合成フィルタ310および適応符号帳304へ出力する。   The fixed codebook 305 generates a fixed codebook vector designated by the fixed codebook parameter C or C ′ input from the changeover switch 303, and outputs it to the multiplier 308. Multiplier 308 multiplies the fixed codebook vector input from fixed codebook 305 by fixed codebook gain Gc or Gc ′ input from changeover switch 303 and outputs the result to adder 309. Adder 309 adds the adaptive codebook vector input from multiplier 307 and the fixed codebook vector input from multiplier 308, and outputs the result to LPC synthesis filter 310 and adaptive codebook 304.

LPC復号器306は、パラメータ復号部301によって復号された線形予測パラメータLから復号量子化線形予測係数αを切り替えスイッチ303に出力する。LPC合成フィルタ310は、切り替えスイッチ303から入力した復号量子化線形予測係数αまたはα’によって構成されるAR型ディジタルフィルタを、加算器309より入力する音源信号によって駆動し、合成音声信号を後処理部311へ出力する。後処理部311は、音声信号の主観品質を改善するためのホルマント強調ポストフィルタ処理、ピッチ強調ポストフィルタ処理、傾斜補正ポストフィルタ処理、及び、背景雑音信号の主観品質を改善するための雑音後処理、を行い、これらの処理が施されたディジタル復号音声信号をD/A変換装置115へ出力する。   The LPC decoder 306 outputs the decoded quantized linear prediction coefficient α from the linear prediction parameter L decoded by the parameter decoding unit 301 to the changeover switch 303. The LPC synthesis filter 310 drives an AR type digital filter constituted by the decoded quantized linear prediction coefficient α or α ′ input from the changeover switch 303 by a sound source signal input from the adder 309, and post-processes the synthesized speech signal To the unit 311. The post-processing unit 311 is a formant emphasis post-filter process for improving the subjective quality of the audio signal, a pitch emphasis post-filter process, a slope correction post-filter process, and a noise post-process for improving the subjective quality of the background noise signal. , And outputs the digital decoded speech signal subjected to these processes to the D / A converter 115.

次に、フレーム消失補償部158について、図5、図6〜図8を参照しながら詳細を説明する。フレーム消失補償部158は、パラメータバッファ312、ピッチピーク位置検出器313、ピッチ周期算出器314及びパラメータ生成部315を有する。   Next, details of the frame erasure compensation unit 158 will be described with reference to FIGS. 5 and 6 to 8. The frame erasure compensation unit 158 includes a parameter buffer 312, a pitch peak position detector 313, a pitch period calculator 314, and a parameter generation unit 315.

パラメータバッファ312の入力端子は、音声復号化部156内の切り替えスイッチ303に接続されている。ピッチピーク位置検出器313の2つの入力端子は、一方が音声復号化部の適応符号帳304に、他方はパラメータバッファ312の出力端子の一つ(ピッチ情報を入力)に、それぞれ接続されている。   An input terminal of the parameter buffer 312 is connected to the changeover switch 303 in the speech decoding unit 156. One of the two input terminals of the pitch peak position detector 313 is connected to the adaptive codebook 304 of the speech decoding unit, and the other is connected to one of the output terminals of the parameter buffer 312 (input pitch information). .

ピッチ周期算出器314の3つの入力端子は、一つがピッチピーク位置検出器313に、もう一つが1フレーム遅延部157に、残りの一つがパラメータバッファ312の出力端子の一つ(ピッチ情報を入力)に、それぞれ接続されている。パラメータ生成部315の6つの入力端子は、5つがパラメータバッファ312の5つの出力端子に接続されており、残りの1つがピッチ周期算出器314に、それぞれ接続されている。   One of the three input terminals of the pitch period calculator 314 is the pitch peak position detector 313, the other is one frame delay unit 157, and the other is one of the output terminals of the parameter buffer 312 (input pitch information). ) Are connected to each other. Five input terminals of the parameter generation unit 315 are connected to five output terminals of the parameter buffer 312, and the remaining one is connected to the pitch period calculator 314.

パラメータバッファ312は、過去に音声復号化部156において、復号音声を生成するために用いられた各種の音声符号化パラメータを記憶しておくバッファであり、復号した適応符号帳パラメータ(ピッチ)P、雑音符号帳パラメータC、適応符号帳利得Gp、固定符号帳利得Gc、復号量子化線形予測係数αが音声復号化部156から入力される。また消失フレームにおいては、パラメータ生成部によって生成されたパラメータ(適応符号帳パラメータ(ピッチ)P’、固定符号帳パラメータC’、適応符号帳利得Gp’、固定符号帳利得Gc’、復号量子化線形予測係数α’)が入力される。   The parameter buffer 312 is a buffer that stores various speech coding parameters used in the past by the speech decoding unit 156 to generate decoded speech. The decoded adaptive codebook parameter (pitch) P, Noise codebook parameter C, adaptive codebook gain Gp, fixed codebook gain Gc, and decoded quantized linear prediction coefficient α are input from speech decoding section 156. In the erasure frame, parameters generated by the parameter generation unit (adaptive codebook parameter (pitch) P ′, fixed codebook parameter C ′, adaptive codebook gain Gp ′, fixed codebook gain Gc ′, decoded quantization linear The prediction coefficient α ′) is input.

バッファリングされている各種パラメータは、パラメータ生成部315へ出力され、消失フレームにおける各種パラメータを生成する際に使用される。ピッチピーク位置検出器313は、音声復号化部156内の適応符号帳304から入力した音源信号と、パラメータバッファ312から入力した前フレームのピッチ周期とを用いて、ピッチピーク位置検出部151(図1)と同様にしてピッチピーク位置を検出し、ピッチ周期算出器314へ出力する。ただし、ピッチピーク位置を探す範囲は直前のフレーム以前において生成された音源信号の部分であり、ピッチピーク位置が存在する範囲は前フレームで生成された音源信号の末尾の点から、前フレームのピッチ周期だけさかのぼった点までである。   The various parameters buffered are output to the parameter generation unit 315 and used when generating various parameters in the lost frame. The pitch peak position detector 313 uses the excitation signal input from the adaptive codebook 304 in the speech decoding unit 156 and the pitch period of the previous frame input from the parameter buffer 312 to use the pitch peak position detection unit 151 (see FIG. In the same manner as in 1), the pitch peak position is detected and output to the pitch period calculator 314. However, the range where the pitch peak position is searched is the part of the sound source signal generated before the previous frame, and the range where the pitch peak position exists is the pitch of the previous frame from the end point of the sound source signal generated in the previous frame. Up to a point that goes back by the period.

ピッチ周期算出器314は、ピッチピーク位置検出器313から入力した前フレームの最終ピッチピーク位置と、1フレーム遅延部157から入力した現フレームの最終ピッチピーク位置(1フレーム遅延部から出力されるのは、1フレーム前に受信したピッチピーク位置情報であり、1フレーム前に送られてきているピッチピーク位置情報は、現在復号している(消失補償処理を行っている)音声フレームに対応するピッチピーク位置情報である)と、パラメータバッファ312から入力した前フレームにおける音声復号部で復号されたピッチ周期と、を入力し、現在のピッチ周期を求める。具体的には、(式1)によって現フレームのピッチ周期を決定することが出来る。   The pitch period calculator 314 outputs the final pitch peak position of the previous frame input from the pitch peak position detector 313 and the final pitch peak position of the current frame input from the 1 frame delay unit 157 (output from the 1 frame delay unit). Is the pitch peak position information received one frame before, and the pitch peak position information sent one frame before is the pitch corresponding to the voice frame that is currently decoded (with erasure compensation processing). And the pitch period decoded by the speech decoding unit in the previous frame input from the parameter buffer 312 and the current pitch period is obtained. Specifically, the pitch period of the current frame can be determined by (Equation 1).

Pc = (N(PPc)+Nf−N(PPp))÷Int[0.5+(N(PPc)+Nf−N(PPp))/Pp] (式1)
但し、PPcは現フレームにおける最終ピッチピーク位置(1フレーム遅延部157から入力した情報によって得られる)、PPpは前フレームにおける最終ピッチピーク位置(ピッチピーク位置検出器313から入力した情報によって得られる)、Ppは前フレームにおけるピッチ周期(パラメータバッファ312より入力)、N(PPx)はフレームXにおけるピッチピーク位置PPxをフレームXの先頭からの距離で表した場合の数値、Nfはフレーム長、をそれぞれ示す。また、Int[]は演算結果を越えない最大の整数を示す。
Pc = (N (PPc) + Nf-N (PPp)) / Int [0.5+ (N (PPc) + Nf-N (PPp)) / Pp] (Formula 1)
However, PPc is the final pitch peak position in the current frame (obtained from information input from the one-frame delay unit 157), and PPp is the final pitch peak position in the previous frame (obtained from information input from the pitch peak position detector 313). , Pp is the pitch period in the previous frame (input from the parameter buffer 312), N (PPx) is a numerical value when the pitch peak position PPx in the frame X is represented by the distance from the head of the frame X, and Nf is the frame length. Show. Int [] indicates the maximum integer that does not exceed the operation result.

例えば、図6に示すようなフレーム消失のケースを考える。図6では現フレームが消失し、前フレームのピッチ周期を用いて、前フレームの波形を繰り返す消失補償処理を行った場合を示している。このとき、フレーム消失補償によって生成される現フレームの波形における最終ピッチピーク位置はPPc’である。   For example, consider the case of frame loss as shown in FIG. FIG. 6 shows a case where the current frame is lost, and the loss compensation process for repeating the waveform of the previous frame is performed using the pitch period of the previous frame. At this time, the final pitch peak position in the waveform of the current frame generated by the frame erasure compensation is PPc ′.

ところで、図7のように、実際には現フレームにおいてピッチ周期が短くなっていた場合、実際のピッチピーク位置PPcと図6のようなフレーム消失補償処理を行った場合のピッチピーク位置PPc’との間にずれが生じてしまう。このようなずれは、消失した現フレームのみならず、後続の正常受信フレームにおいて適応符号帳のピッチピーク位置が符号器側と復号器側とでずれてしまうため、復号音声品質の劣化が大きくなる。   Incidentally, as shown in FIG. 7, when the pitch period is actually short in the current frame, the actual pitch peak position PPc and the pitch peak position PPc ′ when the frame erasure compensation process as shown in FIG. Deviation occurs between the two. Such a shift causes not only the lost current frame but also the pitch peak position of the adaptive codebook to shift between the encoder side and the decoder side in the subsequent normal reception frame, so that the degradation of the decoded speech quality increases. .

しかしながら、消失したフレームにおけるピッチピーク位置情報が前フレームの音声符号化パラメータとともに伝送されていれば、消失した現フレームにおけるピッチピーク位置PPcが合うように、ピッチ周期Pcを(式1)の様にして決定することができる。ピッチの量子化精度によっては、同一ピッチ周期で繰り返してもピッチピーク位置を合わせることが出来ない場合もあるので、(式1)で求められるピッチ周期Pc付近のピッチ量子化値を用いて段階的にピッチ周期Pcを変化させてピッチピーク位置を合わせることも可能である。   However, if the pitch peak position information in the lost frame is transmitted together with the speech coding parameter of the previous frame, the pitch period Pc is set as in (Equation 1) so that the pitch peak position PPc in the lost current frame matches. Can be determined. Depending on the quantization accuracy of the pitch, the pitch peak position may not be matched even if it is repeated at the same pitch period, so stepwise using the pitch quantization value in the vicinity of the pitch period Pc obtained by (Equation 1). It is also possible to adjust the pitch peak position by changing the pitch period Pc.

なお、ピッチピーク位置におけるピーク値の極性が合わないことが問題になる場合は、極性情報もピッチピーク位置情報として伝送するようにして利用する。   In addition, when it is a problem that the polarity of the peak value at the pitch peak position does not match, the polarity information is also transmitted and used as the pitch peak position information.

フレーム消失補償部158において、このようにしてピッチ周期Pcを求め、そのピッチ周期Pcを用いてフレーム消失補間処理を行った例を図8に示す。フレーム消失がなかった場合の復号信号(破線)に比べて波形レベルでは一致しないものの、ピッチピーク位置を一致させることが出来るので、後続フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。また、ピッチピーク位置情報だけを送るので、ビットレートの増加も少ない。たとえばIETF標準のRFC2198(Perkinsら、”RTP Payload for Redundant Audio data”, Sept. 1997)などで規定されているようにプライマリコーデック情報とセカンダリコーデック情報とを伝送するのに比べると、低ビットレートでのFEC(Forward Error Correction:前方誤り訂正)を実現することが可能である。 FIG. 8 shows an example in which the frame loss compensation unit 158 obtains the pitch period Pc in this way and performs the frame loss interpolation process using the pitch period Pc. Compared with the decoded signal (dashed line) when there is no frame loss, the pitch level position can be matched although it does not match at the waveform level. The influence can be reduced. Further, since only the pitch peak position information is transmitted, the increase in bit rate is small. For example, compared to transmitting primary codec information and secondary codec information as defined in IETF standard RFC2198 (Perkins et al., “RTP Payload for Redundant Audio data ”, Sept. 1997), etc., at a lower bit rate. FEC (Forward Error Correction) can be realized.

なお、現フレームのピッチピーク位置情報が「現フレームはピッチ周期性を有していないフレームである」ことを示している場合は、ピッチ周期算出器314は、上述のようなピッチ周期の計算は行わず、現フレームがピッチ周期性を有さないフレームであることを示す情報をパラメータ生成部に出力する。   When the pitch peak position information of the current frame indicates that “the current frame is a frame having no pitch periodicity”, the pitch period calculator 314 calculates the pitch period as described above. Without performing, the information which shows that the present frame is a frame which does not have pitch periodicity is output to a parameter generation part.

パラメータ生成部315は、ピッチ周期算出器314で算出されたピッチ周期と、パラメータバッファ312から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。例えば、ピッチ周期算出器314から入力した情報が、「現フレームはピッチ周期性を有さないフレームである」ことを示している場合は、パラメータ生成部315は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。反対に、ピッチ周期算出器314から入力した情報が「現フレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、パラメータ生成部315は、ピッチパラメータをPc’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数が繰り返して使用されたり、又は帯域幅を拡張してスペクトル特性を平坦化したものが使用される。   The parameter generation unit 315 generates a sound source parameter of a lost frame using the pitch period calculated by the pitch period calculator 314 and various decoding parameters in the previous frame input from the parameter buffer 312. For example, when the information input from the pitch period calculator 314 indicates that “the current frame is a frame having no pitch periodicity”, the parameter generation unit 315 sets the adaptive codebook gain Gp ′ to 0.0. The randomly generated fixed codebook parameter C ′ and the value obtained by attenuating the fixed codebook gain used in the previous frame are output to the changeover switch 303 as Gc ′. On the other hand, when the information input from the pitch period calculator 314 indicates that “the current frame has pitch periodicity and the pitch period is Pc ′”, the parameter generation unit 315 sets the pitch parameter. Set to Pc 'and set adaptive codebook gain Gp' to the value of adaptive codebook gain Gp or Gp that was decoded in the previous frame (eg, a value multiplied by 0.9) or the average value of Gp decoded in the past Then, the fixed codebook gain Gc ′ is set to 0.0 and output to the changeover switch 303. As the decoded quantized linear prediction coefficient α ′, the decoded quantized linear prediction coefficient in the previous frame is used repeatedly, or the bandwidth is expanded to flatten the spectral characteristics.

次に、音声符号化装置104および音声復号化装置114の動作について、図9及び図10を参照して説明する。図9は、音声符号化装置104の動作を説明するためのフロー図であり、図10は、音声復号化装置114の動作を説明するためのフロー図である。   Next, operations of speech encoding apparatus 104 and speech decoding apparatus 114 will be described with reference to FIGS. FIG. 9 is a flowchart for explaining the operation of speech encoding apparatus 104, and FIG. 10 is a flowchart for explaining the operation of speech decoding apparatus 114.

図9に示すように、音声符号化装置104は、まずステップST101において、音声符号化部153により1フレーム分のCELP音声符号化処理を行い、 次に、ステップST102において、ステップST101にて得られた音声符号化情報を次のフレームの処理が終わるまで1フレーム遅延部154によって保存する。   As shown in FIG. 9, speech encoding apparatus 104 first performs CELP speech encoding processing for one frame by speech encoding section 153 in step ST101, and then obtained in step ST101 in step ST102. The encoded speech information is stored by the 1-frame delay unit 154 until the processing of the next frame is completed.

次に、音声符号化装置104は、ステップST103において、ピッチピーク位置検出部151によって、現フレームにおいて一番後ろにあるピッチピーク位置の検出を行う。   Next, in step ST103, the speech encoding apparatus 104 uses the pitch peak position detection unit 151 to detect the pitch peak position at the rearmost position in the current frame.

次に、音声符号化装置104は、ステップST104において、ステップST102にて保存された前フレームの音声符号化情報(前フレームの音声符号化情報)を1フレーム遅延部154から取り出した後、ステップST105に移って、ステップST104において取り出された前フレームの音声符号化情報と、ステップST103にて検出されたピッチピーク位置情報とを多重化部152によって多重化し、これを音声符号化装置104の出力として出力する。   Next, in step ST104, the speech encoding apparatus 104 extracts the speech encoding information of the previous frame stored in step ST102 (speech encoding information of the previous frame) from the 1-frame delay unit 154, and then performs step ST105. Then, the speech encoding information of the previous frame extracted in step ST104 and the pitch peak position information detected in step ST103 are multiplexed by the multiplexing unit 152, and this is used as the output of the speech encoding device 104. Output.

音声符号化装置104は、上述したステップST101〜ステップST105の一連の符号化処理を繰り返す。   Speech encoding apparatus 104 repeats the series of encoding processes in steps ST101 to ST105 described above.

続いて音声復号化装置114の動作を説明する。図10に示すように、音声復号化装置114は、まず、ステップST110において、現フレームが消失しているかどうかを信号処理装置113によって判定する。消失していない場合はステップST111に移り、また、消失している場合はステップST114に移る。   Next, the operation of the speech decoding apparatus 114 will be described. As shown in FIG. 10, the speech decoding apparatus 114 first determines whether or not the current frame is lost in step ST110 by the signal processing apparatus 113. If it has not disappeared, the process proceeds to step ST111, and if it has disappeared, the process proceeds to step ST114.

次に、フレーム消失していない場合は、ステップST111において、多重分離部155が受信した多重化情報を分離する。   Next, when the frame is not lost, in step ST111, the demultiplexing unit 155 demultiplexes the multiplexed information received.

続いて、ステップST112において、音声復号化部156内のパラメータ復号部301が、分離された音声符号化情報から音声符号化パラメータを復号する。次に、ステップST113において、音声復号化部156の残りの部分が、復号された音声符号化パラメータから音声信号を再合成する処理を行い、復号音声信号がD/A変換装置115へ出力される。   Subsequently, in step ST112, the parameter decoding unit 301 in the speech decoding unit 156 decodes speech coding parameters from the separated speech coding information. Next, in step ST113, the remaining part of speech decoding section 156 performs a process of re-synthesizing the speech signal from the decoded speech encoding parameter, and the decoded speech signal is output to D / A converter 115. .

これに対して、ステップST110においてフレームが消失していると判断された場合は、音声復号化装置114は、ステップST114に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)がピッチ周期性を有するフレームであるか否かをチェックする。ピッチ周期性があるか否かに関する情報は受信したピッチピーク位置情報に含まれている。音声復号化装置114は、ピッチ周期性がある場合はステップST115へ移り、ピッチ周期性がない場合はステップST118へ移る。そして、現フレーム(消失フレーム)がピッチ周期性を有する場合、音声復号化装置114は、ステップST115に移って、ピッチピーク位置検出器313によって、前フレームのピッチ情報と復号した音源信号とを、パラメータバッファ312と適応符号帳304から、それぞれ読み出す。   On the other hand, when it is determined in step ST110 that the frame is lost, the speech decoding apparatus 114 moves to step ST114, and the pitch period calculator 314 determines that the current frame (erasure frame) is the pitch period. It is checked whether or not the frame has sex. Information regarding whether or not there is pitch periodicity is included in the received pitch peak position information. The speech decoding apparatus 114 proceeds to step ST115 if there is pitch periodicity, and proceeds to step ST118 if there is no pitch periodicity. If the current frame (erased frame) has pitch periodicity, the speech decoding apparatus 114 moves to step ST115 and uses the pitch peak position detector 313 to obtain the pitch information of the previous frame and the decoded excitation signal. Read from the parameter buffer 312 and the adaptive codebook 304, respectively.

次に、音声復号化装置114は、ステップST116に移って、ピッチピーク位置検出器313によって、前フレームにおいて最も後ろにあるピッチピーク位置を検出する。なお、パラメータバッファ312が、2つ前に受信したピッチピーク位置情報を保持している場合は、その情報を用いて前フレームにおけるピッチピーク位置を得ても良い。   Next, the speech decoding apparatus 114 moves to step ST116, and the pitch peak position detector 313 detects the rearmost pitch peak position in the previous frame. When the parameter buffer 312 holds the pitch peak position information received two times before, the pitch peak position in the previous frame may be obtained using the information.

次に、音声復号化装置114は、ステップST117に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)のピッチピーク位置と前フレームのピッチピーク位置と前フレームのピッチ周期を用いて、上述の(式1)によってピッチ周期を算出する。   Next, the speech decoding apparatus 114 moves to step ST117 and uses the pitch period calculator 314 to use the pitch peak position of the current frame (erased frame), the pitch peak position of the previous frame, and the pitch period of the previous frame, The pitch period is calculated by the above (Equation 1).

次に、音声復号化装置114は、ステップST118に移って、消失したフレームにおける各種音声符号化パラメータをパラメータ生成部315によって生成する。   Next, the speech decoding apparatus 114 proceeds to step ST118, and the parameter generation unit 315 generates various speech encoding parameters in the lost frame.

現フレームがピッチ周期性を有するフレームであると判断された場合は、固定符号帳利得をゼロとし、適応符号帳のみを用いて音声信号を生成する。このとき用いるピッチ周期(適応符号帳パラメータ)は、ピッチ周期算出器314にて算出されたものを用いる。また、現フレームがピッチ周期性をもたないフレームであると判断された場合は、音声復号化装置114は、適応符号帳利得をゼロとし、固定符号帳のみで音声信号を生成する。この場合、固定符号帳パラメータはランダムに決定する。線形予測係数については、現在フレームのピッチ周期性の有無に関らず、前フレームのものを繰り返し利用するか、又は、帯域幅拡張を行いながら次第に白色化したものを用いる。   If it is determined that the current frame is a frame having pitch periodicity, the fixed codebook gain is set to zero, and a speech signal is generated using only the adaptive codebook. The pitch period (adaptive codebook parameter) used at this time is the one calculated by the pitch period calculator 314. If it is determined that the current frame is a frame having no pitch periodicity, speech decoding apparatus 114 sets the adaptive codebook gain to zero and generates a speech signal using only the fixed codebook. In this case, fixed codebook parameters are determined randomly. As the linear prediction coefficient, regardless of whether or not the current frame has a pitch periodicity, the previous frame is repeatedly used or gradually whitened while performing bandwidth expansion.

最後に、音声復号化装置114は、ステップST119において、パラメータバッファ312の内容を更新して、1フレームの復号処理を終了する。   Finally, in step ST119, the speech decoding apparatus 114 updates the contents of the parameter buffer 312 and ends the decoding process for one frame.

音声復号化装置114は、上記ステップST110〜ステップST119の一連の復号処理を繰り返す。   The speech decoding apparatus 114 repeats a series of decoding processes in steps ST110 to ST119.

このように、本実施の形態の音声信号送信装置100及び音声信号受信装置199によれば、少ない冗長情報の追加で、精度良いフレーム消失補償処理が可能となるとともに、ピッチピーク位置が合わせられることにより、ピッチピーク位置のずれが消失フレーム後に伝搬されることを回避することができ、この結果、消失フレーム後の誤り伝播の影響を軽減することができる。   As described above, according to the audio signal transmitting apparatus 100 and the audio signal receiving apparatus 199 of the present embodiment, it is possible to perform the frame erasure compensation process with high accuracy and to adjust the pitch peak position by adding a small amount of redundant information. Thus, it is possible to avoid the shift of the pitch peak position from being propagated after the lost frame, and as a result, it is possible to reduce the influence of error propagation after the lost frame.

(実施の形態2)
図11は、本発明の実施の形態2に係る音声信号伝送システムの構成を示すブロック図である。
(Embodiment 2)
FIG. 11 is a block diagram showing a configuration of an audio signal transmission system according to Embodiment 2 of the present invention.

図11に示す音声信号伝送システムは、音声信号送信装置400及び音声信号受信装置499を有している。   The audio signal transmission system illustrated in FIG. 11 includes an audio signal transmission device 400 and an audio signal reception device 499.

音声信号送信装置400は、実施の形態1の音声信号送信装置100における音声符号化装置104を音声符号化装置404に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。   Audio signal transmitting apparatus 400 is obtained by replacing audio encoding apparatus 104 in audio signal transmitting apparatus 100 of Embodiment 1 with audio encoding apparatus 404. Components that are the same as those in the first embodiment and that perform the same operation are denoted by the same reference numerals as those in the first embodiment, and detailed description thereof is omitted.

音声符号化装置404は、A/D変換装置103からのディジタル音声信号を符号化することにより音声符号化情報を生成し、この生成された音声符号化情報を信号処理装置105に与える。   The audio encoding device 404 generates audio encoding information by encoding the digital audio signal from the A / D conversion device 103, and provides the generated audio encoding information to the signal processing device 105.

音声信号受信装置499は、実施の形態1の音声信号受信装置199における音声復号化装置114を音声復号化装置414に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。音声復号化装置414は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成してD/A変換装置115に与える。   Audio signal receiving apparatus 499 is obtained by replacing audio decoding apparatus 114 in audio signal receiving apparatus 199 of Embodiment 1 with audio decoding apparatus 414. Components that are the same as those in the first embodiment and that perform the same operation are denoted by the same reference numerals as those in the first embodiment, and detailed description thereof is omitted. The audio decoding device 414 generates a decoded audio signal by decoding the received audio signal from the signal processing device 113 and supplies the decoded audio signal to the D / A conversion device 115.

次に、図11および図12を参照して音声符号化装置404の詳細について説明する。   Next, the details of speech encoding apparatus 404 will be described with reference to FIGS. 11 and 12.

図11および図12に示した音声符号化装置404において、図1および図2に示した実施の形態1の音声符号化装置104と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。   In speech encoding apparatus 404 shown in FIGS. 11 and 12, the same components that perform the same operations as speech encoding apparatus 104 of Embodiment 1 shown in FIGS. 1 and 2 are the same as those in Embodiment 1. Reference numerals are assigned and detailed description is omitted.

1フレーム遅延部452の入力端子は、ピッチピーク位置検出部151の出力端子に接続されている。多重化部454の2つの入力端子は、一方が1フレーム遅延部452の出力端子に、他方が音声符号化部153の出力端子に、それぞれ接続されている。   The input terminal of the 1-frame delay unit 452 is connected to the output terminal of the pitch peak position detection unit 151. One of the two input terminals of the multiplexing unit 454 is connected to the output terminal of the one-frame delay unit 452, and the other is connected to the output terminal of the speech encoding unit 153.

1フレーム遅延部452は、ピッチピーク位置検出部151から出力された、現フレームにおける最も後ろにあるピッチピーク位置情報を、1フレームの時間だけ保持してから多重化部454へ出力する。多重化部454は、1フレーム遅延部452から入力した1フレーム前における前記ピッチピーク位置情報と、音声符号化部153から入力した現フレームの符号化音声情報と、を多重化して一つにまとめた符号化情報としてD/A変換装置115へ出力する。   The 1-frame delay unit 452 holds the most recent pitch peak position information in the current frame, which is output from the pitch peak position detection unit 151, and outputs the information to the multiplexing unit 454 after holding for one frame time. The multiplexing unit 454 multiplexes the pitch peak position information of the previous frame input from the 1-frame delay unit 452 and the encoded speech information of the current frame input from the speech encoding unit 153 to be combined into one. The encoded information is output to the D / A converter 115.

すなわち、実施の形態1と実施の形態2との違いは、ピッチピーク位置情報と音声符号化情報のどちらを1フレーム遅延させて多重化させるかの違いである。ピッチピーク位置情報を遅延させるのが実施の形態2であり、音声符号化情報を遅延させるのが実施の形態1である。実施の形態1と実施の形態2の音声符号化装置におけるその他の動作は全て同じである。   That is, the difference between the first embodiment and the second embodiment is a difference in which one of the pitch peak position information and the voice encoded information is delayed by one frame and multiplexed. The second embodiment delays the pitch peak position information, and the first embodiment delays the speech coding information. All other operations in the speech coding apparatus according to Embodiment 1 and Embodiment 2 are the same.

因みに、図13は、音声符号化装置404において、符号化された各フレームの音声符号化情報とピッチピーク位置情報とをパケット化して送信する際の説明に供する略線図である。図13に示すように、音声符号化装置404では、ピッチピーク位置情報を1フレーム分遅延させるとともに、音声符号化情報は遅延させることなく、多重化している。   Incidentally, FIG. 13 is a schematic diagram for explanation when the speech coding apparatus 404 packetizes and transmits the speech coding information and pitch peak position information of each encoded frame. As shown in FIG. 13, in the speech encoding device 404, the pitch peak position information is delayed by one frame, and the encoded speech information is multiplexed without being delayed.

従って、図13において、例えばフレームf2の音声符号化情報2001aは、遅延なく第1のパケット2001によって送信されるのに対して、そのフレームf2のピッチピーク位置情報2002pは1フレーム遅延し、次のフレームf3の音声符号化情報2002aとともにパケット2002によって送信される。   Therefore, in FIG. 13, for example, the audio coding information 2001a of the frame f2 is transmitted by the first packet 2001 without delay, whereas the pitch peak position information 2002p of the frame f2 is delayed by one frame, The packet 2002 is transmitted together with the audio coding information 2002a of the frame f3.

このようにして音声符号化装置404(音声信号送信装置400)から送信されたパケット化された音声符号化情報及びピッチピーク位置情報は、音声信号受信装置499の音声復号化部456において復号される。この場合、例えばパケット2002によって送信された、フレームf2のピッチピーク位置情報2002pは、送信側で1フレーム遅延されて送信されていることにより、音声復号化部456において復号される際には、前フレームのピッチピーク位置情報となる。音声復号化部456では、フレーム消失情報に基づいて現在復号しようとするフレームの音声符号化情報が消失している場合には、前フレームで復号した音声符号化情報を用いて、フレーム消失補償部457によって一般的なフレーム消失補償を行う。また、前フレームが消失フレームであった場合は、音声復号化部456の1フレーム遅延部601(後述)によって、その前フレームにおけるフレーム消失情報を1フレーム分だけ遅延させることにより、消失した前フレームに続く現在フレームにおいて、このフレーム消失情報によって適応符号帳修正器603(後述)を動作させる。これにより、前フレームにおいてフレーム消失補償部457によって補償されたパラメータに基づいて生成された適応符号帳304が修正される。   Thus, the packetized speech coding information and pitch peak position information transmitted from speech coding apparatus 404 (speech signal transmitting apparatus 400) are decoded by speech decoding section 456 of speech signal receiving apparatus 499. . In this case, for example, the pitch peak position information 2002p of the frame f2 transmitted by the packet 2002 is transmitted after being delayed by one frame on the transmission side. This is the pitch peak position information of the frame. In the audio decoding unit 456, when the audio encoding information of the frame to be currently decoded is lost based on the frame erasure information, the frame erasure compensation unit uses the audio encoding information decoded in the previous frame. 457 performs general frame loss compensation. If the previous frame is a lost frame, the lost frame is delayed by delaying the frame lost information of the previous frame by one frame by a one-frame delay unit 601 (described later) of the audio decoding unit 456. In the current frame that follows, the adaptive codebook corrector 603 (described later) is operated by this frame erasure information. Thereby, adaptive codebook 304 generated based on the parameter compensated by frame erasure compensation unit 457 in the previous frame is corrected.

次に、図11および図14を参照して実施の形態2における音声復号化装置414について詳細に説明する。   Next, speech decoding apparatus 414 according to Embodiment 2 will be described in detail with reference to FIG. 11 and FIG.

図14に示した音声復号化装置414において、図5に示した実施の形態1の音声復号化装置114と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。   In the speech decoding apparatus 414 shown in FIG. 14, the same components as those in the speech decoding apparatus 114 according to the first embodiment shown in FIG. Description is omitted.

図14に示すように、音声復号化装置414は、多重分離部455と、音声復号化部456と、フレーム消失補償部457とを有する。   As illustrated in FIG. 14, the speech decoding apparatus 414 includes a demultiplexing unit 455, a speech decoding unit 456, and a frame erasure compensation unit 457.

多重分離部455の入力端子は、信号処理装置113の出力端子の一つに接続されている。音声復号化部456の8つの入力端子は、多重分離部455の2つの出力端子に一つずつと、信号処理装置113の一つの出力端子と、フレーム消失補償部457の5つの出力端子とにそれぞれ接続されている。フレーム消失補償部457の6つの入力端子は、一つが多重分離部455の一方の出力端子に接続されており、残りの5つが音声復号化部456の5つの出力端子に接続されている。音声復号化部の残り1つの出力端子は、D/A変換装置115へ接続されている。   The input terminal of the demultiplexing unit 455 is connected to one of the output terminals of the signal processing device 113. The eight input terminals of the speech decoding unit 456 are one each for the two output terminals of the demultiplexing unit 455, one output terminal of the signal processing device 113, and five output terminals of the frame erasure compensation unit 457. Each is connected. One of the six input terminals of the frame erasure compensation unit 457 is connected to one output terminal of the demultiplexing unit 455, and the remaining five are connected to the five output terminals of the speech decoding unit 456. The remaining one output terminal of the speech decoding unit is connected to the D / A converter 115.

多重分離部455は信号処理装置113(図1)から出力される符号化情報から音声符号化パラメータ情報とピッチピーク位置情報とを分離し、双方とも音声復号化部456へ出力する。また、多重分離部455は、ピッチピーク位置情報(PP)をフレーム消失補償部457へも出力する。音声復号化部456は、信号処理装置113からフレーム消失情報を入力し、復号するフレーム(現フレーム)が消失フレームである場合は、切り替えスイッチ303を切り替えることにより、フレーム消失補償部457によって生成される音声符号化パラメータを用いて音声信号を合成し、D/A変換装置115へ出力する。復号するフレームが消失フレームでない場合は、多重分離部455から出力された音声符号化パラメータを用いて復号処理を行い、音声信号を合成し、D/A変換装置115へ出力する。ただし、前フレームが消失フレームである場合は、多重分離部455から出力された(前フレームの)ピッチピーク位置を用いて、前フレームにおいて生成した適応符号帳の内容を修正してから復号化処理を行う。   The demultiplexing unit 455 separates the speech coding parameter information and the pitch peak position information from the coding information output from the signal processing device 113 (FIG. 1), and outputs both to the speech decoding unit 456. The demultiplexing unit 455 also outputs pitch peak position information (PP) to the frame erasure compensation unit 457. The audio decoding unit 456 receives the frame erasure information from the signal processing device 113, and when the frame to be decoded (current frame) is an erasure frame, the audio decoding unit 456 generates the frame erasure compensation unit 457 by switching the changeover switch 303. A speech signal is synthesized using the speech coding parameters to be output to the D / A converter 115. If the frame to be decoded is not an erasure frame, decoding processing is performed using the audio encoding parameter output from the demultiplexing unit 455, an audio signal is synthesized, and output to the D / A converter 115. However, when the previous frame is an erasure frame, the content of the adaptive codebook generated in the previous frame is corrected using the pitch peak position (of the previous frame) output from the demultiplexing unit 455, and then the decoding process is performed. I do.

図14を参照して、音声復号化部456の詳細について説明する。図14において、音声復号化部414が、図5に示した実施の形態1における音声復号化部114と異なる部分は、1フレーム遅延部601と切り替えスイッチ602と適応符号帳修正器603とが新たに加わった点である。その他の構成要素については、同じ構成で同じ動作をするため、図5と同一符号を付して詳しい説明を省略する。   The details of the speech decoding unit 456 will be described with reference to FIG. In FIG. 14, the speech decoding unit 414 is different from the speech decoding unit 114 in the first embodiment shown in FIG. 5 in that a 1-frame delay unit 601, a changeover switch 602, and an adaptive codebook modifier 603 are new. It is a point added to. Since the other components perform the same operation with the same configuration, the same reference numerals as those in FIG.

1フレーム遅延部601の入力端子は信号処理部113の出力端子の一つに接続されている。切り替えスイッチ602の2つの入力端子は、一方が適応符号帳304に、他方が適応符号帳修正器603に、それぞれ接続されている。また、切り替えスイッチ602には、1フレーム遅延部601から、スイッチ切り替えの制御情報が入力されている。適応符号帳修正器603の2つの入力端子は、一方が切り替えスイッチ602の入力端子の一つに接続されており、他方が多重分離部455の出力端子の一つに接続されている。   The input terminal of the 1-frame delay unit 601 is connected to one of the output terminals of the signal processing unit 113. One of the two input terminals of the changeover switch 602 is connected to the adaptive codebook 304 and the other is connected to the adaptive codebook modifier 603. In addition, switch changeover control information is input from the 1-frame delay unit 601 to the changeover switch 602. One of the two input terminals of the adaptive codebook corrector 603 is connected to one of the input terminals of the changeover switch 602, and the other is connected to one of the output terminals of the demultiplexing unit 455.

1フレーム遅延部601は、信号処理装置113から、フレーム消失情報を入力し、1フレーム時間だけ保持した後、切り替えスイッチ602へ出力する。切り替えスイッチ602は、1フレーム遅延部601から入力した情報が、フレーム(=前フレーム)が消失していることを示している場合にON(接続)となり、フレームが消失していない場合にはOFF(解放)となる。なお、2つのスイッチは連動しており、同時にON/OFFされる。切り替えスイッチ602がONになると、適応符号帳304の内容が読み出され、適応符号帳修正器603へ出力される。読み出された適応符号帳304の内容は、適応符号帳修正器603によって修正された後、切り替えスイッチ602を介して適応符号帳304へ出力され、適応符号帳の内容が書き換えられる。適応符号帳304の書き換えが終わってから音声復号化処理が行われる。   The 1-frame delay unit 601 receives frame erasure information from the signal processing device 113, holds it for one frame time, and then outputs it to the changeover switch 602. The changeover switch 602 is turned on (connected) when the information input from the one-frame delay unit 601 indicates that the frame (= previous frame) is lost, and is turned off when the frame is not lost. (Released). The two switches are linked and are turned ON / OFF at the same time. When the changeover switch 602 is turned on, the contents of the adaptive codebook 304 are read and output to the adaptive codebook modifier 603. The read contents of the adaptive codebook 304 are corrected by the adaptive codebook modifier 603, and then output to the adaptive codebook 304 via the changeover switch 602, so that the contents of the adaptive codebook are rewritten. The voice decoding process is performed after the adaptive codebook 304 is rewritten.

適応符号帳修正器603は、多重分離部455から、復号するフレームの前フレームにおける一番後ろにあるピッチピーク位置情報を入力し、適応符号帳304に格納されている前フレームで生成された音源部分のピッチピーク位置が前記ピッチピーク位置に合うように、適応符号帳304に格納されている音源信号バッファの内容を修正する。具体的には、実施の形態1で述べた方法と同様にして、2つ前のフレームにおける最終ピッチピーク位置PPp’(2つ前のフレームにおける音源信号およびピッチ周期Pp’を用いて、実施の形態1に示した方法で求める)と、1つ前のフレームにおける最終ピッチピーク位置PPp(現フレームで受信しているピッチピーク位置情報から得られる)と、を用いて(式1)と同様の(式2)によって、1つ前のフレームにおけるピッチ周期Ppを算出し、Ppを用いて前フレームにおけるフレーム消失補償処理をやり直すことによって修正した適応符号帳を生成する。   Adaptive codebook modifier 603 receives from the demultiplexing unit 455 the pitch peak position information at the rearmost of the previous frame to be decoded, and the sound source generated in the previous frame stored in adaptive codebook 304 The content of the excitation signal buffer stored in the adaptive codebook 304 is corrected so that the pitch peak position of the portion matches the pitch peak position. Specifically, in the same manner as the method described in the first embodiment, the final pitch peak position PPp ′ in the second previous frame (using the sound source signal and the pitch period Pp ′ in the second previous frame) And the final pitch peak position PPp in the previous frame (obtained from the pitch peak position information received in the current frame) in the previous frame. (Expression 2) calculates a pitch period Pp in the previous frame, and generates a modified adaptive codebook by redoing the frame erasure compensation process in the previous frame using Pp.

Pp = (N(PPp)+Nf−N(PPp’))÷Int[0.5+(N(PPp)+Nf−N(PPp’))/Pp’] (式2)
または、単に1つ前のフレームにおけるピッチピーク位置PPpを、修正前の適応符号帳304に格納されている1つ前のフレームにおいて生成された音源信号を用いて求め、求められたピッチピーク位置と、現フレームで受信したピッチピーク位置情報から得られるピッチピーク位置との差だけ適応符号帳の内容をシフトさせて位置あわせを行う方法も可能である。
Pp = (N (PPp) + Nf−N (PPp ′)) ÷ Int [0.5+ (N (PPp) + Nf−N (PPp ′)) / Pp ′] (Formula 2)
Alternatively, the pitch peak position PPp in the previous frame is simply obtained using the excitation signal generated in the previous frame stored in the adaptive codebook 304 before correction, and the obtained pitch peak position and A method of performing alignment by shifting the contents of the adaptive codebook by the difference from the pitch peak position obtained from the pitch peak position information received in the current frame is also possible.

このようにして修正した適応符号帳は、切り替えスイッチ602を介して適応符号帳304へ出力され、適応符号帳304の内容が修正される。適応符号帳304の内容を修正した後は、実施の形態1で説明した音声復号化部156と同じ動作によって音声信号が復号される。   The adaptive codebook corrected in this way is output to the adaptive codebook 304 via the changeover switch 602, and the contents of the adaptive codebook 304 are corrected. After correcting the contents of adaptive codebook 304, the speech signal is decoded by the same operation as speech decoding section 156 described in the first embodiment.

次に、フレーム消失補償部457について図14を参照して詳細に説明する。フレーム消失補償部457は、パラメータバッファ312およびパラメータ生成部604を有する。パラメータバッファ312の動作は、実施の形態1と同じなのでその説明は省略する。パラメータ生成部604の動作は、基本的に実施の形態1のパラメータ生成部315と同様である。即ち、例えば、ピッチピーク位置情報PPが、「前フレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。反対に、ピッチピーク位置情報PPが「前フレームはピッチ周期性を有する」ことを示している場合は、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。   Next, the frame loss compensation unit 457 will be described in detail with reference to FIG. The frame erasure compensation unit 457 includes a parameter buffer 312 and a parameter generation unit 604. Since the operation of the parameter buffer 312 is the same as that of the first embodiment, the description thereof is omitted. The operation of the parameter generation unit 604 is basically the same as that of the parameter generation unit 315 of the first embodiment. That is, for example, when the pitch peak position information PP indicates that “the previous frame is a frame having no pitch periodicity”, the adaptive codebook gain Gp ′ is set to 0.0, and a randomly generated fixed code A value obtained by attenuating the book parameter C ′ and the fixed codebook gain used in the previous frame is output to the changeover switch 303 as Gc ′. On the contrary, when the pitch peak position information PP indicates that “the previous frame has pitch periodicity”, the adaptive codebook gain Gp or Gp obtained by decoding the adaptive codebook gain Gp ′ in the previous frame is attenuated. (For example, a value multiplied by 0.9) or an average value of Gp decoded in the past, the fixed codebook gain Gc ′ is set to 0.0, and each is output to the changeover switch 303.

ピッチ周期情報にはパラメータバッファ312に記憶されている前フレームのピッチ周期やそれに準じるピッチ周期(ランダムな揺らぎを付加したり、1サンプルずつ増やしたりしたもの)を用い、固定符号帳パラメータには乱数で生成した符号帳インデックスなどを用いる。なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。   For the pitch period information, the pitch period of the previous frame stored in the parameter buffer 312 or a pitch period corresponding thereto (added random fluctuation or incremented by one sample) is used, and for the fixed codebook parameter, a random number is used. The codebook index generated in step 1 is used. Note that as the decoded quantized linear prediction coefficient α ′, the decoded quantized linear prediction coefficient in the previous frame is repeatedly used, or the bandwidth is expanded to flatten the spectral characteristics.

このように、本実施の形態の音声信号送信装置400及び音声信号受信装置499によれば、フレーム消失後の誤り伝播の影響を、遅延の増加なく軽減することができる。   Thus, according to audio signal transmitting apparatus 400 and audio signal receiving apparatus 499 of the present embodiment, the effect of error propagation after frame loss can be reduced without an increase in delay.

(実施の形態3)
図15は、本発明の実施の形態3に係る音声信号伝送システムの構成を示すブロック図である。
(Embodiment 3)
FIG. 15 is a block diagram showing a configuration of an audio signal transmission system according to Embodiment 3 of the present invention.

音声信号伝送システムは、音声信号送信装置700及び音声信号受信装置799を具備している。   The audio signal transmission system includes an audio signal transmitter 700 and an audio signal receiver 799.

音声信号送信装置700は、実施の形態2の音声信号送信装置400と同じものであるので、各構成要素には実施の形態1および2と同一符号を付し、詳しい説明を省略する。   Since audio signal transmitting apparatus 700 is the same as audio signal transmitting apparatus 400 in the second embodiment, the same reference numerals as those in the first and second embodiments are given to the respective components, and detailed description thereof is omitted.

音声信号受信装置799は、実施の形態2の音声信号受信装置499における音声復号化装置414を音声復号化装置714に置き換えたものである。実施の形態1および2と同じ構成要素で同じ動作をするものについては、実施の形態1および2と同じ番号を付し、説明を省略する。音声復号化装置714は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成してD/A変換装置115に与える。   Audio signal receiving apparatus 799 is obtained by replacing audio decoding apparatus 414 in audio signal receiving apparatus 499 of Embodiment 2 with audio decoding apparatus 714. Components having the same operations as those of the first and second embodiments are denoted by the same reference numerals as those of the first and second embodiments, and the description thereof is omitted. The audio decoding device 714 generates a decoded audio signal by decoding the received audio signal from the signal processing device 113 and supplies the decoded audio signal to the D / A conversion device 115.

次に、図15および図16を参照して実施の形態3における音声復号化装置714について詳細に説明する。   Next, speech decoding apparatus 714 according to Embodiment 3 will be described in detail with reference to FIG. 15 and FIG.

図15および図16に示した音声復号化装置714において、図5に示した実施の形態1の音声復号化装置114及び図14に示した実施の形態2の音声復号化装置414と同じ動作をする同じ構成要素については、実施の形態1および実施の形態2と同一符号を付し、詳しい説明を省略する。   The speech decoding apparatus 714 shown in FIGS. 15 and 16 performs the same operation as the speech decoding apparatus 114 of the first embodiment shown in FIG. 5 and the speech decoding apparatus 414 of the second embodiment shown in FIG. The same constituent elements are denoted by the same reference numerals as those in the first and second embodiments, and detailed description thereof is omitted.

図15および図16に示すように、音声復号化装置714は、多重分離部755と、音声復号化部756と、フレーム消失補償部757とを有する。   As shown in FIGS. 15 and 16, speech decoding apparatus 714 includes demultiplexing section 755, speech decoding section 756, and frame erasure compensation section 757.

多重分離部755の入力端子は、信号処理装置113の出力端子の一つに接続されている。音声復号化部756の3つの入力端子は、多重分離部755の出力端子と、信号処理装置113の一つの出力端子と、フレーム消失補償部757の出力端子とにそれぞれ接続されている。フレーム消失補償部757の2つの入力端子は、一方が多重分離部755の一方の出力端子に接続されており、他方が音声復号化部756の2つの出力端子の一方に接続されている。音声復号化部756の他方の出力端子は、D/A変換装置115へ接続されている。   The input terminal of the demultiplexing unit 755 is connected to one of the output terminals of the signal processing device 113. The three input terminals of the speech decoding unit 756 are connected to the output terminal of the demultiplexing unit 755, one output terminal of the signal processing device 113, and the output terminal of the frame erasure compensation unit 757, respectively. One of two input terminals of the frame erasure compensation unit 757 is connected to one output terminal of the demultiplexing unit 755, and the other is connected to one of the two output terminals of the speech decoding unit 756. The other output terminal of the speech decoding unit 756 is connected to the D / A conversion device 115.

多重分離部755は音声符号化パラメータ情報とピッチピーク位置情報とを分離し、音声符号化パラメータ情報を音声復号化部756へ、ピッチピーク位置情報をフレーム消失補償部757へ、それぞれ出力する。音声復号化部756は、信号処理装置113からフレーム消失情報を入力し、復号するフレーム(現在受信しているフレームの前フレーム)が消失フレームである場合は、フレーム消失補償部757によって生成される音声符号化パラメータを用いて音声信号を合成し、D/A変換装置115へ出力する。復号するフレームが消失フレームでない場合は、多重分離部755から出力された音声符号化パラメータを用いて復号処理を行い、音声信号を合成し、D/A変換装置115へ出力する。実施の形態2と異なる点は、復号するフレームが1フレーム前に受信したものである点である。即ち、復号器側で1フレーム待ってから復号を行う点である。このようにすると、例えば復号しようとするフレームが消失していて、消失フレームの前後のフレームが受信されている場合に、前後のフレーム情報を用いて消失フレームの補償処理を行うことが可能となり、前後のフレーム間で滑らかに変化するように消失補償処理を行うことができる。   The demultiplexing unit 755 separates the speech coding parameter information and the pitch peak position information, and outputs the speech coding parameter information to the speech decoding unit 756 and the pitch peak position information to the frame erasure compensation unit 757, respectively. The audio decoding unit 756 receives the frame erasure information from the signal processing device 113, and is generated by the frame erasure compensation unit 757 when the frame to be decoded (the frame before the currently received frame) is an erasure frame. A speech signal is synthesized using speech coding parameters and output to the D / A converter 115. If the frame to be decoded is not an erasure frame, decoding processing is performed using the audio encoding parameter output from the demultiplexing unit 755, the audio signal is synthesized, and output to the D / A converter 115. The difference from Embodiment 2 is that the frame to be decoded is received one frame before. That is, decoding is performed after waiting for one frame on the decoder side. In this way, for example, when a frame to be decoded is lost and frames before and after the lost frame are received, it is possible to perform lost frame compensation processing using the preceding and following frame information, It is possible to perform erasure compensation processing so as to smoothly change between the previous and next frames.

図16を参照して、音声復号化装置714の動作を詳細に説明する。図16に示すように、音声復号化部756は、実施の形態1の音声復号化部156におけるパラメータ復号部301が、パラメータ復号部801および1フレーム遅延部802に置き換えられている。また、1フレーム遅延部803が信号処理装置113と切り替えスイッチ303との間に挿入されている。これら2点が実施の形態1と異なる。それ以外の構成要素については同じ構成で同じ動作をするため、実施の形態1と同一符号を付し、詳しい説明を省略する。   With reference to FIG. 16, the operation of speech decoding apparatus 714 will be described in detail. As shown in FIG. 16, in speech decoding section 756, parameter decoding section 301 in speech decoding section 156 of Embodiment 1 is replaced with parameter decoding section 801 and 1-frame delay section 802. A 1-frame delay unit 803 is inserted between the signal processing device 113 and the changeover switch 303. These two points are different from the first embodiment. Since the other components perform the same operation with the same configuration, the same reference numerals as those in the first embodiment are given, and detailed description thereof is omitted.

図16において、パラメータ復号部801は、多重分離部755から、音声符号化情報を入力し、各音声符号化パラメータを分離して1フレーム遅延部802に出力する。同時にパラメータ復号部801は、適応符号帳パラメータPn(復号するフレームの次のフレームにおける適応符号帳パラメータ)をフレーム消失補償部757内のピッチ周期算出器814へ出力する。   In FIG. 16, the parameter decoding unit 801 receives speech coding information from the demultiplexing unit 755, separates each speech coding parameter, and outputs it to the 1-frame delay unit 802. At the same time, parameter decoding section 801 outputs adaptive codebook parameter Pn (adaptive codebook parameter in the frame next to the frame to be decoded) to pitch period calculator 814 in frame erasure compensation section 757.

1フレーム遅延部802は、パラメータ復号部801から出力された各パラメータを1フレームの時間保持した後、ピッチ(適応符号帳)パラメータP(これから復号するフレームのピッチ(適応符号帳)パラメータであり、Pnよりも1フレーム前になる)および固定符号帳パラメータCをそれぞれ切り替えスイッチ303へ出力する。同時に1フレーム遅延部802は、利得パラメータGを利得復号器302へ出力する。同時に1フレーム遅延部802は、線形予測係数パラメータLをLPC復号器306へ出力する。また、1フレーム遅延部803は、信号処理装置113から出力されたフレーム消失情報を入力して1フレームの時間だけ保持した後、切り替えスイッチ303へ出力する。   The 1-frame delay unit 802 is a pitch (adaptive codebook) parameter P (pitch (adaptive codebook) parameter of a frame to be decoded from now on) after holding each parameter output from the parameter decoding unit 801 for one frame time, 1 frame before Pn) and fixed codebook parameter C are output to the selector switch 303, respectively. At the same time, the 1-frame delay unit 802 outputs the gain parameter G to the gain decoder 302. At the same time, the 1-frame delay unit 802 outputs the linear prediction coefficient parameter L to the LPC decoder 306. The 1-frame delay unit 803 receives the frame erasure information output from the signal processing device 113, holds it for one frame time, and then outputs it to the changeover switch 303.

次にフレーム消失補償部757について、図16を参照して詳細に説明する。フレーム消失補償部757は、ピッチピーク位置検出器313、パラメータバッファ812、ピッチ周期算出器814、パラメータ生成部815とを有する。   Next, the frame loss compensation unit 757 will be described in detail with reference to FIG. The frame erasure compensation unit 757 includes a pitch peak position detector 313, a parameter buffer 812, a pitch period calculator 814, and a parameter generation unit 815.

ピッチピーク位置検出器313は、実施の形態1におけるピッチピーク位置検出器313と同じ動作をする。即ち、復号しているフレームの前フレームにおける最終ピッチピーク位置を、パラメータバッファ812から入力するピッチ周期と、適応符号帳304から入力する音源信号とを用いて検出し、ピッチ周期算出器814へ出力する。なお、復号しているフレームの前フレームにおいてピッチピーク位置を正常に受信している場合は、その情報をバッファリングしておいて用いても良い。パラメータバッファ812は、実施の形態1および実施の形態2のパラメータバッファ312と同じ動作をする。ただし、バッファリングしているパラメータが、1フレーム遅延部802の存在により、1フレームだけ過去にさかのぼっている点のみが異なる。   Pitch peak position detector 313 performs the same operation as pitch peak position detector 313 in the first embodiment. That is, the final pitch peak position in the previous frame of the frame being decoded is detected using the pitch period input from the parameter buffer 812 and the excitation signal input from the adaptive codebook 304 and output to the pitch period calculator 814. To do. If the pitch peak position is normally received in the frame preceding the frame being decoded, the information may be buffered and used. The parameter buffer 812 performs the same operation as the parameter buffer 312 of the first and second embodiments. However, the only difference is that the buffering parameter is traced back by one frame in the past due to the presence of the one-frame delay unit 802.

ピッチ周期算出器814は、復号フレームのピッチピーク位置情報PPcを多重分離部755から、復号フレームの次のフレームのピッチ周期Pnをパラメータ復号部801から、復号フレームの前のピッチ周期情報Ppをパラメータバッファ812から、復号フレームの前のフレームのピッチピーク位置情報PPpをピッチピーク位置検出器313から、それぞれ入力し、消失フレーム(復号フレーム)のピッチ周期を計算してパラメータ生成部815へ出力する。   The pitch period calculator 814 sets the pitch peak position information PPc of the decoded frame from the demultiplexing unit 755, the pitch period Pn of the next frame of the decoded frame from the parameter decoding unit 801, and the pitch period information Pp before the decoded frame as parameters. The pitch peak position information PPp of the frame before the decoded frame is input from the buffer 812 from the pitch peak position detector 313, and the pitch period of the lost frame (decoded frame) is calculated and output to the parameter generation unit 815.

なお、ピッチ周期算出器814は、多重分離部755から入力したピッチピーク位置情報PPcが、「ピッチ周期性を有さないフレームである」ことを示している場合は、その情報をパラメータ生成部へ出力する。   When the pitch peak position information PPc input from the demultiplexing unit 755 indicates that “the frame does not have pitch periodicity”, the pitch cycle calculator 814 sends the information to the parameter generation unit. Output.

パラメータ生成部815は、実施の形態1のパラメータ生成部315と同様の動作を行う。即ち、ピッチ周期算出器814で算出されたピッチ周期と、パラメータバッファ812から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。   The parameter generation unit 815 performs the same operation as the parameter generation unit 315 of the first embodiment. That is, the sound source parameter of the lost frame is generated using the pitch period calculated by the pitch period calculator 814 and various decoding parameters in the previous frame input from the parameter buffer 812.

例えば、ピッチ周期算出器814から入力した情報が、「復号するフレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。   For example, if the information input from the pitch period calculator 814 indicates that “the frame to be decoded is a frame that does not have pitch periodicity”, the adaptive codebook gain Gp ′ is set to 0.0 and randomly generated. The fixed codebook parameter C ′ and the value obtained by attenuating the fixed codebook gain used in the previous frame are output to the changeover switch 303 as Gc ′.

反対に、ピッチ周期算出器814から入力した情報が「復号するフレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、ピッチ周期をピッチ周期算出器814で求めた値P’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。   On the other hand, when the information input from the pitch period calculator 814 indicates that “the frame to be decoded has pitch periodicity and the pitch period is Pc ′”, the pitch period is converted into the pitch period calculator 814. Is set to the value P ′ obtained in step 1, and the adaptive codebook gain Gp ′ obtained by decoding the adaptive codebook gain Gp ′ in the previous frame is attenuated (for example, a value obtained by multiplying 0.9) or the average of Gp decoded in the past The fixed codebook gain Gc ′ is set to 0.0, and output to the changeover switch 303.

なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。   Note that as the decoded quantized linear prediction coefficient α ′, the decoded quantized linear prediction coefficient in the previous frame is repeatedly used, or the bandwidth is expanded to flatten the spectral characteristics.

図17に、復号フレームの次のフレームのピッチ周期Pnと、復号フレームのピッチピーク位置情報N(PPc)と、復号フレームの前のフレームのピッチ周期Ppと、(復号フレームの前のフレームのピッチ周期Ppと適応符号帳の音源信号から求めた)復号フレームの前のフレームのピッチピーク位置情報N(PPp)とを用いて、復号フレームのピッチ周期Pcを求める原理図を示す。   FIG. 17 shows the pitch period Pn of the frame next to the decoded frame, the pitch peak position information N (PPc) of the decoded frame, the pitch period Pp of the frame before the decoded frame, and the pitch of the frame before the decoded frame. FIG. 5 shows a principle diagram for obtaining a pitch period Pc of a decoded frame using a period Pp and pitch peak position information N (PPp) of a frame before the decoded frame (obtained from the excitation signal of the adaptive codebook).

復号フレームのピッチピーク位置PPcの情報は、多重分離部755から供給される。前フレームのピッチピーク位置PPpの情報は、ピッチピーク位置検出器313から供給される。前フレームのピッチ周期Ppはパラメータバッファ812から供給される。次のフレームのピッチ周期Pnはパラメータ復号部801から供給される。この復号フレームのピッチピーク位置PPcと、前フレームのピッチピーク位置PPpと、前フレームのピッチ周期Ppと、次フレームのピッチ周期Pnとを用いて、(式3)より復号フレームのピッチ周期Pcを求める。なお、N(PPx)はフレームXの先頭からピッチピーク位置PPxまでの距離を、Nfはサブフレーム長を、Int[]は[]内の演算結果以下の最大整数値を、それぞれ示す。   Information on the pitch peak position PPc of the decoded frame is supplied from the demultiplexing unit 755. Information on the pitch peak position PPp of the previous frame is supplied from the pitch peak position detector 313. The pitch period Pp of the previous frame is supplied from the parameter buffer 812. The pitch period Pn of the next frame is supplied from the parameter decoding unit 801. Using the pitch peak position PPc of the decoded frame, the pitch peak position PPp of the previous frame, the pitch period Pp of the previous frame, and the pitch period Pn of the next frame, the pitch period Pc of the decoded frame is calculated from (Equation 3). Ask. N (PPx) represents the distance from the beginning of the frame X to the pitch peak position PPx, Nf represents the subframe length, and Int [] represents the maximum integer value less than the calculation result in [].

Pc = (N(PPc) +Nf −N(PPp))/
Int[((N(PPc) +Nf−N(PPp))/Pp + (N(PPc) +Nf−N(PPp))/Pn)×0.5 + 0.5] (式3)
例えば、図17の場合、PPc―PPp間の距離は、周期Ppでは3.1周期分、周期Pnでは2.8周期分なので、(3.1+2.8)×0.5=2.95となる。したがって分母は3周期となり、N(PPc)+Nf-N(PPp)を3で割った値がピッチ周期ということになる。
Pc = (N (PPc) + Nf -N (PPp)) /
Int [((N (PPc) + Nf−N (PPp)) / Pp + (N (PPc) + Nf−N (PPp)) / Pn) × 0.5 + 0.5] (Formula 3)
For example, in the case of FIG. 17, the distance between PPc and PPp is 3.1 periods in the period Pp and 2.8 periods in the period Pn, so (3.1 + 2.8) × 0.5 = 2.95. Therefore, the denominator is 3 periods, and the value obtained by dividing N (PPc) + Nf-N (PPp) by 3 is the pitch period.

このような方法で消失フレームである復号フレームのピッチ周期を求めることにより、前後のフレームの中間的なピッチ周期を用いて連続的にピッチが変化するようなフレーム消失補償処理が可能となる。また、実施の形態2と同様、消失フレームにおけるピッチピーク位置を一致させることが出来るので、後続正常フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。   By obtaining the pitch period of the decoded frame, which is an erasure frame, by such a method, it is possible to perform frame erasure compensation processing in which the pitch continuously changes using an intermediate pitch period of the preceding and succeeding frames. Further, since the pitch peak position in the lost frame can be matched as in the second embodiment, it is possible to reduce the influence of the mismatch between the adaptive codebooks on the encoder side and the decoder side in the subsequent normal frame. .

このように、本実施の形態の音声信号送信装置700及び音声信号受信装置799によれば、少ない冗長情報を追加することにより、精度良いフレーム消失補償法を実現できるとともに、消失フレーム後の誤り伝播の影響を軽減することができる。   As described above, according to audio signal transmitting apparatus 700 and audio signal receiving apparatus 799 of the present embodiment, it is possible to realize an accurate frame erasure compensation method by adding a small amount of redundant information, and to perform error propagation after an erasure frame. Can reduce the effects of

(実施の形態4)
図18は、本発明の実施の形態4に係る音声信号伝送システムの構成を示すブロック図である。
(Embodiment 4)
FIG. 18 is a block diagram showing a configuration of an audio signal transmission system according to Embodiment 4 of the present invention.

図18に示す音声信号伝送システムは、音声信号送信装置1000及び音声信号受信装置1199を有している。   The audio signal transmission system illustrated in FIG. 18 includes an audio signal transmission apparatus 1000 and an audio signal reception apparatus 1199.

音声信号送信装置1000は、実施の形態1の音声信号送信装置100における音声符号化装置104を音声符号化装置1104に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。   Audio signal transmitting apparatus 1000 is obtained by replacing audio encoding apparatus 104 in audio signal transmitting apparatus 100 of Embodiment 1 with audio encoding apparatus 1104. Components that are the same as those in the first embodiment and that perform the same operation are denoted by the same reference numerals as those in the first embodiment, and detailed description thereof is omitted.

音声符号化装置1104は、A/D変換装置103からのディジタル音声信号を符号化することにより音声符号化情報を生成し、この生成された音声符号化情報を信号処理装置105に与える。   The speech encoding device 1104 generates speech encoding information by encoding the digital speech signal from the A / D conversion device 103, and provides the generated speech encoding information to the signal processing device 105.

音声信号受信装置1199は、実施の形態1の音声信号受信装置199における音声復号化装置114を音声復号化装置1114に置き換えたものである。実施の形態1と同じ構成要素で同じ動作をするものについては、実施の形態1と同一符号を付し、詳しい説明を省略する。音声復号化装置1114は、信号処理装置113からの受信音声信号を復号化して復号音声信号を生成してD/A変換装置115に与える。   Audio signal receiving apparatus 1199 is obtained by replacing audio decoding apparatus 114 in audio signal receiving apparatus 199 of Embodiment 1 with audio decoding apparatus 1114. Components that are the same as those in the first embodiment and that perform the same operation are denoted by the same reference numerals as those in the first embodiment, and detailed description thereof is omitted. The audio decoding device 1114 generates a decoded audio signal by decoding the received audio signal from the signal processing device 113 and supplies the decoded audio signal to the D / A conversion device 115.

次に、音声符号化装置1104について、図18、図19、図20及び図21を参照して詳細に説明する。図19は音声符号化装置1104の構成を示すブロック図であり、図20はピッチピーク位置検出部の動作を説明するための模式図であり、図21はピッチピーク位置検出処理手順を示すフローチャートである。但し、図18及び図19に示した音声符号化装置1104において、図1および図2に示した実施の形態1の音声符号化装置104と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。   Next, the speech encoding apparatus 1104 will be described in detail with reference to FIGS. 18, 19, 20 and 21. FIG. FIG. 19 is a block diagram showing the configuration of the speech coding apparatus 1104, FIG. 20 is a schematic diagram for explaining the operation of the pitch peak position detection unit, and FIG. 21 is a flowchart showing the pitch peak position detection processing procedure. is there. However, in the speech encoding apparatus 1104 shown in FIG. 18 and FIG. 19, the same components as those in the speech encoding apparatus 104 of Embodiment 1 shown in FIG. 1 and FIG. The same reference numerals are assigned and detailed description is omitted.

図18に示すように、音声符号化装置1104は、ピッチピーク位置検出部151、ピッチピーク位置情報埋め込み部1152、音声符号化部153及び1フレーム遅延部154を有している。音声符号化部153の入力端子は、A/D変換装置103の出力端子に接続されている。ピッチピーク位置検出部151の入力端子は、音声符号化部153の2つの出力端子のうちの一方に接続されている。1フレーム遅延部154の入力端子は音声符号化部153の2つの出力端子のうちのもう一方に接続されている。ピッチピーク位置情報埋め込み部1152は、ピッチピーク位置検出部151及び1フレーム遅延部154の出力端子と信号処理装置105の入力端子との間に接続されている。   As illustrated in FIG. 18, the speech encoding apparatus 1104 includes a pitch peak position detection unit 151, a pitch peak position information embedding unit 1152, a speech encoding unit 153, and a 1-frame delay unit 154. The input terminal of the speech encoding unit 153 is connected to the output terminal of the A / D conversion device 103. The input terminal of the pitch peak position detector 151 is connected to one of the two output terminals of the speech encoder 153. The input terminal of the 1-frame delay unit 154 is connected to the other of the two output terminals of the speech encoding unit 153. The pitch peak position information embedding unit 1152 is connected between the output terminals of the pitch peak position detection unit 151 and the one-frame delay unit 154 and the input terminal of the signal processing device 105.

音声符号化部153は、A/D変換装置103から入力したディジタル音声信号の符号化処理を行い、符号化パラメータ情報を1フレーム遅延部154へ出力する。同時に、音声符号化部153は、後述するピッチパラメータ(量子化ピッチ周期)と適応符号帳に保持されている音源信号とをピッチピーク位置検出部151へ出力する。   The audio encoding unit 153 performs encoding processing on the digital audio signal input from the A / D conversion apparatus 103 and outputs encoding parameter information to the 1-frame delay unit 154. At the same time, speech encoding section 153 outputs a pitch parameter (quantization pitch period), which will be described later, and a sound source signal held in the adaptive codebook to pitch peak position detection section 151.

ピッチピーク位置検出部151は、ピッチパラメータである量子化ピッチ周期情報と過去の音源信号系列とを用いて、過去1ピッチ周期長の音源信号におけるピッチピーク位置を検出し、ピッチピーク位置情報埋め込み部1152へ出力する。   The pitch peak position detection unit 151 detects a pitch peak position in a sound source signal having a past pitch period length using the quantized pitch period information that is a pitch parameter and a past sound source signal sequence, and a pitch peak position information embedding unit Output to 1152.

なお、ピッチピーク位置は現在のフレームの最後尾から過去に1ピッチ周期分だけさかのぼった範囲の中に存在する、フレーム最後尾に最も近いものとする。したがって、1フレームが複数のサブフレームに分割されている場合は、最後のサブフレームにおいてピッチピーク位置検出を行う。また、ピッチ周期が長く、現フレーム中にピッチピークが存在しない場合でも、現フレーム末尾の点から1ピッチ周期の範囲内でピッチピーク位置を探索して直前フレーム区間にあるピッチピーク位置を検出することとする。   It is assumed that the pitch peak position is closest to the end of the frame, which exists in the range of one pitch period in the past from the end of the current frame. Therefore, when one frame is divided into a plurality of subframes, pitch peak position detection is performed in the last subframe. Even if the pitch period is long and there is no pitch peak in the current frame, the pitch peak position in the previous frame section is detected by searching for the pitch peak position within the range of one pitch period from the end of the current frame. I will do it.

ピッチピーク位置情報埋め込み部1152は、ピッチピーク位置検出部151によって検出された現フレームにおけるピッチピーク位置情報を、1フレーム遅延部154から出力される前フレームにおける音声符号化情報に埋めこんで、信号処理装置105へ出力する。この処理によって、前フレームにおける音声符号化情報の特定の情報がピッチピーク位置情報に置き換えられる。したがって、ピッチピーク位置情報の埋めこみによる情報量の増加はない。置き換えられる音声符号化情報は、復号音声の品質に対する影響度が小さいものを予め選んでおいたものとする。因みに、ピッチピーク位置情報は、間欠的に埋め込まれるようにしてもよい。このようにすれば、ピッチピーク位置情報は、必要最低限度の頻度又はフレームで伝送されることとなり、符号化された音声信号のビットレートの低下による品質劣化を抑えることができる。   The pitch peak position information embedding unit 1152 embeds the pitch peak position information in the current frame detected by the pitch peak position detection unit 151 in the speech encoded information in the previous frame output from the 1 frame delay unit 154, and The data is output to the processing device 105. By this processing, the specific information of the speech encoded information in the previous frame is replaced with the pitch peak position information. Therefore, there is no increase in the amount of information due to the embedding of pitch peak position information. It is assumed that speech coding information to be replaced has been selected in advance to have a small influence on the quality of decoded speech. Incidentally, the pitch peak position information may be embedded intermittently. In this way, the pitch peak position information is transmitted at the minimum necessary frequency or frame, and quality degradation due to a decrease in the bit rate of the encoded audio signal can be suppressed.

図19に示すように、音声符号化部153において、音源パラメータ決定部によって決定された適応符号帳パラメータPと固定符号帳パラメータCと利得符号帳パラメータGと、LPC量子化器によって符号化された線形予測パラメータLとは、符号化部215により一括して一つの符号としてまとめられ、1フレーム遅延部154へ出力される。1フレーム遅延部154は、符号化部215より入力した音声符号化情報を1フレームの時間だけ保持した後、ピッチピーク位置情報埋め込み部152へ出力する。   As shown in FIG. 19, in speech encoding section 153, adaptive codebook parameter P, fixed codebook parameter C, gain codebook parameter G determined by excitation parameter determining section, and encoded by LPC quantizer The linear prediction parameter L is collectively collected as one code by the encoding unit 215 and output to the 1-frame delay unit 154. The 1-frame delay unit 154 holds the speech coding information input from the coding unit 215 for one frame time, and then outputs the speech coding information to the pitch peak position information embedding unit 152.

次に、ピッチピーク位置検出部151の動作について、図20を参照してより詳細に説明する。   Next, the operation of the pitch peak position detector 151 will be described in more detail with reference to FIG.

ピッチピーク位置検出部151は、図20に示すように、ピッチパラメータPと、最新の適応符号帳の内容(過去に生成した音源信号系列)を少なくとも1ピッチ周期長以上を入力し、最も時間的に後ろにあるピッチピーク位置を検出する。ピッチピーク位置の検出法の最も単純なものは、適応符号帳の末尾(最新のサンプル:図20ではサンプル1101であり、これをe[-1]とする)から過去に1ピッチ周期Pまでさかのぼる間において、絶対値が最大となるサンプル(図20ではサンプル1102)をピッチピーク位置として検出する方法である。   As shown in FIG. 20, pitch peak position detection section 151 inputs pitch parameter P and the latest adaptive codebook content (sound signal sequence generated in the past) at least one pitch period length or longer. The pitch peak position behind is detected. The simplest method for detecting the pitch peak position is traced back to one pitch period P in the past from the end of the adaptive codebook (latest sample: sample 1101 in FIG. 20, which is e [-1]). In this method, the sample having the maximum absolute value (sample 1102 in FIG. 20) is detected as the pitch peak position.

ただし、このような単純な方法だと、サンプリングの影響などにより、本来のピッチピークとは異なるピークをピッチピークとして検出してしまうことがある。この様な場合、(式4)に示すように、1ピッチ遡った点を加味したc[i]を計算し、計算した値の絶対値が最も大きくなる点をピッチピーク位置として検出することで、ピッチピーク位置検出精度を改善することができる(図21のステップST1601〜ステップST1606、peak1がピッチピーク位置)。   However, with such a simple method, a peak different from the original pitch peak may be detected as a pitch peak due to the influence of sampling or the like. In such a case, as shown in (Equation 4), by calculating c [i] taking into account the point one pitch backward, the point where the absolute value of the calculated value is the largest is detected as the pitch peak position. The pitch peak position detection accuracy can be improved (step ST1601 to step ST1606 in FIG. 21, peak1 is the pitch peak position).

c[i] = e[i] + e[i-P], i = -1, …, -P (式4)
ピッチ周期が分数精度で与えられている場合は、(式4)の第二項を、分数精度を利用して補間して求めた値を利用するとさらに精度が増す。
c [i] = e [i] + e [iP], i = -1,…, -P (Formula 4)
When the pitch period is given with fractional accuracy, the accuracy is further increased by using the value obtained by interpolating the second term of (Equation 4) using fractional accuracy.

さらに、(式4)を最大化する点の前後(例えばプラスマイナス5サンプル程度(8kHzサンプリング時))で振幅が最大になる点を再探索して最終的なピッチピーク位置とする(図21のステップST1607〜ステップST1611、aは定数(例えば5程度))と、さらに精度が改善される。図21は、このようなピッチピーク位置検出処理アルゴリズムのフローチャートである。   Further, a point at which the amplitude becomes maximum before and after the point at which (Equation 4) is maximized (for example, about plus or minus 5 samples (at 8 kHz sampling)) is re-searched to obtain the final pitch peak position (FIG. 21). Step ST1607 to step ST1611, a is a constant (for example, about 5), and the accuracy is further improved. FIG. 21 is a flowchart of such a pitch peak position detection processing algorithm.

なお、現在の入力音声信号にピッチ周期性がない場合(無声部や雑音部である場合)には、ピッチピーク位置を無理に設定せず、ピッチ周期性がない区間であることを示すコードを別途割り当てて、その情報をピッチピーク位置情報として出力しても良い。   If the current input audio signal has no pitch periodicity (if it is a voiceless part or a noise part), the pitch peak position is not set excessively and a code indicating that there is no pitch periodicity is used. It may be assigned separately and the information may be output as pitch peak position information.

ピッチピーク位置情報埋め込み部1152は、1フレーム遅延部154を介して入力した音声符号化情報のうち、復号時への影響が比較的少ない部分に、ピッチピーク位置検出部151で求められたピッチピーク位置情報を書きこむ。   The pitch peak position information embedding unit 1152 includes the pitch peak obtained by the pitch peak position detection unit 151 in a portion of the speech coding information input via the one-frame delay unit 154 that has a relatively small influence on decoding. Write location information.

例えば、ITU-T勧告G.729では、LSP符号化情報のうち、ベクトル量子化の2段目で高次側に割り当てられた5ビットについては、伝送路上で誤っても復号音声の品質への影響が比較的小さいことが知られている(片岡、林、「ITU-T標準8kbit/s音声符号化のビット誤り感度について」、1995年電子情報通信学会情報・システムソサイエティ大会、D-251)ので、これら5ビットを用いてピッチピーク位置を表すことが考えられる。   For example, according to ITU-T recommendation G.729, among the LSP encoded information, the 5 bits allocated to the higher order side in the second stage of vector quantization can improve the quality of decoded speech even if erroneous on the transmission path. It is known that the effect is relatively small (Kataoka, Hayashi, “Bit error sensitivity of ITU-T standard 8 kbit / s speech coding”, 1995 IEICE Information and Systems Society Conference, D-251) Therefore, it can be considered that these 5 bits are used to represent the pitch peak position.

さらに、伝送路上のビット誤りへの対策を考える必要がなければ、ピッチパリティの1ビットを加えた6ビットを用いることが考えられる。なお、ピッチピーク位置情報の埋めこみは、毎フレーム行わずに一定フレーム数おきに行う構成により、復号音声への影響を減らすこともできる。   Furthermore, if it is not necessary to consider measures against bit errors on the transmission path, it is conceivable to use 6 bits including 1 bit of pitch parity. It should be noted that the embedding of the pitch peak position information can be performed every fixed number of frames instead of every frame, thereby reducing the influence on the decoded speech.

次に、音声復号化装置1114について図18、図22、図23及び図24、並びに、実施の形態1の説明において用いた図6〜図8を参照して詳細に説明する。図22は音声復号化装置1114の構成を示すブロック図、図23及び図24は、音声符号化および復号化処理手順を示すフローチャートである。但し、図18及び図22に示した音声復号化装置1114において、図1および図5に示した実施の形態1の音声復号化装置114と同じ動作をする同じ構成要素については、実施の形態1と同一符号を付し、詳しい説明を省略する。   Next, speech decoding apparatus 1114 will be described in detail with reference to FIGS. 18, 22, 23 and 24, and FIGS. 6 to 8 used in the description of the first embodiment. FIG. 22 is a block diagram showing a configuration of the speech decoding apparatus 1114, and FIGS. 23 and 24 are flowcharts showing speech encoding and decoding processing procedures. However, in the speech decoding apparatus 1114 shown in FIGS. 18 and 22, the same constituent elements that perform the same operations as those of the speech decoding apparatus 114 of Embodiment 1 shown in FIGS. The same reference numerals are assigned and detailed description is omitted.

図18に示すように、音声復号化装置1114は、ピッチピーク位置情報分離部1155、音声復号化部156、1フレーム遅延部157、フレーム消失補償部158を有している。   As illustrated in FIG. 18, the speech decoding apparatus 1114 includes a pitch peak position information separating unit 1155, a speech decoding unit 156, a frame delay unit 157, and a frame erasure compensation unit 158.

ピッチピーク位置情報分離部1155の入力端子は信号処理装置113の2つの出力端子の一方に接続されている。音声符号化部156は3つの入力端子を持ち、一つはピッチピーク位置情報分離部1155の1つの出力端子に、一つは信号処理装置113の1つの出力端子に、一つはフレーム消失補償部158に、それぞれ接続されている。また、音声符号化部156は2つの出力端子をもち、一方はフレーム消失補償部158の2つの入力端子の一方に接続されており、他方はD/A変換装置115へ接続されている。1フレーム遅延部157の入力端子は、ピッチピーク位置情報分離部1155の出力端子の一つに接続されている。フレーム消失補償部158は2つの入力端子をもち、一方は1フレーム遅延部157の出力端子に接続されており、他方は音声復号化部156の1つの出力端子に接続されている。   The input terminal of the pitch peak position information separation unit 1155 is connected to one of the two output terminals of the signal processing device 113. The speech encoding unit 156 has three input terminals, one for one output terminal of the pitch peak position information separation unit 1155, one for one output terminal of the signal processing device 113, and one for frame erasure compensation. The unit 158 is connected to each. Speech encoding section 156 has two output terminals, one connected to one of the two input terminals of frame erasure compensation section 158, and the other connected to D / A converter 115. The input terminal of the 1-frame delay unit 157 is connected to one of the output terminals of the pitch peak position information separation unit 1155. Frame erasure compensation unit 158 has two input terminals, one connected to the output terminal of one frame delay unit 157 and the other connected to one output terminal of speech decoding unit 156.

ピッチピーク位置情報分離部1155は、信号処理装置113から入力したピッチピーク位置情報が埋めこまれている符号化情報から、ピッチピーク位置情報を分離し、ピッチピーク位置情報を1フレーム遅延部157へ、その他の音声符号化情報を音声復号化部156に、それぞれ出力する。   The pitch peak position information separation unit 1155 separates the pitch peak position information from the encoded information in which the pitch peak position information input from the signal processing device 113 is embedded, and sends the pitch peak position information to the one-frame delay unit 157. The other speech coding information is output to speech decoding section 156, respectively.

また、信号処理装置113は、フレーム消失情報を音声復号化部156へ出力する。音声復号化部156は、ピッチピーク位置情報分離部1155から入力した音声符号化情報を用いて復号処理を行い、復号音声信号をD/A変換装置115へ出力する。また、音声復号化部156は、フレーム消失補償処理において更新が必要なパラメータをフレーム消失補償部158へ出力する。   Further, the signal processing device 113 outputs the frame erasure information to the speech decoding unit 156. Speech decoding section 156 performs decoding processing using the speech encoded information input from pitch peak position information separation section 1155 and outputs the decoded speech signal to D / A conversion device 115. Speech decoding section 156 also outputs parameters that need to be updated in the frame erasure compensation process to frame erasure compensation section 158.

なお、信号処理装置113から入力されたフレーム消失補償情報が「現在のフレームは消失している」ことを示す場合は、ピッチピーク位置情報分離部1155からの情報が入力されないので、フレーム消失補償部158から入力されるパラメータ情報を用いて音声信号を生成し、D/A変換装置115へ出力する。このときもフレーム消失補償処理に必要なパラメータはフレーム消失補償部158へ出力される。1フレーム遅延部157は、ピッチピーク位置情報分離部155より入力したピッチピーク位置情報を1フレーム分の時間だけ保持してからフレーム消失補償部158へ出力する。   When the frame erasure compensation information input from the signal processing device 113 indicates that “the current frame has been lost”, the information from the pitch peak position information separation unit 1155 is not input, so the frame erasure compensation unit An audio signal is generated using the parameter information input from 158 and output to the D / A converter 115. Also at this time, parameters necessary for the frame erasure compensation process are output to the frame erasure compensation unit 158. The 1-frame delay unit 157 holds the pitch peak position information input from the pitch peak position information separation unit 155 for a time corresponding to one frame, and then outputs the information to the frame loss compensation unit 158.

フレーム消失補償部158は、1フレーム遅延部157から入力した、現フレーム(1フレーム前に送られてきているピッチピーク位置情報は、1フレーム前において1フレーム先のピッチピーク位置情報なので、現フレームのピッチピーク位置情報である)におけるピッチピーク位置情報を入力し、現フレームにおけるピッチピーク位置が入力されたピッチピーク位置情報で示される位置に合うようにフレーム消失補償処理を行う。フレーム消失補償処理は、1フレーム遅延部157から入力した現フレームの最後尾ピッチピーク位置と、音声復号化部156から入力した前フレームまでに復号している音声符号化パラメータとを用いて行われる。   The frame erasure compensator 158 inputs the current frame (the pitch peak position information sent one frame before is the pitch peak position information one frame ahead of the previous frame, which is input from the one frame delay unit 157. Pitch peak position information) is input, and the frame erasure compensation process is performed so that the pitch peak position in the current frame matches the position indicated by the input pitch peak position information. The frame erasure compensation process is performed using the last pitch peak position of the current frame input from the 1-frame delay unit 157 and the speech coding parameters decoded up to the previous frame input from the speech decoding unit 156. .

また、図22に示すように、音声復号化部156において、パラメータ復号部301は、ピッチピーク位置情報分離部1155から入力した音声符号化情報(ビットストリーム)から音声符号化パラメータ(ピッチ(適応符号帳)パラメータP、固定符号帳パラメータC、線形予測パラメータL、利得パラメータG)を復号し、利得パラメータGを利得復号器302へ、線形予測係数パラメータLをLPC復号器306へ、その他のパラメータを切り替えスイッチ303へそれぞれ出力する。その後の処理は、図5について上述した音声復号化部156の場合と同様である。   Also, as shown in FIG. 22, in the speech decoding unit 156, the parameter decoding unit 301 converts speech coding parameters (pitch (adaptive code) from speech coding information (bitstream) input from the pitch peak position information separating unit 1155. Book) parameter P, fixed codebook parameter C, linear prediction parameter L, gain parameter G), gain parameter G to gain decoder 302, linear prediction coefficient parameter L to LPC decoder 306, and other parameters Each is output to the changeover switch 303. The subsequent processing is the same as that of the speech decoding unit 156 described above with reference to FIG.

次に、フレーム消失補償部158について、図22、図6〜図8を参照しながら詳細を説明する。フレーム消失補償部158は、パラメータバッファ312、ピッチピーク位置検出器313、ピッチ周期算出器314およびパラメータ生成部315を有する。   Next, details of the frame erasure compensation unit 158 will be described with reference to FIGS. 22 and 6 to 8. The frame erasure compensation unit 158 includes a parameter buffer 312, a pitch peak position detector 313, a pitch period calculator 314, and a parameter generation unit 315.

パラメータバッファは、過去に音声復号部156において、復号音声を生成するために用いられた各種の音声符号化パラメータを記憶しておくバッファであり、復号した適応符号帳パラメータ(ピッチ)P、雑音符号帳パラメータC、適応符号帳利得Gp、固定符号帳利得Gc、復号量子化線形予測係数αが音声符号化部156から入力される。また消失フレームにおいては、パラメータ生成部によって生成されたパラメータ(適応符号帳パラメータ(ピッチ)P’、固定符号帳パラメータC’、適応符号帳利得Gp’、固定符号帳利得Gc’、復号量子化線形予測係数α’)が入力される。バッファリングされている各種パラメータは、パラメータ生成部315へ出力され、消失フレームにおける各種パラメータを生成する際に使用される。   The parameter buffer is a buffer for storing various speech coding parameters used in the past by the speech decoding unit 156 to generate decoded speech. The decoded adaptive codebook parameter (pitch) P, noise code Book parameter C, adaptive codebook gain Gp, fixed codebook gain Gc, and decoded quantized linear prediction coefficient α are input from speech coding section 156. In the erasure frame, parameters generated by the parameter generation unit (adaptive codebook parameter (pitch) P ′, fixed codebook parameter C ′, adaptive codebook gain Gp ′, fixed codebook gain Gc ′, decoded quantization linear The prediction coefficient α ′) is input. The various parameters buffered are output to the parameter generation unit 315 and used when generating various parameters in the lost frame.

ピッチピーク位置検出器313は、音声復号化部156内の適応符号帳304から入力した音源信号と、パラメータバッファ312から入力した前フレームのピッチ周期とを用いて、ピッチピーク位置検出部151と同様にしてピッチピーク位置を検出し、ピッチ周期算出器314へ出力する。ただし、ピッチピーク位置を探す範囲は直前のフレーム以前において生成された音源信号の部分であり、ピッチピーク位置が存在する範囲は前フレームで生成された音源信号の末尾の点から、前フレームのピッチ周期だけさかのぼった点までである。   The pitch peak position detector 313 uses the excitation signal input from the adaptive codebook 304 in the speech decoding unit 156 and the pitch period of the previous frame input from the parameter buffer 312, similarly to the pitch peak position detection unit 151. The pitch peak position is detected and output to the pitch period calculator 314. However, the range where the pitch peak position is searched is the part of the sound source signal generated before the previous frame, and the range where the pitch peak position exists is the pitch of the previous frame from the end point of the sound source signal generated in the previous frame. Up to a point that goes back by the period.

ピッチ周期算出器314は、ピッチピーク位置検出器313から入力した前フレームの最終ピッチピーク位置と、1フレーム遅延部157から入力した現フレームの最終ピッチピーク位置(1フレーム遅延部から出力されるのは、1フレーム前に受信したピッチピーク位置情報であり、1フレーム前に送られてきているピッチピーク位置情報は、現在復号している(消失補償処理を行っている)音声フレームに対応するピッチピーク位置情報である)と、パラメータバッファ312から入力した前フレームにおける音声復号部で復号されたピッチ周期と、を入力し、現在のピッチ周期を求める。具体的には、(式5)によって現フレームのピッチ周期を決定することが出来る。   The pitch period calculator 314 outputs the final pitch peak position of the previous frame input from the pitch peak position detector 313 and the final pitch peak position of the current frame input from the 1 frame delay unit 157 (output from the 1 frame delay unit). Is the pitch peak position information received one frame before, and the pitch peak position information sent one frame before is the pitch corresponding to the voice frame that is currently decoded (with erasure compensation processing). And the pitch period decoded by the speech decoding unit in the previous frame input from the parameter buffer 312 and the current pitch period is obtained. Specifically, the pitch period of the current frame can be determined by (Equation 5).

Pc = (peak_c−peak_p)÷Int[0.5+(peak_c−peak_p)/Pp] (式5)
但し、peac_cは現フレームにおける最終ピッチピーク位置(1フレーム遅延部157から入力した情報によって得られる)、peak_pは前フレームにおける最終ピッチピーク位置(ピッチピーク位置検出器313から入力した情報によって得られる。図21のフローによって算出される)、Ppは前フレームにおけるピッチ周期(パラメータバッファ312より入力)、をそれぞれ示し、peak_pおよびpeak_cは、現フレームの先頭を基準(例えば0)とした位置として表現される。また、Int[]は演算結果を越えない最大の整数を示す。
Pc = (peak_c−peak_p) ÷ Int [0.5+ (peak_c−peak_p) / Pp] (Formula 5)
However, peac_c is obtained from the final pitch peak position in the current frame (obtained from information inputted from the one-frame delay unit 157), and peak_p is obtained from the final pitch peak position in the previous frame (information inputted from the pitch peak position detector 313). Pp indicates the pitch period (input from the parameter buffer 312) in the previous frame, and peak_p and peak_c are expressed as positions with the start of the current frame as a reference (for example, 0). The Int [] indicates the maximum integer that does not exceed the operation result.

例えば、図6に示すようなフレーム消失のケースを考える。図6では現フレームが消失し、前フレームのピッチ周期を用いて、前フレームの波形を繰り返す消失補償処理を行った場合を示している。このとき、フレーム消失補償によって生成される現フレームの波形における最終ピッチピーク位置はPPc’である。   For example, consider the case of frame loss as shown in FIG. FIG. 6 shows a case where the current frame is lost, and the loss compensation process for repeating the waveform of the previous frame is performed using the pitch period of the previous frame. At this time, the final pitch peak position in the waveform of the current frame generated by the frame erasure compensation is PPc ′.

ところで、図7のように、実際(太線)には現フレームにおいてピッチ周期が短くなっていた場合、実際のピッチピーク位置PPcと図16のようなフレーム消失補償処理を行った場合(破線)のピッチピーク位置PPc’との間にずれが生じてしまう。このようなずれは、消失した現フレームのみならず、後続の正常受信フレームにおいて適応符号帳のピッチピーク位置が符号器側と復号器側とでずれてしまうため、復号音声品質の劣化が大きくなる。   By the way, as shown in FIG. 7, when the pitch period is actually short in the current frame (thick line), when the actual pitch peak position PPc and the frame erasure compensation processing as shown in FIG. A deviation occurs from the pitch peak position PPc ′. Such a shift causes not only the lost current frame but also the pitch peak position of the adaptive codebook to shift between the encoder side and the decoder side in the subsequent normal reception frame, so that the degradation of the decoded speech quality increases. .

しかしながら、消失したフレームにおけるピッチピーク位置情報が前フレームの音声符号化パラメータとともに伝送されていれば、消失した現フレームにおけるピッチピーク位置PPcが合うように、ピッチ周期Pcを(式5)の様にして決定することができる。ピッチの量子化精度によっては、同一ピッチ周期で繰り返してもピッチピーク位置を合わせることが出来ない場合もあるので、(式5)で求められるピッチ周期Pc付近のピッチ量子化値を用いて段階的にピッチ周期Pcを変化させてピッチピーク位置を合わせることも可能である。   However, if the pitch peak position information in the lost frame is transmitted together with the speech coding parameter of the previous frame, the pitch period Pc is set as in (Equation 5) so that the pitch peak position PPc in the lost current frame matches. Can be determined. Depending on the quantization accuracy of the pitch, the pitch peak position may not be matched even if it is repeated at the same pitch period, so stepwise using the pitch quantization value near the pitch period Pc obtained by (Equation 5). It is also possible to adjust the pitch peak position by changing the pitch period Pc.

なお、ピッチピーク位置におけるピーク値の極性が合わないことが問題になる場合は、極性情報もピッチピーク位置情報として伝送するようにして利用する。このようにしてピッチ周期Pcを求め、そのピッチ周期Pcを用いてフレーム消失補間処理を行った例を図8(太線)に示す。   In addition, when it is a problem that the polarity of the peak value at the pitch peak position does not match, the polarity information is also transmitted and used as the pitch peak position information. FIG. 8 (thick line) shows an example in which the pitch period Pc is obtained in this way and the frame erasure interpolation process is performed using the pitch period Pc.

フレーム消失がなかった場合の復号信号(破線)と波形レベルでは一致しないものの、ピッチピーク位置を一致させることが出来るので、後続フレームにおける符号器側と復号器側の適応符号帳間不一致の影響を低減することが可能となる。また、ピッチピーク位置情報を、音声符号化情報に埋めこむ(復号音声に影響の小さい音声符号化情報の代わりにピッチピーク位置情報を伝送する)ので、ビットレートの増加がない。   Although the decoded signal (dashed line) does not match the waveform level when there is no frame loss, the pitch peak position can be matched, so the influence of the mismatch between the adaptive codebook on the encoder side and the decoder side in the subsequent frame It becomes possible to reduce. In addition, since the pitch peak position information is embedded in the speech encoded information (pitch peak position information is transmitted instead of speech encoded information that has little influence on the decoded speech), there is no increase in bit rate.

また、2フレーム以上を1つのパケットで伝送する場合は、1パケット中の末尾のフレームに関するピッチピーク位置情報のみを送れば良いので、それ以外のフレームについてはピッチピーク位置情報を埋めこむ必要がなく、復号音声信号への影響がさらに少なくなる。なお、現フレームのピッチピーク位置情報が「現フレームはピッチ周期性を有していないフレームである」ことを示している場合は、上記のようなピッチ周期の計算は行わず、現フレームがピッチ周期性を有さないフレームであることを示す情報をパラメータ生成部に出力しても良い。   When transmitting two or more frames in one packet, it is only necessary to send only the pitch peak position information related to the last frame in one packet, so there is no need to embed pitch peak position information for the other frames. The influence on the decoded audio signal is further reduced. When the pitch peak position information of the current frame indicates that “the current frame is a frame having no pitch periodicity”, the pitch period is not calculated as described above, and the current frame has a pitch. Information indicating that the frame does not have periodicity may be output to the parameter generation unit.

パラメータ生成部315は、ピッチ周期算出器314で算出されたピッチ周期と、パラメータバッファ312から入力した前フレームにおける各種復号パラメータを用いて消失したフレームの音源パラメータを生成する。例えば、ピッチ周期算出器314から入力した情報が、「現フレームはピッチ周期性を有さないフレームである」ことを示している場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切り替えスイッチ303へ出力する。   The parameter generation unit 315 generates a sound source parameter of a lost frame using the pitch period calculated by the pitch period calculator 314 and various decoding parameters in the previous frame input from the parameter buffer 312. For example, when the information input from the pitch period calculator 314 indicates that “the current frame is a frame having no pitch periodicity”, the adaptive codebook gain Gp ′ is set to 0.0 and randomly generated. A value obtained by attenuating the fixed codebook parameter C ′ and the fixed codebook gain used in the previous frame is output to the changeover switch 303 as Gc ′.

反対に、ピッチ周期算出器314から入力した情報が「現フレームはピッチ周期性を有し、そのピッチ周期はPc’である」ことを示している場合は、ピッチパラメータをPc’に設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。   On the other hand, if the information input from the pitch period calculator 314 indicates that “the current frame has pitch periodicity and the pitch period is Pc ′”, the pitch parameter is set to Pc ′, The adaptive codebook gain Gp ′ is set to an adaptive codebook gain Gp decoded in the previous frame, an attenuated Gp value (for example, a value multiplied by 0.9) or an average value of Gp decoded in the past, and the fixed codebook gain Gc ′ is set to 0.0 and output to the changeover switch 303.

なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。   Note that as the decoded quantized linear prediction coefficient α ′, the decoded quantized linear prediction coefficient in the previous frame is repeatedly used, or the bandwidth is expanded to flatten the spectral characteristics.

次に、音声符号化装置1104および音声復号化装置1114の動作について、図23及び図24を参照して説明する。図23は、音声符号化装置1104の動作を説明するためのフローチャートであり、図24は、音声復号化装置1114の動作を説明するためのフローチャートである。   Next, operations of speech encoding apparatus 1104 and speech decoding apparatus 1114 will be described with reference to FIGS. FIG. 23 is a flowchart for explaining the operation of speech encoding apparatus 1104, and FIG. 24 is a flowchart for explaining the operation of speech decoding apparatus 1114.

図23に示すように、音声符号化装置1104は、まずステップST901において、音声符号化部153により1フレーム分のCELP音声符号化処理を行い、次に、ステップST902において、ステップST901にて得られた音声符号化情報を次のフレームの処理が終わるまで1フレーム遅延部154によって保存する。   As shown in FIG. 23, speech encoding apparatus 1104 first performs CELP speech encoding processing for one frame by speech encoding section 153 in step ST901, and then obtains in step ST901 in step ST902. The encoded speech information is stored by the 1-frame delay unit 154 until the processing of the next frame is completed.

次に、音声符号化装置1104は、ステップST903において、ピッチピーク位置検出部151によって、現フレームにおいて一番後ろにあるピッチピーク位置の検出を行う。   Next, in step ST903, speech coding apparatus 1104 uses pitch pitch position detection section 151 to detect the pitch peak position that is the last in the current frame.

次に、音声符号化装置1104は、ステップST904において、ステップST902にて保存された前フレームの音声符号化情報(前フレームの音声符号化情報)を1フレーム遅延部154から取り出した後、ステップST905に移って、ステップST903にて検出されたピッチピーク位置情報を、取り出された前フレームの音声符号化情報に埋めこんで、音声符号化装置1104の出力として出力する。音声符号化装置1104は、上述したステップST901〜ステップST905の一連の符号化処理を繰り返す。   Next, in step ST904, the speech encoding apparatus 1104 extracts the speech encoding information of the previous frame (speech encoding information of the previous frame) saved in step ST902 from the 1-frame delay unit 154, and then performs step ST905. Then, the pitch peak position information detected in step ST903 is embedded in the extracted speech encoding information of the previous frame and output as the output of the speech encoding device 1104. Speech encoding apparatus 1104 repeats the series of encoding processes in steps ST901 to ST905 described above.

続いて音声復号化装置1114の動作を説明する。図24に示すように、音声復号化装置114は、まず、ステップST910において、現フレームが消失しているかどうかを信号処理装置113によって判定する。消失していない場合はステップST911に移り、また、消失している場合はステップST914に移る。   Next, the operation of the speech decoding apparatus 1114 will be described. As shown in FIG. 24, the speech decoding apparatus 114 first determines in step ST910 whether or not the current frame has been lost by the signal processing apparatus 113. If it has not disappeared, the process proceeds to step ST911, and if it has disappeared, the process proceeds to step ST914.

次に、フレーム消失していない場合は、ステップST911において、ピッチピーク位置情報分離部1155が受信した符号化情報からピッチピーク位置情報を分離する。   Next, when the frame is not lost, in step ST911, the pitch peak position information is separated from the encoded information received by the pitch peak position information separating section 1155.

続いて、ステップST912において、音声復号化部156内のパラメータ復号部301が、分離された音声符号化情報から音声符号化パラメータを復号する。次に、ステップST913において、音声復号化部156の残りの部分が、復号された音声符号化パラメータから音声信号を再合成する処理を行い、復号音声信号がD/A変換装置115へ出力される。   Subsequently, in step ST912, the parameter decoding unit 301 in the speech decoding unit 156 decodes speech encoding parameters from the separated speech encoding information. Next, in step ST913, the remaining part of speech decoding section 156 performs a process of re-synthesizing the speech signal from the decoded speech encoding parameter, and the decoded speech signal is output to D / A converter 115. .

これに対して、ステップST910においてフレームが消失していると判断された場合は、音声復号化装置1114は、ステップST914に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)がピッチ周期性を有するフレームであるか否かをチェックする。ピッチ周期性があるか否かに関する情報は受信したピッチピーク位置情報に含まれている。音声復号化装置1114は、ピッチ周期性がある場合はステップST915へ移り、ピッチ周期性がない場合はステップST918へ移る。そして、現フレーム(消失フレーム)がピッチ周期性を有する場合、音声復号化装置1114は、ステップST915に移って、ピッチピーク位置検出器313によって、前フレームのピッチ情報と復号した音源信号とを、パラメータバッファ312と適応符号帳304から、それぞれ読み出す。   On the other hand, if it is determined in step ST910 that the frame is lost, the speech decoding apparatus 1114 moves to step ST914 and the pitch period calculator 314 determines that the current frame (erasure frame) is the pitch period. It is checked whether or not the frame has sex. Information regarding whether or not there is pitch periodicity is included in the received pitch peak position information. If there is pitch periodicity, speech decoding apparatus 1114 moves to step ST915, and if there is no pitch periodicity, it moves to step ST918. If the current frame (erased frame) has pitch periodicity, the speech decoding apparatus 1114 moves to step ST915, and the pitch peak position detector 313 uses the pitch information of the previous frame and the decoded excitation signal. Read from the parameter buffer 312 and the adaptive codebook 304, respectively.

次に、音声復号化装置1114は、ステップST916に移って、ピッチピーク位置検出器313によって、前フレームにおいて最も後ろにあるピッチピーク位置を検出する。なお、パラメータバッファ312が、2つ前に受信したピッチピーク位置情報を保持している場合は、その情報を用いて前フレームにおけるピッチピーク位置を得ても良い。   Next, the speech decoding apparatus 1114 moves to step ST916, and the pitch peak position detector 313 detects the pitch peak position that is the rearmost in the previous frame. When the parameter buffer 312 holds the pitch peak position information received two times before, the pitch peak position in the previous frame may be obtained using the information.

次に、音声復号化装置1114は、ステップST917に移って、ピッチ周期算出器314によって、現フレーム(消失フレーム)のピッチピーク位置と前フレームのピッチピーク位置と前フレームのピッチ周期を用いて、上述の(式5)によってピッチ周期を算出する。   Next, the speech decoding apparatus 1114 moves to step ST917, and the pitch period calculator 314 uses the pitch peak position of the current frame (erased frame), the pitch peak position of the previous frame, and the pitch period of the previous frame, The pitch period is calculated by the above (Formula 5).

次に、音声復号化装置1114は、ステップST918に移って、消失したフレームにおける各種音声符号化パラメータをパラメータ生成部315によって生成する。   Next, the speech decoding apparatus 1114 moves to step ST918, and the parameter generating unit 315 generates various speech encoding parameters in the lost frame.

現フレームがピッチ周期性を有するフレームであると判断された場合は、固定符号帳利得をゼロとし、適応符号帳のみを用いて音声信号を生成する。このとき用いるピッチ周期(適応符号帳パラメータ)は、ピッチ周期算出器314にて算出されたものを用いる。また、現フレームがピッチ周期性をもたないフレームであると判断された場合は、音声復号化装置1114は、適応符号帳利得をゼロとし、固定符号帳のみで音声信号を生成する。この場合、固定符号帳パラメータはランダムに決定する。線形予測係数については、現在フレームのピッチ周期性の有無に関らず、前フレームのものを繰り返し利用するか、又は、帯域幅拡張を行いながら次第に白色化したものを用いる。   If it is determined that the current frame is a frame having pitch periodicity, the fixed codebook gain is set to zero, and a speech signal is generated using only the adaptive codebook. The pitch period (adaptive codebook parameter) used at this time is the one calculated by the pitch period calculator 314. If it is determined that the current frame is a frame having no pitch periodicity, speech decoding apparatus 1114 sets the adaptive codebook gain to zero and generates a speech signal using only the fixed codebook. In this case, fixed codebook parameters are determined randomly. As the linear prediction coefficient, regardless of whether or not the current frame has a pitch periodicity, the previous frame is repeatedly used or gradually whitened while performing bandwidth expansion.

最後に、音声復号化装置1114は、ステップST919において、パラメータバッファ312の内容を更新して、1フレームの復号処理を終了する。   Finally, in step ST919, the speech decoding apparatus 1114 updates the contents of the parameter buffer 312 and ends the decoding process for one frame.

音声復号化装置1114は、上記ステップST910〜ステップST919の一連の復号処理を繰り返す。   The speech decoding apparatus 1114 repeats a series of decoding processes in steps ST910 to ST919.

上記説明したように、本実施の形態によれば、ビットレートの増加なく、品質劣化を抑えつつ、精度良いフレーム消失補償処理が可能となるとともに、消失フレーム後の誤り伝播の影響を軽減することができる。   As described above, according to the present embodiment, it is possible to perform accurate frame erasure compensation processing while suppressing quality degradation without increasing the bit rate, and to reduce the influence of error propagation after the erasure frame. Can do.

100,400,700,1000 音声信号送信装置
199,499,799,1199 音声信号受信装置
102 入力装置
103 A/D変換装置
104,404,1104 音声符号化装置
105,113 信号処理装置
106 RF変調装置
107 送信装置
108,110 アンテナ
111 受信装置
112 RF復調装置
114,414,714,1114 音声復号化装置
115 D/A変換装置
116 出力装置
151 ピッチピーク位置検出部
152,454 多重化部
153 音声符号化部
154,157,601 1フレーム遅延部
155,455,755 多重分離部
156,456,756 音声復号化部
158,457,757 フレーム消失補償部
202 線形予測分析器
203 LPC量子化器
206 LPC合成フィルタ
208,304 適応符号帳
210,305 固定符号帳
212 利得量子化器
301 パラメータ復号部
302 利得復号器
306 LPC復号器
303 スイッチ
313 ピッチピーク位置検出器
314,814 ピッチ周期算出器
312,812 パラメータバッファ
315,815 パラメータ生成部
603 適応符号帳修正器
1152 ピッチピーク位置情報埋め込み部
100, 400, 700, 1000 Audio signal transmitter 199, 499, 799, 1199 Audio signal receiver 102 Input device 103 A / D converter 104, 404, 1104 Audio encoder 105, 113 Signal processor 106 RF modulator Reference Signs List 107 transmitter 108, 110 antenna 111 receiver 112 RF demodulator 114, 414, 714, 1114 speech decoder 115 D / A converter 116 output device 151 pitch peak position detector 152, 454 multiplexer 153 speech encoding 154, 157, 601 1 frame delay unit 155, 455, 755 demultiplexing unit 156, 456, 756 speech decoding unit 158, 457, 757 frame erasure compensation unit 202 linear prediction analyzer 203 LPC quantizer 206 LPC synthesis filter 208, 304 Adaptive codebook 210, 305 Fixed codebook 212 Gain quantizer 301 Parameter decoder 302 Gain decoder 306 LPC decoder 303 Switch 313 Pitch peak position detector 314, 814 Pitch period calculator 312, 812 Parameter buffer 315 , 815 Parameter generator 603 Adaptive codebook modifier 1152 Pitch peak position information embedding unit

Claims (4)

通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号手段と、
適応符号帳と、
適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出手段と、
復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行うことにより前記適応符号帳に格納されている音源信号の内容を修正する適応符号帳修正手段と、
を備え、
復号するフレームが消失フレームである場合には、フレーム消失補償処理を行うとともに、
復号するフレームが消失フレームでなく1つ前フレームが消失フレームである場合には、前記適応符号帳修正手段は、過去の前記フレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する、
CELP型音声復号化装置。
Decoding means for decoding pitch peak position information encoded and transmitted with a delay of one frame from voice encoded information at a communication partner;
An adaptive codebook,
Detecting means for detecting a pitch peak position at the back of the past sound source signal stored in the adaptive codebook;
Adaptive codebook correction means for correcting the content of the excitation signal stored in the adaptive codebook by performing processing for adjusting the detected pitch peak position to the decoded pitch peak position;
With
When the frame to be decoded is a lost frame, the frame lost compensation process is performed,
If the previous frame frames to be decoded is not erased frame is erased frames, the adaptive codebook correcting means, the sound source signal stored in the adaptive codebook generated by past the frame loss compensation processing Modify the contents of the buffer,
CELP speech decoding apparatus.
通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号手段と、Decoding means for decoding pitch peak position information encoded and transmitted with a delay of one frame from voice encoded information at a communication partner;
適応符号帳と、An adaptive codebook,
適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出手段と、Detecting means for detecting a pitch peak position at the back of the past sound source signal stored in the adaptive codebook;
復号対象の現フレームが消失フレームでは無く、1つ前のフレームが消失フレームで有る場合に、2つ前のフレームにおけるピッチピーク位置情報と、1つ前のフレームにおけるピッチピーク位置情報と、2つ前のフレームにおけるピッチ周期情報と、を用いて1つ前のフレームにおけるピッチ周期を算出し、前記1つ前のフレームにおけるピッチ周期を用いて1つ前のフレームにおけるフレーム消失補償処理をやり直すことによって1つ前のフレームにおいて生成された適応符号帳の内容を修正する適応符号帳修正手段と、When the current frame to be decoded is not a lost frame but the previous frame is a lost frame, the pitch peak position information in the previous frame, the pitch peak position information in the previous frame, and two Calculating the pitch period in the previous frame using the pitch period information in the previous frame, and redoing the frame loss compensation process in the previous frame using the pitch period in the previous frame. Adaptive codebook correction means for correcting the contents of the adaptive codebook generated in the previous frame;
を備え、With
前記適応符号帳の内容の修正を行ってから復号化処理を行う、Performing the decoding process after correcting the contents of the adaptive codebook,
CELP型音声復号化装置。CELP speech decoding apparatus.
通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号工程と、
適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出工程と、
復号された前記ピッチピーク位置に、検出された前記ピッチピーク位置を合わせる処理を行うことにより前記適応符号帳に格納されている音源信号の内容を修正する適応符号帳修正工程と、
を備え、
復号するフレームが消失フレームである場合には、フレーム消失補償処理を行うとともに、
復号するフレームが消失フレームでなく1つ前フレームが消失フレームである場合には、前記適応符号帳修正工程により、過去の前記フレーム消失補償処理によって生成された適応符号帳に格納されている音源信号バッファの内容を修正する、
CELP型音声復号化方法。
A decoding step of decoding the pitch peak position information encoded and transmitted after being delayed by one frame from the voice encoding information at the communication partner;
A detection step of detecting a pitch peak position at the back of past sound source signals stored in the adaptive codebook;
An adaptive codebook correction step of correcting the content of the excitation signal stored in the adaptive codebook by performing a process of adjusting the detected pitch peak position to the decoded pitch peak position;
With
When the frame to be decoded is a lost frame, the frame lost compensation process is performed,
If the frame to be decoded is the previous frame is lost frame not lost frame by the adaptive codebook correcting step, the sound source signal stored in the adaptive codebook generated by past the frame loss compensation processing Modify the contents of the buffer,
CELP speech decoding method.
通信相手において音声符号化情報から1フレーム分遅延されて符号化され伝送された、ピッチピーク位置情報を復号する復号工程と、A decoding step of decoding the pitch peak position information encoded and transmitted after being delayed by one frame from the voice encoding information at the communication partner;
適応符号帳に格納されている過去の音源信号の一番後ろにあるピッチピーク位置を検出する検出工程と、A detection step of detecting a pitch peak position at the back of past sound source signals stored in the adaptive codebook;
復号対象の現フレームが消失フレームでは無く、1つ前のフレームが消失フレームで有る場合に、2つ前のフレームにおけるピッチピーク位置情報と、1つ前のフレームにおけるピッチピーク位置情報と、2つ前のフレームにおけるピッチ周期情報と、を用いて1つ前のフレームにおけるピッチ周期を算出し、前記1つ前のフレームにおけるピッチ周期を用いて1つ前のフレームにおけるフレーム消失補償処理をやり直すことによって1つ前のフレームにおいて生成された適応符号帳の内容を修正する適応符号帳修正工程と、When the current frame to be decoded is not a lost frame but the previous frame is a lost frame, the pitch peak position information in the previous frame, the pitch peak position information in the previous frame, and two Calculating the pitch period in the previous frame using the pitch period information in the previous frame, and redoing the frame loss compensation process in the previous frame using the pitch period in the previous frame. An adaptive codebook modification step of modifying the contents of the adaptive codebook generated in the previous frame;
前記適応符号帳の内容の修正を行ってから復号化処理を行う復号化処理工程と、A decoding process step of performing a decoding process after correcting the contents of the adaptive codebook;
を備える、CELP型音声復号化方法。A CELP speech decoding method comprising:
JP2011264561A 2011-12-02 2011-12-02 CELP speech decoding apparatus and CELP speech decoding method Expired - Lifetime JP5328883B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011264561A JP5328883B2 (en) 2011-12-02 2011-12-02 CELP speech decoding apparatus and CELP speech decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011264561A JP5328883B2 (en) 2011-12-02 2011-12-02 CELP speech decoding apparatus and CELP speech decoding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009106820A Division JP5111430B2 (en) 2009-04-24 2009-04-24 Speech coding apparatus, speech decoding apparatus, and methods thereof

Publications (2)

Publication Number Publication Date
JP2012042984A JP2012042984A (en) 2012-03-01
JP5328883B2 true JP5328883B2 (en) 2013-10-30

Family

ID=45899266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011264561A Expired - Lifetime JP5328883B2 (en) 2011-12-02 2011-12-02 CELP speech decoding apparatus and CELP speech decoding method

Country Status (1)

Country Link
JP (1) JP5328883B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6082126B2 (en) 2013-01-29 2017-02-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Apparatus and method for synthesizing audio signal, decoder, encoder, system, and computer program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3362471B2 (en) * 1993-07-27 2003-01-07 ソニー株式会社 Audio signal encoding method and decoding method
ATE336780T1 (en) * 1999-11-23 2006-09-15 Texas Instruments Inc OCCASIONING PROCESS FOR LOSS OF VOICE FRAME
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding

Also Published As

Publication number Publication date
JP2012042984A (en) 2012-03-01

Similar Documents

Publication Publication Date Title
JP7209032B2 (en) Speech encoding device and speech encoding method
JP4518714B2 (en) Speech code conversion method
JP4263412B2 (en) Speech code conversion method
US20020077812A1 (en) Voice code conversion apparatus
JP4287637B2 (en) Speech coding apparatus, speech coding method, and program
US20090248404A1 (en) Lost frame compensating method, audio encoding apparatus and audio decoding apparatus
JP4445328B2 (en) Voice / musical sound decoding apparatus and voice / musical sound decoding method
US8364472B2 (en) Voice encoding device and voice encoding method
JP4331928B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP4789430B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP5328883B2 (en) CELP speech decoding apparatus and CELP speech decoding method
JP5111430B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP4236675B2 (en) Speech code conversion method and apparatus
JP4597360B2 (en) Speech decoding apparatus and speech decoding method
RU2792658C1 (en) Audio encoding device, audio encoding method, audio encoding program, audio decoding device, audio decoding method and audio decoding program
JP4985743B2 (en) Speech code conversion method
RU2776261C1 (en) Audio encoding device, audio encoding method, audio encoding program, audio decoding device, audio decoding method and audio decoding program
JP2004020676A (en) Audio encoding / decoding method and audio encoding / decoding device
JP2004053763A (en) Speech coded transmission system for multipoint controller
JPH09297598A (en) Speech coding / decoding device
JP2004020675A (en) Audio encoding / decoding method and audio encoding / decoding device
JPH10154999A (en) Audio encoding device and audio decoding device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130723

R150 Certificate of patent or registration of utility model

Ref document number: 5328883

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term