JP3754819B2 - Voice communication method and voice communication apparatus - Google Patents
Voice communication method and voice communication apparatus Download PDFInfo
- Publication number
- JP3754819B2 JP3754819B2 JP07518098A JP7518098A JP3754819B2 JP 3754819 B2 JP3754819 B2 JP 3754819B2 JP 07518098 A JP07518098 A JP 07518098A JP 7518098 A JP7518098 A JP 7518098A JP 3754819 B2 JP3754819 B2 JP 3754819B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- codebook
- frame
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、適応符号帳(又は長期予測とも呼ばれる)を使用する音声符号化・復号化技術を用いた音声通信方法及び音声通信装置に係り、特に再生音声の品質を向上できる音声通信方法及び音声通信装置に関する。
【0002】
【従来の技術】
まず、従来の音声通信装置の概略構成について図5を使って説明する。図5は、従来の音声通信装置の概略構成を示すブロック図である。
従来の音声通信装置は、図5に示すように、送信部分として、送信する音声を入力してサンプリング、量子化しフレーム単位で入力音声を出力する音声入力部1と、入力音声を符号化して音声符号化情報を出力する音声符号化器2と、音声符号化情報を送信する送信部3とから構成されている。
また、受信部分としては、伝送されたフレーム単位の音声符号化情報を受信する受信部4と、受信音声符号化情報を復号化して音声を再生する音声復号化器5と、再生された音声を出力する音声出力部6から構成されている。
【0003】
ここで、音声符号化器2は、適応符号帳(又は長期予測とも呼ばれる)を使用する音声符号化技術で符号化を行うもので、例えば、移動体通信等で最も広く用いられている音声の符号化方式である符号励振型線形予測(Code Excited Linear Prediction:CELP)音声符号化方式がよく知られている。
【0004】
符号励振型線形予測(CELP)音声符号化方式は、フレーム単位で符号化を行い、1つ前のフレームの符号化情報に基づいて現在のフレームの音声を予測し、予測結果を最適化してその情報を現フレームの音声符号化情報とし、更に当該最適化された予測結果を次のフレームの符号化の際に使用するようになっている。
【0005】
従って、音声復号化器5で行う符号励振型線形予測(CELP)の音声復号化方式は、フレーム単位で復号化を行い、1つ前のフレームで復号化した結果を利用して、受信した音声符号化情報に従って復号化を行い、更に当該復号結果を次のフレームの復号化の際に使用するようになっている。
【0006】
送信部3は、音声符号化器2で符号化されたフレーム単位の音声符号化情報を送信するものであるが、送信側の音声符号化器2と受信側の音声復号器との間でフレーム同期を保持、および補正するために、音声符号化情報を送信する際に所定のフレーム周期毎にフレーム同期信号を音声符号化情報と入れ替えて送信するようになっている。
【0007】
そして、受信部4では、フレーム単位で伝送される音声符号化情報又はフレーム同期信号を受信し、音声符号化情報の場合は記憶エリアに記憶してから当該音声符号化情報を音声復号化器5に出力し、フレーム同期信号の場合は、記憶エリアに記憶されている例えば1つ前のフレームの音声符号化情報を音声復号化器5に出力するようになっている。
【0008】
次に、従来の音声通信装置の動作について、図6を使って具体的に説明する。図6は、従来の音声通信装置における音声符号化・復号化処理とフレーム同期信号送受信タイミングを示す説明図である。尚、図6では、音声符号化処理に要する処理時間は1フレームであり、再生音声の復号処理に要する処理時間は1フレームであるとして示している。
【0009】
図6においてftn(n=0、1、2、…)は送信側(音声符号化器側)でのフレーム番号を示すインデックスであり、frn(n=0、1、2、…)は受信側(音声復号器側)でのフレーム番号を示すインデックスである。
【0010】
従来の音声通信装置では、送信側の動作として、音声入力部1において図6(a)に示すように、音声が入力されサンプリング,量子化され、1フレーム分の長さを有する入力バッファに蓄積される。
【0011】
そして、音声入力部1で蓄積された音声は、音声符号化器2で図6(b)に示すようにフレーム単位で音声符号化情報が抽出される(図6では音声情報抽出と表示している)。
ここで、音声符号化情報の抽出は、入力バッファに1フレーム分の音声信号の蓄積が終了した後に開始される。例えば、フレームft0の区間で蓄積された音声はフレームft1の区間で抽出処理(符号化処理)が為される。
【0012】
そして、音声符号化器2で抽出された音声符号化情報が、出力部3で図6(c)に示すように送信される(図6では音声情報送信と表示している)。
ここで、音声符号化情報送信は抽出処理が完了した後に開始される。例えば、フレームft1の区間で抽出された音声情報はフレームft2の先頭から送信が開始される。
【0013】
従来の音声通信装置において通常は、この音声入力、音声情報抽出、音声情報送信が繰り返されるが、受信側とのフレームの同期を確保するために、送信部3における送信処理において所定のフレーム周期毎に音声符号化情報の代わりにフレーム同期信号を送信する。
【0014】
図6の例では、50フレーム毎(フレームft2、ft52、…)にフレーム同期信号を送信しており、この時送信すべき音声符号化情報は送信されない。例えば、フレームft2で送信すべきフレームft1で抽出された音声符号化情報は送信されないことになる。
【0015】
一方、従来の音声通信装置の受信側の動作は、受信部4で図6(d)に示すように音声符号化情報が受信されて受信バッファに蓄積される。
但し、図6の例では1フレーム分の音声符号化情報を受信するのに1フレーム分の時間を要するものとし、また、50フレーム毎(フレームfr2、fr52、…)にフレーム同期信号を受信している。
【0016】
そして、受信部4で蓄積された音声符号化情報によって、次のフレーム区間では復号化のための符号化情報が更新されて図6(e)に示すように音声復号化器5で音声復号処理により音声が再生され(図6では音声情報更新と表示している)、音声出力部6によって図6(f)に示すように再生音声が出力される(図6では再生音声出力と表示している)。
【0017】
例えば、フレームfr0で受信した音声符号化情報に対し、次フレームの区間fr1で復号処理を行い、次のフレーム区間fr2で再生音声を出力する。
【0018】
但し、受信部4が50フレーム毎(例えばフレームfr2、fr52、… )にフレーム同期信号を受信した場合は、これらのフレームに対しフレームfr3、fr531、… で音声復号処理する際、該当するフレームの音声符号化情報が存在しないため、他のフレームで受信した音声符号化情報により補間処理を行う。
補間処理の一例としては、前フレームで受信した音声符号化情報で置換する方法などがある。
【0019】
そして、補間された音声符号化情報を用いて音声符号化器5で復号化が行われ、再生音声が出力される。
【0020】
【発明が解決しようとする課題】
しかしながら、上記従来の音声通信方法及び音声通信機装置は、フレーム同期信号を送信するフレーム区間は送信すべき音声符号化情報を廃棄してしまい、受信側で当該区間の音声符号化情報を補間により生成して復号化を行うので、当該フレーム区間の実際の音声符号化情報を用いた復号化に比べて再生音声の品質が劣下するという問題点があった。
【0021】
更に、従来の音声通信方法及び音声通信装置では、前フレームの音声符号化情報を反映させながら次フレームの符号化を行い、復号化においても前フレームの音声復号結果を反映させながら次フレームの復号化を行う符号化・復号化方法を用いているので、上記再生音声出力の品質劣下がそれに続くフレームの復号化にも影響し、再生音声の品質劣下が数フレームに及び連続的に発生するという問題点があった。
【0022】
本発明は上記実情に鑑みて為されたもので、フレーム同期信号送信に伴う受信側での音声符号化情報の補間と同様の処理を送信側で施すことによって、フレーム同期信号送信によって音声符号化情報が廃棄されたフレームの再生音声の品質劣下をそれに続くフレームに影響しないようにして、再生音声の品質劣化を軽減できる音声通信方法及び音声通信装置を提供することを目的とする。
【0023】
【課題を解決するための手段】
上記従来例の問題点を解決するための請求項1記載の発明は、適応符号帳を使用する音声符号化・復号化処理を用いた音声通信方法であって、送信側で入力音声信号を前記音声符号化処理することで音声符号化情報を抽出して送信し、受信側で受信した音声符号化情報を音声復号化処理することで音声信号を再生する音声通信方法において、送信側から周期的に音声符号化情報に替えて同期信号が送信される場合に、前記送信側にて同期信号が送信されるフレームの音声符号化情報について、当該同期信号を受信したフレームの音声符号化情報に対して前記受信側で為される音声符号化情報の補間処理と同じ補間処理を行い、前記補間処理によって得られた音声符号化情報に従って前記適応符号帳を更新することを特徴としており、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、送信側と受信側で同じ音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができる。
【0024】
上記従来例の問題点を解決するための請求項2記載の発明は、請求項1記載の音声通信方法において、音声符号化情報の補間処理は、1つ前のフレームで得られた音声符号化情報を用いるようにしたものが考えられる。
【0025】
上記従来例の問題点を解決するための請求項3記載の発明は、音声通信装置において、音声を入力して音声信号を出力する音声入力部と、前記音声信号を適応符号帳を用いて音声符号化処理を行い、音声符号化情報を抽出する音声符号化器と、前記音声符号化情報を送信すると共に周期的に音声符号化情報に替えて同期信号を送信する送信部とを有する送信側と、送信された音声符号化情報を受信すると共に、前記同期信号を受信すると音声符号化情報の補間処理として前フレームで得られた音声符号化情報を出力する受信部と、音声符号化情報を適応符号帳を用いて復号化して音声信号を出力する音声復号化器と、前記音声信号を音声として出力する音声出力部とを有する受信側とを備え、前記音声符号化器が、前記送信部にて同期信号が送信されるフレームの音声符号化情報について、当該同期信号を受信したフレームの音声符号化情報に対して前記受信部で為される補間処理と同じ補間処理を行い、前記補間処理によって得られた音声符号化情報に従って前記適応符号帳を更新することを特徴としており、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、送信側と受信側で同じ音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができる。
【0026】
上記従来例の問題点を解決するための請求項4記載の発明は、音声通信装置において、入力音声信号についてフレーム単位で音声生成系における声道特性を表現するスペクトル包絡情報を抽出し、同期信号が送信されるフレームでは前フレームのスペクトル包絡情報を当該フレームのスペクトル包絡情報とするスペクトル包絡パラメータ抽出器と、入力音声信号についてフレーム単位でフレーム電力計算を行ってフレーム電力情報を出力し、同期信号が送信されるフレームでは前フレームのフレーム電力情報を当該フレームのフレーム電力情報とするフレーム電力計算器と、入力音声信号に対して前記スペクトル包絡情報を用いて聴覚重み付け処理を行い、聴覚重み付けされた入力音声信号を出力する聴覚重み付けフィルタと、音源信号における周期成分を表現するための符号帳であって入力される制御信号に従って選択された最適な適応符号の候補ベクトルを出力すると共に音源信号の入力を受けて適応符号の候補ベクトルの内容を更新する適応符号帳と、音源信号における雑音成分を表現するための符号帳であって入力される制御信号に従って選択された最適な雑音符号の候補ベクトルを出力する雑音符号帳と、利得を調整するための符号帳であって入力される制御信号に従って選択された適応符号帳用の利得候補ベクトルと雑音符号帳用の利得候補ベクトルとを出力する利得符号帳と、最適な適応符号帳ベクトルに利得候補ベクトルを乗算し、利得調整された最適な適応符号帳ベクトルを出力する第1の乗算器と、最適な雑音符号帳ベクトルに利得候補ベクトルを乗算し、利得調整された最適な雑音符号帳ベクトルを出力する第2の乗算器と、利得調整された最適な適応符号帳ベクトルと利得調整された最適な雑音符号帳ベクトルとを加算し、音源信号を出力する加算器と、前記音源信号に対して前記スペクトル包絡情報を付加すると共に聴覚重み付けを行い、再生音声信号を生成して出力する聴覚重み付け合成フィルタと、前記適応符号帳、前記雑音符号帳、前記利得符号帳における最適の各符号帳ベクトルを探索して各符号帳最適インデックスを出力する符号帳探索処理を行い、同期信号が送信されないフレームでは、前記探索処理で選択された最適の各符号帳ベクトルが出力されるよう、前記適応符号帳、前記雑音符号帳、前記利得符号帳に制御信号を出力して、前記適応符号帳を更新させ、同期信号が送信されるフレームでは、当該フレームの音声符号化情報について当該同期信号を受信したフレームの音声符号化情報に対して受信側で為される音声符号化情報の補間処理と同じ補間処理を行い、前記補間処理にて得られた音声符号化情報に従って最適の各符号帳ベクトルが出力されるよう、前記適応符号帳、前記雑音符号帳、前記利得符号帳に制御信号を出力して、前記適応符号帳を更新させる適応符号帳更新処理を行う最適候補ベクトル選択器とを有する音声符号化器を具備する送信側の装置を備えたことを特徴としており、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、送信側と受信側で同じ音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができる。
【0027】
上記従来例の問題点を解決するための請求項5記載の発明は、請求項3又は請求項4記載の音声通信装置において、音声符号化情報の補間処理は、1つ前のフレームで得られた音声符号化情報を用いるようにしたものが考えられる。
【0028】
【発明の実施の形態】
本発明の実施の形態について図面を参照しながら説明する。
本発明の実施の形態に係る音声通信方法及び音声通信装置は、周期的に音声符号化情報の替わりに同期信号が送信されて、受信側で音声符号化情報の補間処理が為される場合に、送信側で同期信号が送信されるフレームに対して受信側で為される音声符号化情報の補間処理と同様の処理を行う音声通信方法及び音声通信装置としているので、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、送信側と受信側で同様の音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができるものである。
【0029】
本発明の実施の形態に係る音声通信装置(本装置)は、図5に示す構成と基本的に同様になっており、但し、音声符号化器2における処理動作が従来のものと相違している。この音声符号化器2の構成及び動作については後述する。
【0030】
まず、本発明の実施の形態に係る音声通信方法を図1を用いて説明する。図1は、本発明の実施の形態に係る音声通信装置における音声符号化・復号化処理とフレーム同期信号送受信タイミングを示す説明図である。尚、図1において、音声符号化処理に要する処理時間は1フレームであり、再生音声の復号処理に要する処理時間は1フレームであるとして示している。
【0031】
ここで、図1に示す処理は、図6に示す処理とほぼ同様であり、但し、音声符号化器2でフレーム単位で音声符号化情報が抽出される処理(図1(b)の処理)が相違している。
具体的には、受信側とのフレームの同期を確保するために、フレームft2で送信部3にて音声符号化情報の代わりにフレーム同期信号を送信する場合には、従来ではフレームft0で音声入力を行い、フレームft1で音声情報抽出を行い、フレームft2で音声情報を送信せずにフレーム同期信号を送信していたが、本発明の実施の形態ではフレームft0で音声入力を行い、フレームft1では音声情報抽出を行わず、音声情報の補間を行い、フレームft2でフレーム同期信号を送信するものである。
【0032】
ここで、フレームft1及びフレームft51における音声情報の補間は、受信側の音声復号化器5における補間と同様のものとする。例えば、前のフレームの音声符号化情報で置換する補間を送信側で行うのであれば、受信側も同様に前のフレームの音声復号化情報で置換する補間を行うこととなる。要するに、送信側と受信側とで同じ補間が為されれば、どのような補間方法を用いても構わない。
【0033】
次に、本発明の実施の形態に係る音声通信方法を実現する音声通信装置について、現在、移動体通信等で最も広く用いられている音声の符号化方式である符号励振型線形予測(Code Excited Linear Prediction:CELP)音声符号化・復号化方法を例にとって説明する。
【0034】
CELP音声符号化・復号化方法では、送信側でフレーム単位で音声符号化情報を抽出して送信し、受信側で受信した音声符号化情報に基づいて復号化を行うようになっている。
ここで、CELP音声符号化・復号化方法における音声符号化情報は、[表1]に示す項目がある。尚、[表1]では、入力音声が8kHzでサンプリングされ、16ビットで量子化されている場合の例で、1フレームが40ms,320サンプル、サブフレームが10ms,8サンプルとして示している。
【0035】
【表1】
【0036】
ここで、スペクトル包絡情報b1は、人間の音声生成系における声道特性を表現する情報であり、1フレーム(40ms)毎に抽出される情報である。
また、フレーム電力情報c1は、フレーム(40ms)単位の電力を表す情報である。
【0037】
適応符号帳最適インデックスm1は、音源信号における周期成分を表現するための適応符号帳における最適な候補ベクトルの番号を示す情報であり、雑音符号帳最適インデックスo1は、音源信号における雑音成分を表現するための雑音符号帳における最適な候補ベクトルの番号を示す情報であり、利得符号帳最適インデックスp1は、利得を調整するための利得符号帳における最適な候補ベクトルの番号を示す情報であり、いずれのインデックスもサブフレーム(10ms)毎に抽出される情報である。
【0038】
その結果、フレーム単位で抽出されて送信される音声符号化情報は、1セットのスペクトル包絡情報b1及びフレーム電力情報c1と、4セットの適応符号帳最適インデックスm1及び雑音符号帳最適インデックスo1及び利得符号帳最適インデックスp1で構成される。
【0039】
次に、本発明の実施の形態に係る音声通信装置における音声符号化器(本音声符号化器)について、図2を用いて説明する。図2は、本発明の実施の形態に係る音声通信装置における音声符号化器の構成ブロック図である。
【0040】
本音声符号化器は、図2に示すように、スペクトル包絡パラメータ抽出器11と、フレーム電力計算器12と、適応符号帳13と、聴覚重み付け合成フィルタ14と、最適候補ベクトル選択器15と、雑音符号帳16と、利得符号帳17と、乗算器18と、乗算器19と、加算器20と、聴覚重み付けフィルタ21とから構成されている。
【0041】
次に、本音声符号化器の各部について説明する。
スペクトル包絡パラメータ抽出器11は、音声入力部1において入力されサンプリングされ、更に量子化された入力音声a1をフレーム単位で入力して、スペクトル包絡情報b1を抽出し、音声符号化情報の一部として出力するものである。
【0042】
但し、本発明のスペクトル包絡パラメータ抽出器11の特徴部分として、後述する最適候補ベクトル選択器15から出力される抽出/置換の制御信号q1を入力し、制御信号が抽出を指示している場合は、入力音声a1のフレームのスペクトル包絡情報b1を抽出し、制御信号が置換を指示している場合は、抽出を行わずに補間用の音声情報で置き換えを行ってスペクトル包絡情報b1を出力するようになっている。
【0043】
尚、補間用の音声情報とは、例えば1つ前のフレームの音声情報(スペクトル包絡情報b1)である。
また、抽出と置換との切り替えは、最適候補ベクトル選択器15からの制御信号q1によらず、内部にフレームカウンタ等を設けて、補間処理を行うタイミングをカウントするようにしても構わない。
【0044】
ここで、スペクトル包絡情報は、人間の音声生成系における声道特性を表現する情報であり、スペクトル包絡情報b1は量子化された後、復号器側に伝送され再生音声信号を生成するのに用いられる。また、後述するように聴覚重み付けフィルタ21及び聴覚重み付け合成フィルタ14において聴覚重み付けを行う時に用いられる。
【0045】
フレーム電力計算器12は、音声入力部1からの入力音声a1をフレーム単位で入力して、フレーム電力計算を行い、フレーム電力情報c1を音声符号化情報の一部として出力するものである。
ここで、フレーム電力情報c1は復号器側に伝送され再生音声信号を生成するのに用いられる。また、後述するように最適候補ベクトル選択器15で利得符号帳17を探索する処理においてフレーム電力情報が用いられる。
【0046】
但し、本発明のフレーム電力計算器12の特徴部分として、後述する最適候補ベクトル選択器15から出力される抽出/置換の制御信号q1を入力し、制御信号が抽出を指示している場合は、入力音声a1のフレームのフレーム電力情報c1を抽出し、制御信号が置換を指示している場合は、抽出を行わずに補間用の音声情報で置き換えを行ってフレーム電力情報c1を出力するようになっている。
【0047】
尚、補間用の音声情報とは、例えば1つ前のフレームの音声情報(フレーム電力情報c1)である。
また、抽出と置換との切り替えは、最適候補ベクトル選択器15からの制御信号q1によらず、内部にフレームカウンタ等を設けて、補間処理を行うタイミングをカウントするようにしても構わない。
【0048】
聴覚重み付けフィルタ21は、音声入力部1からの入力信号a1に対し、サブフレーム単位でスペクトル包絡情報(パラメータ)b1を用いて聴覚重み付け処理(公知の技術)を行い、聴覚重み付けされた入力音声nlを出力するものである。
【0049】
適応符号帳13は、音源信号における周期成分を表現するための符号帳であり、例えば、128種類のピッチ成分のパターンを予め記憶しており(サイズ128、80次元)、更に1つ前のサブフレームで抽出された最適な適応符号帳ベクトル及び雑音符号帳ベクトル及び利得符号帳ベクトルにより生成された音源信号を記憶する前音源信号エリアが設けられている。
そして、入力される制御信号l1に従って選択された最適な適応符号の候補ベクトルd1を出力するようになっている。
【0050】
雑音符号帳16は、音源信号における雑音成分を表現するための符号帳であり、例えば、512種類の雑音成分のパターンを記憶していて(サイズ512、80次元)、入力される制御信号l1に従って選択された最適な雑音符号の候補ベクトルf1を出力するようになっている。
【0051】
利得符号帳17は、利得を調整するための符号帳であり、例えば、128種類の利得パターンを記憶していて(サイズ128、2次元)、入力される制御信号l1に従って選択された適応符号用の利得候補ベクトルh1と、雑音符号用の利得候補ベクトルi1とを出力するようになっている。
【0052】
乗算器18は、最適な適応符号帳ベクトルd1に利得の候補ベクトルh1を乗算し、利得調整された最適な適応符号帳ベクトルe1を出力するものである。
乗算器19は、最適な雑音符号帳ベクトルf1に利得の候補ベクトルi1を乗算し、利得調整された最適な雑音符号帳ベクトルg1を出力するものである。
加算器20は、利得調整された最適な適応符号帳ベクトルe1と利得調整された最適な雑音符号帳ベクトルg1とを加算し、音源信号j1を出力するものである。
【0053】
聴覚重み付け合成フィルタ14は、音源信号j1に対してスペクトル包絡情報b1を付加すると共に聴覚重み付けを行い、再生音声k1を生成して出力するものである。
【0054】
具体的には、音源信号j1にスペクトル包絡情報b1を付加するための合成フィルタの係数に聴覚重み付けをするための修正を施してからフィルタリングを行うことになる。
【0055】
最適候補ベクトル選択器15は、基本的にはサブフレーム単位で適応符号帳13,雑音符号帳16,利得符号帳17における最適な符号帳ベクトルを選択するものであるが、本発明の特徴部分としてスペクトル包絡パラメータ抽出器11及びフレーム電力計算器12への抽出/置換の制御信号q1を出力するようになっている。
【0056】
ここで、抽出/置換の制御信号q1は、スペクトル包絡パラメータ抽出器11及びフレーム電力計算器12において音声情報を抽出するか、又は音声情報を抽出せずに補間用の音声情報で置き換えるかを指示する信号である。
つまり、最適候補ベクトル選択器15は、通常のフレームの際にはスペクトル包絡パラメータ抽出器11及びフレーム電力計算器12に対して抽出/置換の制御信号q1で抽出を指示し、同期信号が送信されるフレームの際には、抽出/置換の制御信号q1で置換を指示するようになっている。
【0057】
尚、最適候補ベクトル選択器15から制御信号q1は出力せずに、スペクトル包絡パラメータ抽出器11及びフレーム電力計算器12において内部にフレームカウンタ等を設けて、補間処理を行うタイミングをカウントするようにしても構わない。
【0058】
また、最適候補ベクトル選択器15における最適な符号帳ベクトルの探索は、サブフレーム単位で、適応符号帳13,雑音符号帳16,利得符号帳17における最適な各符号帳ベクトルを探索して各最適な各符号帳ベクトルの番号を符号帳最適インデックスm1、o1、p1として出力する符号帳探索処理と、抽出した音声符号化情報又は補間した音声符号化情報を次のフレームの符号帳探索に適応するための適応符号帳更新処理を行い、これをサブフレームの数だけ繰り返す。その結果、例えば1フレームが40ms、サブフレームが10msの場合は、1フレームについて4セットの各符号帳最適ベクトルを抽出して音声符号化情報の一部として出力するようになっている。
【0059】
但し、本発明の特徴部分として、フレーム内の最後のサブフレームについては、符号帳探索処理終了後に、所定フレーム毎に復号器側と同様の音声符号化情報の補間を行う音声情報補間処理を行うようになっている。
音声情報補間処理の詳細については、後述する。
【0060】
符号帳探索処理は具体的に、制御信号l1により適応符号帳13、雑音符号帳16、利得符号帳17から出力される各候補ベクトルを制御し、各候補ベクトルに対する再生音声k1と聴覚重み付けされた入力音声n1との自乗平均誤差を計算して、それが最小となる候補ベクトルを最適ベクトルとして選定する符号帳探索を行い、各符号帳(適応、雑音および利得符号帳)の最適ベクトルの番号を符号帳最適インデックスm1、o1、p1とし、音声符号化情報の一部として出力する処理である。
【0061】
ここで、最適候補ベクトル選択器15によりサブフレーム毎に実行される符号帳探索の手順について説明する。
最適候補ベクトル選択器15における符号帳探索の概要は、まず第1段階として適応符号帳13における最適な適応符号帳ベクトルを探索する適応符号帳探索(長期予測とも呼ばれる)を行い、次に第2段階として雑音符号帳16における最適な雑音符号帳ベクトルを探索する雑音符号帳探索を行い、最適な適応符号帳ベクトル及び雑音符号帳ベクトルが決定した後に、最後の第3段階として利得符号帳探索を行うようになっている。
なお、各符号帳探索の詳細については、本発明の音声通信装置の動作で説明する。
【0062】
そして、適応符号帳更新処理は、選択された最適な適応、雑音、利得符号帳ベクトルで生成される音源信号j1、又は補間処理によって前フレームの音声符号化情報で置換された符号帳ベクトルで生成される音源信号j1により、適応符号帳13の内部メモリを更新することによって、次サブフレームで用いる適応符号帳13を作成する処理である。
【0063】
ここで、適応符号帳13の内部メモリを更新する具体的な方法は、例えば、現在記憶されている適応符号帳13(例えば、160サンプル記憶している)の内容をサブフレーム長(80サンプル)分過去の方向にシフトし、その結果後半部分(新しい部分)には0が入ることになり、その部分に現サブフレームで得られた音源信号(80サンプル)を代入するようになっている。
【0064】
次に、本発明の特徴部分である音声符号化情報補間処理は、音声符号化情報抽出対象のフレームが所定フレーム毎に送信部3からフレーム同期信号を送信するフレームである場合に、復号化の際の音声符号化情報の補間処理と同様の処理を行うものである。
【0065】
具体的には、補間処理方法が例えば前フレームの音声符号化情報での置換を施すような場合には、最適候補ベクトル選択器15内に前フレームの音声符号化情報を記憶し、最後のサブフレームの符号帳探索終了後に、記憶されている前フレームの音声符号化情報の中の各符号帳の最適インデックスm1,o1,p1に従って、適応符号帳13,雑音符号帳16,利得符号帳17から前フレームの適応符号帳最適ベクトルd1及び雑音符号帳最適ベクトルf1及び利得符号帳最適ベクトルh1,i1が出力されるように制御信号l1を制御し、その結果得られた音源信号j1で前述した適応符号帳更新処理を行って適応符号帳13の内部メモリ内容の更新が行われるようになっている。
【0066】
ここで、音声符号化情報補間処理の制御フローについて、図3を用いて説明する。図3は、本音声符号化器の最適候補ベクトル選択器15における音声符号化情報補間処理の流れを示すフローチャート図である。尚、図3において、フレームカウンタCfは符号化開始時にリセットされているものとし、50フレーム毎にフレーム同期信号が挿入されるものとする。
【0067】
本音声符号化器の最適候補ベクトル選択器15における音声符号化情報補間処理は、フレームカウンタCfをインクリメントし(100)、Cfが50より大きいか判断し(102)、Cfが50より大きくない場合(No)は、選択された適応、雑音、利得の符号帳最適インデックスm1,o1,p1を現フレームの音声符号化情報として記憶し(110)、補間処理を終了する。
【0068】
一方、処理102において、Cfが50より大きくなった場合(Yes)は、フレームカウンタCfをリセットし(104)、前フレームの音声符号化情報を現フレームの音声符号化情報として置換し(106)、補間処理を終了する。
【0069】
次に、本音声符号化器の動作について、図2を使って説明する。
本音声符号化器では、フレーム単位で入力音声a1が入力されると、スペクトル包絡パラメータ抽出器11でスペクトル包絡情報b1が抽出されて音声符号化情報の一部として送信部3に出力されると共に、聴覚重み付け合成フィルタ14及び聴覚重み付けフィルタ21に与えられる。
一方、フレーム電力計算器12において入力音声a1からフレーム電力情報c1が抽出されて、送信部3に音声符号化情報の一部として出力されると共に、最適候補ベクトル選択器15に与えられる。
【0070】
尚、この時、スペクトル包絡パラメータ抽出器11及びフレーム電力計算器12では、最適候補ベクトル選択器15からの抽出/置換の制御信号q1に従って、同期信号が送信されるフレームの時には、抽出を行わずにそれぞれ補間用の情報で置換されたスペクトル包絡情報b1及びフレーム電力情報c1が出力される。
【0071】
そして以降はサブフレーム単位で、入力音声a1に対して、聴覚重み付けフィルタ21でスペクトル包絡パラメータ抽出器11からのスペクトル包絡情報b1を用いて聴覚重み付けが為され、聴覚重み付けされた入力音声nlが最適候補ベクトル選択器15に出力される。
【0072】
また、最適候補ベクトル選択器15において、符号帳探索処理の第1段階である適応符号帳探索の動作として、制御信号l1によって、まず適応符号帳13に記憶された候補ベクトルd1が順に適応符号帳13から出力されるようにし、この時雑音符号帳16及び利得符号帳17からは候補ベクトルが出力されないように制御信号l1を制御する。
【0073】
すると、適応符号帳13から記憶された候補ベクトルd1が順に出力され、乗算器18及び加算器20をスルーし、周期性を有する音源信号j1として出力され、聴覚重み付け合成フィルタ14でスペクトル包絡パラメータ抽出器11からのスペクトル包絡情報b1を付加すると共に聴覚重み付けが行われ、部分的な再生音声(適応符号帳寄与分)k1が生成されて出力される。
【0074】
そして、最適候補ベクトル選択器15では、各候補ベクトルd1に対して生成された部分的な再生音声(適応符号帳寄与分)k1に対し最適な利得が与えられた後に、聴覚重み付けフィルタ21から出力される聴覚重み付けされた入力音声n1との自乗平均誤差が各々計算され、それが最小となる候補ベクトルd1が最適な適応符号帳ベクトルとして選定され、選定されたベクトルの番号が適応符号帳13の符号帳最適インデックスm1として出力される。
【0075】
ここで、最適な利得とは、自乗平均誤差の計算式で再生信号k1に乗算される利得に対して偏微分した結果を0とおくことにより、自乗平均誤差が最小となる利得(最適な利得)を求め、この利得を固定して再生信号ベクトルk1を順次取り替えて自乗平均誤差を求めることにより最適な適応符号帳ベクトルの探索が行われるようになっている。
尚、自乗平均誤差の計算方法については、公知の技術であるので、ここでは詳細な説明を省略する。
【0076】
次に、最適候補ベクトル選択器15において、符号帳探索処理の第2段階である雑音符号帳探索の動作として、制御信号l1によって、まず雑音符号帳16に記憶された候補ベクトルf1が順に雑音符号帳16ら出力されるようにし、この時適応符号帳13及び利得符号帳17からは候補ベクトルが出力されないように制御信号l1を制御する。
【0077】
すると、雑音符号帳16から記憶された候補ベクトルf1が順に出力され、乗算器19及び加算器20をスルーし、雑音の音源信号j1として出力され、聴覚重み付け合成フィルタ14でスペクトル包絡パラメータ抽出器11からのスペクトル包絡情報b1を付加すると共に聴覚重み付けが行われ、部分的な再生音声(雑音符号帳寄与分)k1が生成されて出力される。
【0078】
ここで、雑音符号帳探索において、各候補ベクトルf1には、再生音声の量子化誤差を低減するため、聴覚重み付け合成フィルタ処理された最適な適応符号帳ベクトルに対し直交化処理が施される(公知の技術)。
しかし、便宜上各候補ベクトルに対する再生音声k1について直交化処理を行っても同じ結果が得られるので、本発明では直交化処理が最適候補ベクトル選択器15で行われるものとする。
【0079】
そこで、最適候補ベクトル選択器15では、各候補ベクトルf1に対して生成された部分的な再生音声(雑音符号帳寄与分)k1に対し直交化処理を施し、更に最適な利得が与えられた後に、聴覚重み付けフィルタ21から出力される聴覚重み付けされた入力音声n1との自乗平均誤差が各々計算され、それが最小となる候補ベクトルf1が最適な雑音符号帳ベクトルとして選定され、選定されたベクトルの番号が雑音符号帳の符号帳最適インデックスo1として出力される。
【0080】
次に、最適候補ベクトル選択器15において、符号帳探索処理の第3段階である利得符号帳探索の動作として、制御信号l1によって、適応符号帳13からは上記適応符号帳探索で決定した最適な適応符号帳ベクトルd1が、また雑音符号帳16からは上記雑音符号帳探索で決定した最適な雑音符号帳ベクトルf1が出力されるようにして、更に利得符号帳17から適応符号用の利得候補ベクトルh1と、雑音符号用の利得候補ベクトルi1とが記憶されている全てについて順番に出力されるようにする。
【0081】
これにより、適応符号帳13からは最適な適応符号帳ベクトルd1が出力され、乗算器18で利得符号帳17から出力される適応符号用の利得候補ベクトルh1と乗算されて、利得調整が為された最適な適応符号帳ベクトルe1が出力される。
一方、雑音符号帳16からは最適な雑音符号帳ベクトルf1が出力され、乗算器19で利得符号帳17から出力される雑音符号用の利得候補ベクトルi1と乗算されて、利得調整が為された最適な雑音符号帳ベクトルg1とが出力される。
【0082】
そして、利得調整が為された最適な適応符号帳ベクトルe1と利得調整が為された最適な雑音符号帳ベクトルg1とが加算器20で加算されて音源信号j1が生成され、聴覚重み付け合成フィルタ14で、スペクトル包絡情報b1が付加されるとともに聴覚重み付けが施された再生音声k1が出力されることになる。
【0083】
そして、最適候補ベクトル選択器15においてフレーム電力計算器12から出力されるフレーム電力情報c1を用いて聴覚重み付けフィルタ21から出力される聴覚重み付けされた入力音声n1に正規化が施され、再生音声k1の前記正規化された入力音声n1に対する聴覚重み付き自乗平均誤差を求め、それが最小となる適応符号用の利得候補ベクトルh1と、雑音符号用の利得候補ベクトルi1とが最適な利得符号帳ベクトルとして選定され、選定されたベクトルの番号が利得符号帳の最適利得インデックスp1として出力されるようになっている。
【0084】
そして、符号帳探索処理の結果選択された適応符号帳最適ベクトルd1及び雑音符号帳最適ベクトルf1及び利得符号帳最適ベクトルh1,i1が適応符号帳13,雑音符号帳16,利得符号帳17から出力されるように制御信号l1を制御し、適応符号帳更新処理の動作としてその結果得られた音源信号j1で適応符号帳13の内部メモリ内容が更新され、その更新結果が次サブフレームの適応符号帳13として用いられるようになっている。
【0085】
上記サブフレーム単位の動作が繰り返され、最適候補ベクトル選択器15において、最後のサブフレームについての符号帳探索処理が終了したなら、本発明の特徴部分である音声符号化情報補間処理の動作として、フレーム同期信号が送信されるフレームである場合に、最適候補ベクトル選択器15内に記憶されている前フレームの音声符号化情報の中の最後のサブフレームの各符号帳最適インデックスm1,o1,p1に従って、適応符号帳13,雑音符号帳16,利得符号帳17から前フレームの適応符号帳最適ベクトルd1及び雑音符号帳最適ベクトルf1及び利得符号帳最適ベクトルh1,i1が出力されるように制御信号l1を制御し、適応符号帳更新処理の動作としてその結果得られた音源信号j1で適応符号帳13の内部メモリ内容が更新され、その補間による更新結果が次サブフレームの適応符号帳13として用いられるようになっている。
【0086】
また、フレーム同期信号が送信されるフレームでない場合には、そのまま符号帳探索処理の結果選択された適応符号帳最適ベクトルd1及び雑音符号帳最適ベクトルf1及び利得符号帳最適ベクトルh1,i1が適応符号帳13,雑音符号帳16,利得符号帳17から出力されるように制御信号l1を制御し、適応符号帳更新処理の動作としてその結果得られた音源信号j1で適応符号帳13の内部メモリ内容が更新され、その更新結果が次サブフレームの適応符号帳13として用いられるようになっている。
【0087】
次に、本発明の実施の形態に係る音声通信装置における音声復号化器(本音声復号化器)について、図4を用いて説明する。図4は、本発明の実施の形態に係る音声通信装置における音声復号化器の構成ブロック図である。
【0088】
本音声復号化器は、図4に示すように、適応符号帳31と、雑音符号帳32と、利得符号帳33と、乗算器34と、乗算器35と、加算器36と、合成フィルタ37と、ポストフィルタ38とから構成されている。
【0089】
次に、本音声符号化器の各部について説明する。
適応符号帳31は、音声符号器(図1)の適応符号帳13と同じ内容の適応符号帳であり、更に1つ前のサブフレームで生成された音源信号を記憶する前音源信号エリアが設けられている。
そして、受信して入力される適応符号帳最適インデックスm2に従って選択された適応符号帳最適ベクトルd2を出力するようになっている。
【0090】
雑音符号帳32は、音声符号器(図1)の雑音符号帳16と同じ内容の雑音符号帳であり、受信して入力される雑音符号帳最適インデックスo2に従って選択された雑音符号帳最適ベクトルf2を出力するようになっている。
【0091】
利得符号帳33は、音声符号器(図1)の利得符号帳17と同じ内容の利得符号帳であり、受信して入力される利得符号帳最適インデックスp2に従って選択された適応符号帳ベクトルの最適利得h2と雑音符号帳ベクトルの最適利得i2を出力するようになっている。
【0092】
利得制御器39は、適応符号帳ベクトルの利得h2と雑音符号帳ベクトルの利得i2とを入力して、受信したフレーム電力情報c2を用いて利得調整を行い、利得調整された適応符号帳ベクトルの利得h2′と雑音符号帳ベクトルの利得i2′とを出力するものである。
【0093】
乗算器34は、最適な適応符号帳ベクトルd2に利得調整された利得h2′を乗算し、利得調整された最適な適応符号帳ベクトルe2を出力するものである。
乗算器35は、最適な雑音符号帳ベクトルf2に利得調整された利得i2′を乗算し、利得調整された最適な雑音符号帳ベクトルg2を出力するものである。
加算器36は、利得調整された最適な適応符号帳ベクトルe2と利得調整された最適な雑音符号帳ベクトルg2とを加算し、音源信号j2を再生するものである。
【0094】
合成フィルタ37は、音源信号j2に受信したベクトル包絡情報b2を付加することにより再生音声k2を生成するものである。
ポストフィルタ38は、聴感上の再生音声品質を向上するため、再生音声k2に対しホルマント強調処理を行いホルマント強調処理された再生音声a2を出力するものである。
【0095】
次に、本音声復号化器の動作について図4を用いて説明する。
本音声復号化器では、フレーム単位で受信した表1に示す音声符号化情報に従って再生音声を生成する。以下にその動作を説明する。
まず、サブフレーム(10ms、80サンプル)毎に以下の処理を行い、音源信号j2が再生される。
【0096】
具体的には、受信した適応符号帳最適インデックスm2、雑音符号帳最適インデックスo2を基に、適応符号帳31、雑音符号帳32からそれぞれ適応符号帳最適ベクトルd2、雑音符号帳最適ベクトルf2が出力される。
一方、受信した利得符号帳最適インデックスp2を基に、利得符号帳33から適応符号帳ベクトルの利得h2と雑音符号帳ベクトルの利得i2とが出力され、受信したフレーム電力情報c2を用いて利得制御器39で利得調整が行われ、利得調整された適応符号帳ベクトルの利得h2′と雑音符号帳ベクトルの利得i2′とが出力される。
【0097】
適応符号帳31から出力された適応符号帳最適ベクトルd2は、乗算器34で利得制御器39からの利得調整された適応符号帳ベクトルの利得h2′が乗算されて利得調整された最適な適応符号帳ベクトルe2が出力され、同様に雑音符号帳32から出力された雑音符号帳最適ベクトルf2は、乗算器35で利得制御器39からの利得調整された雑音符号帳ベクトルの利得i2′が乗算されて利得調整された最適な適応符号帳ベクトルg2が出力され、加算器36でe2とg2が加算されて音源信号j1が再生される。
【0098】
適応符号帳31では音源信号j2の再生が終了した後に、その音源信号j2により更新され、その更新結果が次サブフレームの適応符号帳として用いられる。
ここで、本音声復号化器の適応符号帳31の更新結果は、伝送誤りがない場合には本音声符号化器の適応符号帳13の更新結果と全く等しくなるはずである。
【0099】
そして、フレーム(40m雑音符号帳320サンプル)毎に以下の処理が実行される。
加算器36から出力された音源信号j2は、合成フィルタ37で受信したベクトル包絡情報b2が付加されて再生音声k2が生成され、更にポストフィルタ38で聴感上の再生音声品質を向上するためのホルマント強調処理が施されて再生音声a2が出力されるようになっている。
【0100】
本発明の実施の形態の音声通信方法によれば、送信側の音声符号化側(送信側)においてフレーム同期信号を送信するフレームに対する音声符号化情報抽出処理で、復号化側(受信側)での音声符号化情報補間処理と同一の補間処理を施すので、送信側の音声符号化器と受信側の音声復号器の適応符号帳の内部メモリ内容の更新結果が常に等しく保たれ、フレーム同期信号挿入による再生音声品質劣下が複数フレームに影響せず、再生音声信号の品質劣下を低減できる効果がある。
【0101】
本発明の実施の形態の音声通信装置によれば、音声符号化器の最適候補ベクトル選択器15において、フレーム内の最後のサブフレームの符号帳探索処理と適応符号帳更新処理との間に音声符号化情報補間処理を挿入して、フレーム同期信号を送信するフレームに対して補間処理を行うので、音声符号化器の最適候補ベクトル選択器15以外の部分及び音声復号化器側は従来のまま使用できるので、容易に実現できる効果がある。
【0102】
また、本発明の音声符号化器は、DSP(デジタル・シグナル・プロセッサ)またはCPUで実現されるため、本発明はそれらのソフトウエアを変更することで容易に実現できる効果がある。
【0103】
【発明の効果】
請求項1,2記載の発明によれば、周期的に送信側にて同期信号が送信されるフレームの音声符号化情報について、当該同期信号を受信したフレームの音声符号化情報に対して受信側で為される音声符号化情報の補間処理と同じ補間処理を送信側で行い、補間処理によって得られた音声符号化情報に従って適応符号帳を更新する音声通信方法としているので、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、送信側と受信側で同じ音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができる効果がある。
【0104】
請求項3記載の発明によれば、送信側の音声符号化器が、送信部にて同期信号が送信されるフレームの音声符号化情報について、当該同期信号を受信したフレームの音声符号化情報に対して受信部で為される音声符号化情報の補間処理と同じ補間処理を行い、前記補間処理によって得られた音声符号化情報に従って前記適応符号帳を更新する音声通信装置としているので、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、送信側と受信側で同じ音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができる効果がある。
【0105】
請求項4記載の発明によれば、周期的に同期信号が送信されるフレームでは、当該フレームの音声符号化情報について当該同期信号を受信したフレームの音声符号化情報に対して受信側で為される音声符号化情報の補間処理と同様の処理をスペクトル包絡パラメータ抽出器及びフレーム電力計算器及び最適候補ベクトル選択器で行い、補間処理された音声符号化情報に従って最適の各符号帳ベクトルが出力されるよう、適応符号帳、雑音符号帳、利得符号帳に制御信号を出力し、適応符号帳、雑音符号帳、利得符号帳で制御信号に従って適応符号、雑音符号、利得の候補ベクトルを出力し、その結果得られる音源信号の入力を受けて適応符号帳が適応符号の候補ベクトルの内容を更新する音声符号化器を具備する送信側装置を備えた音声通信装置としているので、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、送信側と受信側で同じ音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができる効果がある。
【0106】
請求項5記載の発明によれば、送信側の音声符号化器が、送信部にて同期信号が送信されるフレームについて受信部で為される音声符号化情報の補間処理と同様に1つ前のフレームで得られた音声符号化情報を用いる補間処理を行う請求項3又は請求項4記載の音声通信装置としているので、適応符号帳を用いた音声符号化・復号化に際して、前の音声符号化情報を反映させながら処理が為されるような場合、簡単な処理によって送信側と受信側で同じ音声符号化情報の補間処理が為されるようになるため、送信側の音声符号化の影響と受信側の音声復号化の影響とが等しくなり、再生音声の品質向上を図ることができる効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声通信装置における音声符号化・復号化処理とフレーム同期信号送受信タイミングを示す説明図である。
【図2】本発明の実施の形態に係る音声通信装置における音声符号化器の構成ブロック図である。
【図3】本音声符号化器の最適候補ベクトル選択器15における音声符号化情報補間処理の流れを示すフローチャート図である。
【図4】本発明の実施の形態に係る音声通信装置における音声復号化器の構成ブロック図である。
【図5】従来の音声通信装置の概略構成を示すブロック図である。
【図6】従来の音声通信装置における音声符号化・復号化処理とフレーム同期信号送受信タイミングを示す説明図である。
【符号の説明】
1…音声入力部、 2…音声符号化器、 3…送信部、 4…受信部、 5…音声復号化器、 6…音声出力部、 11…スペクトル包絡パラメータ抽出器、12…フレーム電力計算器、 13…適応符号帳、 14…聴覚重み付け合成フィルタ、 15…最適候補ベクトル選択器、 16…雑音符号帳、 17…利得符号帳、 18…乗算器、 19…乗算器、 20…加算器、 21…聴覚重み付けフィルタ、 31…適応符号帳、 32…雑音符号帳、 33…利得符号帳、 34…乗算器、 35…乗算器、 36…加算器、 37…合成フィルタ、 38…ポストフィルタ、 39…利得制御器[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice communication method and voice communication apparatus using voice coding / decoding technology using an adaptive codebook (or long-term prediction), and more particularly to a voice communication method and voice capable of improving the quality of reproduced voice. The present invention relates to a communication device.
[0002]
[Prior art]
First, a schematic configuration of a conventional voice communication apparatus will be described with reference to FIG. FIG. 5 is a block diagram showing a schematic configuration of a conventional voice communication apparatus.
As shown in FIG. 5, the conventional voice communication apparatus includes, as a transmission part, a
The receiving part includes a
[0003]
Here, the
[0004]
The code-excited linear prediction (CELP) speech coding method performs coding on a frame-by-frame basis, predicts the speech of the current frame based on the coding information of the previous frame, optimizes the prediction result, and The information is used as speech encoding information for the current frame, and the optimized prediction result is used for encoding the next frame.
[0005]
Therefore, the code-excited linear prediction (CELP) speech decoding method performed by the
[0006]
The
[0007]
The
[0008]
Next, the operation of the conventional voice communication apparatus will be specifically described with reference to FIG. FIG. 6 is an explanatory diagram showing speech encoding / decoding processing and frame synchronization signal transmission / reception timing in a conventional speech communication apparatus. In FIG. 6, the processing time required for the speech encoding process is 1 frame, and the processing time required for the playback speech decoding process is 1 frame.
[0009]
In FIG. 6, ftn (n = 0, 1, 2,...) Is an index indicating the frame number on the transmission side (voice encoder side), and frn (n = 0, 1, 2,...) Is the reception side. It is an index indicating a frame number on the (speech decoder side).
[0010]
In a conventional voice communication apparatus, as an operation on the transmission side, as shown in FIG. 6A, voice is input, sampled and quantized in the
[0011]
Then, the speech accumulated in the
Here, the extraction of the audio encoded information is started after the accumulation of the audio signal for one frame in the input buffer is completed. For example, the voice accumulated in the section of the frame ft0 is extracted (encoded) in the section of the frame ft1.
[0012]
Then, the speech encoded information extracted by the
Here, transmission of speech coding information is started after the extraction process is completed. For example, transmission of audio information extracted in the section of the frame ft1 is started from the head of the frame ft2.
[0013]
In a conventional voice communication apparatus, this voice input, voice information extraction, and voice information transmission are normally repeated. However, in order to ensure frame synchronization with the receiving side, every predetermined frame period in the transmission process in the
[0014]
In the example of FIG. 6, the frame synchronization signal is transmitted every 50 frames (frames ft2, ft52,...), And the audio coding information to be transmitted at this time is not transmitted. For example, the speech encoded information extracted in the frame ft1 to be transmitted in the frame ft2 is not transmitted.
[0015]
On the other hand, in the operation on the reception side of the conventional voice communication apparatus, the voice encoding information is received by the receiving
However, in the example of FIG. 6, it is assumed that it takes time for one frame to receive the audio coding information for one frame, and the frame synchronization signal is received every 50 frames (frames fr2, fr52,...). ing.
[0016]
Then, the encoded information for decoding is updated in the next frame section by the encoded audio information stored in the
[0017]
For example, the speech encoding information received in the frame fr0 is decoded in the next frame section fr1, and the reproduced voice is output in the next frame section fr2.
[0018]
However, if the receiving
As an example of the interpolation processing, there is a method of replacing with speech encoded information received in the previous frame.
[0019]
Then, the
[0020]
[Problems to be solved by the invention]
However, in the conventional voice communication method and voice communication apparatus described above, the voice coding information to be transmitted is discarded in the frame section in which the frame synchronization signal is transmitted, and the voice coding information in the section is interpolated on the receiving side. Since it is generated and decoded, there is a problem that the quality of the reproduced speech is inferior to decoding using actual speech coding information in the frame section.
[0021]
Further, in the conventional voice communication method and voice communication apparatus, the next frame is encoded while reflecting the voice encoding information of the previous frame, and the decoding of the next frame is also performed in the decoding while reflecting the voice decoding result of the previous frame. Because of the use of encoding / decoding methods, the above-mentioned deterioration in the quality of the reproduced audio output also affects the decoding of the subsequent frames, and the quality degradation of the reproduced audio occurs continuously in several frames. There was a problem of doing.
[0022]
The present invention has been made in view of the above circumstances, and performs speech encoding by frame synchronization signal transmission by performing processing similar to the interpolation of speech encoding information on the reception side associated with frame synchronization signal transmission on the transmission side. It is an object of the present invention to provide a voice communication method and a voice communication apparatus capable of reducing the quality deterioration of a reproduced voice so that deterioration of the quality of the reproduced voice of a frame in which information is discarded is not affected by the subsequent frames.
[0023]
[Means for Solving the Problems]
The invention according to
[0024]
The invention according to
[0025]
According to a third aspect of the present invention for solving the problems of the conventional example, in the voice communication apparatus, a voice input unit that inputs voice and outputs a voice signal, and the voice signal is voiced using an adaptive codebook. A transmission side having an audio encoder that performs encoding processing and extracts audio encoding information, and a transmission unit that transmits the audio encoding information and periodically transmits a synchronization signal instead of the audio encoding information And receiving the transmitted speech coding information, and receiving the synchronization signal, a receiving unit that outputs speech coding information obtained in the previous frame as interpolation processing of the speech coding information, and speech coding information A speech decoder that decodes using an adaptive codebook and outputs a speech signal; and a reception side having a speech output unit that outputs the speech signal as speech, and the speech coder includes the transmitter In sync signal Frame to be trust Speech coding information about , For the audio coding information of the frame that received the synchronization signal Interpolation processing performed in the receiving unit; the same Perform interpolation processing Update the adaptive codebook according to the speech coding information obtained by the interpolation processing When processing is performed while reflecting the previous speech coding information during speech coding / decoding using an adaptive codebook, the same speech coding information is used on the transmitting side and the receiving side. Therefore, the influence of the voice encoding on the transmission side and the influence of the voice decoding on the reception side are equal, and the quality of the reproduced voice can be improved.
[0026]
The invention according to
[0027]
The invention according to
[0028]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described with reference to the drawings.
The voice communication method and the voice communication apparatus according to the embodiment of the present invention are used when the synchronization signal is periodically transmitted instead of the voice coded information and the voice coded information is interpolated on the receiving side. Since the voice communication method and the voice communication apparatus perform the same processing as the speech encoding information interpolation processing performed on the reception side for the frame on which the synchronization signal is transmitted on the transmission side, an adaptive codebook is used. When processing is performed while reflecting the previous speech coding information at the time of speech coding / decoding, the same speech coding information interpolation processing will be performed on the transmitting side and the receiving side. Thus, the influence of the voice encoding on the transmission side is equal to the influence of the voice decoding on the reception side, so that the quality of the reproduced voice can be improved.
[0029]
The voice communication apparatus (this apparatus) according to the embodiment of the present invention is basically the same as the configuration shown in FIG. 5 except that the processing operation in the
[0030]
First, a voice communication method according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is an explanatory diagram showing speech encoding / decoding processing and frame synchronization signal transmission / reception timing in the speech communication apparatus according to the embodiment of the present invention. In FIG. 1, the processing time required for the speech encoding process is 1 frame, and the processing time required for the playback speech decoding process is 1 frame.
[0031]
Here, the process shown in FIG. 1 is almost the same as the process shown in FIG. 6 except that the
Specifically, in order to ensure the synchronization of the frame with the receiving side, when transmitting a frame synchronization signal instead of the speech encoded information at the
[0032]
Here, the speech information interpolation in the frames ft1 and ft51 is the same as the interpolation in the
[0033]
Next, with regard to the voice communication apparatus that implements the voice communication method according to the embodiment of the present invention, the code-excited linear prediction (Code Excited), which is the most widely used voice coding method in mobile communication, etc. A linear encoding (CELP) speech encoding / decoding method will be described as an example.
[0034]
In the CELP speech coding / decoding method, speech coding information is extracted and transmitted in frame units on the transmission side, and decoding is performed based on the speech coding information received on the reception side.
Here, speech coding information in the CELP speech coding / decoding method includes items shown in [Table 1]. [Table 1] shows an example in which the input voice is sampled at 8 kHz and quantized at 16 bits, and one frame is shown as 40 ms and 320 samples, and the subframe is shown as 10 ms and 8 samples.
[0035]
[Table 1]
[0036]
Here, the spectrum envelope information b1 is information expressing vocal tract characteristics in a human voice generation system, and is information extracted every frame (40 ms).
The frame power information c1 is information representing the power in units of frames (40 ms).
[0037]
The adaptive codebook optimal index m1 is information indicating the number of the optimal candidate vector in the adaptive codebook for expressing the periodic component in the excitation signal, and the noise codebook optimal index o1 expresses the noise component in the excitation signal. The gain codebook optimal index p1 is information indicating the optimal candidate vector number in the gain codebook for adjusting the gain. The index is also information extracted every subframe (10 ms).
[0038]
As a result, the speech coding information extracted and transmitted in units of frames includes one set of spectrum envelope information b1 and frame power information c1, four sets of adaptive codebook optimum index m1, noise codebook optimum index o1, and gain. It consists of a codebook optimal index p1.
[0039]
Next, a speech encoder (present speech encoder) in the speech communication apparatus according to the embodiment of the present invention will be described with reference to FIG. FIG. 2 is a configuration block diagram of a speech coder in the speech communication apparatus according to the embodiment of the present invention.
[0040]
As shown in FIG. 2, the speech encoder includes a spectral envelope parameter extractor 11, a
[0041]
Next, each part of the speech coder will be described.
The spectrum envelope parameter extractor 11 inputs the input speech a1 that is input and sampled in the
[0042]
However, when the extraction / replacement control signal q1 output from the optimum candidate vector selector 15 to be described later is input as a characteristic part of the spectral envelope parameter extractor 11 of the present invention, and the control signal instructs extraction. When the spectral envelope information b1 of the frame of the input speech a1 is extracted and the control signal indicates replacement, the replacement is performed with the speech information for interpolation without extraction and the spectral envelope information b1 is output. It has become.
[0043]
Note that the speech information for interpolation is, for example, the speech information of the previous frame (spectrum envelope information b1).
Further, switching between extraction and replacement may be performed by providing a frame counter or the like inside the control signal q1 from the optimal candidate vector selector 15 and counting the timing for performing the interpolation processing.
[0044]
Here, the spectrum envelope information is information representing vocal tract characteristics in a human voice generation system, and the spectrum envelope information b1 is quantized and then transmitted to the decoder side and used to generate a reproduced voice signal. It is done. Further, as will be described later, the
[0045]
The
Here, the frame power information c1 is transmitted to the decoder side and used to generate a reproduced audio signal. As will be described later, the frame power information is used in the process of searching the
[0046]
However, when the extraction / replacement control signal q1 output from the optimal candidate vector selector 15 to be described later is input as a characteristic part of the
[0047]
Note that the audio information for interpolation is, for example, audio information of the previous frame (frame power information c1).
Further, switching between extraction and replacement may be performed by providing a frame counter or the like inside the control signal q1 from the optimal candidate vector selector 15 and counting the timing for performing the interpolation processing.
[0048]
The
[0049]
The
The candidate vector d1 of the optimum adaptive code selected according to the input control signal l1 is output.
[0050]
The
[0051]
The
[0052]
The
The
The
[0053]
The perceptual
[0054]
Specifically, the filtering is performed after correcting the coefficient of the synthesis filter for adding the spectral envelope information b1 to the sound source signal j1 to perform auditory weighting.
[0055]
The optimum candidate vector selector 15 basically selects the optimum codebook vector in the
[0056]
Here, the extraction / replacement control signal q1 indicates whether to extract speech information in the spectrum envelope parameter extractor 11 and the
In other words, the optimal candidate vector selector 15 instructs the spectrum envelope parameter extractor 11 and the
[0057]
It should be noted that the control signal q1 is not output from the optimum candidate vector selector 15, and the spectrum envelope parameter extractor 11 and the
[0058]
Further, the optimum candidate code selector 15 searches for the optimum codebook vector by searching for each optimum codebook vector in the
[0059]
However, as a characteristic part of the present invention, for the last subframe in the frame, after completion of the codebook search process, a speech information interpolation process for interpolating speech coding information similar to that on the decoder side is performed for each predetermined frame It is like that.
Details of the audio information interpolation processing will be described later.
[0060]
Specifically, the codebook search process controls each candidate vector output from the
[0061]
Here, the codebook search procedure executed for each subframe by the optimal candidate vector selector 15 will be described.
The outline of the codebook search in the optimal candidate vector selector 15 is as follows. First, as a first step, an adaptive codebook search (also called long-term prediction) for searching for an optimal adaptive codebook vector in the
Details of each codebook search will be described in the operation of the voice communication apparatus of the present invention.
[0062]
Then, the adaptive codebook update processing is generated with the selected optimum adaptation, noise, excitation signal j1 generated with the gain codebook vector, or with the codebook vector replaced with the speech coding information of the previous frame by the interpolation processing This is a process of creating the
[0063]
Here, as a specific method for updating the internal memory of the
[0064]
Next, speech encoded information interpolation processing, which is a feature of the present invention, is performed when the frame to which speech encoded information is to be extracted is a frame for transmitting a frame synchronization signal from the
[0065]
Specifically, when the interpolation processing method performs, for example, replacement with speech encoding information of the previous frame, the speech encoding information of the previous frame is stored in the optimal candidate vector selector 15 and the last sub After completion of the codebook search for the frame, from the
[0066]
Here, the control flow of speech coding information interpolation processing will be described with reference to FIG. FIG. 3 is a flowchart showing the flow of speech coding information interpolation processing in the optimum candidate vector selector 15 of the speech coder. In FIG. 3, the frame counter Cf is reset at the start of encoding, and a frame synchronization signal is inserted every 50 frames.
[0067]
In the speech encoding information interpolation process in the optimum candidate vector selector 15 of the speech coder, the frame counter Cf is incremented (100), it is determined whether Cf is greater than 50 (102), and Cf is not greater than 50. (No) stores the codebook optimum indexes m1, o1, and p1 of the selected adaptation, noise, and gain as speech encoding information of the current frame (110), and ends the interpolation process.
[0068]
On the other hand, when Cf becomes larger than 50 in the process 102 (Yes), the frame counter Cf is reset (104), and the speech coding information of the previous frame is replaced with the speech coding information of the current frame (106). The interpolation process is terminated.
[0069]
Next, the operation of the speech coder will be described with reference to FIG.
In the present speech coder, when the input speech a1 is input in units of frames, the spectral envelope parameter extractor 11 extracts the spectral envelope information b1 and outputs it as a part of the speech encoded information to the transmitting
On the other hand, the
[0070]
At this time, the spectrum envelope parameter extractor 11 and the
[0071]
Thereafter, perceptual weighting is performed on the input speech a1 by the
[0072]
Further, in the optimal candidate vector selector 15, as an operation of the adaptive codebook search which is the first stage of the codebook search process, the candidate vector d1 first stored in the
[0073]
Then, the candidate vector d1 stored from the
[0074]
Then, the optimum candidate vector selector 15 outputs an output from the
[0075]
Here, the optimum gain is a gain (optimum gain) that minimizes the mean square error by setting the result of partial differentiation with respect to the gain multiplied by the reproduction signal k1 in the formula for calculating the mean square error to zero. ), And the gain is fixed, and the reproduction signal vector k1 is sequentially replaced to find the mean square error, so that the optimum adaptive codebook vector is searched.
Since the method for calculating the root mean square error is a known technique, a detailed description thereof is omitted here.
[0076]
Next, in the optimal candidate vector selector 15, as an operation of the noise codebook search which is the second stage of the codebook search process, the candidate vector f1 first stored in the
[0077]
Then, the candidate vector f1 stored from the
[0078]
Here, in the noise codebook search, each candidate vector f1 is subjected to orthogonalization processing on the optimal adaptive codebook vector subjected to the perceptual weighting synthesis filter processing in order to reduce the quantization error of the reproduced speech ( Known techniques).
However, for the sake of convenience, since the same result can be obtained even if orthogonalization processing is performed on the reproduced speech k1 for each candidate vector, the orthogonalization processing is performed by the optimal candidate vector selector 15 in the present invention.
[0079]
Therefore, the optimum candidate vector selector 15 performs orthogonalization processing on the partially reproduced speech (noise codebook contribution) k1 generated for each candidate vector f1, and after the optimum gain is given. The root mean square error with the perceptually weighted input speech n1 output from the
[0080]
Next, in the optimal candidate vector selector 15, as the operation of the gain codebook search that is the third stage of the codebook search process, the
[0081]
As a result, the optimum adaptive codebook vector d1 is output from the
On the other hand, the optimum noise codebook vector f1 is output from the
[0082]
Then, the optimum adaptive codebook vector e1 whose gain has been adjusted and the optimum noise codebook vector g1 whose gain has been adjusted are added by the
[0083]
The optimal candidate vector selector 15 normalizes the perceptually weighted input speech n1 output from the
[0084]
Then, the adaptive codebook optimum vector d1, the noise codebook optimum vector f1, and the gain codebook optimum vectors h1 and i1 selected as a result of the codebook search process are output from the
[0085]
When the above-described operation in units of subframes is repeated and the code candidate search processing for the last subframe is completed in the optimal candidate vector selector 15, as the operation of the speech encoded information interpolation processing that is a characteristic part of the present invention, When the frame synchronization signal is a frame to be transmitted, each codebook optimum index m1, o1, p1 of the last subframe in the speech coding information of the previous frame stored in the optimum candidate vector selector 15 In accordance with the control signal, the
[0086]
If the frame synchronization signal is not a frame to be transmitted, the adaptive codebook optimum vector d1, the noise codebook optimum vector f1, and the gain codebook optimum vector h1, i1 selected as a result of the codebook search process are used as the adaptive code. The control signal l1 is controlled so as to be output from the
[0087]
Next, a speech decoder (present speech decoder) in the speech communication apparatus according to the embodiment of the present invention will be described with reference to FIG. FIG. 4 is a configuration block diagram of a speech decoder in the speech communication apparatus according to the embodiment of the present invention.
[0088]
As shown in FIG. 4, the speech decoder includes an
[0089]
Next, each part of the speech coder will be described.
The
Then, the adaptive codebook optimum vector d2 selected according to the adaptive codebook optimum index m2 received and inputted is outputted.
[0090]
The noise codebook 32 is a noise codebook having the same contents as the
[0091]
The
[0092]
The gain controller 39 inputs the gain h2 of the adaptive codebook vector and the gain i2 of the noise codebook vector, adjusts the gain using the received frame power information c2, and adjusts the gain-adjusted adaptive codebook vector. A gain h2 'and a noise codebook vector gain i2' are output.
[0093]
The
The multiplier 35 multiplies the optimum noise codebook vector f2 by the gain i2 ′ adjusted in gain, and outputs the optimum noise codebook vector g2 adjusted in gain.
The adder 36 adds the optimum adaptive codebook vector e2 whose gain has been adjusted and the optimum noise codebook vector g2 whose gain has been adjusted, and reproduces the excitation signal j2.
[0094]
The synthesis filter 37 generates the reproduced sound k2 by adding the received vector envelope information b2 to the sound source signal j2.
The
[0095]
Next, the operation of this speech decoder will be described with reference to FIG.
In the present speech decoder, reproduced speech is generated in accordance with speech encoding information shown in Table 1 received in units of frames. The operation will be described below.
First, the following processing is performed for each subframe (10 ms, 80 samples) to reproduce the sound source signal j2.
[0096]
Specifically, based on the received adaptive codebook optimum index m2 and noise codebook optimum index o2, adaptive codebook optimum vector d2 and noise codebook optimum vector f2 are output from
On the other hand, based on the received gain codebook optimum index p2, the
[0097]
The adaptive codebook optimum vector d2 output from the
[0098]
In the
Here, the update result of the
[0099]
Then, the following processing is executed for each frame (320 m noise codebook 320 samples).
The sound source signal j2 output from the adder 36 is added with the vector envelope information b2 received by the synthesis filter 37 to generate the reproduced sound k2, and further the formant for improving the reproduced sound quality on hearing by the
[0100]
According to the speech communication method of the embodiment of the present invention, the speech encoding information extraction process for the frame transmitting the frame synchronization signal on the speech encoding side (transmission side) on the transmission side is performed on the decoding side (reception side). Since the same interpolation processing as the speech encoding information interpolation processing is performed, the update result of the internal memory contents of the adaptive codebook of the speech encoder on the transmission side and the speech decoder on the reception side is always kept equal, and the frame synchronization signal The deterioration of the reproduced sound quality due to the insertion does not affect a plurality of frames, and the deterioration of the reproduced sound signal quality can be reduced.
[0101]
According to the speech communication apparatus of the embodiment of the present invention, the optimal candidate vector selector 15 of the speech coder performs speech between the codebook search process of the last subframe in the frame and the adaptive codebook update process. Since the encoding information interpolation processing is inserted and the interpolation processing is performed on the frame for transmitting the frame synchronization signal, the portions other than the optimal candidate vector selector 15 of the speech encoder and the speech decoder side remain the same as before. Since it can be used, there is an effect that can be easily realized.
[0102]
Further, since the speech encoder of the present invention is realized by a DSP (Digital Signal Processor) or CPU, the present invention has an effect that can be easily realized by changing their software.
[0103]
【The invention's effect】
According to the first and second aspects of the invention, the frame in which the synchronization signal is periodically transmitted on the transmission side. Speech coding information about , For the audio coding information of the frame that received the synchronization signal Interpolation processing of speech coding information performed on the receiving side the same Interpolation is performed on the transmission side Update the adaptive codebook according to the speech coding information obtained by the interpolation process Since it is a voice communication method, when processing is performed while reflecting the previous voice coding information during voice coding / decoding using an adaptive codebook, the same voice coding is used on the transmitting side and the receiving side. Since the information interpolation process is performed, the influence of the voice encoding on the transmission side and the influence of the voice decoding on the reception side are equal, and there is an effect that the quality of the reproduced voice can be improved.
[0104]
According to the third aspect of the present invention, a frame in which a transmission side speech encoder transmits a synchronization signal in a transmission unit Speech coding information about , For the audio coding information of the frame that received the synchronization signal Interpolation processing of speech coding information performed by the receiver the same Perform interpolation processing Update the adaptive codebook according to the speech coding information obtained by the interpolation processing Since it is a voice communication device, when processing is performed while reflecting the previous speech coding information during speech coding / decoding using an adaptive codebook, the same speech coding is performed on the transmitting side and the receiving side. Since the information interpolation process is performed, the influence of the voice encoding on the transmission side is equal to the influence of the voice decoding on the reception side, and there is an effect that the quality of reproduced voice can be improved.
[0105]
According to the invention of
[0106]
According to the fifth aspect of the present invention, the speech encoder on the transmission side is immediately before the speech encoding information interpolating process performed by the receiving unit for the frame in which the synchronization signal is transmitted by the transmitting unit. 5. The voice communication apparatus according to
[Brief description of the drawings]
FIG. 1 is an explanatory diagram showing speech encoding / decoding processing and frame synchronization signal transmission / reception timing in a speech communication apparatus according to an embodiment of the present invention.
FIG. 2 is a configuration block diagram of a speech coder in the speech communication apparatus according to the embodiment of the present invention.
FIG. 3 is a flowchart showing the flow of speech coding information interpolation processing in the optimum candidate vector selector 15 of the speech coder.
FIG. 4 is a configuration block diagram of a speech decoder in the speech communication apparatus according to the embodiment of the present invention.
FIG. 5 is a block diagram showing a schematic configuration of a conventional voice communication apparatus.
FIG. 6 is an explanatory diagram showing speech encoding / decoding processing and frame synchronization signal transmission / reception timing in a conventional speech communication apparatus.
[Explanation of symbols]
DESCRIPTION OF
Claims (5)
前記音声符号化器が、前記送信部にて同期信号が送信されるフレームの音声符号化情報について、当該同期信号を受信したフレームの音声符号化情報に対して前記受信部で為される補間処理と同じ補間処理を行い、前記補間処理によって得られた音声符号化情報に従って前記適応符号帳を更新することを特徴とする音声通信装置。A voice input unit that inputs voice and outputs a voice signal; a voice encoder that performs voice coding processing of the voice signal using an adaptive codebook and extracts voice coded information; and the voice coded information And a transmitting unit that periodically transmits a synchronization signal instead of the speech encoded information, and receives the transmitted speech encoded information and receives the synchronization signal, the speech encoded information A receiving unit that outputs speech encoded information obtained in the previous frame as an interpolation process, a speech decoder that decodes speech encoded information using an adaptive codebook and outputs a speech signal, and the speech signal A receiving side having an audio output unit for outputting as audio,
Interpolation processing performed by the reception unit for the speech coding information of the frame in which the speech encoder receives the synchronization signal, with respect to speech coding information of the frame in which the synchronization signal is transmitted by the transmission unit There line the same interpolation process as the interpolation processing voice communication device and updates the adaptive codebook in accordance with the speech encoding information obtained by.
入力音声信号についてフレーム単位でフレーム電力計算を行ってフレーム電力情報を出力し、同期信号が送信されるフレームでは前フレームのフレーム電力情報を当該フレームのフレーム電力情報とするフレーム電力計算器と、
入力音声信号に対して前記スペクトル包絡情報を用いて聴覚重み付け処理を行い、聴覚重み付けされた入力音声信号を出力する聴覚重み付けフィルタと、
音源信号における周期成分を表現するための符号帳であって入力される制御信号に従って選択された最適な適応符号の候補ベクトルを出力すると共に音源信号の入力を受けて適応符号の候補ベクトルの内容を更新する適応符号帳と、
音源信号における雑音成分を表現するための符号帳であって入力される制御信号に従って選択された最適な雑音符号の候補ベクトルを出力する雑音符号帳と、
利得を調整するための符号帳であって入力される制御信号に従って選択された適応符号帳用の利得候補ベクトルと雑音符号帳用の利得候補ベクトルとを出力する利得符号帳と、
最適な適応符号帳ベクトルに利得候補ベクトルを乗算し、利得調整された最適な適応符号帳ベクトルを出力する第1の乗算器と、
最適な雑音符号帳ベクトルに利得候補ベクトルを乗算し、利得調整された最適な雑音符号帳ベクトルを出力する第2の乗算器と、
利得調整された最適な適応符号帳ベクトルと利得調整された最適な雑音符号帳ベクトルとを加算し、音源信号を出力する加算器と、
前記音源信号に対して前記スペクトル包絡情報を付加すると共に聴覚重み付けを行い、再生音声信号を生成して出力する聴覚重み付け合成フィルタと、
前記適応符号帳、前記雑音符号帳、前記利得符号帳における最適の各符号帳ベクトルを探索して各符号帳最適インデックスを出力する符号帳探索処理を行い、
同期信号が送信されないフレームでは、前記探索処理で選択された最適の各符号帳ベクトルが出力されるよう、前記適応符号帳、前記雑音符号帳、前記利得符号帳に制御信号を出力して、前記適応符号帳を更新させ、
同期信号が送信されるフレームでは、当該フレームの音声符号化情報について当該同期信号を受信したフレームの音声符号化情報に対して受信側で為される音声符号化情報の補間処理と同じ補間処理を行い、前記補間処理にて得られた音声符号化情報に従って最適の各符号帳ベクトルが出力されるよう、前記適応符号帳、前記雑音符号帳、前記利得符号帳に制御信号を出力して、前記適応符号帳を更新させる適応符号帳更新処理を行う最適候補ベクトル選択器とを有する音声符号化器を具備する送信側の装置を備えたことを特徴とする音声通信装置。Spectral envelope parameters that extract the spectral envelope information that represents the vocal tract characteristics in the voice generation system for each input voice signal and that uses the spectral envelope information of the previous frame as the spectral envelope information of the previous frame in the frame in which the synchronization signal is transmitted An extractor;
A frame power calculator that performs frame power calculation on an input audio signal frame basis to output frame power information, and in a frame in which a synchronization signal is transmitted , a frame power calculator that uses the frame power information of the previous frame as the frame power information of the frame;
An auditory weighting filter that performs auditory weighting processing on the input voice signal using the spectral envelope information and outputs an auditory weighted input voice signal;
A codebook for expressing periodic components in a sound source signal, which outputs an optimal adaptive code candidate vector selected in accordance with an input control signal and receives the input of the sound source signal to display the contents of the adaptive code candidate vector An adaptive codebook to be updated;
A noise codebook for expressing a noise component in a sound source signal and outputting a candidate vector of an optimum noise code selected according to an input control signal;
A gain codebook for adjusting a gain and outputting a gain candidate vector for an adaptive codebook selected according to an input control signal and a gain candidate vector for a noise codebook;
A first multiplier for multiplying an optimal adaptive codebook vector by a gain candidate vector and outputting a gain-adjusted optimal adaptive codebook vector;
A second multiplier that multiplies the optimal noise codebook vector by the gain candidate vector and outputs a gain adjusted optimal noise codebook vector;
An adder for adding a gain-adjusted optimal adaptive codebook vector and a gain-adjusted optimal noise codebook vector and outputting a sound source signal;
An auditory weighting synthesis filter that adds the spectral envelope information to the sound source signal and performs auditory weighting to generate and output a reproduced audio signal;
Before SL adaptive codebook, the noise codebook, have rows codebook search process for outputting each codebook optimum index searches each codebook vector of the optimum in the gain codebook,
In a frame in which a synchronization signal is not transmitted, a control signal is output to the adaptive codebook, the noise codebook, and the gain codebook so that each optimum codebook vector selected in the search process is output, Update the adaptive codebook,
The frame sync signal is transmitted, the same interpolation process as the interpolation processing of the audio encoded information is made on the receiving side for the speech coding information to the speech coding information of the frame which has received the synchronization signal of the frame The control signal is output to the adaptive codebook, the noise codebook, and the gain codebook so that each optimal codebook vector is output according to the speech coding information obtained by the interpolation process , A speech communication apparatus comprising: a transmission-side apparatus including a speech encoder having an optimal candidate vector selector that performs an adaptive codebook update process for updating the adaptive codebook.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP07518098A JP3754819B2 (en) | 1998-03-24 | 1998-03-24 | Voice communication method and voice communication apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP07518098A JP3754819B2 (en) | 1998-03-24 | 1998-03-24 | Voice communication method and voice communication apparatus |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPH11272298A JPH11272298A (en) | 1999-10-08 |
| JPH11272298A5 JPH11272298A5 (en) | 2004-11-11 |
| JP3754819B2 true JP3754819B2 (en) | 2006-03-15 |
Family
ID=13568762
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP07518098A Expired - Fee Related JP3754819B2 (en) | 1998-03-24 | 1998-03-24 | Voice communication method and voice communication apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3754819B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002229599A (en) | 2001-02-02 | 2002-08-16 | Nec Corp | Device and method for converting voice code string |
| JP2004151123A (en) * | 2002-10-23 | 2004-05-27 | Nec Corp | Method and device for code conversion, and program and storage medium for the program |
| CN111653283B (en) * | 2020-06-28 | 2024-03-01 | 讯飞智元信息科技有限公司 | A cross-scenario voiceprint comparison method, device, equipment and storage medium |
-
1998
- 1998-03-24 JP JP07518098A patent/JP3754819B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH11272298A (en) | 1999-10-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102648493B (en) | Audio signal processing method and device | |
| JPH10187197A (en) | Audio coding method and apparatus for implementing the method | |
| JP2019070866A (en) | Voice encoding device and voice encoding method | |
| JP3564144B2 (en) | Method and apparatus for encoding audio frequency signals with "forward" and "backward" LPC analysis | |
| JP3357795B2 (en) | Voice coding method and apparatus | |
| US7302385B2 (en) | Speech restoration system and method for concealing packet losses | |
| CN101176148B (en) | Encoder, decoder, and their methods | |
| JPH08305398A (en) | Speech decoding device | |
| JP3426871B2 (en) | Method and apparatus for adjusting spectrum shape of audio signal | |
| JP3754819B2 (en) | Voice communication method and voice communication apparatus | |
| JPWO2000063878A1 (en) | Audio encoding device, audio processing device, and audio processing method | |
| JP3050978B2 (en) | Audio coding method | |
| WO2000063878A1 (en) | Speech coder, speech processor, and speech processing method | |
| JP3232701B2 (en) | Audio coding method | |
| JP3490325B2 (en) | Audio signal encoding method and decoding method, and encoder and decoder thereof | |
| JPH11219196A (en) | Voice synthesis method | |
| JP3552201B2 (en) | Voice encoding method and apparatus | |
| JP3824706B2 (en) | Speech encoding / decoding device | |
| JPH11259098A (en) | Audio encoding / decoding method | |
| JP3232728B2 (en) | Audio coding method | |
| JPH11243421A (en) | Digital voice communication method and system | |
| JP5084360B2 (en) | Speech coding apparatus and speech decoding apparatus | |
| JPH05165497A (en) | C0de exciting linear predictive enc0der and decoder | |
| JP2004020676A (en) | Audio encoding / decoding method and audio encoding / decoding device | |
| JP2004061558A (en) | Method and device for code conversion between speed encoding and decoding systems and storage medium therefor |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050720 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050927 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051101 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051213 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051219 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101222 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111222 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111222 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121222 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |