JP3746067B2 - Speech decoding method and speech decoding apparatus - Google Patents
Speech decoding method and speech decoding apparatus Download PDFInfo
- Publication number
- JP3746067B2 JP3746067B2 JP2005175020A JP2005175020A JP3746067B2 JP 3746067 B2 JP3746067 B2 JP 3746067B2 JP 2005175020 A JP2005175020 A JP 2005175020A JP 2005175020 A JP2005175020 A JP 2005175020A JP 3746067 B2 JP3746067 B2 JP 3746067B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- time
- codebook
- series vector
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
この発明は音声信号をディジタル信号に圧縮符号化復号化する際に使用する音声符号化・復号化方法及び音声符号化・復号化装置に関し、特に低ビットレートで品質の高い音声を再生するための音声符号化方法及び音声復号化方法並びに音声符号化装置及び音声復号化装置に関する。 The present invention relates to a speech encoding / decoding method and speech encoding / decoding device used when compression encoding / decoding an audio signal into a digital signal, and particularly for reproducing high-quality audio at a low bit rate. The present invention relates to a speech encoding method, a speech decoding method, a speech encoding device, and a speech decoding device.
従来、高能率音声符号化方法としては、符号駆動線形予測(Code-Excited Linear Prediction:CELP)符号化が代表的であり、その技術については、「Code-excited linear prediction(CELP):High-quality speech at very low bit rates」(M.R.Shroeder and B.S.Atal著、ICASSP '85, pp.937-940, 1985)に述べられている。 Conventionally, Code-Excited Linear Prediction (CELP) coding has been a typical high-efficiency speech coding method. For the technique, “Code-excited linear prediction (CELP): High-quality speech at very low bit rates "(MRShroeder and BSAtal, ICASSP '85, pp.937-940, 1985).
図6は、CELP音声符号化復号化方法の全体構成の一例を示すもので、図中101は符号化部、102は復号化部、103は多重化手段、104は分離手段である。符号化部101は線形予測パラメータ分析手段105、線形予測パラメータ符号化手段106、合成フィルタ107、適応符号帳108、駆動符号帳109、ゲイン符号化手段110、距離計算手段111、重み付け加算手段138より構成されている。また、復号化部102は線形予測パラメータ復号化手段112、合成フィルタ113、適応符号帳114、駆動符号帳115、ゲイン復号化手段116、重み付け加算手段139より構成されている。
FIG. 6 shows an example of the overall configuration of the CELP speech encoding / decoding method. In FIG. 6, 101 is an encoding unit, 102 is a decoding unit, 103 is multiplexing means, and 104 is separation means. The
CELP音声符号化では、5〜50ms程度を1フレームとして、そのフレームの音声をスペクトル情報と音源情報に分けて符号化する。まず、CELP音声符号化方法の動作について説明する。符号化部101において、線形予測パラメータ分析手段105は入力音声S101を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化手段106はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ107の係数として設定する。
In CELP speech coding, about 5 to 50 ms is defined as one frame, and the speech of the frame is divided into spectrum information and sound source information and coded. First, the operation of the CELP speech encoding method will be described. In the
次に音源情報の符号化について説明する。適応符号帳108には、過去の駆動音源信号が記憶されており、距離計算手段111から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。駆動符号帳109には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算手段111から入力される駆動符号に対応した時系列ベクトルを出力する。
適応符号帳108、駆動符号帳109からの各時系列ベクトルはゲイン符号化手段110から与えられるそれぞれのゲインに応じて重み付け加算手段138で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ107へ供給し符号化音声を得る。距離計算手段111は符号化音声と入力音声S101との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。上記符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。
Next, encoding of sound source information will be described. The
The time series vectors from the
次にCPEL音声復号化方法の動作について説明する。
一方復号化部102において、線形予測パラメータ復号化手段112は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ113の係数として設定する。次に、適応符号帳114は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力し、また駆動符号帳115は駆動符号に対応した時系列ベクトルを出力する。これらの時系列ベクトルは、ゲイン復号化手段116でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算手段139で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ113へ供給され出力音声S103が得られる。
Next, the operation of the CPEL speech decoding method will be described.
On the other hand, in the
またCELP音声符号化復号化方法で再生音声品質の向上を目的として改良された従来の音声符号化復号化方法として、「Phonetically-based vector excitation coding of speech at 3.6kbps」(S.Wang and A.Gersho著、ICASSP '89, pp.49-52, 1989)に示されたものがある。図6との対応手段分に同一符号を付けた図7は、この従来の音声符号化復号化方法の全体構成の一例を示し、図中符号化部101において117は音声状態判定手段、118駆動符号帳切替手段、119は第1の駆動符号帳、120は第2の駆動符号帳である。また図中復号化手段102において121は駆動符号帳切替手段、122は第1の駆動符号帳、123は第2の駆動符号帳である。このような構成による符号化復号化方法の動作を説明する。まず符号化手段101において、音声状態判定手段117は入力音声S101を分析し、音声の状態を例えば有声/無声の2つの状態のうちどちらであるかを判定する。駆動符号帳切替手段118はその音声状態判定結果に応じて、例えば有声であれば第1の駆動符号帳119を、無声であれば第2の駆動符号帳120を用いるとして符号化に用いる駆動符号帳を切り替え、また、どちらの駆動符号帳を用いたかを符号化する。
As a conventional speech coding / decoding method improved for the purpose of improving playback speech quality by the CELP speech coding / decoding method, “Phonetically-based vector excitation coding of speech at 3.6 kbps” (S. Wang and A. Gersho, ICASSP '89, pp.49-52, 1989). FIG. 7 in which the same reference numerals are assigned to the means corresponding to FIG. 6 shows an example of the overall configuration of this conventional speech coding / decoding method. In FIG. The code book switching means, 119 is a first drive code book, and 120 is a second drive code book. In the decoding means 102 in the figure, 121 is a drive codebook switching means, 122 is a first drive codebook, and 123 is a second drive codebook. The operation of the encoding / decoding method having such a configuration will be described. First, in the
次に復号化手段102において、駆動符号帳切替手段121は符号化手段101でどちらの駆動符号帳を用いたかの符号に応じて、符号化手段101で用いたのと同じ駆動符号帳を用いるとして第1の駆動符号帳122と第2の駆動符号帳123とを切り替える。このように構成することにより、音声の各状態毎に符号化に適した駆動符号帳を用意し、入力された音声の状態に応じて駆動符号帳を切り替えて用いることで再生音声の品質を向上することができる。
Next, in the decoding means 102, the drive codebook switching means 121 is assumed to use the same drive codebook used in the encoding means 101 according to the code of which drive codebook was used in the
また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法として特開平8−185198号公報に開示されたものがある。これは、適応符号帳で選択したピッチ周期に応じて、複数個の駆動符号帳を切り替えて用いるものである。これにより、伝送情報を増やさずに入力音声の特徴に適応した駆動符号帳を用いることができる。
上述したように図6に示す従来の音声符号化復号化方法では、単一の駆動符号帳を用いて合成音声を生成している。低ビットレートでも品質の高い符号化音声を得るためには、駆動符号帳に格納する時系列ベクトルはパルスを多く含む非雑音的なものとなる。このため、背景雑音や摩擦性子音など雑音的な音声を符号化、合成した場合、符号化音声はジリジリ、チリチリといった不自然な音を発するという問題があった。駆動符号帳を雑音的な時系列ベクトルからのみ構成すればこの問題は解決するが、符号化音声全体としての品質が劣化する。 As described above, in the conventional speech coding / decoding method shown in FIG. 6, synthesized speech is generated using a single drive codebook. In order to obtain high-quality encoded speech even at a low bit rate, the time-series vectors stored in the drive codebook are non-noise including many pulses. For this reason, when noisy speech such as background noise or frictional consonants is encoded and synthesized, the encoded speech has a problem of generating unnatural sounds such as harshness and dust. This problem can be solved if the driving codebook is composed only of noisy time-series vectors, but the quality of the entire encoded speech deteriorates.
また改良された図7に示す従来の音声符号化復号化方法では、入力音声の状態に応じて複数の駆動符号帳を切り替えて符号化音声を生成している。これにより例えば入力音声が雑音的な無声部分では雑音的な時系列ベクトルから構成された駆動符号帳を、またそれ以外の有声部分では非雑音的な時系列ベクトルから構成された駆動符号帳を用いることができ、雑音的な音声を符号化、合成しても不自然なジリジリした音を発することはなくなる。しかし、復号化側でも符号化側と同じ駆動符号帳を用いるために、新たにどの駆動符号帳を使用したかの情報を符号化、伝送する必要が生じ、これが低ビットレート化の妨げになるという問題があった。 In the improved conventional speech encoding / decoding method shown in FIG. 7, a plurality of driving codebooks are switched according to the state of input speech to generate encoded speech. Thus, for example, when the input speech is noisy unvoiced parts, a driving codebook composed of noisy time series vectors is used, and for other voiced parts, a driving codebook composed of non-noisy time series vectors is used. Therefore, even if a noisy voice is encoded and synthesized, an unnatural grim sound is not emitted. However, since the same driving codebook is used on the decoding side as that on the encoding side, it is necessary to newly encode and transmit which driving codebook is used, which hinders the reduction of the bit rate. There was a problem.
また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法では、適応符号帳で選択されるピッチ周期に応じて駆動符号帳を切り替えている。しかし、適応符号帳で選択されるピッチ周期は実際の音声のピッチ周期とは異なり、その値からだけでは入力音声の状態が雑音的か非雑音的かを判定できないので、音声の雑音的な部分の符号化音声が不自然であるという課題は解決されない。 In the conventional speech coding / decoding method for switching a plurality of driving codebooks without increasing the number of transmission bits, the driving codebook is switched according to the pitch period selected in the adaptive codebook. However, the pitch period selected in the adaptive codebook is different from the pitch period of the actual speech, and it is not possible to determine whether the state of the input speech is noisy or non-noisy from its value alone. The problem that the encoded speech is unnatural is not solved.
この発明はかかる課題を解決するためになされたものであり、低ビットレートでも品質の高い音声を再生する音声符号化復号化方法及び装置を提供するものである。 The present invention has been made to solve such a problem, and provides an audio encoding / decoding method and apparatus for reproducing high-quality audio even at a low bit rate.
この発明に係る音声復号化方法は、駆動符号帳と適応符号帳とを用い、入力音声符号に基づいて音声を合成する符号駆動線形予測(Code-Excited Linear Prediction : CELP)音声復号化方法において、
上記入力音声符号を復号して適応符号帳が出力する時系列ベクトルに乗ずるゲインを取得するゲイン復号化ステップを有し、
上記駆動符号帳が出力する第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成する時系列ベクトル生成ステップと、
第1又は第2の時系列ベクトルを上記ゲインに基づいて選択する選択ステップと、
上記選択ステップにおいて選択された時系列ベクトルを用いて音声を合成する音声合成ステップと、
を有することを特徴とする。
The speech decoding method according to the present invention is a code-driven linear prediction (CELP) speech decoding method that synthesizes speech based on an input speech code using a drive codebook and an adaptive codebook.
A gain decoding step of acquiring a gain by multiplying a time series vector output from the adaptive codebook by decoding the input speech code;
A time-series vector generation step of generating a second time-series vector in which the number of samples having an amplitude value of zero is different from the first time-series vector by changing the first time-series vector output from the drive codebook When,
A selection step of selecting the first or second time series vector based on the gain;
A speech synthesis step of synthesizing speech using the time-series vector selected in the selection step;
It is characterized by having.
この発明に係る音声復号化装置は、駆動符号帳と適応符号帳とを用い、入力音声符号に基づいて音声を合成する符号駆動線形予測(Code-Excited Linear Prediction : CELP)音声復号装置において、
上記入力音声符号を復号して適応符号帳が出力する時系列ベクトルに乗ずるゲインを取得するゲイン復号化手段を有し、
上記駆動符号帳が出力する第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成する時系列ベクトル生成手段と、
第1又は第2の時系列ベクトルを上記ゲインに基づいて選択する選択手段と、
上記選択手段により選択された時系列ベクトルを用いて音声を合成する音声合成手段と、
を有することを特徴とする。
A speech decoding apparatus according to the present invention is a code-driven linear prediction (CELP) speech decoding apparatus that synthesizes speech based on an input speech code using a drive codebook and an adaptive codebook.
Gain decoding means for acquiring a gain multiplied by a time-series vector output from the adaptive codebook by decoding the input speech code;
Time series vector generating means for changing the first time series vector output from the drive codebook and generating a second time series vector in which the number of samples having an amplitude value of zero is different from the first time series vector When,
Selecting means for selecting the first or second time series vector based on the gain;
Speech synthesis means for synthesizing speech using the time-series vector selected by the selection means;
It is characterized by having.
請求項1の発明に係る音声復号化方法並びに請求項2の発明に係る音声復号化装置によれば、駆動符号帳が出力する時系列ベクトルに加え、この時系列ベクトルを変更してこの時系列ベクトルとは振幅値がゼロのサンプルの数が異なる他の時系列ベクトルを生成することとしたので、複数の駆動符号帳を備える必要がなくなり、駆動符号帳の記憶に要するメモリ量を少なくする効果がある。
また、適応符号帳が出力する時系列ベクトルに乗ずるために入力音声符号から復号したゲインに基づいて、振幅値がゼロのサンプル数が異なる時系列ベクトルを切り替えることとしたので、時系列ベクトル選択を行うのに用いる情報を別途送出することが不要となるため、符号側の送出ビット数増加を抑制することができる。
According to the speech decoding method according to the first aspect of the invention and the speech decoding apparatus according to the second aspect of the invention, in addition to the time-series vector output from the drive codebook, the time-series vector is changed to change the time-series vector. Since the vector is to generate another time-series vector with a different number of samples with zero amplitude value, there is no need to provide a plurality of driving codebooks, and the amount of memory required to store the driving codebook is reduced. There is.
In addition, based on the gain decoded from the input speech code in order to multiply the time series vector output from the adaptive codebook, it is decided to switch the time series vector having a different number of samples whose amplitude value is zero. Since it is not necessary to separately send information used for the transmission, it is possible to suppress an increase in the number of transmission bits on the code side.
以下図面を参照しながら、この発明の実施の形態について説明する。 Embodiments of the present invention will be described below with reference to the drawings.
実施の形態1.
図1は、この発明による音声符号化方法及び音声復号化方法の実施の形態1の全体構成を示す。図中、1は符号化部、2は復号化部、3は多重化部、4は分離部である。符号化部1は、線形予測パラメータ分析部5、線形予測パラメータ符号化部6、合成フィルタ7、適応符号帳8、ゲイン符号化部10、距離計算部11、第1の駆動符号帳19、第2の駆動符号帳20、雑音度評価部24、駆動符号帳切替部25、重み付け加算部38より構成されている。また、復号化部2は線形予測パラメータ復号化部12、合成フィルタ13、適応符号帳14、第1の駆動符号帳22、第2の駆動符号帳23、雑音度評価部26、駆動符号帳切替部27、ゲイン復号化部16、重み付け加算部39より構成されている。図1中5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出するスペクトル情報分析部としての線形予測パラメータ分析部、6はスペクトル情報であるその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するスペクトル情報符号化部としての線形予測パラメータ符号化部、19、22は非雑音的な複数の時系列ベクトルが記憶された第1の駆動符号帳、20、23は雑音的な複数の時系列ベクトルが記憶された第2の駆動符号帳、24、26は雑音の度合いを評価する雑音度評価部、25、27は雑音の度合いにより駆動符号帳を切り替える駆動符号帳切替部である。
FIG. 1 shows the overall configuration of
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えば図2に示すようにスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を駆動符号帳切替部25に出力する。駆動符号帳切替部25は前記雑音度の評価結果に応じて、例えば雑音度が低ければ第1の駆動符号帳19を、雑音度が高ければ第2の駆動符号帳20を用いるとして符号化に用いる駆動符号帳を切り替える。
The operation will be described below. First, in the
第1の駆動符号帳19には、非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されている。また、第2の駆動符号帳20には、雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部11から入力されるそれぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳8、第1の駆動音源符号帳19または第2の駆動符号帳20からの各時系列ベクトルは、ゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給され符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号,ゲインの符号を符号化結果S2として出力する。以上がこの実施の形態1の音声符号化方法に特徴的な動作である。
The
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果を駆動符号帳切替部27に出力する。駆動符号帳切替部27は前記雑音度の評価結果に応じて、符号化部1の駆動符号帳切替部25と同様に第1の駆動符号帳22と第2の駆動符号帳23とを切り替える。
Next, the
第1の駆動符号帳22には非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが、第2の駆動符号帳23には雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、それぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳14と第1の駆動符号帳22または第2の駆動符号帳23からの時系列ベクトルは、ゲイン復号化部16でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。以上がこの実施の形態1の音声復号化方法に特徴的な動作である。
The first drive codebook 22 includes a plurality of non-noisy time series vectors, for example, a plurality of time series vectors configured by learning so as to reduce the distortion between the learning speech and the encoded speech. The second driving codebook 23 stores a plurality of noisy time series vectors, for example, a plurality of time series vectors generated from random noise, and outputs a time series vector corresponding to each driving code. The time series vectors from the
この実施の形態1によれば、入力音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて異なる駆動符号帳を用いることにより、少ない情報量で、品質の高い音声を再生することができる。 According to the first embodiment, the degree of noise of the input speech is evaluated from the code and the encoding result, and a high quality speech is reproduced with a small amount of information by using a different driving codebook according to the evaluation result. can do.
また、上記実施の形態では、駆動符号帳19,20,22,23には、複数の時系列ベクトルが記憶されている場合を説明したが、少なくとも1つの時系列ベクトルが記憶されていれば、実施可能である。
In the above embodiment, the case where a plurality of time series vectors are stored in the
実施の形態2.
上述の実施の形態1では、2つの駆動符号帳を切り替えて用いているが、これに代え、3つ以上の駆動符号帳を備え、雑音の度合いに応じて切り替えて用いるとしても良い。この実施の形態2によれば、音声を雑音/非雑音の2通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。
In the first embodiment described above, two drive codebooks are switched and used, but instead of this, three or more drive codebooks may be provided and switched according to the degree of noise. According to the second embodiment, it is possible to use a driving codebook suitable not only for noise / non-noise but also for intermediate sounds such as slightly noisy. High quality sound can be played.
実施の形態3.
図1との対応部分に同一符号を付けた図3は、この発明の音声符号化方法及び音声復号化方法の実施の形態3の全体構成を示し、図中28、30は雑音的な時系列ベクトルを格納した駆動符号帳、29、31は時系列ベクトルの低振幅なサンプルの振幅値を零にするサンプル間引き部である。
FIG. 3 in which the same reference numerals are assigned to the parts corresponding to those in FIG. 1 shows the overall configuration of
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果をサンプル間引き部29に出力する。
The operation will be described below. First, in the
駆動符号帳28には、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部11から入力される駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部29は、前記雑音度の評価結果に応じて、雑音度が低ければ前記駆動符号帳28から入力された時系列ベクトルに対して、例えば所定の振幅値に満たないサンプルの振幅値を零にした時系列ベクトルを出力し、また、雑音度が高ければ前記駆動符号帳28から入力された時系列ベクトルをそのまま出力する。適応符号帳8、サンプル間引き部29からの各時系列ベクトルは、ゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給され符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号,ゲインの符号を符号化結果S2として出力する。以上がこの実施の形態3の音声符号化方法に特徴的な動作である。
The drive codebook 28 stores a plurality of time series vectors generated from, for example, random noise, and outputs a time series vector corresponding to the drive code input from the
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果をサンプル間引き部31に出力する。
Next, the
駆動符号帳30は駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部31は、前記雑音度評価結果に応じて、前記符号化部1のサンプル間引き部29と同様の処理により時系列ベクトルを出力する。適応符号帳14、サンプル間引き部31からの各時系列ベクトルは、ゲイン復号化部16から与えられるそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。
The
この実施の形態3によれば、雑音的な時系列ベクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い駆動音源を生成することにより、少ない情報量で、品質の高い音声を再生することができる。また、複数の駆動符号帳を備える必要がないので、駆動符号帳の記憶に要するメモリ量を少なくする効果もある。 According to the third embodiment, a drive codebook storing noisy time series vectors is provided, and noise characteristics are obtained by thinning out signal samples of drive sound sources in accordance with the evaluation result of the degree of speech noise. By generating a driving sound source with a low degree of sound, it is possible to reproduce high-quality sound with a small amount of information. In addition, since it is not necessary to provide a plurality of driving codebooks, there is an effect of reducing the amount of memory required for storing the driving codebook.
実施の形態4.
上述の実施の形態3では、時系列ベクトルのサンプルを間引く/間引かないの2通りとしているが、これに代え、雑音の度合いに応じてサンプルを間引く際の振幅閾値を変更するとしても良い。この実施の形態4によれば、音声を雑音/非雑音の2通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した時系列ベクトルを生成し、用いることができるので、品質の高い音声を再生することができる。
Embodiment 4 FIG.
In the above-described third embodiment, the time series vector samples are thinned out / not thinned out, but instead of this, the amplitude threshold at the time of thinning out the samples may be changed according to the degree of noise. According to the fourth embodiment, it is possible to generate and use a time series vector suitable not only for noise / non-noise but also for intermediate sounds such as slightly noisy. Therefore, it is possible to reproduce high quality sound.
実施の形態5.
図1との対応部分に同一符号を付けた図4は、この発明の音声符号化方法及び音声復号化方法の実施の形態5の全体構成を示し、図中32、35は雑音的な時系列ベクトルを記憶している第1の駆動符号帳、33、36は非雑音的な時系列ベクトルを記憶している第2の駆動符号帳、34、37は重み決定部である。
FIG. 4 in which the same reference numerals are assigned to corresponding parts as in FIG. 1 shows the overall configuration of the speech encoding method and speech decoding method according to
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を重み決定部34に出力する。
The operation will be described below. First, in the
第1の駆動符号帳32には、例えばランダム雑音から生成した複数の雑音的な時系列ベクトルが記憶されており、駆動符号に対応した時系列ベクトルを出力する。第2の駆動符号帳33には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算部11から入力される駆動符号に対応した時系列ベクトルを出力する。重み決定部34は前記雑音度評価部24から入力された雑音度の評価結果に応じて、例えば図5に従って、第1の駆動符号帳32からの時系列ベクトルと第2の駆動符号帳33からの時系列ベクトルに与える重みを決定する。第1の駆動符号帳32、第2の駆動符号帳33からの各時系列ベクトルは上記重み決定部34から与えられる重みに応じて重み付けして加算される。適応符号帳8から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルはゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給し符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。この符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。
The
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果を重み決定部37に出力する。
Next, the
第1の駆動符号帳35および第2の駆動符号帳36は駆動符号に対応した時系列ベクトルを出力する。重み決定部37は前記雑音度評価部26から入力された雑音度評価結果に応じて、符号化部1の重み決定部34と同様に重みを与えるとする。第1の駆動符号帳35、第2の駆動符号帳36からの各時系列ベクトルは上記重み決定部37から与えれるそれぞれの重みに応じて重み付けして加算される。適応符号帳14から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルは、ゲイン復号化部16でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。
The
この実施の形態5によれば、音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて雑音的な時系列ベクトルと非雑音的な時系列ベクトルを重み付き加算して用いることにより、少ない情報量で、品質の高い音声を再生することができる。 According to the fifth embodiment, the degree of speech noise is evaluated from the code and the encoding result, and a noisy time series vector and a non-noisy time series vector are weighted and added according to the evaluation result. As a result, high-quality sound can be reproduced with a small amount of information.
実施の形態6.
上述の実施の形態1〜5でさらに、雑音の度合いの評価結果に応じてゲインの符号帳を変更するとしても良い。この実施の形態6によれば、駆動符号帳に応じて最適なゲインの符号帳を用いることができるので、品質の高い音声を再生することができる。
In the first to fifth embodiments described above, the gain codebook may be changed according to the evaluation result of the degree of noise. According to the sixth embodiment, since a code book having an optimum gain can be used according to the driving code book, high-quality sound can be reproduced.
実施の形態7.
上述の実施の形態1〜6では、音声の雑音の度合いを評価し、その評価結果に応じて駆動符号帳を切り替えているが、有声の立ち上がりや破裂性の子音などをそれぞれ判定、評価し、その評価結果に応じて駆動符号帳を切り替えても良い。この実施の形態7によれば、音声の雑音的な状態だけでなく、有声の立ち上がりや破裂性子音などさらに細かく分類し、それぞれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。
Embodiment 7 FIG.
In the first to sixth embodiments described above, the degree of noise in the speech is evaluated, and the drive codebook is switched according to the evaluation result, but the voiced rise or bursting consonant is determined and evaluated, The drive codebook may be switched according to the evaluation result. According to the seventh embodiment, not only the noise state of speech but also the voiced rising and bursting consonants can be further classified and the driving codebook suitable for each can be used. Can be played.
実施の形態8.
上述の実施の形態1〜6では、図2に示すスペクトル傾斜、短期予測利得、ピッチ変動から、符号化区間の雑音の度合いを評価しているが、適応符号帳出力に対するゲイン値の大小を用いて評価しても良い。
In the first to sixth embodiments described above, the degree of noise in the coding section is evaluated from the spectral tilt, the short-term prediction gain, and the pitch variation shown in FIG. 2, but the magnitude of the gain value for the adaptive codebook output is used. May be evaluated.
Claims (2)
上記入力音声符号を復号して適応符号帳が出力する時系列ベクトルに乗ずるゲイン値を取得するゲイン復号化ステップと、
上記ゲイン値が大なるか小なるかを評価しその評価結果に基づいて、上記駆動符号帳が出力する第1の時系列ベクトルの変更が必要か否かを判断し、上記第1の時系列ベクトルの変更が必要と判断された場合に、上記第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成する時系列ベクトル生成ステップと、
上記評価結果において上記ゲイン値が大なりと評価された場合に、上記第1又は第2の時系列ベクトル
のうち振幅値がゼロのサンプル数が多い方の時系列ベクトルを用いて音声を合成するとともに、上記評価結果において上記ゲイン値が小なりと評価された場合に、上記第1又は第2の時系列ベクトルのうち振幅値がゼロのサンプル数が少ない方の時系列ベクトルを用いて音声を合成する音声合成ステップと、
を有することを特徴とする音声復号化方法。 In a code-excited linear prediction (CELP) speech decoding method that synthesizes speech based on an input speech code using a driven codebook and an adaptive codebook,
A gain decoding step of obtaining the gain value multiplied with time-series vector adaptive codebook and decodes the input speech code is output,
Whether the gain value is large or small is evaluated, and based on the evaluation result, it is determined whether or not it is necessary to change the first time series vector output from the driving codebook, and the first time series is determined. When it is determined that the vector needs to be changed, the first time-series vector is changed to generate a second time-series vector in which the number of samples having zero amplitude value is different from the first time-series vector. A time-series vector generation step,
The first or second time series vector when the gain value is evaluated to be greater than the evaluation result.
When the speech is synthesized using the time-series vector having the larger number of samples having the amplitude value of zero and the gain value is evaluated to be small in the evaluation result, the first time or the second time A speech synthesis step of synthesizing speech using a time-series vector having a smaller number of samples having an amplitude value of zero among sequence vectors ;
A speech decoding method characterized by comprising:
上記入力音声符号を復号して適応符号帳が出力する時系列ベクトルに乗ずるゲイン値を取得するゲイン復号化手段と、
上記ゲイン値が大なるか小なるかを評価しその評価結果に基づいて、上記駆動符号帳が出力する第1の時系列ベクトルの変更が必要か否かを判断し、上記第1の時系列ベクトルの変更が必要と判断された場合に、上記第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成する時系列ベクトル生成手段と、
上記評価結果において上記ゲイン値が大なりと評価された場合に、上記第1又は第2の時系列ベクトル
のうち振幅値がゼロのサンプル数が多い方の時系列ベクトルを用いて音声を合成するとともに、上記評価結果において上記ゲイン値が小なりと評価された場合に、上記第1又は第2の時系列ベクトルのうち振幅値がゼロのサンプル数が少ない方の時系列ベクトルを用いて音声を合成する音声合成手段と、
を有することを特徴とする音声復号化装置。 In: (CELP Code-Excited Linear Prediction ) speech decoding apparatus using the driving codebook and the adaptive codebook, the code excited linear prediction synthesizing speech based on the input speech code
A gain decoding means for obtaining a gain value multiplied with time-series vector adaptive codebook and decodes the input speech code is output,
Whether the gain value is large or small is evaluated, and based on the evaluation result, it is determined whether or not the first time series vector output from the drive codebook needs to be changed, and the first time series is determined. When it is determined that the vector needs to be changed, the first time-series vector is changed to generate a second time-series vector in which the number of samples having an amplitude value of zero is different from the first time-series vector. Time-series vector generating means for performing,
The first or second time series vector when the gain value is evaluated to be greater than the evaluation result.
When the speech is synthesized using the time-series vector having the larger number of samples having the amplitude value of zero and the gain value is evaluated to be small in the evaluation result, the first time or the second time Speech synthesis means for synthesizing speech using a time-series vector having a smaller number of samples with zero amplitude value among sequence vectors ;
A speech decoding apparatus comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005175020A JP3746067B2 (en) | 1997-12-24 | 2005-06-15 | Speech decoding method and speech decoding apparatus |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP35475497 | 1997-12-24 | ||
| JP2005175020A JP3746067B2 (en) | 1997-12-24 | 2005-06-15 | Speech decoding method and speech decoding apparatus |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002202211A Division JP3736801B2 (en) | 1997-12-24 | 2002-07-11 | Speech decoding method and speech decoding apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005326868A JP2005326868A (en) | 2005-11-24 |
| JP3746067B2 true JP3746067B2 (en) | 2006-02-15 |
Family
ID=35473204
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005175020A Expired - Lifetime JP3746067B2 (en) | 1997-12-24 | 2005-06-15 | Speech decoding method and speech decoding apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3746067B2 (en) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102159234B1 (en) | 2013-02-08 | 2020-09-23 | 미쯔비시 가스 케미칼 컴파니, 인코포레이티드 | Resist composition, resist pattern formation method, and polyphenol derivative used in same |
| KR20170099908A (en) | 2014-12-25 | 2017-09-01 | 미쯔비시 가스 케미칼 컴파니, 인코포레이티드 | Compound, resin, underlayer film forming material for lithography, underlayer film for lithography, pattern forming method and purification method |
| JP6766803B2 (en) | 2015-03-31 | 2020-10-14 | 三菱瓦斯化学株式会社 | Resist composition, resist pattern forming method, and polyphenol compound used therein |
| JP6845991B2 (en) | 2015-03-31 | 2021-03-24 | 三菱瓦斯化学株式会社 | Compounds, resist compositions and resist pattern forming methods using them |
| EP3346335A4 (en) | 2015-08-31 | 2019-06-26 | Mitsubishi Gas Chemical Company, Inc. | MATERIAL FOR FORMING LITHOGRAPHY UNDERLAYER FILMS, COMPOSITION FOR FORMING LITHOGRAPHIC UNDERLAYER FILMS, LITHOGRAPHY UNDERLAYER FILM AND METHOD FOR MANUFACTURING THE SAME, PATTERN FORMING METHOD, RESIN, AND PROCESS FOR PURIFICATION |
| WO2017038643A1 (en) | 2015-08-31 | 2017-03-09 | 三菱瓦斯化学株式会社 | Material for forming underlayer films for lithography, composition for forming underlayer films for lithography, underlayer film for lithography and method for producing same, and resist pattern forming method |
| KR102687507B1 (en) | 2015-09-10 | 2024-07-24 | 미쯔비시 가스 케미칼 컴파니, 인코포레이티드 | Compound, resin, resist composition or radiation-sensitive composition, resist pattern forming method, amorphous film manufacturing method, lithography underlayer film forming material, lithography underlayer film forming composition, circuit pattern forming method and purification method |
-
2005
- 2005-06-15 JP JP2005175020A patent/JP3746067B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2005326868A (en) | 2005-11-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4916521B2 (en) | Speech decoding method, speech encoding method, speech decoding apparatus, and speech encoding apparatus | |
| JPWO1999034354A1 (en) | Audio encoding method, audio decoding method, audio encoding device, and audio decoding device | |
| JP3180762B2 (en) | Audio encoding device and audio decoding device | |
| WO2001052241A1 (en) | Multi-mode voice encoding device and decoding device | |
| JP3582589B2 (en) | Speech coding apparatus and speech decoding apparatus | |
| JPH08272395A (en) | Voice encoding device | |
| JP3746067B2 (en) | Speech decoding method and speech decoding apparatus | |
| JP2001075600A (en) | Audio encoding device and audio decoding device | |
| JP4800285B2 (en) | Speech decoding method and speech decoding apparatus | |
| JP3353852B2 (en) | Audio encoding method | |
| JP3319396B2 (en) | Speech encoder and speech encoder / decoder | |
| JP4170288B2 (en) | Speech coding method and speech coding apparatus | |
| JP3736801B2 (en) | Speech decoding method and speech decoding apparatus | |
| JPH10207496A (en) | Voice encoding device and voice decoding device | |
| JP4510977B2 (en) | Speech encoding method and speech decoding method and apparatus | |
| JP3144284B2 (en) | Audio coding device | |
| JP3490325B2 (en) | Audio signal encoding method and decoding method, and encoder and decoder thereof | |
| JP3563400B2 (en) | Audio decoding device and audio decoding method | |
| JP3299099B2 (en) | Audio coding device | |
| JPH11259098A (en) | Audio encoding / decoding method | |
| JP3578933B2 (en) | Method of creating weight codebook, method of setting initial value of MA prediction coefficient during learning at the time of codebook design, method of encoding audio signal, method of decoding the same, and computer-readable storage medium storing encoding program And computer-readable storage medium storing decryption program | |
| JP3166697B2 (en) | Audio encoding / decoding device and system | |
| JP3907906B2 (en) | Speech coding apparatus and speech decoding apparatus | |
| JPH10105200A (en) | Audio encoding / decoding method | |
| JPH043878B2 (en) |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20050902 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050920 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051024 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051115 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051118 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131202 Year of fee payment: 8 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |