JP4194749B2 - Channel gain correction system and noise reduction method in voice communication - Google Patents
Channel gain correction system and noise reduction method in voice communication Download PDFInfo
- Publication number
- JP4194749B2 JP4194749B2 JP2000509079A JP2000509079A JP4194749B2 JP 4194749 B2 JP4194749 B2 JP 4194749B2 JP 2000509079 A JP2000509079 A JP 2000509079A JP 2000509079 A JP2000509079 A JP 2000509079A JP 4194749 B2 JP4194749 B2 JP 4194749B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- audio signal
- gain
- speech
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Description
【0001】
(技術分野)
本発明は音声処理に関する。より特定的には本発明は、音声処理に用いられる雑音抑制システムとその方法に関する。
【0002】
(背景技術)
デジタル技法による音声の送信は、特にセルラー電話や個人通信システム(PCS)などの応用分野で広く用いられるようになっている。これがまた、音声処理技法の改良に対する興味を生じた。改良がなされている1つの領域は雑音抑制技法の開発である。
【0003】
音声通信システムにおける雑音抑制は一般的に、環境的背景雑音を所望の音声信号からフィルタリングすることによって所望のオーディオ信号の全体的な品質を改良する目的に適うものである。この音声向上プロセスは、飛行機や、移動中の車両や、やかましい工場などの異常に高レベルの周辺背景雑音を有する環境においては特に必要である。
【0004】
1つの雑音抑制技法はスペクトル減算、すなわちスペクトルの利得を修正する技法である。この方式を用いると、入力オーディオ信号は複数の周波数チャネルに分割され、これによって、特定の周波数チャネルがその雑音エネルギー含有量に従って減衰される。各周波数チャネルに対する背景雑音の推定値を利用して、そのチャネルでの音声の信号対雑音比(SNR)を発生し、このSNR比を用いて各チャネルの利得係数を計算する。次に、この利得係数によって特定のチャネルの減衰量を決定する。減衰したチャネルは再合成されて、雑音を抑制した出力信号を生成する。
【0005】
比較的高い背景雑音環境を伴う特殊な応用分野では、大抵の雑音抑制技法がかなりの性能限界を示す。このような応用分野の1例として、セルラーモバイル通信システムに対する車両スピーカフォンというオプションがある。このスピーカフォンオプションは、自動車のドライバにハンドフリーの動作を可能とするものである。ハンドフリーマイクロフォンは一般的には、面頬(visor)の上方に取り付けられたりして、使用者からかなり隔たったところに置かれる。この遠隔のマイクロフォンでは、道路と風などの雑音条件のため、ランドエンド(land-end)側に対して悪いSNRが提供される。ランドエンドで受信された音声は通常は理解可能であるが、このような背景雑音レベルに対して連続して曝されると、聴取者の疲労を増すことがしばしばある。
【0006】
雑音抑制システムが適切に機能するためには、音声のSNRを正確に決定することが重要である。しかしながら、現在入手可能な雑音検出器の限界のために、音声信号のSNRを正確に決定するのは困難である。スペクトル減算技法は、音声が不在の期間中に背景雑音推定値を更新するものである。音声が不在のときに、測定されたスペクトルエネルギーは雑音によるものであり、このため、測定されたスペクトルエネルギーに基づいて雑音推定値が更新される。したがって、音声の存在期間と不在期間を区別して、SNRを計算するための正確な雑音エネルギーを得ることが重要である。
【0007】
音声検出のある例示技法では、音声計量(metric)計算機を用いて雑音更新値判断を実行している。音声計量とは、チャネルエネルギーの全体的な音声状特徴の測定値である。最初に、生(raw)のSNR推定値を用いて音声計量表を割り出し、これによって、各チャネルに対する音声計量値を得る。個々のチャネル音声計量値は合計されてエネルギーパラメータとなり、これを背景雑音更新しきい値と比較する。この音声計量合計値がこのしきい値以上であれば、その信号は音声を包含していると言われる。音声計量合計値がしきい値未満であれば、入力フレームは雑音と見なされて、背景雑音更新が実行される。しかしながら、高背景雑音や突然背景雑音や増加雑音発生源の場合、SNR測定値は大きな値となり、この結果、音声計量値が高くなり、このため雑音推定更新値が無効となる。
【0008】
音声計量計算機技法を洗練させた技法では、チャネルエネルギーの偏差が測定される。この方法では、雑音はある時間にわたって一定のスペクトルエネルギーを示し、一方、音声はある時間にわたって可変のスペクトルエネルギーを示すものと仮定される。したがって、チャネルエネルギーは時間に対して積分され、これによって、チャネルエネルギーの偏差がかなり大きくなると音声が検出され、一方、チャネルエネルギーの偏差がほとんどなければ雑音が検出される。チャネルエネルギー偏差を測定する音声検出器は、雑音レベルの突然の増加を検出する。しかしながら、チャネルエネルギー偏差方法は、入力音声信号が一定のエネルギーの信号である場合は不正確な結果をもたらす。さらに、増加雑音発生源の場合、入力エネルギーが変化すると、エネルギー偏差が大きくなり、このため、雑音推定更新値がたとえ必要な場合でも無効となってしまう。
【0009】
正確な音声検出器に加えて、雑音抑制システムは適切にチャネル利得を調整しなければならない。チャネル利得は、音声品質を犠牲にすることなく雑音が抑制されるように調整すべきである。チャネル利得を調整する1つの方法では、全体雑音推定値と音声信号のSNRの関数として利得を計算する。一般に、全体雑音推定値が増すと、所与のSNRに対する利得係数が減少する。利得係数が低いということは、減衰係数が高いことを示す。この技法は、全体雑音推定値が非常に高い場合に、最小の利得値を課して、チャネル利得の過剰減衰を防止するものである。強度にクランプした(clamped)最小利得値を用いることによって、雑音抑制と音声品質との兼ね合いが導き出される。クランプが比較的低い場合、雑音抑制は向上するが、音声品質は劣化する。クランプが比較的高ければ、雑音抑制は劣化するが音声品質は改善する。
【0010】
改良型の雑音抑制システムを提供するために、音声検出とチャネル利得計算のための現在の技法の限界を指摘する必要がある。これらの問題と欠陥は以下に示すように本発明によって解決される。
【0011】
(発明の開示)
本発明は、音声処理システムで用いられる雑音抑制のためのシステムと方法である。本発明の目的は、入力信号中に音声が存在することを決定する音声検出器を提供することである。音声の信号対雑音比(SNR)を正確に決定するには信頼性の高い音声検出器が必要である。音声が不在であると判断されると、入力信号はその全体が雑音信号であると仮定されて、雑音エネルギーが測定される。次に、雑音エネルギーを用いてSNRを決定する。本発明の別の目的は、雑音を抑制するための改良型の利得測定エレメントを提供することである。
【0012】
本発明によれば、雑音抑制システムは、音声が入力信号のフレーム中に存在するか否か判断する音声検出器を備えている。音声の存否の判断は、入力信号中の音声のSNR尺度に基づいて行われる。SNR推定器は、エネルギー推定器が発生した信号エネルギー推定値と雑音エネルギー推定器が発生した雑音エネルギー推定値とに基づいてSNRを推定する。音声の存否判断はまた、入力信号の符号化レートに基づいている。可変速通信システムにおいては、各入力フレームは、入力フレームの内容に基づいて、所定のレート集合から選択された符号化レート(encording rate)を割り当てられる。一般に、このレートは音声のアクティビティ(activity)のレベルによって異なるため、音声を包含しているフレームには高レートが割り当てられ、一方、音声を包含していないフレームには低レートが割り当てられる。さらに、音声存否判断は、入力信号の特徴を記述している1つ以上のモード尺度に基づくこともある。音声が入力フレーム中に存在しないと判断された場合、雑音エネルギー推定器は雑音エネルギー推定値を更新する。
【0013】
チャネル利得推定器は、入力信号のフレームに対する利得を決定する。音声がフレーム中に存在しない場合、利得は所定の最小値に設定される。存在する場合は、利得はフレームの周波数の内容に基づいて決定される。ある好ましい実施形態では、利得係数は事前定義された集合を成す周波数チャネルの各々に対して決定される。各チャネルに対して、利得はそのチャネル上の音声のSNRに従って決定される。チャネル毎に、利得はそのチャネルが存在する周波数バンドの特徴に適した関数を用いて定義される。一般的には、事前定義された周波数バンドに対して、利得はSNRが増すと共に自身も線形に増加するように設定される。加えて、各周波数バンドに対する最小利得は、環境的特徴に基づいて調整することも可能であり得る。例えば、ユーザー選択可能な最小利得が実現され得る。チャネルSNRは、エネルギー推定器が発生したチャネルエネルギー推定値と雑音エネルギー推定器が発生したチャネルエネルギー推定値とに基づいている。利得係数を用いて、様々なチャネル上の信号の利得を調整し、利得調整されたチャネルは合成されて、雑音抑制された出力信号を生成する。
【0014】
(発明を実施するための最良の形態)
本発明の特徴、目的及び利点は、全体にわたって同様の参照符号が同様のエレメントを示す図面を参照して以下に記述する詳細な説明から明らかであろう。
【0015】
音声通信システムにおいては、通常は雑音抑制器を用いて、好ましくない環境的背景雑音を抑制する。大抵の雑音抑制器は、1つ以上の周波数バンド中の入力データ信号の背景雑音特徴を推定し、この推定値の平均値をこの入力信号から減算するように動作する。平均の背景雑音の推定値は音声が不在の期間中に更新される。雑音抑制器は、正しく動作するには、背景雑音レベルを正確に決定する必要がある。加えて、雑音の抑制レベルを入力信号の音声と雑音との特徴に基づいて正しく調整しなければならない。これらの要件は本発明の雑音抑制システムによって処理される。
【0016】
本発明が実現されている例示の音声処理システム100を図1に示す。システム100はマイクロフォン102と、A/Dコンバータ104と、音声プロセッサ106と、送信機110と、アンテナ102と、を備えている。マイクロフォン102は、図1に示す他のエレメントと共にセルラー電話中に配置してもよい。代替例としては、マイクロフォン102は、セルラー通信システムの車両スピーカフォン オプションであるハンドフリーマイクロフォンであってもよい。車両スピーカフォンのアセンブリは時としてカーキットと呼ばれる。マイクロフォン102がカーキットの1部である場合、雑音抑制機能は特に重要である。ハンドフリーマイクロフォンは一般的に使用者からある程度の距離のところに位置するので、受信された音響信号は、道路と風という条件のため悪いSNRを持つ傾向がある。
【0017】
図1を引き続き参照すると、音声及び/又は背景雑音を含む入力オーディオ信号がマイクロフォン102によって受信される。入力オーディオ信号はマイクロフォン102によって、項目s(t)で表される電気音響信号に変換される。この電気音響信号は、A/Dコンバータ104によってアナログ信号からパルス符号変調(PCM)サンプルに変換してもよい。ある例示実施形態では、PCMサンプルはA/Dコンバータ104から64kbpsのレートで出力され、図1に示すように信号s(n)として表される。デジタル信号s(n)は、雑音抑制器108を他のエレメントと共に備えている音声プロセッサ106に受信される。雑音抑制器108は本発明に従って信号s(n)中の雑音を抑制する。カーキット(carkit)応用品の中では、雑音抑制器108は背景環境雑音のレベルを測定して、信号の利得を調整して、このような環境雑音の影響を軽減する。雑音抑制器108に加えて、音声プロセッサ106は一般的にはボイスコーダ、すなわちボコーダ(図示せず)を備えているが、このボコーダは、人間の音声の発生のモデルに関連するパラメータを抽出することによって音声を圧縮する。音声プロセッサ106はまた、エコーキャンセラ(図示せず)を備えているが、これは、スピーカ(図示せず)とマイクロフォン102間のフィードバックに起因する音響エコーを解消するものである。
【0018】
音声プロセッサ106による処理に続いて、信号は送信機110に出力されるが、送信機110は、符号分割多重アクセス方式(CDMA)や、時分割多重アクセス方式(TDMA)や、周波数分割多重アクセス方式(FDMA)などの所定の方式に従って変調を実行する。本例示の実施形態では、送信機110は、本発明の譲受人に譲受され、参考としてここに組み込まれる「衛星又は地上中継器を用いた拡散スペクトル多重アクセス通信システム」(SPREAD SPECTRUM MUTIPLE ACCESS COMMUNICATION SYSTEM USING SATELLITE OR TERRESTRIAL REPEATERS)という題名の米国特許第4,901,307号に述べるようなCDMA形式に従って信号を変調する。すると、送信機110は変調された信号を上方変換して増幅し、変調された信号はアンテナ112から送信される。
【0019】
雑音抑制器108は、図1のシステム100とは異なった音声処理システムとして実現してもよいことを認識すべきである。例えば、雑音抑制器108を、音声メールオプションを有する電子メール応用例で利用してもよい。このような応用例中では、図1の送信機110とアンテナ112とは必要ではない。その代わりに、雑音抑制された信号が音声プロセッサ106によってフォーマッティングされて、電子メールネットワーク上で送信される。
【0020】
雑音抑制器108のある例示実施形態を図2に示す。入力オーディオ信号は図2に示すように事前プロセッサ202によって受信される。事前プロセッサ(preprocessor)202は、事前エンファシス(preemphasis)とフレーム発生を実行することによって雑音抑制するように入力信号を作成する。事前エンファシスは、信号の高周波数音声成分を強調することによって音声信号の出力スペクトル密度を再分布させる。実質的には高域パスフィルタリング(a high pass filtering)機能を実行することによって、事前エンファシス処理は重要な音声成分を強調して、周波数ドメイン(domain)中にあるこれらの成分のSNRを向上させる。事前プロセッサ202はまた、入力信号のサンプルからフレームを発生する。ある好ましい実施形態では、80サンプル/フレームの10msフレームを発生する。これらのフレームはサンプルをオーバーラップさせて処理精度を高めることがある。これらのフレームは、入力信号のサンプルをウインドウ処理(windowing)し、ゼロパッディングする(zeropadding)ことによって発生させてもよい。プリプロセスされた(preprocessed)信号は変換エレメント204に出力される。ある好ましい実施形態では、変換エレメント204は、入力信号の各フレームに対して128ポイントの高速フーリエ変換(FFT)を発生する。しかしながら、代替スキームを用いて入力信号の周波数成分を分析してもよいことを理解すべきである。
【0021】
変換されたこれらの成分はチャネルエネルギー推定器206aに供給され、ここで変換済み信号のNチャネルの各々に対するエネルギー推定値を発生する。各チャネルに対して、チャネルエネルギーの更新をするある1つの技法は、前のフレームのチャネルエネルギーに対して平滑化された現行のチャネルエネルギーとなる更新値を次のように推定する:
Eu(t)=αEch+(1―α)Eu(t-1) (1)
ここで、更新された推定値Eu(t)は現行チャネルエネルギーEchと前の推定チャネル雑音エネルギーEu(t-1)との関数であると定義される。
1). 例示的な実施形態は、α=0.55をセットする。
【0022】
ある好ましい実施形態では、低周波数チャネルのエネルギー推定値と高周波数チャネルのエネルギー推定値とを、N=2となるように決定する。低周波数チャネルは250〜2250Hzの周波数範囲に対応し、一方、高周波数チャネルは2250〜3500Hzの周波数範囲に対応している。低周波数チャネルの現行チャネルエネルギーは、250〜2250Hzに対応するFFTポイントのエネルギーとを合計することによって決定し、高周波数チャネルの現行チャネルエネルギーは、2250〜3500Hzに対応するFFTポイントのエネルギーを合計することによって決定してもよい。
【0023】
これらのエネルギー推定値は音声検出器208に供給され、ここで、受信されたオーディオ信号中に音声が存在するか否か判断する。音声検出器208のSNR推定器210aは、エネルギー推定値を受信する。SNRス推定器210aはチャネルエネルギー推定値とチャネル雑音エネルギー推定値の双方に基づいて、N個のチャネルの各チャネル上にある音声の信号対雑音比(SNR)を決定する。チャネル雑音エネルギー推定値は雑音エネルギー推定器214aによって供給されるが、一般的に、音声を包含していない前のフレーム上で平滑化された推定雑音エネルギーに対応している。
【0024】
音声検出器208はまた、レート決定エレメント212を備えるが、これは、所定の集合を成すデータレートから入力信号のデータレートを選択する。ある種の通信システムでは、データは、データレートが1 つのフレームから他のフレームに変化するように符号化される。これは可変レート通信システムとして知られている。可変レートスキームに基づいてデータを符号化するボイスコーダは一般的に可変レートボコーダと呼ばれる。可変レートボコーダのある例実施形態を、本発明の譲受人に譲受され、参考としてここに組み込まれる、「可変レートボコーダ」(VARIABLE RATE VOCODER)という題名の米国特許第5,414,796号に述べられている。可変レート通信チャネルを用いると、送信されるべき有益な音声がない場合に不必要な送信を除去することができる。音声アクティビティの変化に従って各フレーム中の変化する数の情報ビットを形成するために、アルゴリズムがボコーダ内で利用される。例えば、4つのレートから成る集合を持つボコーダは、スピーカのアクティビティによって16、40、80又は171の情報ビットを包含する20ミリ秒のデータフレームを発生する。通信の送信レートを変化させることによって、固定された時間内で各データフレームを送信するのが好ましい。
【0025】
フレームのレートは、時間フレーム期間中の音声アクティビティによって異なるので、レートを決定することは、音声が存在するか否かに関する情報を提供することになる。可変レートを利用しているシステムでは、フレームを最高レートで符号化すべきであるとする決定は一般に音声の存在を示し、一方、フレームを最低レートで符号化すべきであるとする決定は一般に音声の不在を示す。中間レートは一般的には、音声の存在と不在の間での遷移(transitions)を示す。
【0026】
レート決定エレメント212は、複数個あるレート決定アルゴリズムの内のどれでも実装し得る。このようなレート決定アルゴリズムがかって、本発明の譲受人に対して譲受され、参照してここに組み込まれる、「低減レート可変レートボコーディングのための方法と装置」(METHOD AND APPARATGUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING)という題名の同時係属米国特許出願第08/286,842号に開示されている。この技法はモード尺度(mode measures)と呼ばれる1集合のレート決定基準を提供する。第1のモード尺度は前の符号化フレームに基づいた目標整合信号対雑音比(TMSNR)であり、これは、合成された音声信号を入力音声信号と比較することによっていかに良好に符号化モデルが実行されているかに関する情報となるものである。第2のモード尺度は正規化自動相関関数(normalized autocorrelation function)(NACF)であり、これは音声フレームの周期性を測定するものである。第3のモード尺度はゼロ交差(zero crossings)(ZC)パラメータであり、これは入力音声フレーム中の高周波数成分を測定するものである。第4の尺度である予測利得微分(prediction gain differential)(PGD)はエンコーダがその予測効率を維持しているか否かを判断するものである。第5の尺度はエネルギー微分(energy differential)(ED)であり、これは現行フレーム中のエネルギーを平均フレームエネルギーと比較するものである。これらのモード尺度を用いて、レート決定ロジックは入力のフレームの符号化レートを選択する。
【0027】
レート決定エレメント212は、図2では雑音抑制器108に含まれるエレメントとして示されているが、その代わりにレート情報を音声プロセッサ106の別の構成部品によって雑音プロセッサ108に提供するようにしてもよいことを理解すべきである(図1)。例えば、音声プロセッサ106は、入力信号の各フレームに対する符号化レートを決定する可変レートボコーダ(図示せず)を備えることがある。雑音抑制器108に単独でレート決定させる代わりに、レート情報を可変レートボコーダによって雑音抑制器108に提供するようにしてもよい。
【0028】
また、レートを判断して音声の存在を決定する代わりに、音声検出器208が、レートの判断に寄与するモード尺度から成るサブ集合を用いてもよいことを理解すべきである。例えば、レート決定エレメント212の代わりにNACFエレメント(図示せず)を用いてもよいが、これは、すでに述べたように、音声フレームの周期性を測定するものである。NACFは以下の関係式に従って評価される:
【数1】
【0029】
ここで、Nは音声フレームのサンプルの数であり、t1とt2は、NACFを評価するT個のサンプル内の境界のことである。NACFはホルマント(formant)の残留信号e(n)に基づいて評価される。ホルマント周波数は音声の共鳴周波数である。短期フィルタを用いて音声信号をフィルタリングして、フォルマント周波数を得る。この短期(short term)フィルタによるフィルタリング後に得られる残留信号がフォルマント残留信号であり、ピッチ(pitch)など、信号の長期音声情報を包含している。
【0030】
NACFモード尺度は、発声された音声を包含している信号の周期性が発声された音声を包含していない信号とは異なるので、音声の存在を決定するのに適している。発声された音声は周期的な成分によって特徴付けられる傾向がある。発声された音声が存在しない場合、信号は一般に周期的な成分を有しない。したがって、NACF尺度は音声検出器208が用いる良好なインジケータであり得る。
【0031】
音声検出器208は、レート決定結果を発生するのが実用的ではない状況においてレート決定結果の代わりにNACFなどの尺度を用いることがある。例えば、レート決定結果が可変レートボコーダから入手可能でなく、雑音プロセッサ108が自分自身のレート決定結果を発生する処理パワーを持たない場合、NACFなどのモード尺度が所望の代替物を提供する。これは、処理パワーが概して制限されているカーキット応用例などに当てはまる。
【0032】
加えて、音声検出器208は、レート決定結果やモード尺度やSNR推定値だけに基づいて音声の存在に関する決定をすることを理解すべきである。さらなる尺度によって決定の精度を向上させるべきであるとはいえ、これらの尺度のどの1つだけでも適切な結果をもたらし得る。
【0033】
レート決定結果(又はモード尺度)とSNR推定器210aによって発生されたSNR推定値とは、音声判断エレメント216に提供される。音声判断エレメント216は、入力信号中に音声が存在するか否かをその入力に基づく判断を発生する。音声の存在に関する判断によって、雑音エネルギーの推定値を更新するか否かが決定される。雑音エネルギー推定値はSNR推定器210aによって用いられて、入力信号中の音声のSNRを決定する。このSNRは次に、雑音抑制のための入力信号の減衰のレベルを計算するために用いられる。音声が存在すると判断された場合、音声判断エレメント216はスイッチ218aを開いて、雑音推定器214aが雑音エネルギー推定値を更新しないようにする。音声が存在しないと判断された場合、入力信号は雑音であると推測され、音声判断エレメント216はスイッチ218aを閉じて、雑音エネルギー推定器218aに雑音推定値を更新させる。図2ではスイッチ218aと示されているが、音声判断エレメント216から雑音エネルギー推定器214aに供給されたイネーブル信号も同じ機能を実行することを理解すべきである。
【0034】
2つのチャネルSNRが評価されるある好ましい実施形態では、音声判断エレメント216は以下の手順に基づいて雑音更新判断(the noise update decision)を発生する:
SNR推定器210aによって供給されたチャネルSNR推定値はchsnr1とchsnr2とによって表される。レート決定エレメント212によって供給された入力信号のレートはレート(rate)で表される。カウンタ、レートカウントは、以下に述べるある種の条件に基づいてフレームの数を追跡する。
【0035】
音声判断エレメント216は、レートが可変レートの内の最小値レートであり、chsnr1がしきい値T1より大きいか又はchsnr2がしきい値T2より大きくて、レートカウントがしきい値T3より大きい場合は、音声が存在せず、及び、雑音推定値を更新すべきであると判断する。レートが最小値であり、chsnr1がT1より大きいか又はchsnr2がT2より大きいがレートカウントがT3より小さい場合、レートカウントは1つだけ増加されるが、雑音推定値は更新されない。カウンタ、レートカウントは、最小レートを有するフレームの数をカウントするが同時に複数のチャネルの内の少なくとも1つのチャネルに高エネルギーを有することによって、雑音レベルが突然増加する場合又は雑音発生源が増加する場合を検出する。高SNR信号が音声を包含していないことを示すインジケータとなるカウンタは、信号中に音声が検出されるまではカウントするように設定される。ある好ましい実施形態は、10msフレームが評価されるところのT1=T2=5dB、T2=100フレームを設定する。
【0036】
レートが最小値であり、chsnr1がT1未満であり、chsnr2がT2未満である場合、音声判断エレメント216は、音声が存在せず、したがって、雑音推定値を更新すべきであると判断する。加えて、レートカウントがゼロにリセットされる。
【0037】
レートが最小値でなければ、音声判断エレメント216は、フレームが音声を包含しており、したがって、雑音推定値を更新すべきではないと判断し、レートカウント(ratecount)はゼロにリセットされる。
【0038】
レート尺度(rate measure)を用いて音声の存在を判断する代わりに、NACF尺度などのモード尺度(mode measures)を利用し得ることを思い出すべきである。音声判断エレメント216はNACF尺度を利用して音声の存在を判断することがあり、したがって、雑音更新決定は以下の手順に従って実行される:
もしも( ( pitch Present==偽り(FALSE)であれば
もしも( (chsnr1>TH1)又は(chsnr2>TH2)であれば
もしも(pitchCount>TH3)であれば
雑音推定値を更新する
そうでなければ
pitchCount++
そうでなければ
雑音推定値を更新する
pitchCount=0
そうでなければ
pitchCount=0
ここで、pitchPresentは次のように定義される:
もしも(NACF>TT1)であれば
pitchPresent=真実(TRUE)
NACFヌカウント=0
そうでなくて(TT2≦NACF≦TT1)であれば
もしも(NACFCOUNT>TT3)であれば
pitchPresent=真実
そうでなければ
pitchPresent=偽り
NACFCOUNT++
そうでなければ
pitchPresent=偽れ
NACFCOUNT=0
再び、SNR推定器210aが供給したチャネルSNR推定値はchsnr1とchsnr2で表される。NACFエレメント(図示せず)は、上記で明らかにしたように、該のピッチの存在を示す尺度であるpitchPresentを発生する。カウンタであるpitchCountは以下に述べるある種の条件に基づいてフレームの数を追跡する。
【0039】
尺度pitchPresentは、NACFがしきい値TT1より大きいとピッチが存在すると判断する。NACFがしきい値TT3より大きい複数のフレームに対して中間範囲(TT2≦NCF≦TT1)にある場合も、ピッチが存在すると判断される。カウンタ、NACFcountは、
【数2】
【0040】
が成立するフレームの数を追跡する。ある好ましい実施形態では、10msフレームが評価されるTT1=0.6、TT2=0.4、TT3=8フレームとなっている。
【0041】
音声判断エレメント216は、pitchPresent尺度がピッチが存在しないことを示しており(pitchPtrsent=偽り)、chsnr1がしきい値TH1より大きいか又はchsnr2がしきい値TT2より大きく、また、pitchCountがしきい値TH3より大きい場合、音声が存在せず、したがって、雑音推定値を更新すべきであると判断する。pitchPresent=偽りであり、chsnr1がTH1より大きいか又はchnsr2がTH2より大きいが、pitchCountがTH3未満である場合、pitchCountは1つ増加されるが雑音推定値は更新されない。カウンタ、pitchCountを用いて、雑音のレベルの突然の増加や雑音発生源の増加を検出する。ある好ましい実施形態では、10msフレームが評価されるT1=T2=5dB、T2=100フレームという条件が設定される。
【0042】
ピッチが存在しないことをpitchPresentが示し、chsnr1がTH1未満であるか又はchsnr2がTH2未満である場合、音声判断エレメント216は、音声が存在せず、したがって、雑音推定値を更新すべきであると判断する。加えて、pitchCopuntがゼロにリセットされる。
【0043】
ピッチが存在することをpitchPresentが示す(pitchPresent=真実)場合、音声判断エレメント216は、フレームが音声を包含しており、したがって、雑音推定値を更新すべきではないと判断する。しかしながら、pitchCountはゼロにリセットされる。
【0044】
音声が存在しないと判断されると、スイッチ218aは閉じられて、雑音エネルギー推定器214aが雑音推定値を更新する。雑音エネルギー推定器214aは一般に、Nチャネル分の入力信号の各々に対する雑音エネルギー推定値を発生する。音声は存在しないので、エネルギーは全部雑音によるものであると推測される。各チャネルに対して、雑音エネルギー更新値は、音声を包含しない前のフレームのチャネルエネルギーに対して平滑化された現行のチャネルエネルギーであると推定される。例えば、更新された推定値は以下の関係式に基づいて得られる:
En(t) =βEch + (1-β)En(t-1), (3)
ここで、更新された推定値En(t)は、現行のチャネルエネルギーEchと前の推定チャネル雑音エネルギーEn(t-1)の関数として定義される。ある例示実施形態ではβ=0.1と設定される。更新されたチャネル雑音エネルギー推定値はSNR推定器210aに提供される。これらのチャネル雑音エネルギー推定値を用いて、入力信号の次のフレームのチャネルSNR推定更新値を得る。
【0045】
音声の存在に関する決定はチャネル利得推定器220にも提供される。チャネル利得推定器220は利得を決定し、こうして入力信号のフレームに対する雑音抑制レベルを決定する。音声決定成分216が音声の不存在を決定した場合、フレームに対する利得が所定の最低利得レベルに設定される。そうでなければ、利得は周波数の関数として決定される。好ましい実施形態では、利得は図3に示すグラフに基づいて計算される。図3においてグラフで示しているが、図3に示した関数はチャネル利得推定器220においてルップアップ表として実装してもよいことを理解すべきである。
【0046】
図3において、本発明の好ましい実施形態が各々のL周波数バンド(band)のために別々の利得曲線を限定することが解る。図3において3つのバンド(L=3)が表示されているが、Lは1以上のどのような数であってもよい。このように、低バンドのチャネル用の利得係数を低バンド曲線を使用して決定し、中間バンドのチャネル用の利得係数を中間バンド曲線を使用して決定し、高バンドのチャネル用の利得係数を高バンド曲線を使用して決定してもよい。
【0047】
入力信号用の1つだけの利得曲線(L=1)を利用して雑音抑制を実施してもよいが、多数のバンドを使用した場合の方が音声の品質低下が少ないことが見い出されている。道路や風による雑音等の環境的な雑音の場合、雑音信号のエネルギーは低い方の周波数において大きくなり、一般にこのエネルギーは周波数が増大するにつれて減少する。
【0048】
図3において、固定された勾配(slope)とy-インターセプトを備えた直線式を使用して、各々のバンド用の利得係数を決定する。利得係数の決定は以下の関係によって説明することができる:
利得[低バンド](dB)=勾配1*SNR+低バンドy-インターセプト; (4)
利得[中間バンド](dB)=勾配2*SNR+中間バンドy-インターセプ
ト; (5)
利得[高バンド](dB)=勾配3*SNR+高バンドy-インターセプト; (6)
好ましい実施形態は低バンドを125〜375Hzと指定し、中間バンドを375〜2625Hzと指定し、高バンドを2625〜4000Hzと指定する。勾配とy-インターセプトは実験的に決定される。好ましい実施形態は3つのバンドの各々について同じ勾配0.39を使用するが、各々の周波数バンドに対して異なる勾配を使用してもよい。更に、低バンドy-インターセプトは−17dBに設定され、中間バンドy-インターセプトは−13dBに設定され、高バンドy-インターセプトは−13dBに設定される。
【0049】
所望のy-インターセプトを選択するために、任意の特徴が雑音抑制器を備える装置のユーザを提供するであろう。このように、音声劣化を犠牲にして、より多くの雑音抑制(低い方のy-インターセプト)を選んでもよい。あるいは、y-インターセプトは雑音抑制器108によって決定されるある尺度の関数として可変であってもよい。例えば、所定の期間に過度の雑音エネルギーが検出された場合、より多くの雑音抑制(低い方のy-インターセプト)が望ましいかもしれない。あるいは、バブル(babble)等の状態が検出された場合は、少ない雑音抑制(高い方のy-インターセプト)が望ましいかもしれない。バブル状態の間に、背景スピーカが存在し、メインスピーカのカットアウトを防止するために少ない雑音抑制が正当化されるかもしれない。別の任意の特徴が利得曲線の選択可能な勾配を準備するであろう。更に、特定の状況下で利得係数を決定するために式(4)〜(6)によって説明される直線以外の曲線の方が適していることが見い出されるかもしれない。
【0050】
音声を含む各々のフレームに対して、入力信号のM個の周波数チャネルの各々に対して利得係数が決定され、Mは評価すべき所定数のチャネルである。好ましい実施形態では16のチャネル(M=16)を評価する。再び図3において、低バンドの範囲内の周波数成分を有するチャネルに対する利得係数は低バンド曲線を使用して決定される。中間バンドの範囲内の周波数成分を有するチャネルに対する利得係数は中間バンド曲線を使用して決定される。高バンドの範囲内の周波数成分を有するチャネルに対する利得係数は高バンド曲線を使用して決定される。
【0051】
評価される各々のチャネルに対して、チャネルSNRを使用して適切な曲線に基づく利得係数を引き出す。図2において、チャネルSNRはチャネルエネルギー推定器206bと、雑音エネルギー推定器214bとSNR推定器210bによって評価されることが示されている。入力信号の各々のフレームに対して、チャネルエネルギー推定器206bは変換された入力信号のM個のチャネルの各々に対してエネルギー見積りを発生させ、エネルギー見積りをSNR推定器210bに提供する。チャネルエネルギー見積りは上記の式(1)の関係を使用して更新することができる。音声決定成分216によって入力信号内に如何なる音声も存在しないと決定された場合、スイッチ218bが閉じられ、雑音エネルギー推定器214bがチャネル雑音エネルギーの見積りを更新する。M個のチャネルの各々に対して、更新された雑音エネルギー見積りはチャネルエネルギー推定器206bによって決定されるチャネルエネルギー見積りに基づいている。更新された見積りは上記に式(3)の関係を使用して評価することができる。チャネル雑音見積りはSNR推定器210bに提供される。こうして、SNR推定器210bは特定の音声フレームに対するチャネル利得見積りに基づいて各々の音声フレームのためのチャネルSNR見積りを決定し、チャネル雑音エネルギー見積りが雑音エネルギー推定器214bによって提供される。
【0052】
当業者であれば、チャネルエネルギー推定器206aと、雑音エネルギー推定器214aと、スイッチ218aと、SNR推定器210aとが、チャネルエネルギー推定器206bと、雑音エネルギー推定器214bと、スイッチ218bと、SNR推定器210bと同様の機能を各々果たすことを認識するであろう。このように、図2において別々の処理成分として示されているが、チャネルエネルギー推定器206aと206bが1つの処理成分として組み合わされてもよく、雑音エネルギー推定器214aと214bが1つの処理成分として組み合わされてもよく、スイッチ218aと218bが1つの処理成分として組み合わされてもよく、またSNR推定器210aと210bが1つの処理成分として組み合わされてもよい。組み合わされた成分として、チャネルエネルギー推定器は音声検出のために使用されるN個のチャネルと、チャネル利得係数を決定するために使用されるM個のチャネルの両方のためにチャネルエネルギー見積りを決定するであろう。N=Mが可能であることに注意。同様に、雑音エネルギー推定器とSNR推定器はN個のチャネルとM個のチャネルの両方に対して作用するであろう。そしてSNR推定器は音声決定成分216にN個のSNR見積りを提供し、チャネル利得推定器220にM個のSNR見積りを提供する。
【0053】
チャネル利得係数はチャネル利得推定器220によって利得調整器224に提供される。利得調整器224は変換成分204からFFT変換された入力信号を受信する。変換信号の利得はチャネル利得係数に従って適宜調整される。例えば、M=16である上述の実施形態では、16個のチャネルのうち特定のチャネルに属する変換された(FFT)ポイントが適切なチャネル利得係数に基づいて調整される。
【0054】
利得調整器224によって発生される利得調整された信号は次に変換成分226を逆転させるために提供され、好ましい実施形態では変換成分226は信号の逆高速フーリエ変換(IFFT)を発生させる。入力のフレームが重ねられたサンプルで形成されている場合、後工程成分(post processing element)228はオーバーラップのために出力信号を調整する。また後工程成分228は、信号がプレエンファシスを経験した場合、デエンファシス(deemphasis)を実施する。デエンファシスは事前エンファシスの間に強調された周波数成分を減衰させる。事前エンファシス/デエンファシスプロセスは、処理済み周波数成分の範囲外にある雑音成分を減少させることによって、雑音抑制に効果的に貢献する。
【0055】
図2に示した雑音抑制器の様々な処理ブロックをデジタル信号プロセッサ(DSP)またはアプリケーション特有の集積回路(ASIC)内に構成してもよい。本発明の機能性の説明は、当業者は過度の実験を行うことなくDSPまたはASICに本発明を実装することができるであろう。
【0056】
次に図4において、図2と3に関連して説明した処理に含まれるステップの一部を図示するフローチャートが示されている。連続的なステップとして示されているが、当業者であればステップの一部の順序を交換できることを認識するであろう。
【0057】
プロセスはステップ402で始まる。ステップ404において、変換成分204は入力されたオーディオ信号を変換された信号、慨してFFT信号に変換する。ステップ406において、SNR推定器210bはチャネルエネルギー推定器206bによって提供されるチャネルエネルギー見積りと、雑音エネルギー推定器214bによって提供されるチャネル雑音エネルギー見積りに基づいて、入力信号のM個のチャネルに対する音声SNRを決定する。ステップ408において、チャネル利得推定器220がチャネルの周波数に基づいて、入力信号のM個のチャネルに対する利得係数を決定する。チャネル利得推定器220は入力信号のフレームに音声がないことが見い出された場合、利得を最低レベルに設定する。そうでなければ、所定の関数に基づいてM個のチャネルの各々に対する利得係数が決定される。例えば、図3において、固定された勾配とy- インターセプトを備えた直線式によって定義される関数を使用してもよく、その場合各々の直線式が所定の周波数バンドに対する利得を定義する。ステップ410において、利得調整器224がM個の利得係数を使用して、変換された信号のM個のチャネルの利得を調整する。ステップ412において、逆変換成分226が利得調整された変換信号を変換し、雑音抑制されたオーディオ信号を作り出す。
【0058】
ステップ414において、SNR推定器210aがチャネルエネルギー推定器206aによって提供されるチャネルエネルギー見積りと、雑音エネルギー推定器214aによって提供されるチャネル雑音エネルギー見積りに基づいて、入力信号のN個のチャネルに対する音声SNRを決定する。ステップ416において、レート決定エレメント212が入力信号の分析を通して入力信号に対する符号化レートを決定する。あるいは、NACF等の1つ以上のモード尺度を決定してもよい。ステップ418において、音声決定エレメント216はSNR推定器210aによって提供されたSNRと、レート決定要素によって提供されたレート及び/またはモード尺度に基づいて、入力信号に音声が存在するかどうかを決定する。決定ブロック420において、音声が存在しないと決定された場合、入力信号は完全に雑音であると仮定され、ステップ422において雑音エネルギー推定器214aによって雑音見積りが更新される。雑音エネルギー推定器214aはチャネルエネルギー推定器206aによって決定されるチャネルエネルギーに基づいて、雑音見積りを更新する。音声が検出されてもされなくても、手順は入力信号の次のフレームの処理を続ける。
【0059】
好ましい実施形態の前述の説明は、当業者が本発明を利用または使用できるようにするために提供されたものである。これらの実施形態に対する様々な変更は当業者にとっては容易に自明となるであろうし、ここで定義された一般的な原則を発明的な才能を使用しないでも他の実施形態に適用することができる。このように、本発明をここで示した実施形態に制限することは意図しておらず、ここで開示された原則及び新規の特徴と矛盾しない最も幅広い範囲と一致すべきものである。
【図面の簡単な説明】
【図1】 雑音抑制器を利用した通信システムのブロック図である。
【図2】 本発明による雑音抑制器を示すブロック図である。
【図3】 本発明による雑音抑制を実現するための周波数に基づいた利得係数のグラフである。
【図4】 図2の処理用エレメントによって実現されるような雑音抑制に含まれる処理ステップの例示実施形態を示すフローチャートである。[0001]
(Technical field)
The present invention relates to audio processing. More particularly, the present invention relates to a noise suppression system and method used for speech processing.
[0002]
(Background technology)
The transmission of voice by digital techniques has become widely used particularly in application fields such as cellular telephones and personal communication systems (PCS). This has also generated interest in improving speech processing techniques. One area that has been improved is the development of noise suppression techniques.
[0003]
Noise suppression in a voice communication system generally serves the purpose of improving the overall quality of a desired audio signal by filtering environmental background noise from the desired voice signal. This voice enhancement process is particularly necessary in environments with unusually high levels of ambient background noise, such as airplanes, moving vehicles, and noisy factories.
[0004]
One noise suppression technique is spectral subtraction, ie, a technique that modifies the spectral gain. With this scheme, the input audio signal is divided into a plurality of frequency channels, whereby a particular frequency channel is attenuated according to its noise energy content. The background noise estimate for each frequency channel is used to generate a speech signal-to-noise ratio (SNR) on that channel and the SNR ratio is used to calculate the gain factor for each channel. Next, the attenuation amount of a specific channel is determined by this gain coefficient. The attenuated channel is recombined to produce an output signal with reduced noise.
[0005]
In special applications with relatively high background noise environments, most noise suppression techniques have significant performance limitations. One example of such an application field is the option of a vehicle speakerphone for cellular mobile communication systems. This speakerphone option enables hands-free operation for the driver of the automobile. In general, hands-free microphonesFace cheekIt is placed above the (visor) or placed far away from the user. This remote microphone provides poor SNR for the land-end side due to noise conditions such as road and wind. Although speech received at the land end is usually understandable, continuous exposure to such background noise levels often increases listener fatigue.
[0006]
In order for the noise suppression system to function properly, it is important to accurately determine the SNR of the speech. However, due to the limitations of currently available noise detectors, it is difficult to accurately determine the SNR of a speech signal. Spectral subtraction techniques update the background noise estimate during periods when speech is absent. In the absence of speech, the measured spectral energy is due to noise, so the noise estimate is updated based on the measured spectral energy. Therefore, it is important to obtain accurate noise energy for calculating the SNR by distinguishing between the presence period and the absence period of speech.
[0007]
One exemplary technique for speech detection is speechMeasurement(metric) Noise update value judgment is performed using a computer. voiceMeasurementIs a measure of the overall voice-like feature of the channel energy. First, using the raw SNR estimate, speechMeasurementDetermine the table, and thereby the audio for each channelMeasurementGet the value. Individual channel audioMeasurementThe values are summed into an energy parameter that is compared to the background noise update threshold. This voiceMeasurementIf the sum is above this threshold, the signal is said to contain speech. voiceMeasurementIf the sum is less than the threshold, the input frame is considered noise and a background noise update is performed. However, high background noise, sudden background noise,increaseIn the case of a noise source, the SNR measurement value is large, resulting in a voiceMeasurementThe value becomes high, and therefore the noise estimation update value becomes invalid.
[0008]
voiceWeighing calculatorIn a refined technique, the deviation in channel energy is measured. In this method, it is assumed that noise exhibits a constant spectral energy over time, while speech exhibits a variable spectral energy over time. Thus, the channel energy is integrated over time, so that speech is detected when the channel energy deviation is quite large, while noise is detected when there is little channel energy deviation. Voice detectors that measure channel energy deviations can cause sudden noise levelsincreaseIs detected. However, the channel energy deviation method gives inaccurate results when the input speech signal is a constant energy signal. further,increaseIn the case of a noise source, when the input energy changes, the energy deviation increases, so that even if a noise estimation update value is required, it becomes invalid.
[0009]
In addition to an accurate speech detector, the noise suppression system must adjust the channel gain appropriately. The channel gain should be adjusted so that noise is suppressed without sacrificing voice quality. One way to adjust the channel gain is to calculate the gain as a function of the overall noise estimate and the SNR of the speech signal. In general, as the overall noise estimate increases, the gain factor for a given SNR decreases. A low gain coefficient indicates a high attenuation coefficient. This technique imposes a minimum gain value to prevent excessive attenuation of the channel gain when the overall noise estimate is very high. By using a minimum gain value clamped to intensity, a tradeoff between noise suppression and speech quality is derived. When the clamp is relatively low, noise suppression is improved, but speech quality is degraded. If the clamp is relatively high, noise suppression is degraded but speech quality is improved.
[0010]
In order to provide an improved noise suppression system, it is necessary to point out the limitations of current techniques for speech detection and channel gain calculation. These problems and defects are solved by the present invention as described below.
[0011]
(Disclosure of the Invention)
The present invention is a system and method for noise suppression used in speech processing systems. An object of the present invention is to provide a speech detector that determines the presence of speech in an input signal. The signal-to-noise ratio (SNR) of speechaccuratelyA reliable audio detector is required to make the decision. If it is determined that there is no speech, the input signal is entirely a noise signal.AssumptionThe noise energy is measured. Next, the SNR is determined using the noise energy. Another object of the present invention is to provide an improved gain measurement element for suppressing noise.
[0012]
In accordance with the present invention, the noise suppression system includes a speech detector that determines whether speech is present in the frame of the input signal. The presence / absence of voice is determined based on the SNR measure of voice in the input signal. The SNR estimator estimates the SNR based on the signal energy estimate generated by the energy estimator and the noise energy estimate generated by the noise energy estimator. The presence / absence of audio is also determined by the input signal.Encoding rateBased on. In the variable speed communication system, each input frame is determined based on the content of the input frame.rateEncoding selected from setrate(encording rate) can be assigned. In general, thisrateDepends on the level of voice activity, so frames that contain voicerateFor frames that do not contain audiorateIs assigned. Further, the presence / absence determination of speech may be based on one or more mode measures describing characteristics of the input signal. If it is determined that no speech is present in the input frame, the noise energy estimator updates the noise energy estimate.
[0013]
The channel gain estimator determines the gain for the frame of the input signal. If no speech is present in the frame, the gain is set to a predetermined minimum value. If present, the gain is determined based on the frequency content of the frame. In a preferred embodiment, the gain factor is determined for each of the frequency channels that form a predefined set. For each channelGain isDetermined according to the SNR of the voice on that channel. For each channel,Gain isIt is defined using a function suitable for the characteristics of the frequency band in which the channel exists. In general, for a predefined frequency band, the gain is set so that it increases linearly with increasing SNR. In addition, the minimum gain for each frequency band may be adjustable based on environmental characteristics. For example, a user selectable minimum gain can be realized. The channel SNR is based on the channel energy estimate generated by the energy estimator and the channel energy estimate generated by the noise energy estimator. The gain factor is used to adjust the gain of the signals on the various channels and the gain adjusted channels are combined to produce a noise-suppressed output signal.
[0014]
(Best Mode for Carrying Out the Invention)
The features, objects and advantages of the present invention will become apparent from the detailed description set forth below when taken in conjunction with the drawings in which like reference characters identify like elements throughout.
[0015]
In a voice communication system, a noise suppressor is usually used to suppress undesirable environmental background noise. Most noise suppressors operate to estimate the background noise characteristics of the input data signal in one or more frequency bands and subtract the average of this estimate from this input signal. The average background noise estimate is updated during the absence of speech. A noise suppressor must accurately determine the background noise level in order to operate correctly. In addition, the noise suppression level must be adjusted correctly based on the characteristics of the voice and noise of the input signal. These requirements are handled by the noise suppression system of the present invention.
[0016]
An exemplary
[0017]
With continued reference to FIG. 1, an input audio signal containing voice and / or background noise is received by the
[0018]
Subsequent to the processing by the
[0019]
It should be appreciated that the
[0020]
One exemplary embodiment of the
[0021]
These transformed components are fed to channel energy estimator 206a, whereFor each of the N channels of the converted signalGenerate energy estimates. For each channel, one technique for updating the channel energy estimates an updated value that is the current channel energy smoothed with respect to the channel energy of the previous frame as follows:
Eu(t) = αEch+ (1-α) Eu(t-1) (1)
Here, the updated estimated value Eu(t) is the current channel energy EchAnd the previous estimated channel noise energy Eudefined as a function with (t-1).
1). The exemplary embodiment sets α = 0.55.
[0022]
In a preferred embodiment, the energy estimate for the low frequency channel and the energy estimate for the high frequency channel are determined such that N = 2. The low frequency channel corresponds to a frequency range of 250-2250 Hz, while the high frequency channel corresponds to a frequency range of 2250-3500 Hz. The current channel energy of the low frequency channel is determined by summing the energy of the FFT points corresponding to 250-2250 Hz, and the current channel energy of the high frequency channel sums the energy of the FFT points corresponding to 2250-3500 Hz. May be determined by
[0023]
These energy estimates are supplied to the
[0024]
The
[0025]
Frame rate is time frameperiodDetermining the rate will provide information about whether or not there is voice, as it depends on the voice activity in it. In systems utilizing variable rates, a decision that a frame should be encoded at the highest rate generally indicates the presence of speech, while a decision that a frame should be encoded at the lowest rate is generally Indicates absence. Intermediate rates generally indicate transitions between the presence and absence of speech.
[0026]
The
[0027]
Although the
[0028]
It should also be understood that instead of determining the rate to determine the presence of speech, the
[Expression 1]
[0029]
Where N is the number of audio frame samples and t1And t2Evaluates NACFT samplesIt is the inner boundary. NACF is evaluated based on the formant residual signal e (n). The formant frequency is the resonance frequency of speech. The speech signal is filtered using a short-term filter to obtain the formant frequency. A residual signal obtained after filtering by the short term filter is a formant residual signal, and includes long-term speech information of the signal such as a pitch.
[0030]
The NACF mode measure is suitable for determining the presence of speech because the periodicity of the signal that contains the spoken speech is different from the signal that does not contain the spoken speech. Spoken speech tends to be characterized by periodic components. In the absence of spoken speech, the signal generally has no periodic component. Thus, the NACF measure can be a good indicator used by the
[0031]
[0032]
In addition, it should be understood that the
[0033]
The rate determination result (or mode measure) and the SNR estimate generated by the
[0034]
In a preferred embodiment where two channel SNRs are evaluated, the
The channel SNR estimate provided by
[0035]
The
[0036]
If the rate is minimum, chsnr1 is less than T1, and chsnr2 is less than T2,
[0037]
If the rate is not the minimum value, the
[0038]
It should be recalled that instead of using rate measures to determine the presence of speech, mode measures such as NACF measures can be used. The
If ((if pitch Present == FALSE)
If ((chsnr1> TH1) or (chsnr2> TH2)
If (pitchCount> TH3)
Update noise estimates
Otherwise
pitchCount ++
Otherwise
Update noise estimates
pitchCount = 0
Otherwise
pitchCount = 0
Where pitchPresent is defined as:
If (NACF> TT1)
pitchPresent = Truth (TRUE)
NACF Nucount = 0
Otherwise (TT2 ≦ NACF ≦ TT1)
If (NACFCOUNT> TT3)
pitchPresent = truth
Otherwise
pitchPresent = Fake
NACFCOUNT ++
Otherwise
pitchPresent = False
NACFCOUNT = 0
againThe channel SNR estimation values supplied by the
[0039]
The scale pitchPresent determines that there is a pitch if the NACF is greater than the threshold value TT1. Even when the NACF is in the intermediate range (TT2 ≦ NCF ≦ TT1) for a plurality of frames larger than the threshold value TT3, it is determined that a pitch exists. Counter, NACFcount is
[Expression 2]
[0040]
Keep track of the number of frames that hold. In a preferred embodiment, 10 ms frames are evaluated, TT1 = 0.6, TT2 = 0.4, TT3 = 8 frames.
[0041]
The
[0042]
If pitchPresent indicates that no pitch is present and chsnr1 is less than TH1 or chsnr2 is less than TH2,
[0043]
If pitchPresent indicates that a pitch is present (pitchPresent = true),
[0044]
If it is determined that no speech is present, the
En(t) = βEch + (1-β) En(t-1), (3)
Here, the updated estimated value En(t) is the current channel energy EchAnd the previous estimated channel noise energy EnIt is defined as a function of (t-1). In an exemplary embodiment, β = 0.1 is set. The updated channel noise energy estimate is provided to
[0045]
A decision regarding the presence of speech is also provided to the
[0046]
In FIG. 3, it can be seen that the preferred embodiment of the present invention limits a separate gain curve for each L frequency band. Although three bands (L = 3) are displayed in FIG. 3, L may be any number of 1 or more. Thus, the gain factor for the low band channel is determined using the low band curve, the gain factor for the intermediate band channel is determined using the intermediate band curve, and the gain factor for the high band channel. May be determined using a high band curve.
[0047]
Noise suppression may be performed using only one gain curve (L = 1) for the input signal, but it has been found that there are fewer voice quality degradations when multiple bands are used. Yes. In the case of environmental noise such as road and wind noise, the energy of the noise signal increases at lower frequencies, and generally this energy decreases as the frequency increases.
[0048]
In FIG. 3, fixedSlopeA linear equation with (slope) and y-intercept is used to determine the gain factor for each band. The determination of the gain factor can be explained by the following relationship:
Gain [low band] (dB) =Slope1 * SNR + low band y-intercept; (4)
Gain [middle band] (dB) =Slope2 * SNR + intermediate band y-intercept
(5)
Gain [high band] (dB) =Slope3 * SNR + high band y-intercept; (6)
The preferred embodiment designates the low band as 125-375 Hz, the intermediate band as 375-2625 Hz, and the high band as 2625-4000 Hz.SlopeAnd y-intercept are determined experimentally. The preferred embodiment is the same for each of the three bandsSlopeUse 0.39, but different for each frequency bandSlopeMay be used. Further, the low band y-intercept is set to -17 dB, the middle band y-intercept is set to -13 dB, and the high band y-intercept is set to -13 dB.
[0049]
In order to select the desired y-intercept, any feature will provide the user of the device with a noise suppressor. Thus, more noise suppression (lower y-intercept) may be selected at the expense of speech degradation. Alternatively, the y-intercept is determined by the noise suppressor 108ScaleThe function may be variable. For example, if excessive noise energy is detected in a given period, more noise suppression (lower y-intercept) may be desirable. Or bubble(babble)If such a condition is detected, less noise suppression (higher y-intercept) may be desirable. During the bubble state,backgroundThere may be speakers, and less noise suppression may be justified to prevent cut-out of the main speaker. Another optional feature is selectable gain curveSlopeWould prepare. Furthermore, it may be found that curves other than the straight lines described by equations (4)-(6) are more suitable for determining the gain factor under certain circumstances.
[0050]
For each frame containing speech, a gain factor is determined for each of the M frequency channels of the input signal, where M is a predetermined number of channels to be evaluated. In the preferred embodiment, 16 channels (M = 16) are evaluated. Referring again to FIG. 3, the gain factor for channels having frequency components within the low band range is determined using a low band curve. The gain factor for channels having frequency components within the midband is determined using the midband curve. The gain factor for channels having frequency components in the high band range is determined using a high band curve.
[0051]
For each channel evaluated, the channel SNR is used to derive a gain factor based on the appropriate curve. In FIG. 2, it is shown that the channel SNR is evaluated by the channel energy estimator 206b, the
[0052]
A person skilled in the art would have a channel energy estimator 206a, a noise energy estimator 214a, a
[0053]
The channel gain factor is provided to gain
[0054]
The gain adjusted signal generated by
[0055]
The various processing blocks of the noise suppressor shown in FIG. 2 may be configured in a digital signal processor (DSP) or application specific integrated circuit (ASIC). Functionality of the present inventionofExplanationIsThose skilled in the art will be able to implement the present invention in a DSP or ASIC without undue experimentation..
[0056]
Referring now to FIG. 4, a flowchart illustrating some of the steps included in the processing described in connection with FIGS. 2 and 3 is shown. Although shown as sequential steps, one skilled in the art will recognize that the order of some of the steps can be interchanged.
[0057]
The process begins at
[0058]
In
[0059]
The previous description of the preferred embodiments is provided to enable any person skilled in the art to make or use the present invention. Various modifications to these embodiments will be readily apparent to those skilled in the art, and the general principles defined herein may be applied to other embodiments without using inventive talents. . Thus, it is not intended that the invention be limited to the embodiments shown herein, but should be accorded the widest scope consistent with the principles and novel features disclosed herein.
[Brief description of the drawings]
FIG. 1 is a communication system using a noise suppressor.ofIt is a block diagram.
FIG. 2 according to the inventionNoise suppressorFIG.
FIG. 3 is a graph of a gain coefficient based on a frequency for realizing noise suppression according to the present invention.
4 for noise suppression as realized by the processing element of FIG.included6 is a flowchart illustrating an exemplary embodiment of processing steps.
Claims (32)
前記オーディオ信号の予め定められた第1の周波数チャネルに対するチャネル 信号対雑音比(SNR)推定値を形成する信号対雑音比(SNR)推定器(210b); A signal to noise ratio (SNR) estimator (210b) that forms a channel signal to noise ratio (SNR) estimate for a predetermined first frequency channel of the audio signal;
前記複数のチャネルSNR推定値の対応するひとつに基づいて前記各周波数チャネルに対する利得係数を形成する利得推定器(220)、前記利得係数は、SNRの増加関数として利得係数を定義する利得関数を用いて導き出される; A gain estimator (220) that forms a gain factor for each frequency channel based on a corresponding one of the plurality of channel SNR estimates, wherein the gain factor uses a gain function that defines the gain factor as an increasing function of SNR Derived from;
対応する前記利得係数に基づき前記周波数チャネルごとの利得レベルを調整する利得調整器(224);および A gain adjuster (224) for adjusting a gain level for each frequency channel based on the corresponding gain factor; and
前記オーディオ信号中の音声の存在を決定する音声検出器(208)、 A speech detector (208) for determining the presence of speech in the audio signal;
ここで、音声検出器(208)は前記オーディオ信号の複数の周波数 Here, the sound detector (208) has a plurality of frequencies of the audio signal.
チャネルの予め定められた第2の集合に対するSNR推定値に従って、 According to the SNR estimate for a predetermined second set of channels,
及び as well as
a)a) オーディオ信号に対する符号化レートの集合の符号化レート、The coding rate of a set of coding rates for the audio signal,
b)b) オーディオ信号を特徴付ける少なくともAt least characterizing the audio signal 11 つのモード尺度、One mode measure,
のいずれかに従って、音声の存在を決定する音声決定エレメント A voice decision element that determines the presence of voice according to
(216)を具備する、 (216)
を備える上記雑音抑制器。The noise suppressor comprising:
をさらに具備する請求項1〜12のいずれかの雑音抑制器。 The noise suppressor according to claim 1, further comprising:
音声の存在を決定するための手段が音声が存在することを決定する場合、前記周波数チャネルの各々に対する利得係数を決定するための手段、ここにおいて、利得係数は複数の周波数バンドの集合の各々に対して、及び各前記周波数バンドに対して定義される、チャネル利得係数は、前記周波数チャネルの各々に対して、周波数チャネルが含まれる範囲を有する周波数バンドに対する利得関数に基づいて決定されるように、利得係数は増加するSNRとともに増加するように定義される。 If the means for determining the presence of speech determines that speech is present, means for determining a gain factor for each of the frequency channels, wherein the gain factor is in each of a set of multiple frequency bands And, for each of the frequency channels, the channel gain factor, as defined for each frequency band, is determined based on a gain function for the frequency band having a range in which the frequency channel is included. , The gain factor is defined to increase with increasing SNR.
前記利得調整された周波数表示を逆変換して、雑音を抑制したオーディオ信号を形成するための手段、 Means for inversely transforming the gain-adjusted frequency display to form an audio signal with reduced noise;
をさらに具備する上記請求項1〜15のいずれかの雑音抑制器(108)。 The noise suppressor (108) of any of the preceding claims, further comprising:
オーディオ信号の複数の周波数チャネルの第 The number of multiple frequency channels of the audio signal 11 の所定の集合に対するチャネルSNR推定値を形成する、Form channel SNR estimates for a given set of
前記複数のチャネルSNR推定値の対応する Corresponding to the plurality of channel SNR estimates 11 つに基づいて前記周波数チャネルの各々に対する利得係数を形成する、ここで、前記利得係数は、SNRの増加関数として利得係数を定義する利得関数を使用して導きだされる、Forming a gain factor for each of the frequency channels based on one, wherein the gain factor is derived using a gain function that defines the gain factor as an increasing function of SNR,
前記対応する利得係数に基づいて前記周波数チャネルの各々の利得レベルを調整する、および Adjusting the gain level of each of the frequency channels based on the corresponding gain factor; and
前記オーディオ信号中に音声の存在を決定する、ここにおいて、 Determining the presence of speech in the audio signal, wherein:
音声の存在は、前記オーディオ信号の複数の周波数チャネルの第2の所定の集合に対するSNRに従って、及びThe presence of speech is according to the SNR for a second predetermined set of frequency channels of the audio signal, and
a)該オーディオ信号に対する複数の符号化レートの集合の符号化 a) Coding a set of a plurality of coding rates for the audio signal
レート、 rate,
b)該オーディオ信号を特徴付ける少なくとも b) at least characterizing the audio signal 11 つのモード尺度、One mode measure,
のいずれかに従って、決定される。It is determined according to either
の工程をさらに具備する請求項17〜27のいずれかの方法。The method according to any one of claims 17 to 27, further comprising:
前記利得調整された周波数表示を逆変換して、雑音抑制されたオーディオ信号を形成する、 Inverse transforming the gain adjusted frequency representation to form a noise-suppressed audio signal;
の工程をさらに具備する請求項17〜28のいずれかの方法。 The method according to any one of claims 17 to 28, further comprising:
音声が前記オーディオ信号中に存在することが決定される場合、前記周波数チャネルの各々に対する利得係数を決定する、ここで、利得係数は複数の周波数バンドの集合の各々に対して、及び前記周波数バンドに対して、定義される、ここで、前記複数の周波数チャネルの各々に対して、チャネル利得係数が、周波数チャネルを含む範囲を有する周波数バンドに対する利得関数に基づいて決定されるように、利得は増加するSNRとともに増加するように定義される、 If it is determined that speech is present in the audio signal, a gain factor for each of the frequency channels is determined, wherein the gain factor is for each of a set of frequency bands and the frequency band. Where, for each of the plurality of frequency channels, the gain is such that a channel gain factor is determined based on a gain function for a frequency band having a range that includes the frequency channel. Defined to increase with increasing SNR,
の工程を具備する、請求項17〜29のいずれかの方法。 The method in any one of Claims 17-29 which comprises the process of these.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/921,492 US6122384A (en) | 1997-09-02 | 1997-09-02 | Noise suppression system and method |
| US08/921,492 | 1997-09-02 | ||
| PCT/US1997/017656 WO1999012155A1 (en) | 1997-09-30 | 1997-09-30 | Channel gain modification system and method for noise reduction in voice communication |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2003526109A JP2003526109A (en) | 2003-09-02 |
| JP2003526109A5 JP2003526109A5 (en) | 2006-02-09 |
| JP4194749B2 true JP4194749B2 (en) | 2008-12-10 |
Family
ID=56289795
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000509079A Expired - Fee Related JP4194749B2 (en) | 1997-09-02 | 1997-09-30 | Channel gain correction system and noise reduction method in voice communication |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP1010169B1 (en) |
| JP (1) | JP4194749B2 (en) |
| DE (1) | DE69736198T2 (en) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001318694A (en) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | Signal processing device, signal processing method and recording medium |
| JP4580508B2 (en) * | 2000-05-31 | 2010-11-17 | 株式会社東芝 | Signal processing apparatus and communication apparatus |
| JP5131149B2 (en) * | 2008-10-24 | 2013-01-30 | ヤマハ株式会社 | Noise suppression device and noise suppression method |
| US11223340B2 (en) * | 2018-10-24 | 2022-01-11 | Gracenote, Inc. | Methods and apparatus to adjust audio playback settings |
| US11322127B2 (en) * | 2019-07-17 | 2022-05-03 | Silencer Devices, LLC. | Noise cancellation with improved frequency resolution |
| CN114783453B (en) * | 2022-03-18 | 2025-05-02 | 深圳市声扬科技有限公司 | Speech enhancement method, device, computer equipment and storage medium |
-
1997
- 1997-09-30 JP JP2000509079A patent/JP4194749B2/en not_active Expired - Fee Related
- 1997-09-30 EP EP97945400A patent/EP1010169B1/en not_active Expired - Lifetime
- 1997-09-30 DE DE69736198T patent/DE69736198T2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP1010169B1 (en) | 2006-06-21 |
| DE69736198T2 (en) | 2007-05-03 |
| EP1010169A1 (en) | 2000-06-21 |
| DE69736198D1 (en) | 2006-08-03 |
| JP2003526109A (en) | 2003-09-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6122384A (en) | Noise suppression system and method | |
| US6233549B1 (en) | Low frequency spectral enhancement system and method | |
| US5544250A (en) | Noise suppression system and method therefor | |
| US9646621B2 (en) | Voice detector and a method for suppressing sub-bands in a voice detector | |
| US7555075B2 (en) | Adjustable noise suppression system | |
| US9502048B2 (en) | Adaptively reducing noise to limit speech distortion | |
| US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
| CN102804260B (en) | Audio signal processing device and audio signal processing method | |
| US7912729B2 (en) | High-frequency bandwidth extension in the time domain | |
| JP4520732B2 (en) | Noise reduction apparatus and reduction method | |
| US20070232257A1 (en) | Noise suppressor | |
| US20050108004A1 (en) | Voice activity detector based on spectral flatness of input signal | |
| WO2008121436A1 (en) | Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate | |
| US5666429A (en) | Energy estimator and method therefor | |
| JP4836720B2 (en) | Noise suppressor | |
| JP4194749B2 (en) | Channel gain correction system and noise reduction method in voice communication | |
| WO1999012155A1 (en) | Channel gain modification system and method for noise reduction in voice communication | |
| US20030065509A1 (en) | Method for improving noise reduction in speech transmission in communication systems | |
| HK1034136A1 (en) | Channel gain modification system and method for noise reduction in voice communication | |
| HK1034136B (en) | Channel gain modification system and method for noise reduction in voice communication | |
| HK1037418A (en) | Channel gain modification system and method for noise reduction in voice communication | |
| JP2003517761A (en) | Method and apparatus for suppressing acoustic background noise in a communication system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040929 |
|
| A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20050414 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050415 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070206 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080924 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |