JP4448424B2 - Voice switch method, apparatus for implementing the method, program, and recording medium therefor - Google Patents
Voice switch method, apparatus for implementing the method, program, and recording medium therefor Download PDFInfo
- Publication number
- JP4448424B2 JP4448424B2 JP2004309640A JP2004309640A JP4448424B2 JP 4448424 B2 JP4448424 B2 JP 4448424B2 JP 2004309640 A JP2004309640 A JP 2004309640A JP 2004309640 A JP2004309640 A JP 2004309640A JP 4448424 B2 JP4448424 B2 JP 4448424B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- echo
- short
- collected sound
- voice switch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Description
この発明は、例えば多チャネル音響再生系を有する通信会議システムに適用され、ハウリングの原因及び聴覚上の障害となる音響エコーを抑圧する多チャネル反響抑圧方法、その装置、そのプログラム及びその記録媒体に関するものである。
BACKGROUND OF THE
近年のディジタルネットワークの大容量化により、複数の人が容易に参加でき、より自然な通話環境を提供できる多チャネル拡声型の通信会議システムが検討されている。このシステムでは、受話音声がスピーカから再生されマイクロホンに収音されて音響エコーが生じ、そのまま送信されると通話の障害や不快感などの問題が生じる。さらに対地の拡声通信系を含めて形成される閉ループのループゲインが1より大きい場合には、ハウリングが生じて通話が不可能になる。このような問題を解決するために多チャネル拡声通話に対応した音声スイッチが特開2004−147069号公報(特許文献1)に提案されている。 With the recent increase in capacity of digital networks, a multi-channel loudspeaker type teleconferencing system that allows a plurality of people to easily participate and provide a more natural calling environment has been studied. In this system, the received voice is reproduced from the speaker and picked up by the microphone to generate an acoustic echo. If the received voice is transmitted as it is, problems such as a call failure and discomfort arise. Furthermore, when the loop gain of a closed loop formed including a grounded voice communication system is larger than 1, howling occurs and a call cannot be made. In order to solve such a problem, Japanese Patent Application Laid-Open No. 2004-147069 (Patent Document 1) proposes a voice switch that supports multi-channel loudspeaking calls.
M(≧2)チャネルの再生系と2チャネルの収音系とで構成される通信会議システムは、図1に示すような構成により音響エコーの抑圧を行う。すなわち各受話端子1m(m=1,…,M)からの受話信号は再生信号として各スピーカ2m(m=1,…,M)に送られ、音響信号として再生され、各M個の音響エコー経路を経て各マイクロホン3n(n=1,…,N)に回り込む。音声スイッチは、送話判定部5、送話音声パワー推定部61,62、受話信号を減衰させるための可変損失部7、マイクロホンからの収音信号を減衰させるための可変損失部8からなる。送話音声パワー推定部61,62では、Mチャネルスピーカ再生信号と1チャネルの収音信号から、収音信号に含まれる送話音声の信号パワーを推定する。送話判定部5では、2チャネル分の送話音声の信号パワーから送話の有無を検出し、送話音声があると判断されたときは受話側の可変損失部7により受話信号のみを減衰させてスピーカへの再生信号とする。送話音声がないと判断されたときは、送話端子4から送信される送話信号のみを可変損失部8により減衰させる。これによりエコーを小さくし、対地を含めて形成される閉ループのループゲインを低減させることで、ハウリングを防止する。なお、収音系がNチャネルの場合には、送話音声パワー推定部6をN個並列に並べることになる。
A communication conference system including an M (≧ 2) channel reproduction system and a two-channel sound collection system performs acoustic echo suppression with the configuration shown in FIG. That is, the reception signal from each reception terminal 1 m (m = 1,..., M) is sent as a reproduction signal to each speaker 2 m (m = 1,..., M) and reproduced as an acoustic signal. It goes around each microphone 3 n (n = 1,..., N) through an acoustic echo path. The voice switch includes a
送話音声パワー推定部6では、TF変換部61m(m=1,…,M)にて時間領域の再生信号x1(k),…,xM(k)(ただし、kは時間を示す変数。)を、フレーム長2Lサンプルで、Lサンプルごとにフレーム化し、周波数領域に変換してスペクトルX1(j,f),…,XM(j,f)(ただし、jはフレームの時刻を示す変数)を求める。TF変換部62では、時間領域の収音信号y(k)を周波数領域に変換してスペクトルY(j,f)を求める。Lサンプルごとの信号のサンプル時刻kとフレーム時刻jの関係を図9に示す。エコー成分比率推定部63では、周波数成分ごとに収音信号に占めるエコー成分の比率を求め、信号パワー算出部で収音信号に含まれる非エコー成分の信号パワーを求める。
In the transmission voice power estimating unit 6, TF conversion unit 61 m (m = 1, ... , M) the reproduced
エコー成分比率推定部63の構成を図2に示す。相関除去部631では、多チャネル再生信号のスペクトルX1(j,f),…,XM(j,f)から互いに相関のない多チャネルのスペクトルX1(j,f),X2(1)(j,f),…,XM(M−1)(j,f)を求める。相関除去部632では、収音信号のスペクトルY(j,f)から第1〜第m−1チャネル再生信号の相関成分を除去したスペクトルY(m―1)(j,f)(m=2,…,M)を求める。コヒーレンス算出部633では、コヒーレンス算出部6331で第1チャネルの再生信号X1(j,f)と収音信号Y(j,f)のコヒーレンスγ1y 2(j,f)を、コヒーレンス算出部633mで第mチャネルの再生信号Xm(m−1)(j,f)とY(m−1)(j,f)(m=2,…,M)のコヒーレンスγmy(m−1) 2(j,f)を求める。エコー成分比率算出部634では、次式によりエコー成分比率γ2(j,f)を求める。
上記従来法では、収音信号は一定のフレーム長でフレーム化され、FFTにより周波数領域に変換され、送話検出処理、可変損失処理を経て送信される。この方法では、送話音声信号はフレーム長分バッファリングされ、処理されてから送信されるので、ハードウェアの処理能力には関係なく、フレーム長によって決まるアルゴリズム上の遅延(処理遅延)が存在する。この遅延が大きい場合には通話系として非常に離しづらくなってしまうため、フレーム長を短くして処理遅延を抑える必要がある。
しかし、スピーカから再生されてマイクロホンに収音されるまでにフレーム長以上遅延するエコー成分は、非エコー成分として扱われることが問題となる。したがって、フレーム長を残響時間(通常の部屋で300ms程度)よりも大幅に短く設定した場合、エコー成分比率が小さめに設定されたり、エコー成分の推定値が揺らいだりするために、エコー成分比率の推定性能が劣化し、送話検出性能が劣化してしまう。
In the above-described conventional method, the collected sound signal is framed with a fixed frame length, converted into the frequency domain by FFT, and transmitted through transmission detection processing and variable loss processing. In this method, the transmission voice signal is buffered for the frame length, processed, and then transmitted. Therefore, there is an algorithmic delay (processing delay) determined by the frame length regardless of the processing capability of the hardware. . When this delay is large, it is very difficult to separate as a call system, so it is necessary to reduce the processing delay by shortening the frame length.
However, there is a problem that an echo component that is delayed from the frame length by the time it is reproduced from the speaker and collected by the microphone is treated as a non-echo component. Therefore, when the frame length is set to be significantly shorter than the reverberation time (about 300 ms in a normal room), the echo component ratio is set smaller, or the estimated value of the echo component fluctuates. The estimation performance deteriorates, and the transmission detection performance deteriorates.
この発明では、収音信号の短時間スペクトルY(j,f)に含まれるエコー成分の比率を、現時点の多チャネル再生信号フレームから求めた短時間スペクトルX1(j,f),…,XM(j,f)だけでなく、過去の再生信号フレームから求めた短時間スペクトルも一緒に使用して推定する方法を提案する。
この発明では更に、多チャネル再生信号の現時点のフレームと過去のフレームとを、現時点のフレームの第1チャネル再生信号からなる主成分および主成分との相関が除去されたその他のフレームからなる副成分に分け、主成分のエコーが収音信号に占める割合を求め、副成分のエコーが主成分との相関を除去した収音信号に占める割合を求め、これら2つの割合から収音信号に占める多チャネル再生信号のエコー成分比率を推定する方法を提案する。
In the present invention, the ratio of echo components included in the short-time spectrum Y (j, f) of the collected sound signal is determined from the short-time spectrum X 1 (j, f),. A method is proposed for estimation using not only M (j, f) but also a short-time spectrum obtained from a past reproduction signal frame.
In the present invention, the current frame and the past frame of the multi-channel reproduction signal are further divided into the main component consisting of the first channel reproduction signal of the current frame and the sub-component consisting of other frames from which the correlation with the main component has been removed. The ratio of the main component echo to the collected sound signal is obtained, and the ratio of the sub component echo to the collected sound signal from which the correlation with the main component is removed is obtained. A method for estimating the echo component ratio of the channel reproduction signal is proposed.
この方法により、過去の信号フレームをエコー成分比率の推定に取り込むことができ、フレーム長が残響時間よりも大幅に短く設定された場合でもエコー成分比率の推定性能劣化を回避し、エコー抑圧性能の劣化を防ぐことができる。 With this method, past signal frames can be taken into the estimation of the echo component ratio, and even when the frame length is set to be much shorter than the reverberation time, the estimation performance of the echo component ratio is avoided and the echo suppression performance is improved. Deterioration can be prevented.
以下にこの発明の実施形態を図面を参照しながら説明するが、各図中の対応する部分は同一参照番号を付けて重複説明を省略する。
[第1実施形態]
この発明をM(≧2)チャネル再生系とN(≧1)チャネル収音系からなる場合について説明する。収音系のNチャネルに対しては、M入力1出力の送信音声パワー推定部をN個並列に並べることで、Nチャネルの収音系に対応する。この発明では、図2に内部構成を示している図1の送信音声パワー推定部6中のエコー成分比率推定部63を、図4に内部構造が示されているエコー成分比率推定部66に置き換える。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below with reference to the drawings. Corresponding portions in the respective drawings are given the same reference numerals, and redundant description is omitted.
[First Embodiment]
The present invention will be described in the case of an M (≧ 2) channel reproduction system and an N (≧ 1) channel sound collection system. For the N channel of the sound collection system, N transmission audio power estimators with M inputs and one output are arranged in parallel to correspond to the N channel sound collection system. In the present invention, the echo component
以下では、フレーム長を2Lサンプル、シフト長をLサンプル、フレーム時刻をjとする。フレーム時刻jの信号フレームは、サンプル時刻k=jL−2L+1〜jLの信号サンプルからなる。このときの信号のサンプル時刻kとフレーム時刻jの関係は図9のようになる。また、過去の再生信号フレームから求めたスペクトルとして、1フレーム前の短時間スペクトルX1(j−1,f),…,XM(j−1,f)を使用する例を説明する。
図1のTF変換部61m(m=1,…,M)において、各チャネルの時間領域の再生信号xm(k)をLサンプル毎に長さ2Lの信号ベクトルにフレーム化し、FFTを使って短時間スペクトルに変換する。
この処理では、各信号をハニング窓等でウインドウ処理してから周波数変換してもよい。
In the following, it is assumed that the frame length is 2L samples, the shift length is L samples, and the frame time is j. The signal frame at frame time j is composed of signal samples at sample times k = jL−2L + 1 to jL. The relationship between the signal sampling time k and the frame time j at this time is as shown in FIG. An example in which the short-time spectrum X 1 (j−1, f),..., X M (j−1, f) one frame before is used as the spectrum obtained from the past reproduction signal frame will be described.
In the TF converter 61 m (m = 1,..., M) in FIG. 1, the time domain reproduction signal x m (k) of each channel is framed into a signal vector having a length of 2 L for each L sample, and FFT is used. For a short time.
In this processing, each signal may be subjected to frequency conversion after being windowed by a Hanning window or the like.
また、TF変換部62において、収音信号y(k)を周波数領域に変換し、短時間スペクトルをえる。
図4に内部構造が示されているエコー成分比率推定部66において以下のステップF1〜7により、周波数領域の多チャネル再生信号Xm(j,f)と周波数領域の収音信号Y(j,f)から、周波数成分ごとに収音信号に含まれるエコー成分の比率を求める。図5にエコー成分比率を推定するためのフローを示す。
Further, the
In the echo component
ステップF1
現時点のフレームから求めた多チャネル再生信号の短時間スペクトルX1(j,f),…,XM(j,f)を図4の相関除去部661内の蓄積部661a1に保存する。
ステップF2
相関除去部661b1では、例えば次式の方法で多チャネル再生信号の短時間スペクトルX2(j,f),…,XM(j,f)からX1(j,f)との相関成分を除去して、スペクトルX2(1)(j,f),…,XM(1)(j,f)を得、多チャネル再生信号スペクトルの副成分の一部とする。
ここで、ε[]は、平均をとることを意味し、平均処理の一例としては、
のように、1フレーム前の処理結果と0〜1の値をとる平滑化定数βを用いる方法がある。
Step F1
The short-time spectrum X 1 (j, f),..., X M (j, f) of the multi-channel reproduction signal obtained from the current frame is stored in the accumulation unit 661a1 in the correlation removal unit 661 in FIG.
Step F2
The decorrelation unit 661B1, for example, short-
Here, ε [] means taking an average, and as an example of the averaging process,
As described above, there is a method using a processing result of one frame before and a smoothing constant β that takes a value of 0 to 1.
ステップF3
相関除去部661b2において、蓄積部661a2に蓄積された1フレーム前の多チャネル再生信号のスペクトルX1(j−1,f),…,XM(j−1,f)から、X1(j,f)との相関を次のように除去したスペクトルX1(1)(j−1,f),…,XM(1)(j−1,f)を求め、多チャネル再生信号スペクトルの副成分の一部とする。
なお、nフレーム前の短時間スペクトルX1(j−n,f),…,XM(j−n,f)をエコー成分比率推定に使用する場合にも、同様の計算により得られた結果を多チャネル再生信号スペクトルの副成分の一部とすればよい。
Step F3
In decorrelation unit 661B2, the
Incidentally, n frames before short-time spectrum X 1 (j-n, f ), ..., X M (j-n, f) in the case of using the echo component ratio estimation results obtained by the similar calculation May be a part of the sub-component of the multi-channel reproduction signal spectrum.
ステップF4
相関除去部662では、現時点のフレームの収音信号の短時間スペクトルY(j,f)からX1(j,f)との相関成分を除去したスペクトルY(1)(j,f)を求める。
The correlation removal unit 662 obtains a spectrum Y (1) (j, f) obtained by removing the correlation component with X 1 (j, f) from the short-time spectrum Y (j, f) of the sound collection signal of the current frame. .
ステップF5
コヒーレンス算出部6631では、多チャネル再生信号スペクトルの主成分である現時点のフレームの第1チャネル再生信号の短時間スペクトルX1(j,f)と現時点の収音信号のスペクトルY(j,f)から、次のコヒーレンスを求める。
In the
ステップF6
副成分エコー比率算出部6632では、まず相関除去された収音信号スペクトルY(1)(j,f)に含まれるエコー成分Y^(1)(j,f)を求める。エコー成分Y^(1)(j,f)は、多チャネル再生信号短時間スペクトルの副成分X2(1)(j,f),…,XM(1)(j,f),X1(1)(j−1,f),…,XM(1)(j−1,f)の線形和
|Y(1)(j,f)−Y^(1)(j,f)|2
が最小となるスペクトルである。この誤差を最小にするスペクトルは、
The sub-component echo
Is the spectrum with the minimum. The spectrum that minimizes this error is
ステップF7
エコー成分比率算出部664において、ステップF5、F6で求めた各比率から、収音信号スペクトルY(j,f)に占めるエコー成分の比率を求める。
In the echo component
図1のパワー算出部64では、まず周波数成分ごとにエコー成分比率から非エコー信号パワー
送話判定部5では、上記非エコー信号パワーPYIを閾値Pthと比較して送話の有無を判定する。送話ありと判定したとき、受話側可変損失部7により受話信号を減衰させる。また、送話なしと判定したとき、送話側可変損失部8により収音信号を減衰させる。閾値Pthの設定法としては、例えばマイクロホンの入力定格レベルの−15dBに設定する等が考えられる。
In the
The
さらに、Mスピーカ・Nマイクロホン構成を取る場合には、N個の送話信号パワー推定部6によりマイクロホンごとに収音信号に含まれる送話信号のパワーを推定し、Nチャネル分の情報から送話の有無を判定する。その判定法として以下の例がある。
(1)各チャネルについて送話信号パワーを閾値Pthとを比較する。
(2)閾値Pthより信号パワーの大きいチャネルの数が、あらかじめ設定した閾値Nthを越えるときに送話ありと判定する。
(3)それ以外のときには送話なしと判定する。
Further, when the M speaker / N microphone configuration is adopted, the power of the transmission signal included in the collected sound signal is estimated for each microphone by the N transmission signal power estimation units 6, and is transmitted from the information for N channels. Determine if there is a talk. Examples of the determination method include the following.
(1) The transmission signal power is compared with the threshold value P th for each channel.
(2) The number of large channel signal power than the threshold P th is located transmission when exceeding the threshold value N th set in advance and judges.
(3) Otherwise, it is determined that there is no transmission.
なお、送話判定に使用した信号フレームに減衰処理を適用するために、送信側可変損失部8の前段に送話判定での遅延に相当する遅延器を挿入する構成も考えられる。
現時点のフレームの処理が終了すると、最後に現時点の蓄積部661a1に蓄積された再生信号情報は過去の蓄積部661a2に転送され、蓄積される。
なお、蓄積部661a内で現時点の蓄積部661a1と過去の蓄積部661a2とを特に区別し、上記のように一連の処理の最後に現時点の蓄積部661a1に蓄積された再生信号情報を過去の蓄積部661a2に転送するのではなく、1つの蓄積部661aに蓄積された情報の中で最新情報を現時点の情報として処理する方法もある。また、図6に示すように処理に利用する現時点の再生信号のスペクトルを、蓄積部から取り出すのではなく、入力された再生信号のスペクトルを直接利用する方法もある。
In addition, in order to apply attenuation processing to the signal frame used for transmission determination, a configuration in which a delay device corresponding to the delay in transmission determination is inserted before the transmission-side
When the processing of the current frame is completed, the reproduction signal information stored last in the current storage unit 661a1 is transferred to the past storage unit 661a2 and stored.
Note that the current storage unit 661a1 and the past storage unit 661a2 are particularly distinguished in the
[第2実施形態]
この発明は、音声スイッチ方法と適応フィルタによる音響エコー消去方法とを組み合わせたものであり、その構成例を図7に示す。
受話側の可変損失部7m(m=1,…,M)を経たMチャネル受話信号は、スピーカ2mで音響信号として再生され、音響エコー経路を経てマイクロホン3に回り込む。同時に音響エコー消去部9の予測エコー生成部91に入力される。減算器92によってマイクロホン3からの収音信号y(k)から予測エコー信号が差し引かれ、その残差信号がエコー経路推定部93にフィードバックされると同時に送話側可変損失部8を経て対地へ送信される。送話判定部5と送話音声パワー推定部6では、第1実施形態と同様に送話の有無を判定し、受話側および送話側の可変損失部を制御する。
[Second Embodiment]
The present invention is a combination of a voice switch method and an acoustic echo cancellation method using an adaptive filter, and a configuration example thereof is shown in FIG.
The M channel received signal that has passed through the variable loss section 7 m (m = 1,..., M) on the receiving side is reproduced as an acoustic signal by the
この構成では、エコー消去処理を経た信号が送信される。そのため受話音声と送話音声が重なるダブルトーク状況においても、収音信号に含まれる受話エコー成分を大幅に低減でき、拡声通話の品質を向上できる。
なお、図7はM(≧2)チャネル再生系と2チャネル収音系からなる場合を説明したが、収音系がN(≧3)チャネルの場合にも同様の構成と処理により音声スイッチと適応フィルタによるエコー消去とを組み合わせることが可能である。
In this configuration, a signal that has undergone echo cancellation processing is transmitted. Therefore, even in a double talk situation in which the received voice and the transmitted voice overlap, the received echo component included in the collected sound signal can be greatly reduced, and the quality of the expanded call can be improved.
Note that FIG. 7 illustrates the case of the M (≧ 2) channel reproduction system and the 2-channel sound collection system. However, when the sound collection system is the N (≧ 3) channel, the voice switch and It is possible to combine echo cancellation with an adaptive filter.
[変形例]
この発明は、第2実施形態の変形例であり、図8にその構成を示す。上記第2実施形態では送話音声パワー推定部のTF変換部62への入力は収音信号であるが、この発明では、TF変換部62への入力として適応フィルタによるエコー消去後の信号(残差信号)を用いている。
この構成でも、送信信号はエコー消去後に可変損失部を経た信号となるため、拡声通話品質の向上が期待できる。
[Modification]
The present invention is a modification of the second embodiment, and its configuration is shown in FIG. In the second embodiment, the input to the
Even in this configuration, since the transmission signal is a signal that has passed through the variable loss portion after echo cancellation, an improvement in the quality of the voice call can be expected.
Claims (17)
現時点のフレームの第1チャネル再生信号の短時間スペクトルを主成分とし、
現時点のフレームの第2から第Mチャネルまでの再生信号、および、少なくとも1フレーム過去の第1から第Mチャネルまでの再生信号について、各々の短時間スペクトルから、主成分とした短時間スペクトルとの相関を除去して、副成分を構成する複数の短時間スペクトルを得、
主成分のエコーが収音信号の短時間スペクトルに占める割合を求め、
副成分のエコーが主成分との相関を除去した収音信号の短時間スペクトルに占める割合を求め、
上記2つの割合から収音信号の短時間スペクトルに占めるエコー成分比率を周波数ごとに推定し、
周波数ごとに推定された上記エコー成分比率を1から引いた値と、周波数ごとの収音信号パワーとの積の、周波数についての総和に相当する非エコー信号パワーを求め、上記非エコー信号パワーをあらかじめ設定した閾値と比較することで送話の有無を判断すること、
を特徴とする音声スイッチ方法。 In a method of determining the presence / absence of transmission from a reproduction signal of a plurality of channels (M channel) and a sound collection signal of at least one channel and attenuating the reception signal or transmission signal,
The main component is the short-time spectrum of the first channel playback signal of the current frame,
With respect to the reproduction signal from the second to the M-th channel of the current frame and the reproduction signal from the first to the M-th channel at least one frame past, from each of the short-time spectra, the short-term spectrum as the main component Remove correlations to obtain multiple short-time spectra that make up subcomponents,
Find the ratio of the main component echo to the short-time spectrum of the collected signal,
Obtain the ratio of the echoes of subcomponents in the short-time spectrum of the collected sound signal from which the correlation with the main component has been removed,
Estimate the ratio of echo components in the short-time spectrum of the collected sound signal for each frequency from the above two ratios,
The non-echo signal power corresponding to the sum of the frequencies of the product of the value obtained by subtracting the echo component ratio estimated for each frequency from 1 and the collected sound signal power for each frequency is obtained. Judging the presence or absence of transmission by comparing with a preset threshold,
Voice switch method characterized by the above.
収音信号の短時間スペクトルに占めるエコー成分比率γ2(f)を、主成分のエコーが収音信号の短時間スペクトルに占める割合γ1 2(f)と副成分のエコーが主成分との相関を除去した収音信号の短時間スペクトルに占める割合γ2 2(f)から、
を特徴とする音声スイッチ方法。 The method of claim 1 , wherein
The echo component ratio gamma 2 occupying the short-time spectrum of the collected signal (f), the echo of the main component is short Percentage spectrum γ 1 2 (f) and subcomponent of collected signal echo is mainly From the ratio γ 2 2 (f) of the short-time spectrum of the collected sound signal from which the correlation is removed,
Voice switch method characterized by the above.
主成分との相関が除去された収音信号の短時間スペクトルY(1)(f)に含まれるエコー成分Y^(1)(f)を、|Y(1)(f)−Y^(1)(f)|2を最小とする線形和として求め、
副成分のエコーが主成分との相関を除去した収音信号の短時間スペクトルに占める割合γ2 2(f)を、
を特徴とする音声スイッチ方法。 The method of claim 2 , wherein
The echo component Y ^ (1) (f) included in the short-time spectrum Y (1) (f) of the collected sound signal from which the correlation with the principal component is removed is represented by | Y (1) (f) -Y ^ ( 1) (f) | Obtain as a linear sum that minimizes 2 ;
The proportion γ 2 2 (f) of the short-time spectrum of the collected sound signal from which the echo of the subcomponent is removed from the correlation with the main component,
Voice switch method characterized by the above.
複数の収音信号から得られた上記非エコー信号パワーをチャネルごとに閾値と比較し、閾値よりも大きいチャネル数が一定数を超えた場合に送話信号ありと判断すること、
を特徴とする音声スイッチ方法。 In the method in any one of Claims 1-3 ,
Comparing the non-echo signal power obtained from a plurality of collected signals with a threshold for each channel, and determining that there is a transmission signal when the number of channels larger than the threshold exceeds a certain number;
Voice switch method characterized by the above.
非エコー信号パワーPYIを、収音信号の短時間スペクトルY(f)、収音信号の短時間スペクトルに占めるエコー成分比率γ2(f)、フレーム長Lから、
を特徴とする音声スイッチ方法。 The method of claim 4 , wherein
The non-echo signal power P YI is calculated from the short-time spectrum Y (f) of the collected sound signal, the echo component ratio γ 2 (f) occupying the short-time spectrum of the collected sound signal, and the frame length L.
Voice switch method characterized by the above.
再生信号から予測したエコーの予測値を収音信号から差し引いた信号を送信信号とすること、
を特徴とする音声スイッチ方法。 In the method in any one of Claims 1-5 ,
A signal obtained by subtracting the predicted value of the echo predicted from the reproduction signal from the collected sound signal as a transmission signal;
Voice switch method characterized by the above.
再生信号から予測したエコーの予測値と収音部から得た信号との残差信号を収音信号および送信信号とすること、
を特徴とする音声スイッチ方法。 In the method in any one of Claims 1-6 ,
A residual signal between a predicted value of an echo predicted from a reproduction signal and a signal obtained from a sound collection unit is used as a sound collection signal and a transmission signal;
Voice switch method characterized by the above.
現時点のフレームの第1チャネル再生信号の短時間スペクトルを主成分として求める手段と、
現時点のフレームの第2から第Mチャネルまでの再生信号、および、少なくとも1フレーム過去の第1から第Mチャネルまでの再生信号について、各々の短時間スペクトルから、主成分とした短時間スペクトルとの相関を除去して、副成分を構成する複数の短時間スペクトルを求める手段と、
主成分のエコーが収音信号の短時間スペクトルに占める割合を求める手段と、
副成分のエコーが主成分との相関を除去した収音信号の短時間スペクトルに占める割合を求める手段と、
上記2つの割合から収音信号の短時間スペクトルに占めるエコー成分比率を周波数ごとに推定する手段と、
周波数ごとに推定された上記エコー成分比率を1から引いた値と、周波数ごとの収音信号パワーとの積の、周波数についての総和に相当する非エコー信号パワーを求め、上記非エコー信号パワーをあらかじめ設定した閾値と比較することで送話の有無を判断する手段と、
送話の有無によって受話信号または送信信号を減衰させる損失手段と、
を備える音声スイッチ。 Means for receiving a reproduction signal of a plurality of channels (M channel) and a sound pickup signal of at least one channel;
Means for obtaining as a main component a short-time spectrum of the first channel reproduction signal of the current frame;
With respect to the reproduction signal from the second to the M-th channel of the current frame and the reproduction signal from the first to the M-th channel at least one frame past, from each of the short-time spectra, the short-term spectrum as the main component Means for removing a correlation and obtaining a plurality of short-time spectra constituting subcomponents;
Means for determining the proportion of the principal component echo in the short-time spectrum of the collected signal;
Means for determining the ratio of the echoes of the subcomponents in the short-time spectrum of the collected sound signal from which the correlation with the main component is removed;
Means for estimating, for each frequency, an echo component ratio in the short-time spectrum of the collected sound signal from the two ratios;
The non-echo signal power corresponding to the sum of the frequencies of the product of the value obtained by subtracting the echo component ratio estimated for each frequency from 1 and the collected sound signal power for each frequency is obtained. Means for determining the presence or absence of transmission by comparing with a preset threshold;
Loss means for attenuating the reception signal or transmission signal depending on the presence or absence of transmission,
Voice switch with
収音信号の短時間スペクトルに占めるエコー成分比率γ2(f)を推定する手段として、主成分のエコーが収音信号の短時間スペクトルに占める割合γ1 2(f)と副成分のエコーが主成分との相関を除去した収音信号の短時間スペクトルに占める割合γ2 2(f)から、
を備える音声スイッチ。 The apparatus of claim 8 .
As means for estimating the echo component ratio γ 2 (f) in the short-time spectrum of the collected sound signal, the ratio γ 1 2 (f) in which the main component echo occupies the short-time spectrum of the collected signal and the sub-component echo are From the ratio γ 2 2 (f) in the short-time spectrum of the collected sound signal from which the correlation with the main component is removed,
Voice switch with
副成分のエコーが主成分との相関を除去した収音信号の短時間スペクトルに占める割合γ2 2(f)を求める手段として、主成分との相関が除去された収音信号の短時間スペクトルY(1)(f)に含まれるエコー成分Y^(1)(f)を、
|Y(1)(f)−Y^(1)(f)|2
を最小とする線形和として求め、副成分のエコーが主成分との相関を除去した収音信号の短時間スペクトルに占める割合γ2 2(f)を、
を備える音声スイッチ。 The apparatus of claim 9, wherein,
The short-time spectrum of the collected sound signal from which the correlation with the main component has been removed as means for obtaining the ratio γ 2 2 (f) of the short-term spectrum of the collected sound signal from which the correlation with the main component has been removed by the echo of the subcomponent Y: (1) echo component contained in the (f) Y ^ (1) (f),
| Y (1) (f) -Y ^ (1) (f) | 2
And the ratio γ 2 2 (f) in the short-time spectrum of the collected sound signal in which the echo of the subcomponent is removed from the correlation with the main component,
Voice switch with
閾値を設定する手段と、
上記閾値と上記非エコー信号パワーとを比較することで送話の有無を判断する手段と、
を備える音声スイッチ。 In the apparatus in any one of Claims 8-10 ,
Means for setting a threshold;
Means for determining the presence or absence of transmission by comparing the threshold value and the non-echo signal power;
Voice switch with
複数の収音信号から得られた上記非エコー信号パワーをチャネルごとに上記閾値と比較する手段と、
上記閾値よりも大きいチャネル数が一定数を超えた場合に送話信号ありと判断する手段と、
を備える音声スイッチ。 The apparatus of claim 11 .
Means for comparing the non-echo signal power obtained from a plurality of collected signals with the threshold for each channel;
Means for determining that there is a transmission signal when the number of channels larger than the threshold exceeds a certain number;
Voice switch with
非エコー信号パワーPYIを、収音信号の短時間スペクトルY(f)、収音信号の短時間スペクトルに占めるエコー成分比率γ2(f)、フレーム長Lから、
を備える音声スイッチ。 The apparatus of claim 11 .
The non-echo signal power P YI is calculated from the short-time spectrum Y (f) of the collected sound signal, the echo component ratio γ 2 (f) occupying the short-time spectrum of the collected sound signal, and the frame length L.
Voice switch with
再生信号から予測したエコーの予測値を収音信号から差し引いた信号を送信信号とする手段、
を備える音声スイッチ。 The apparatus according to any one of claims 8 to 13 ,
Means for making a transmission signal a signal obtained by subtracting a predicted value of an echo predicted from a reproduction signal from a collected sound signal;
Voice switch with
再生信号から予測したエコーの予測値と収音部から得た信号との残差信号を収音信号および送信信号とする手段、
を備える音声スイッチ。 The apparatus according to any one of claims 8 to 13 ,
Means for making a residual signal between a predicted value of an echo predicted from a reproduction signal and a signal obtained from a sound collection unit a sound collection signal and a transmission signal;
Voice switch with
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004309640A JP4448424B2 (en) | 2004-10-25 | 2004-10-25 | Voice switch method, apparatus for implementing the method, program, and recording medium therefor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004309640A JP4448424B2 (en) | 2004-10-25 | 2004-10-25 | Voice switch method, apparatus for implementing the method, program, and recording medium therefor |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2006121590A JP2006121590A (en) | 2006-05-11 |
| JP4448424B2 true JP4448424B2 (en) | 2010-04-07 |
Family
ID=36539030
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004309640A Expired - Fee Related JP4448424B2 (en) | 2004-10-25 | 2004-10-25 | Voice switch method, apparatus for implementing the method, program, and recording medium therefor |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4448424B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6143702B2 (en) * | 2014-04-09 | 2017-06-07 | 日本電信電話株式会社 | Echo canceling apparatus, method and program |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3420705B2 (en) * | 1998-03-16 | 2003-06-30 | 日本電信電話株式会社 | Echo suppression method and apparatus, and computer-readable storage medium storing echo suppression program |
| JP3753996B2 (en) * | 2002-03-20 | 2006-03-08 | 日本電信電話株式会社 | Echo suppression device, echo suppression method and program |
| JP3756839B2 (en) * | 2002-04-17 | 2006-03-15 | 日本電信電話株式会社 | Reverberation reduction method, Reverberation reduction device, Reverberation reduction program |
| JP3881300B2 (en) * | 2002-10-24 | 2007-02-14 | 日本電信電話株式会社 | Voice switch method, voice switch and voice switch program, and recording medium recording the program |
-
2004
- 2004-10-25 JP JP2004309640A patent/JP4448424B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006121590A (en) | 2006-05-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8594320B2 (en) | Hybrid echo and noise suppression method and device in a multi-channel audio signal | |
| US7010119B2 (en) | Echo canceller with reduced requirement for processing power | |
| US9008327B2 (en) | Acoustic multi-channel cancellation | |
| US7477735B2 (en) | System and method for enhanced stereo audio | |
| CN110956975B (en) | Echo cancellation method and device | |
| US5390244A (en) | Method and apparatus for periodic signal detection | |
| US9313573B2 (en) | Method and device for microphone selection | |
| JP2004133403A (en) | Sound signal processing apparatus | |
| JP2928130B2 (en) | Hands-free communication device | |
| JP3607625B2 (en) | Multi-channel echo suppression method, apparatus thereof, program thereof and recording medium thereof | |
| JP7043344B2 (en) | Echo suppression device, echo suppression method and echo suppression program | |
| CN111968663A (en) | Echo residue judgment method | |
| JP3753996B2 (en) | Echo suppression device, echo suppression method and program | |
| JP5662232B2 (en) | Echo canceling apparatus, method and program | |
| JP3756839B2 (en) | Reverberation reduction method, Reverberation reduction device, Reverberation reduction program | |
| JP3756828B2 (en) | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor | |
| JP4448423B2 (en) | Echo suppression method, apparatus for implementing this method, program, and recording medium therefor | |
| JP4448424B2 (en) | Voice switch method, apparatus for implementing the method, program, and recording medium therefor | |
| JP4504782B2 (en) | Echo cancellation method, apparatus for implementing this method, program, and recording medium therefor | |
| JP3881300B2 (en) | Voice switch method, voice switch and voice switch program, and recording medium recording the program | |
| JP4594854B2 (en) | Voice switch method, voice switch device, voice switch program, and recording medium recording the program | |
| Surin et al. | An adaptive noise decorrelation technique for stereophonic acoustic echo cancellation | |
| JP2013225747A (en) | Communication device | |
| KR101413737B1 (en) | Method and apparatus for echo cancelling in portable terminal | |
| JP4413205B2 (en) | Echo suppression method, apparatus, echo suppression program, recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061219 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070126 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081225 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090309 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100112 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100122 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130129 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |