JP5454330B2 - Sound processor - Google Patents
Sound processor Download PDFInfo
- Publication number
- JP5454330B2 JP5454330B2 JP2010099488A JP2010099488A JP5454330B2 JP 5454330 B2 JP5454330 B2 JP 5454330B2 JP 2010099488 A JP2010099488 A JP 2010099488A JP 2010099488 A JP2010099488 A JP 2010099488A JP 5454330 B2 JP5454330 B2 JP 5454330B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- matrix
- noise
- coefficient
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000011159 matrix material Substances 0.000 claims description 176
- 230000001629 suppression Effects 0.000 claims description 35
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 51
- 238000000034 method Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 10
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音響信号に含まれる雑音成分を抑圧する技術に関する。 The present invention relates to a technique for suppressing a noise component included in an acoustic signal.
目的音成分と雑音成分との混合音の音響信号から雑音成分を抑圧する技術が従来から提案されている。例えば特許文献1には、複数の音響信号の各々における低域成分と各低域成分の平均成分とのうち強度が最小となる成分を選択して各音響信号の高域成分と合成することで、風雑音が抑圧された雑音抑圧信号を生成する技術が開示されている。
Conventionally, a technique for suppressing a noise component from an acoustic signal of a mixed sound of a target sound component and a noise component has been proposed. For example, in
しかし、特許文献1の技術では、雑音抑圧信号の生成に利用される成分が強度のみを基準として選択されるから、例えば風雑音と比較して目的音成分の強度が小さい場合には目的音成分が除去される可能性がある。また、複数の音響信号の平均成分が雑音抑圧信号の低域成分として選択された場合には、雑音抑圧信号の生成の過程で目的音成分の波形が大幅に変化するから、目的音成分が忠実に再現されないという問題もある。以上の事情を考慮して、本発明は、音響信号の雑音成分を高精度に抑圧することを目的とする。
However, in the technique of
以上の課題を解決するために、本発明の第1態様に係る音響処理装置は、並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列(例えば図2の観測行列Vi)の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底(例えば図4の基底Ci[1]〜Ci[K])を含む基底行列(例えば図4の基底行列Wi)と、各基底の重み値の時系列を各々が示す複数の重み系列(例えば図5の重み系列Ei[1]〜Ei[K])を含む係数行列(例えば図5の係数行列Hi)とを生成する行列分解手段と、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い基底を、第1音響信号の雑音成分に対応する雑音基底(例えば図4の雑音基底Ci_noise)として特定する雑音特定手段と、第1音響信号の基底行列のうち雑音基底以外の各基底と第1音響信号の係数行列のうち当該各基底に対応する重み系列とに応じて、第1音響信号の雑音成分が抑圧されるように周波数毎の係数値が設定された処理係数列(例えば図1の処理係数列Gi)を生成する係数列生成手段と、第1音響信号に処理係数列を作用させる雑音抑圧手段とを具備する。 In order to solve the above-described problems, the acoustic processing device according to the first aspect of the present invention provides, for each of the first acoustic signal and the second acoustic signal collected in parallel, component values for each frequency of the acoustic signal. Is a non-negative matrix factorization of an observation matrix (for example, the observation matrix Vi in FIG. 2), and a plurality of bases (for example, the base Ci in FIG. 4) indicating component values for different frequencies of the acoustic signal. [1] to Ci [K]) including a base matrix (for example, the base matrix Wi in FIG. 4) and a plurality of weight sequences (for example, the weight sequence Ei [1 in FIG. 5) each indicating a time series of weight values of each base. ] To Ei [K]), matrix decomposition means for generating a coefficient matrix (for example, coefficient matrix Hi in FIG. 5), and a base matrix of the second acoustic signal among a plurality of bases of the base matrix of the first acoustic signal. A base having a high correlation with the base is a noise base corresponding to the noise component of the first acoustic signal (for example, in FIG. 4). Noise specifying means for specifying as noise base Ci_noise), each base other than the noise base in the base matrix of the first acoustic signal and a weight sequence corresponding to each base in the coefficient matrix of the first acoustic signal, Coefficient sequence generating means for generating a processing coefficient sequence (for example, processing coefficient sequence Gi in FIG. 1) in which coefficient values for each frequency are set so that the noise component of the first acoustic signal is suppressed, and processing on the first acoustic signal Noise suppression means for operating the coefficient sequence.
以上の構成では、第1音響信号および第2音響信号の各々の観測行列が基底行列と係数行列とに分解され、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い雑音基底が除外されたうえで処理係数列が生成される。したがって、第1音響信号の目的音成分の強度が雑音成分と比較して低い場合でも雑音成分を高精度に抑圧することが可能である。また、基底行列のうち雑音基底以外の基底は維持されるから、目的音成分の波形を忠実に維持しながら雑音成分を抑圧できるという利点もある。 In the above configuration, each observation matrix of the first acoustic signal and the second acoustic signal is decomposed into a base matrix and a coefficient matrix, and the base matrix of the second acoustic signal among the plurality of bases of the base matrix of the first acoustic signal. A processing coefficient sequence is generated after removing noise bases having a high correlation with the bases. Therefore, even when the intensity of the target sound component of the first acoustic signal is lower than the noise component, the noise component can be suppressed with high accuracy. In addition, since the basis other than the noise basis is maintained in the basis matrix, there is an advantage that the noise component can be suppressed while maintaining the waveform of the target sound component faithfully.
本発明の第1態様の好適例において、行列分解手段は、第1音響信号のうち第1帯域(例えば図2の帯域BL)の成分について基底行列と係数行列とを生成し、雑音抑圧手段は、第1音響信号のうち第1帯域の成分に処理係数列を作用させ、雑音抑圧手段による処理後の成分と、第1音響信号のうち第1帯域と比較して高域側の第2帯域(例えば図2の帯域BH)内の成分とを合成する波形合成手段を具備する。以上の態様では、第1音響信号の第1帯域の成分について処理係数列が生成および適用され、雑音抑圧手段による処理後に第2帯域内の成分と合成される。したがって、第1音響信号の全帯域を対象として処理係数列の生成や適用を実行する構成と比較して処理の負荷を軽減することが可能である。また、雑音成分の周波数を包含するように第1帯域を設定することで、雑音成分を高精度に抑圧可能な処理係数列を生成できるという利点もある。 In a preferred example of the first aspect of the present invention, the matrix decomposing means generates a base matrix and a coefficient matrix for the component of the first band (for example, band BL in FIG. 2) of the first acoustic signal, and the noise suppressing means is The processing coefficient sequence is applied to the component of the first band in the first acoustic signal, the component after processing by the noise suppression means, and the second band on the high frequency side compared to the first band of the first acoustic signal. Waveform synthesizing means for synthesizing the components in the band (for example, band BH in FIG. 2) is provided. In the above aspect, the processing coefficient sequence is generated and applied to the first band component of the first acoustic signal, and is synthesized with the component in the second band after being processed by the noise suppressing means. Therefore, it is possible to reduce the processing load as compared with the configuration in which the generation and application of the processing coefficient sequence is performed for the entire band of the first acoustic signal. Further, by setting the first band so as to include the frequency of the noise component, there is an advantage that a processing coefficient sequence capable of suppressing the noise component with high accuracy can be generated.
本発明の第1態様の好適例に係る音響処理装置は、第1音響信号と第2音響信号との位相差(例えば図6の位相差ΔP[tn])を算定する位相差算定手段を具備し、係数列生成手段は、処理係数列の各係数値を、第1音響信号と第2音響信号との位相差に応じて可変に設定する。例えば、第1音響信号と第2音響信号との位相差が大きい(雑音成分が優勢である)ほど処理係数列による雑音抑圧の効果が増加するように、処理係数列の各係数値が可変に設定される。以上の形態によれば、第1音響信号と第2音響信号との位相差が処理係数列に反映されるから、処理係数列に位相差を反映させない構成と比較して雑音成分を充分に抑圧できるという利点がある。 The acoustic processing apparatus according to a preferred example of the first aspect of the present invention includes phase difference calculating means for calculating a phase difference (for example, phase difference ΔP [tn] in FIG. 6) between the first acoustic signal and the second acoustic signal. Then, the coefficient sequence generation means variably sets each coefficient value of the processing coefficient sequence according to the phase difference between the first acoustic signal and the second acoustic signal. For example, each coefficient value of the processing coefficient sequence is variable so that the effect of noise suppression by the processing coefficient sequence increases as the phase difference between the first acoustic signal and the second acoustic signal increases (the noise component is dominant). Is set. According to the above embodiment, since the phase difference between the first acoustic signal and the second acoustic signal is reflected in the processing coefficient sequence, the noise component is sufficiently suppressed as compared with the configuration in which the phase difference is not reflected in the processing coefficient sequence. There is an advantage that you can.
本発明の第1態様の好適例に係る音響処理装置は、第1音響信号と第2音響信号との強度差(振幅差やパワー差)を算定する強度差算定手段を具備し、係数列生成手段は、処理係数列の各係数値を、第1音響信号と第2音響信号との強度差(例えば図6の強度差ΔA[tn])に応じて可変に設定する。例えば、第1音響信号と第2音響信号との強度差が大きい(雑音成分が優勢である)ほど処理係数列による雑音抑圧の効果が増加するように、処理係数列の各係数値が可変に設定される。以上の形態によれば、第1音響信号と第2音響信号との強度差が処理係数列に反映されるから、処理係数列に強度差を反映させない構成と比較して雑音成分を充分に抑圧できるという利点がある。 An acoustic processing apparatus according to a preferred example of the first aspect of the present invention includes intensity difference calculation means for calculating an intensity difference (amplitude difference or power difference) between a first acoustic signal and a second acoustic signal, and generates a coefficient sequence. The means variably sets each coefficient value of the processing coefficient sequence according to the intensity difference between the first acoustic signal and the second acoustic signal (for example, the intensity difference ΔA [tn] in FIG. 6). For example, each coefficient value of the processing coefficient sequence is variable so that the effect of noise suppression by the processing coefficient sequence increases as the intensity difference between the first acoustic signal and the second acoustic signal increases (the noise component is dominant). Is set. According to the above embodiment, since the intensity difference between the first acoustic signal and the second acoustic signal is reflected in the processing coefficient sequence, the noise component is sufficiently suppressed as compared with the configuration in which the intensity difference is not reflected in the processing coefficient sequence. There is an advantage that you can.
本発明の第2態様に係る音響処理装置は、並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列(例えば図2の観測行列Vi)の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底(例えば図4の基底Ci[1]〜Ci[K])を含む基底行列(例えば図4の基底行列Wi)と、各基底の重み値の時系列を各々が示す複数の重み系列(例えば図5の重み系列Ei[1]〜Ei[K])を含む係数行列(例えば図5の係数行列Hi)とを生成する行列分解手段(例えば図7の行列分解部42)と、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い基底を、第1音響信号の雑音成分に対応する雑音基底(例えば図4の雑音基底Ci_noise)として特定する雑音特定手段(例えば図7の雑音特定部44)と、第1音響信号の基底行列のうち雑音基底以外の各基底と第1音響信号の係数行列のうち当該各基底に対応する重み系列との乗算で、前記第1音響信号の雑音成分が抑圧された音響信号を生成する抑圧処理手段(例えば図7の抑圧処理部48)とを具備する。以上の構成でも第1態様と同様の効果が実現される。また、処理係数列の生成や適用が省略されるから、第1態様と比較して音響処理装置の構成や処理が簡素化されるという利点もある。
The acoustic processing device according to the second aspect of the present invention provides an observation matrix having, as elements, a time series of component values for each frequency of the acoustic signal for each of the first acoustic signal and the second acoustic signal collected in parallel. A plurality of bases (for example, bases Ci [1] to Ci [K] in FIG. 4) indicating component values for different frequencies of different components of the acoustic signal in non-negative matrix factorization of the observation matrix Vi in FIG. And a plurality of weight sequences (for example, weight sequences Ei [1] to Ei [K] in FIG. 5) each indicating a time series of weight values of the respective bases. Matrix decomposition means (for example, the
なお、本発明(第1態様,第2態様)の適用の範囲は、2系統の音響信号を処理する構成に限定されない。すなわち、3系統以上の音響信号を処理する構成でも、特定の2系統の音響信号に着目したときに本発明の要件を充足する構成は、本発明の範囲に当然に包含される。 Note that the scope of application of the present invention (the first aspect and the second aspect) is not limited to a configuration for processing two systems of acoustic signals. That is, even in a configuration for processing three or more systems of acoustic signals, a configuration that satisfies the requirements of the present invention when focusing on two specific systems of acoustic signals is naturally included in the scope of the present invention.
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。以下に例示する本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The acoustic processing device according to each of the above aspects is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of an acoustic signal, or a general-purpose calculation such as a CPU (Central Processing Unit). This is also realized by cooperation between the processing device and the program. The program of the present invention exemplified below is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, and is also provided from the server device in the form of distribution via a communication network. Installed on the computer.
本発明の第1態様に係るプログラムは、並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底を含む基底行列と、各基底の重み値の時系列を各々が示す複数の重み系列を含む係数行列とを生成する行列分解処理と、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い基底を、第1音響信号の雑音成分に対応する雑音基底として特定する雑音特定処理と、第1音響信号の基底行列のうち雑音基底以外の各基底と第1音響信号の係数行列のうち当該各基底に対応する重み系列とに応じて、第1音響信号の雑音成分が抑圧されるように周波数毎の係数値が設定された処理係数列を生成する係数列生成処理と、第1音響信号に処理係数列を作用させる雑音抑圧処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第1態様に係る音響処理装置と同様の作用および効果が実現される。 The program according to the first aspect of the present invention provides a non-negative observation matrix for each of the first acoustic signal and the second acoustic signal collected in parallel, the element being a time series of component values for each frequency of the acoustic signal. In matrix factorization, a base matrix including a plurality of bases indicating component values for each frequency of different components of the acoustic signal, and a coefficient matrix including a plurality of weight sequences each indicating a time series of weight values of each base, A base having a high correlation with a base of the base matrix of the second acoustic signal among a plurality of bases of the base matrix of the first acoustic signal and a noise base corresponding to the noise component of the first acoustic signal First acoustic signal in accordance with the noise identification processing specified as follows, each basis other than the noise basis in the basis matrix of the first acoustic signal, and the weight sequence corresponding to each basis in the coefficient matrix of the first acoustic signal So that the noise component of A coefficient sequence generation process for generating a processing coefficient sequence coefficient value for each number is set to execute a noise suppression process for applying a processing coefficient sequence to the first acoustic signal to the computer. According to the above program, the same operation and effect as the sound processing apparatus according to the first aspect of the present invention are realized.
本発明の第2態様に係るプログラムは、並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列(例えば図2の観測行列Vi)の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底(例えば図4の基底Ci[1]〜Ci[K])を含む基底行列(例えば図4の基底行列Wi)と、各基底の重み値の時系列を各々が示す複数の重み系列(例えば図5の重み系列Ei[1]〜Ei[K])を含む係数行列(例えば図5の係数行列Hi)とを生成する行列分解処理と、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い基底を、第1音響信号の雑音成分に対応する雑音基底(例えば図4の雑音基底Ci_noise)として特定する雑音特定処理と、第1音響信号の基底行列のうち雑音基底以外の各基底と第1音響信号の係数行列のうち当該各基底に対応する重み系列との乗算で、前記第1音響信号の雑音成分が抑圧された音響信号を生成する抑圧処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第2態様に係る音響処理装置と同様の作用および効果が実現される。 The program according to the second aspect of the present invention provides an observation matrix (for example, an element having a time series of component values for each frequency of the acoustic signal as an element for each of the first acoustic signal and the second acoustic signal collected in parallel. The non-negative matrix factorization of the observation matrix Vi) in FIG. 2 includes a plurality of bases (for example, the bases Ci [1] to Ci [K] in FIG. 4) indicating component values for different frequencies of the acoustic signal. A coefficient matrix including a base matrix (for example, the base matrix Wi in FIG. 4) and a plurality of weight sequences (for example, the weight sequences Ei [1] to Ei [K] in FIG. 5) each indicating a time series of weight values of each base. (For example, the coefficient matrix Hi in FIG. 5) and a base having a high correlation with the base of the base matrix of the second acoustic signal among the plurality of bases of the base matrix of the first acoustic signal. The noise base corresponding to the noise component of the acoustic signal (for example, the noise base Ci_noise in FIG. 4) is specified. Noise of the first acoustic signal is obtained by performing noise identification processing and multiplication of each basis other than the noise basis in the basis matrix of the first acoustic signal and a weight sequence corresponding to each basis in the coefficient matrix of the first acoustic signal. And causing the computer to execute a suppression process for generating an acoustic signal in which the component is suppressed. According to the above program, the same operation and effect as the sound processing apparatus according to the second aspect of the present invention are realized.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。
<A: First Embodiment>
FIG. 1 is a block diagram of a
信号供給装置12は、相異なる位置で並列(同時)に収音されたステレオ形式の音響信号s1および音響信号s2を音響処理装置100に供給する。各音響信号si(i=1,2)は、目的音成分と雑音成分との混合音の音圧波形を表す時間領域の信号である。図1では、相互に離間して配置された複数の収音機器(例えば無指向性のステレオマイク)122が信号供給装置12として例示されている。ただし、可搬型または内蔵型の記録媒体から各音響信号siを読出して音響処理装置100に供給する再生装置や、各音響信号siを通信網から受信して音響処理装置100に供給する通信装置を、信号供給装置12として採用することも可能である。
The signal supply device 12 supplies the
音響処理装置100は、音響信号s1および音響信号s2からステレオ形式の音響信号q1および音響信号q2を生成する。各音響信号qiは、音響信号siから雑音成分を抑圧(目的音成分を強調)した時間領域の信号である。放音装置14(例えばステレオスピーカやステレオヘッドホン)は、音響処理装置100が生成した音響信号q1および音響信号q2に応じた音波を放射する。なお、音響信号siをアナログからデジタルに変換するA/D変換器や音響信号qiをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
The
図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムPGや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として任意に採用され得る。音響信号s1および音響信号s2を記憶装置24に記憶した構成(したがって信号供給装置12は省略され得る)も好適である。
As shown in FIG. 1, the
演算処理装置22は、記憶装置24に格納されたプログラムPGの実行で、音響信号siから音響信号qiを生成するための複数の機能(周波数分析部32,特性解析部34A,雑音抑圧部36,波形合成部38)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
The
図1の周波数分析部32は、音響信号s1のスペクトルS1と音響信号s2のスペクトルS2とを時間軸上の単位期間(フレーム)毎に順次に生成する。図2に示すように、各スペクトルSiは、周波数軸上の相異なる周波数(f1,f2,……,fM,……)に対応する複数の成分値(パワー)xiを配列したパワースペクトルである。スペクトルXiの生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。 1 sequentially generates a spectrum S1 of the acoustic signal s1 and a spectrum S2 of the acoustic signal s2 for each unit period (frame) on the time axis. As shown in FIG. 2, each spectrum Si is a power spectrum in which a plurality of component values (power) xi corresponding to different frequencies (f1, f2,..., FM,...) On the frequency axis are arranged. . For the generation of the spectrum Xi, known frequency analysis such as short-time Fourier transform can be arbitrarily employed.
各音響信号siのスペクトルSiは、帯域BL内のスペクトルXiと帯域BH内のスペクトルXHiとに区分される。帯域BLは、雑音成分の周波数を包含するように設定される。本実施形態では風雑音を雑音成分として想定する。風雑音は、空気自体が流動して収音機器122の振動板に直接に衝突することで発生する雑音成分である。空気の衝突に起因した振動板の振動の周波数は、空気の振動(音圧変化)として振動板に伝播する音波の周波数と比較して低い。具体的には、風雑音の周波数は、例えば1.5kHz以下の低周波成分が支配的となる。以上の傾向を考慮して、帯域BLは、M個(Mは自然数)の周波数f1〜fMを含む1.5kHz以下の周波数帯域に設定される。帯域BHは、帯域BLと比較して高域側(例えば1.5kHz以上)の周波数帯域である。
The spectrum Si of each acoustic signal si is divided into a spectrum Xi in the band BL and a spectrum XHi in the band BH. The band BL is set so as to include the frequency of the noise component. In the present embodiment, wind noise is assumed as a noise component. Wind noise is a noise component generated when air itself flows and directly collides with the diaphragm of the
図2に示すように、周波数分析部32が生成したスペクトルSiの時系列(すなわちスペクトログラム)は、N個の単位期間t1〜tNで構成される解析期間TA毎に時間軸上で区分される。解析期間TAは、例えば数十秒程度の長時間に設定される。帯域BL内のスペクトルXiのM個の成分値xi[f1,tn]〜xi[fM,tn]を解析期間TA内のN個の単位期間t1〜tNについて時系列に配列したM行×N列の観測行列Viが解析期間TA毎に規定される。すなわち、観測行列Viの第n列(n=1〜N)は、解析期間TA内の第n番目の単位期間tnにおけるスペクトルXiのM個の成分値xi[f1,tn]〜xi[fM,tn]の系列に相当し、観測行列Viの第m行(m=1〜M)は、解析期間TA内のN個の単位期間t1〜tNにわたる周波数fmでの成分値xi[fm,t1]〜xi[fm,tN]の時系列に相当する。スペクトルXiの成分値xi[fm,tn]はパワー(非負値)に相当するから、観測行列Viは非負行列(負数を含まない行列)である。
As shown in FIG. 2, the time series (that is, the spectrogram) of the spectrum Si generated by the
図1の特性解析部34Aは、観測行列Viを解析することで処理期間TA毎に処理係数列Gi(G1,G2)を生成する。処理係数列Giは、係数値gi[f1,t1]〜gi[fM,tN]を配列したM行×N列の行列である。係数値gi[fm,tn]は、単位期間tnのスペクトルXiのうち周波数fmでの成分値xi[fm,tn]に対する利得(スペクトルゲイン)に相当し、0以上かつ1以下の範囲内で音響信号siの特性(風雑音の強度)に応じて可変に設定される。具体的には、単位期間tn内の音響信号siのうち周波数fmの成分において風雑音が優勢であるほど係数値gi[fm,tn]は小さい数値に設定される。
The
雑音抑圧部36は、特性解析部34Aが生成した処理係数列Giを音響信号siの観測行列Viに作用させることで、N個の単位期間t1〜tNの各々に対応するN個のスペクトルYiの時系列(解析期間TA内のスペクトログラム)を解析期間TA毎に順次に生成する。単位期間tnに対応するスペクトルYiは、相異なる周波数fmに対応するM個の成分値(パワー)yi[f1,tn]〜yi[fM,tn]を配列したパワースペクトルである。
The
単位期間tnのスペクトルYiのうち周波数fmでの成分値yi[fm,tn]は、処理係数列Giのうち当該成分値yi[fm,tn]に対応する係数値gi[fm,tn]と観測行列Viのうち当該成分値yi[fm,tn]に対応する成分値xi[fm,tn]との乗算値に設定される(yi[fm,tn]=gi[fm,tn]×xi[fm,tn])。前述のように風雑音が優勢であるほど係数値gi[fm,tn]は小さい数値に設定されるから、雑音抑圧部36による処理後のスペクトルYiは、音響信号siのスペクトルXiから風雑音を抑圧したスペクトル(音響信号qiの帯域BLの成分のスペクトル)に相当する。すなわち、雑音抑圧部36は、音響信号s1および音響信号s2の各々から風雑音を抑圧する要素として機能する。
The component value yi [fm, tn] at the frequency fm in the spectrum Yi of the unit period tn is observed with the coefficient value gi [fm, tn] corresponding to the component value yi [fm, tn] in the processing coefficient sequence Gi. The matrix Vi is set to a multiplication value with the component value xi [fm, tn] corresponding to the component value yi [fm, tn] (yi [fm, tn] = gi [fm, tn] × xi [fm , tn]). As described above, the coefficient value gi [fm, tn] is set to a smaller value as the wind noise becomes more dominant. Therefore, the spectrum Yi after processing by the
図1の波形合成部38は、雑音抑圧部36が単位期間tn毎に生成したスペクトルYi(帯域BL)と周波数分析部32が生成したスペクトルXHi(帯域BH)とから時間領域の音響信号qiを生成する。具体的には、波形合成部38は、帯域BLのスペクトルYiと帯域BHのスペクトルXHiとの合成(加算)で単位期間tn毎にスペクトルQiを生成し、スペクトルQiに対応する振幅スペクトルと音響信号siの位相スペクトルとを適用したフーリエ逆変換で時間領域の信号を生成するとともに前後の単位期間tnで相互に連結して音響信号qiを生成する。
The
図3は、特性解析部34Aのブロック図である。図3に示すように、第1実施形態の特性解析部34Aは、行列分解部42と雑音特定部44と係数列生成部46とを含んで構成される。行列分解部42は、音響信号s1の観測行列V1および音響信号s2の観測行列V2の各々について、当該観測行列Viの非負行列因子分解(NMF:Non-negative Matrix Factorization)で基底行列Wi(W1,W2)と係数行列Hi(H1,H2)とを生成する。基底行列Wi(図4)は、成分値wi[f1,1]〜wi[fM,K]を配列したM行×K列の非負行列であり、係数行列Hi(図5)は、重み値hi[1,t1]〜hi[K,tN]を配列したK行×N列の非負行列である(Kは自然数)。基底行列Wiと係数行列Hiとの積が観測行列Viと近似する(Vi≒WiHi)ように基底行列Wiと係数行列Hiとが算定される。
FIG. 3 is a block diagram of the
図4に示すように、基底行列Wiは、K個の基底(codebook)Ci[1]〜Ci[K]で構成される。基底行列Wiの第k列目(k=1〜K)の基底Ci[k]は、解析期間TA内の音響信号siを構成すると推定されるK種類の成分のうち第k番目の成分の周波数f1〜fMでの成分値wi[f1,k]〜wi[fM,k]の系列(パワースペクトル)に相当する。他方、係数行列Hiは、図5に示すように、K個の重み系列(excitation)Ei[1]〜Ei[K]で構成される。係数行列Hiの第k行目の重み系列Ei[k]は、基底行列Wiの基底Ci[k]で表現される成分に対する単位期間tn毎の重み値hi[k,t1]〜hi[k,tN]の時系列(基底Ci[k]の各成分値wi[fm,k]の時間変化)に相当する。以上の定義から理解されるように、単位期間tnのスペクトルXiは、係数行列Hiのうち単位期間tnに対応するK個の重み値hi[1,tn]〜hi[K,tn]を適用したK個の基底Ci[1]〜Ci[K]の加重和で近似される(Xi≒hi[1,tn]×Ci[1]+hi[2,tn]×Ci[2]+……+hi[K,tn]×Ci[K])。 As shown in FIG. 4, the base matrix Wi is composed of K codebooks Ci [1] to Ci [K]. The basis Ci [k] of the k-th column (k = 1 to K) of the basis matrix Wi is the frequency of the k-th component among the K types of components estimated to constitute the acoustic signal si within the analysis period TA. This corresponds to a sequence (power spectrum) of component values wi [f1, k] to wi [fM, k] at f1 to fM. On the other hand, the coefficient matrix Hi is composed of K weight sequences (excitation) Ei [1] to Ei [K] as shown in FIG. The weight series Ei [k] in the k-th row of the coefficient matrix Hi is a weight value hi [k, t1] to hi [k, for each unit period tn for the component expressed by the basis Ci [k] of the basis matrix Wi. This corresponds to a time series of tN] (time change of each component value wi [fm, k] of the basis Ci [k]). As understood from the above definition, the spectrum Xi in the unit period tn is applied with K weight values hi [1, tn] to hi [K, tn] corresponding to the unit period tn in the coefficient matrix Hi. It is approximated by a weighted sum of K bases Ci [1] to Ci [K] (Xi≈hi [1, tn] × Ci [1] + hi [2, tn] × Ci [2] + …… + hi [ K, tn] × Ci [K]).
観測行列Viの非負行列因子分解には公知の方法が任意に採用される。例えば、基底行列Wiおよび係数行列Hiの積と観測行列Viとの相違(例えば距離)が最小化するように基底行列Wiと係数行列Hiとを逐次的に更新(反復演算)する方法が好適に採用される。反復演算に適用される基底行列Wiの初期値(成分値wi[fm,k]の初期値)は、例えば乱数に設定される。なお、例えば風雑音のスペクトル(高域ほど減衰する周波数特性)を模擬するように各基底Ci[k]のM個の成分値wi[f1,k]〜wi[fM,k]の初期値を設定した構成も好適である。 A known method is arbitrarily employed for non-negative matrix factorization of the observation matrix Vi. For example, a method of sequentially updating (iteratively calculating) the base matrix Wi and the coefficient matrix Hi so as to minimize the difference (for example, distance) between the product of the base matrix Wi and the coefficient matrix Hi and the observation matrix Vi is preferable. Adopted. The initial value of the base matrix Wi applied to the iterative calculation (the initial value of the component value wi [fm, k]) is set to a random number, for example. For example, the initial values of M component values wi [f1, k] to wi [fM, k] of each base Ci [k] are simulated so as to simulate the spectrum of wind noise (frequency characteristics that attenuate as the frequency increases). The set configuration is also suitable.
図3の雑音特定部44は、音響信号s1の基底行列W1および音響信号s2の基底行列W2の各々について、当該基底行列WiのK個の基底Ci[1]〜Ci[K]のうち風雑音に対応する1個の基底(以下「雑音基底」という)Ci_noiseを特定する。風雑音は、収音機器122に衝突する空気の乱流に起因して発生するから、相異なる位置で収音された音響信号s1および音響信号s2の各々に含まれる風雑音の瞬時的な周波数特性は相互に統計的に独立する。ただし、風雑音の長期的な周波数特性は、音声等と比較すると、収音の位置に関わらず同様の特性に維持され易い。すなわち、解析期間TAのような長期間にわたる風雑音の周波数特性は音響信号s1と音響信号s2とで類似するという傾向がある。
For each of the base matrix W1 of the acoustic signal s1 and the base matrix W2 of the acoustic signal s2, the
以上の傾向を考慮して、雑音特定部44は、音響信号s1の基底行列W1(基底C1[1]〜C1[K])と音響信号s2の基底行列W2(基底C2[1]〜C2[K])との間で相互に相関が高い各基底Ci[k](C1[k1],C2[k2])を雑音基底Ci_noiseとして基底行列W1および基底行列W2の各々から特定する。例えば、基底行列W1の1個の基底C1[k]と基底行列W2の1個の基底C2[k]とを選択する全通りの組合せについて基底C1[k]と基底C2[k]との相関の度合を示す指標(相関指標)を算定し、相関指標が示す相関の度合が最大となる組合せの基底C1[k1]と基底C2[k2]との各々(変数k1と変数k2との数値の異同は不問)を雑音基底Ci_noise(C1_noise,C2_noise)として抽出する。基底C1[k]と基底C2[k]との相関指標としては、例えば距離(ユークリッド距離)や内積が好適に採用される。
Considering the above tendency, the
図3の係数列生成部46は、音響信号s1および音響信号s2の各々について、図4に示すように当該音響信号siの基底行列Wiから雑音基底Ci_noiseを除外したM行×(K-1)列の行列WAiと、図5に示すように雑音基底Ci_noiseに対応する重み系列Ei_noiseを係数行列Hiから除外した(K-1)行×N列の行列HAiとから処理係数列Gi(G1,G2)を生成する。
For each of the acoustic signal s1 and the acoustic signal s2, the
第1に、係数列生成部46は、雑音基底Ci_noiseの除外後の行列WAi(M行×(K-1)列)と重み系列Ei_noiseの除外後の行列HAi((K-1)行×N列)との乗算で行列VAiを算定する。行列VAiは、要素値va[f1,t1]〜va[fM,tN]を配列したM行×N列の行列である。行列VAiの第n列に位置するM個の要素値va[f1,tn]〜va[fM,tn]の系列は、単位期間tnのスペクトルXiから風雑音を抑圧したパワースペクトルに相当する。
First, the coefficient
第2に、係数列生成部46は、以下の数式(A)の演算で処理係数列Giの係数値gi[fm,tn]を算定する。数式(A)の記号v[fm,tn]は、雑音基底Ci_noiseの除外前の基底行列Wiと重み系列Ei_noiseの除外前の係数行列Hiとを乗算したM行×N列の行列における第m行第n列の要素値を意味し、スペクトルXiの成分値xi[fm,tn]の推定値に相当する。
gi[fm,tn]=va[fm,tn]/v[fm,tn] ……(A)
数式(A)で要素値va[fm,tn]を要素値v[fm,tn]で除算しているのは、係数値gi[fm,tn]を0以上かつ1以下の範囲内の数値に制限するためである。以上の手順で生成された処理係数列G1および処理係数列G2が、図1の雑音抑圧部36による風雑音の抑圧に適用される。
Second, the
gi [fm, tn] = va [fm, tn] / v [fm, tn] (A)
The reason why the element value va [fm, tn] is divided by the element value v [fm, tn] in the formula (A) is that the coefficient value gi [fm, tn] is set to a numerical value in the range of 0 to 1 This is to limit. The processing coefficient sequence G1 and the processing coefficient sequence G2 generated by the above procedure are applied to the suppression of wind noise by the
以上の説明から理解されるように、単位期間tn内の音響信号siのうち周波数fmの成分に風雑音が優勢であるほど要素値va[fm,tn]は要素値v[fm,tn]に対して減少するから、係数値gi[fm,tn]は小さい数値となる。他方、音響信号siの周波数fmの成分が風雑音を含まない場合、要素値va[fm,tn]は要素値v[fm,tn]と略同値となる(雑音基底Ci_noiseの除外に影響されない)から、係数値gi[fm,tn]は1に近い数値となる。したがって、前述のように雑音抑圧部36が処理係数列Giを観測行列Viに作用させることで、音響信号siから風雑音を抑圧した音響信号qiが生成される。
As understood from the above description, the element value va [fm, tn] becomes the element value v [fm, tn] as the wind noise prevails in the frequency fm component of the acoustic signal si within the unit period tn. On the other hand, the coefficient value gi [fm, tn] is a small numerical value because it decreases. On the other hand, when the component of the frequency fm of the acoustic signal si does not include wind noise, the element value va [fm, tn] is substantially the same value as the element value v [fm, tn] (not affected by the exclusion of the noise base Ci_noise). Therefore, the coefficient value gi [fm, tn] is a numerical value close to 1. Therefore, as described above, the
以上に説明したように、第1実施形態では、音響信号siの観測行列Viが基底行列Wiと係数行列Hiとに分解され、雑音基底Ci_noiseを基底行列Wiから除外した行列WAiと重み系列Ei_noiseを係数行列Hiから除外した行列HAiとを利用して処理係数列Giが生成される。したがって、音響信号siの目的音成分の強度が風雑音と比較して低い場合でも、高精度に風雑音を抑圧することが可能である。また、基底行列Wiのうち雑音基底Ci_noise以外の各基底Ci[k]と係数行列Hiのうち重み系列Ei_noise以外の各重み系列Ei[k]とは維持されるから、音響信号siの目的音成分の波形が忠実に維持された音響信号qiを生成できるという利点もある。 As described above, in the first embodiment, the observation matrix Vi of the acoustic signal si is decomposed into the base matrix Wi and the coefficient matrix Hi, and the matrix WAi and the weight sequence Ei_noise in which the noise base Ci_noise is excluded from the base matrix Wi are obtained. A processing coefficient sequence Gi is generated using the matrix HAi excluded from the coefficient matrix Hi. Therefore, even when the intensity of the target sound component of the acoustic signal si is lower than that of the wind noise, it is possible to suppress the wind noise with high accuracy. Further, since each basis Ci [k] other than the noise basis Ci_noise in the basis matrix Wi and each weight series Ei [k] other than the weight series Ei_noise in the coefficient matrix Hi are maintained, the target sound component of the acoustic signal si is maintained. There is also an advantage that an acoustic signal qi can be generated in which the waveform of is maintained faithfully.
なお、基底行列Wiから雑音基底Ci_noiseを特定する方法としては、例えば、風雑音の周波数特性を模擬するように事前に作成されたモデルを基底行列Wiの各基底Ci[k]と比較する構成も採用され得る。しかし、風雑音のモデルを利用する構成では、事前に用意されたモデルとは周波数特性が相違する風雑音を充分に抑圧できない可能性がある。他方、第1実施形態では、基底行列W1と基底行列W2との間で相関が高い各基底Ci[k]が雑音基底Ci_noiseとして特定されるから、風雑音のモデルを利用する構成と比較して、多様な特性の風雑音を充分に抑圧できるという利点がある。 As a method for identifying the noise base Ci_noise from the base matrix Wi, for example, a configuration in which a model created in advance so as to simulate the frequency characteristics of wind noise is compared with each base Ci [k] of the base matrix Wi. Can be employed. However, in a configuration using a wind noise model, wind noise having a frequency characteristic different from that of a model prepared in advance may not be sufficiently suppressed. On the other hand, in the first embodiment, each base Ci [k] having a high correlation between the base matrix W1 and the base matrix W2 is specified as a noise base Ci_noise, so that it is compared with a configuration using a wind noise model. There is an advantage that wind noise with various characteristics can be sufficiently suppressed.
また、風雑音を含む帯域BLについて選択的に処理係数列Giの生成や適用が実行される(帯域BHについては省略される)から、音響信号siの全帯域を処理の対象とする場合と比較して、風雑音の抑圧の精度を維持しながら、演算処理装置22の処理の負荷を軽減できるという利点もある。
Further, since the generation and application of the processing coefficient sequence Gi is selectively executed for the band BL including wind noise (the band BH is omitted), it is compared with the case where the entire band of the acoustic signal si is to be processed. Thus, there is an advantage that the processing load of the
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are equivalent to 1st Embodiment in each following illustration, the code | symbol referred by the above description is diverted and each detailed description is abbreviate | omitted suitably.
信号供給装置12の2個の収音機器122に対して正面方向から到来する目的音成分は、位相差を殆ど発生させずに略同等の強度(振幅)で各収音機器122に到達する。他方、風雑音は前述のように空気の乱流に起因するから、同位相かつ同振幅で各収音機器122に到達する可能性は低い。したがって、音響信号s1や音響信号s2にて風雑音が優勢となるほど両者間の位相差や強度差が増加するという傾向がある。以上の傾向を考慮して、本実施形態では、音響信号s1と音響信号s2との位相差や強度差に応じて処理係数列Giの各係数値gi[fm,tn]を補正する。
The target sound component that arrives from the front direction with respect to the two
第2実施形態の音響処理装置100は、第1実施形態の特性解析部34Aを図6の特性解析部34Bに置換した構成である。図6に示すように、特性解析部34Bは、特性解析部34Aと同様の要素(行列分解部42,雑音特定部44,係数列生成部46)に加えて位相差算定部52と強度差算定部54とを含んで構成される。各音響信号si(s1,s2)の帯域BMの成分が位相差算定部52および強度差算定部54に供給される。帯域BMは、風雑音の周波数と主要な目的音成分の周波数とを包含するように設定される。例えば、帯域BMは4kHz以下の周波数帯域(すなわち帯域BLを含む帯域)に設定される。
The
位相差算定部52は、音響信号s1と音響信号s2との位相差ΔP[tn]を単位期間tn毎に算定する。位相差ΔP[tn]は、例えば、帯域BM内の各周波数での位相差の代表値(例えば平均値)である。同様に、強度差算定部54は、音響信号s1と音響信号s2との強度差(例えば振幅差やパワー差)ΔA[tn]を単位期間tn毎に算定する。
The
係数列生成部46は、第1実施形態の係数値gi[fm,tn]と同様の方法で算定した係数値γi[fm,tn](第1実施形態の係数値gi[fm,tn]に相当する)を、位相差算定部52が算定した位相差ΔP[tn]と強度差算定部54が算定した強度差ΔA[tn]とに応じて補正することで処理係数列Giの係数値gi[fm,tn]を算定する。
The
第1に、係数列生成部46は、位相差算定部52が算定した位相差ΔP[tn]に応じて単位期間tn毎に係数値ξp[tn]を設定する。具体的には、位相差ΔP[tn]が大きい(すなわち単位期間tnにて風雑音が優勢である)ほど係数値ξp[tn]が小さい数値となるように、係数値ξp[tn]は0以上かつ1以下の範囲内で可変に設定される。第2に、係数列生成部46は、強度差算定部54が算定した強度差ΔA[tn]に応じて単位期間tn毎に係数値ξa[tn]を設定する。具体的には、強度差ΔA[tn]が大きい(すなわち単位期間tnにて風雑音が優勢である)ほど係数値ξa[tn]が小さい数値となるように、係数値ξa[tn]は0以上かつ1以下の範囲内で可変に設定される。
First, the
第3に、係数列生成部46は、数式(A)の演算で算定した係数値γi[fm,tn]を係数値ξp[tn]と係数値ξa[tn]に応じて調整することで処理係数列Giの各係数値gi[fm,tn](gi[f1,t1]〜gi[fM,tN])を算定する。例えば、係数列生成部46は、係数値γi[fm,tn]と係数値ξp[tn]と係数値ξa[tn]との乗算値を係数値gi[fm,tn]として算定する(gi[fm,tn]=γi[fm,tn]×ξp[tn]×ξa[tn])。以上の説明から理解されるように、係数値ξp[tn]や係数値ξa[tn]が小さい(すなわち単位期間tnにて風雑音が優勢である)ほど係数値gi[gm,tn]は小さい数値となる。したがって、第2実施形態によれば、第1実施形態と比較して風雑音を充分に抑圧できるという利点がある。
Third, the coefficient
なお、以上の例示では単位期間tn毎に位相差ΔP[tn]および強度差ΔA[tn]を算定したが、周波数fm毎の位相差ΔP[fm,tn]と周波数fm毎の強度差ΔA[fm,tn]とを各単位期間tnについて算定する構成も好適である。係数列生成部46は、周波数fmと単位期間tnとの組合せ毎に、位相差ΔP[fm,tn]に応じた係数値ξp[fm,tn]と強度差ΔA[fm,tn]に応じた係数値ξa[fm,tn]とを算定する。処理係数列Giの係数値gi[fm,tn]は、例えば係数値γi[fm,tn]と係数値ξp[fm,tn]と係数値ξa[fm,tn]との乗算値として算定される。
In the above example, the phase difference ΔP [tn] and the intensity difference ΔA [tn] are calculated for each unit period tn, but the phase difference ΔP [fm, tn] for each frequency fm and the intensity difference ΔA [for each frequency fm. A configuration in which fm, tn] is calculated for each unit period tn is also suitable. The
<C:第3実施形態>
次に、本発明の第3実施形態を説明する。第1実施形態では、雑音基底Ci_noiseの除外後の行列VAiに応じた処理係数列Gi(G1,G2)を音響信号siの観測行列Viに作用させることでスペクトルYiの時系列を生成した。前述の通り、行列VAiの第n列に位置するM個の要素値va[f1,tn]〜va[fM,tn]の系列は、単位期間tnのスペクトルXiから風雑音を抑圧したパワースペクトルに相当する。そこで、第3実施形態では、雑音基底Ci_noiseの除外後の行列VAiをスペクトルYiの時系列として利用する。すなわち、処理係数列Giの生成や観測行列Viに対する適用は省略される。
<C: Third Embodiment>
Next, a third embodiment of the present invention will be described. In the first embodiment, the time series of the spectrum Yi is generated by applying the processing coefficient sequence Gi (G1, G2) corresponding to the matrix VAi after the exclusion of the noise basis Ci_noise to the observation matrix Vi of the acoustic signal si. As described above, the sequence of M element values va [f1, tn] to va [fM, tn] located in the nth column of the matrix VAi has a power spectrum in which wind noise is suppressed from the spectrum Xi of the unit period tn. Equivalent to. Therefore, in the third embodiment, the matrix VAi after removal of the noise basis Ci_noise is used as a time series of the spectrum Yi. That is, the generation of the processing coefficient sequence Gi and the application to the observation matrix Vi are omitted.
第3実施形態の音響処理装置100は、第1実施形態の特性解析部34Aおよび雑音抑圧部36を図7の雑音抑圧部60に置換した構成である。図7に示すように、雑音抑圧部60は、行列分解部42と雑音特定部44と抑圧処理部48とを含んで構成される。行列分解部42および雑音特定部44は、第1実施形態と同様である。すなわち、行列分解部42は、各観測行列Viの非負行列因子分解で基底行列Wi(W1,W2)と係数行列Hi(H1,H2)とを生成し、雑音特定部44は、基底行列W1内の雑音基底C1_noiseと基底行列W2内の雑音基底C2_noiseとを特定する。
The
抑圧処理部48は、音響信号s1および音響信号s2の各々について、当該音響信号siの基底行列Wiから雑音基底Ci_noiseを除外したM行×(K-1)列の行列WAiと、雑音基底Ci_noiseに対応する重み系列Ei_noiseを係数行列Hiから除外した(K-1)行×N列の行列HAiとの乗算で算定されるM行×N列の行列VAiを、風雑音の抑圧後のスペクトルYiの時系列(スペクトログラム)として解析期間TA毎に順次に生成する。すなわち、行列VAiの第n列に位置するM個の要素値va[f1,tn]〜va[fM,tn]の系列が単位期間tnのスペクトルYiとして波形合成部38に供給される。他の動作は第1実施形態と同様である。
For each of the acoustic signal s1 and acoustic signal s2, the
第3実施形態では、雑音基底Ci_noiseを基底行列Wiから除外した行列WAiと重み系列Ei_noiseを係数行列Hiから除外した行列HAiとの乗算でスペクトルYiの時系列(行列VAi)が生成される。したがって、第1実施形態と同様の効果が実現される。また、処理係数列Giの算定(数式(A))や観測行列Viに対する適用が省略されるから、第1実施形態と比較して音響処理装置100の構成や処理が簡素化されるという利点もある。
In the third embodiment, a time series (matrix VAi) of the spectrum Yi is generated by multiplying the matrix WAi excluding the noise basis Ci_noise from the base matrix Wi and the matrix HAi excluding the weight sequence Ei_noise from the coefficient matrix Hi. Therefore, the same effect as the first embodiment is realized. Further, since calculation of the processing coefficient sequence Gi (formula (A)) and application to the observation matrix Vi are omitted, there is an advantage that the configuration and processing of the
<D:変形例>
以上の各形態には多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
<D: Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples can be appropriately combined.
(1)変形例1
以上の各形態では、音響信号siを帯域BLと帯域BHとに分割したが、音響信号siの帯域分割は省略され得る。例えば、音響信号siの全帯域を特性解析部34(34A,34B)や雑音抑圧部36による処理の対象とした構成も採用される。もっとも、風雑音の強度は高域側の帯域(例えば帯域BH)で低下するから、音響信号siの帯域分割を省略した構成では、風雑音の独立した基底Ci[k]を非負行列因子分解で高精度に抽出することが困難となる。したがって、抑圧の対象となる雑音成分の周波数帯域が事前に判明している場合には、雑音成分を包含する周波数帯域(帯域BL)のみを特性解析部34(34A,34B)や雑音抑圧部36による処理の対象とした前述の構成が格別に好適である。
(1)
In each of the above embodiments, the acoustic signal si is divided into the band BL and the band BH, but the band division of the acoustic signal si may be omitted. For example, a configuration in which the entire band of the acoustic signal si is processed by the characteristic analysis unit 34 (34A, 34B) or the
(2)変形例2
以上の各形態では、音響信号siの解析期間TA毎に処理係数列Giを生成したが、解析期間TAの区切は省略される。例えば、音響信号siの全区間にわたる単位期間tn毎のスペクトルXiの時系列を1個の観測行列Viとして処理係数列Giを生成する構成も採用され得る。
(2)
In each of the above embodiments, the processing coefficient sequence Gi is generated for each analysis period TA of the acoustic signal si, but the division of the analysis period TA is omitted. For example, a configuration in which the processing coefficient sequence Gi is generated using the time series of the spectrum Xi for each unit period tn over the entire interval of the acoustic signal si as one observation matrix Vi can be employed.
(3)変形例3
以上の各形態では、スペクトルSiをパワースペクトルとした構成を例示したが、スペクトルSiを振幅スペクトルとした構成も採用され得る。前掲の数式(A)で算定される係数値gi[fm,tn]はパワーに対するゲインであるから、スペクトルSiを振幅スペクトルとした構成では、数式(A)の右辺の平方根(va[fm,tn]/v[fm,tn])1/2が係数値gi[fm,tn]として算定される。
(3)
In each of the above embodiments, the configuration in which the spectrum Si is the power spectrum is illustrated, but a configuration in which the spectrum Si is the amplitude spectrum can also be employed. Since the coefficient value gi [fm, tn] calculated by the above formula (A) is a gain with respect to power, in the configuration in which the spectrum Si is an amplitude spectrum, the square root (va [fm, tn] of the right side of the formula (A) is used. ] / V [fm, tn]) 1/2 is calculated as the coefficient value gi [fm, tn].
(4)変形例4
以上の各形態では、処理係数列Giの各係数値gi[fm,tn]を音響信号siの各成分値xi[fm,tn]に乗算することで音響信号qiを生成したが、処理係数列Giを音響信号siに作用させる方法は適宜に変更される。例えば、音響信号siの各成分値xi[fm,tn]に係数値gi[fm,tn]を加算する構成も採用され得る。また、以上の各形態での例示とは反対に、風雑音が優勢であるほど係数値gi[fm,tn]が大きい数値となるように処理係数列Giを生成する構成では、成分値xi[fm,tn]を係数値gi[fm,tn]で除算または減算する構成が採用され得る。
(4) Modification 4
In each of the above embodiments, the acoustic signal qi is generated by multiplying each component value xi [fm, tn] of the acoustic signal si by each coefficient value gi [fm, tn] of the processing coefficient sequence Gi. The method of causing Gi to act on the acoustic signal si is appropriately changed. For example, a configuration in which the coefficient value gi [fm, tn] is added to each component value xi [fm, tn] of the acoustic signal si may be employed. Contrary to the examples in the above embodiments, in the configuration in which the processing coefficient sequence Gi is generated so that the coefficient value gi [fm, tn] becomes larger as the wind noise becomes more dominant, the component value xi [ A configuration in which fm, tn] is divided or subtracted by the coefficient value gi [fm, tn] may be employed.
(5)変形例5
以上の各形態では、2系統の音響信号qi(q1,q2)を生成したが、1系統(モノラル形式)の音響信号q1のみを生成する場合にも以上の各形態が同様に適用され得る。例えば、観測行列V1に応じた1個の処理係数列G1のみを係数列生成部46が生成し、雑音抑圧部36は観測行列V1に対する処理係数列G1の適用でスペクトルY1の時系列のみを生成する。以上の構成では、音響信号s1の基底行列W1から雑音基底C1_noiseを特定するために音響信号s2が利用される。
(5) Modification 5
In the above embodiments, two systems of acoustic signals qi (q1, q2) are generated, but the above embodiments can be similarly applied when only one system (monaural format) of acoustic signals q1 is generated. For example, the coefficient
(6)変形例6
演算処理装置22の処理(処理係数列Giの生成や適用)は、音響信号s1および音響信号s2の供給に並行して実時間的に実行され、各処理毎に逐次的に各音響信号qiが再生され得る。ただし、事前に用意された音響信号s1および音響信号s2に対する処理係数列Giの生成や適用が完了してから音響信号qiの生成を開始する構成(バッチ処理)も好適である。
(6) Modification 6
The processing of the arithmetic processing unit 22 (generation and application of the processing coefficient sequence Gi) is executed in real time in parallel with the supply of the acoustic signal s1 and the acoustic signal s2, and each acoustic signal qi is sequentially generated for each processing. Can be regenerated. However, a configuration (batch process) in which generation of the acoustic signal qi is started after generation and application of the processing coefficient sequence Gi for the acoustic signal s1 and the acoustic signal s2 prepared in advance is completed.
100……音響処理装置、12……信号供給装置、14……放音装置、22……演算処理装置、24……記憶装置、32……周波数分析部、34A,34B……特性解析部、36……雑音抑圧部、38……波形合成部、42……行列分解部、44……雑音特定部、46……係数列生成部、52……位相差算定部、54……強度差算定部。
DESCRIPTION OF
Claims (4)
前記第1音響信号の前記基底行列の前記複数の基底のうち前記第2音響信号の前記基底行列の基底との相関が高い基底を、前記第1音響信号の雑音成分に対応する雑音基底として特定する雑音特定手段と、
前記第1音響信号の前記基底行列のうち前記雑音基底以外の各基底と前記第1音響信号の前記係数行列のうち当該各基底に対応する重み系列とに応じて、前記第1音響信号の前記雑音成分が抑圧されるように周波数毎の係数値が設定された処理係数列を生成する係数列生成手段と、
前記第1音響信号に前記処理係数列を作用させる雑音抑圧手段と
を具備する音響処理装置。 For each of the first acoustic signal and the second acoustic signal collected in parallel, the acoustic signals are different by non-negative matrix factorization of an observation matrix having a time series of component values for each frequency of the acoustic signal as elements. Matrix decomposition means for generating a base matrix including a plurality of bases indicating component values for each frequency of the component, and a coefficient matrix including a plurality of weight sequences each indicating a time series of weight values of each base;
A base having a high correlation with the base of the base matrix of the second acoustic signal among the plurality of bases of the base matrix of the first acoustic signal is identified as a noise base corresponding to a noise component of the first acoustic signal Noise identification means to
According to each basis other than the noise basis among the basis matrix of the first acoustic signal and a weight sequence corresponding to each basis among the coefficient matrix of the first acoustic signal, the first acoustic signal of the first acoustic signal Coefficient sequence generation means for generating a processing coefficient sequence in which coefficient values for each frequency are set so that noise components are suppressed;
Noise suppression means comprising: noise suppression means for applying the processing coefficient sequence to the first acoustic signal.
前記雑音抑圧手段は、前記第1音響信号のうち前記第1帯域の成分に前記処理係数列を作用させ、
前記雑音抑圧手段による処理後の成分と、前記第1音響信号のうち前記第1帯域と比較して高域側の第2帯域内の成分とを合成する波形合成手段を具備する
請求項1の音響処理装置。 The matrix decomposition means generates the base matrix and the coefficient matrix for the first band component of the first acoustic signal,
The noise suppression means causes the processing coefficient sequence to act on the component of the first band in the first acoustic signal,
The waveform synthesizing unit that synthesizes the component after processing by the noise suppression unit and the component in the second band on the high frequency side compared to the first band in the first acoustic signal. Sound processing device.
前記係数列生成手段は、前記処理係数列の各係数値を、前記第1音響信号と前記第2音響信号との位相差に応じて可変に設定する
請求項2の音響処理装置。 Comprising phase difference calculating means for calculating a phase difference between the first acoustic signal and the second acoustic signal;
The acoustic processing apparatus according to claim 2, wherein the coefficient sequence generation unit variably sets each coefficient value of the processing coefficient sequence in accordance with a phase difference between the first acoustic signal and the second acoustic signal.
前記係数列生成手段は、前記処理係数列の各係数値を、前記第1音響信号と前記第2音響信号との強度差に応じて可変に設定する
請求項2または請求項3の音響処理装置。
Comprising intensity difference calculating means for calculating an intensity difference between the first acoustic signal and the second acoustic signal;
The acoustic processing device according to claim 2 or 3, wherein the coefficient sequence generation means variably sets each coefficient value of the processing coefficient sequence according to an intensity difference between the first acoustic signal and the second acoustic signal. .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010099488A JP5454330B2 (en) | 2010-04-23 | 2010-04-23 | Sound processor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010099488A JP5454330B2 (en) | 2010-04-23 | 2010-04-23 | Sound processor |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011227417A JP2011227417A (en) | 2011-11-10 |
| JP5454330B2 true JP5454330B2 (en) | 2014-03-26 |
Family
ID=45042786
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010099488A Expired - Fee Related JP5454330B2 (en) | 2010-04-23 | 2010-04-23 | Sound processor |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5454330B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5516169B2 (en) * | 2010-07-14 | 2014-06-11 | ヤマハ株式会社 | Sound processing apparatus and program |
| JP2015118361A (en) | 2013-11-15 | 2015-06-25 | キヤノン株式会社 | Information processing apparatus, information processing method, and program |
| JP6482173B2 (en) | 2014-01-20 | 2019-03-13 | キヤノン株式会社 | Acoustic signal processing apparatus and method |
| JP6274872B2 (en) * | 2014-01-21 | 2018-02-07 | キヤノン株式会社 | Sound processing apparatus and sound processing method |
| CN111276154B (en) * | 2020-02-26 | 2022-12-09 | 中国电子科技集团公司第三研究所 | Wind noise suppression method and system and shot sound detection method and system |
-
2010
- 2010-04-23 JP JP2010099488A patent/JP5454330B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011227417A (en) | 2011-11-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5516169B2 (en) | Sound processing apparatus and program | |
| JP5641186B2 (en) | Noise suppression device and program | |
| JP5942420B2 (en) | Sound processing apparatus and sound processing method | |
| JP6485711B2 (en) | Sound field reproduction apparatus and method, and program | |
| JP6371516B2 (en) | Acoustic signal processing apparatus and method | |
| JP5454330B2 (en) | Sound processor | |
| JP5187666B2 (en) | Noise suppression device and program | |
| CN112712816A (en) | Training method and device of voice processing model and voice processing method and device | |
| JP5942388B2 (en) | Noise suppression coefficient setting device, noise suppression device, and noise suppression coefficient setting method | |
| JP5034735B2 (en) | Sound processing apparatus and program | |
| JP5609157B2 (en) | Coefficient setting device and noise suppression device | |
| Dreier et al. | Sound source modelling by nonnegative matrix factorization for virtual reality applications | |
| JP5633673B2 (en) | Noise suppression device and program | |
| Mu et al. | A timbre matching approach to enhance audio quality of psychoacoustic bass enhancement system | |
| US20170323656A1 (en) | Signal processor | |
| JP4533126B2 (en) | Proximity sound separation / collection method, proximity sound separation / collection device, proximity sound separation / collection program, recording medium | |
| Zhu et al. | Modified complementary joint sparse representations: a novel post-filtering to MVDR beamforming | |
| JP5884473B2 (en) | Sound processing apparatus and sound processing method | |
| US20130322644A1 (en) | Sound Processing Apparatus | |
| JP2015169901A (en) | Acoustic processing device | |
| JP2014137389A (en) | Acoustic analyzer | |
| JP6790659B2 (en) | Sound processing equipment and sound processing method | |
| JP2013182161A (en) | Acoustic processing device and program | |
| JP5463924B2 (en) | Sound processor | |
| JP2014215544A (en) | Sound processing device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130222 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131030 |
|
| TRDD | Decision of grant or rejection written | ||
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131209 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131223 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5454330 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |