JP7588679B2 - Audio signal processing device, program, and audio signal processing method - Google Patents
Audio signal processing device, program, and audio signal processing method Download PDFInfo
- Publication number
- JP7588679B2 JP7588679B2 JP2023076242A JP2023076242A JP7588679B2 JP 7588679 B2 JP7588679 B2 JP 7588679B2 JP 2023076242 A JP2023076242 A JP 2023076242A JP 2023076242 A JP2023076242 A JP 2023076242A JP 7588679 B2 JP7588679 B2 JP 7588679B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- denoising
- network
- time
- sliding window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、リアルタイム、ノイズ除去、スライディングウィンドウ、ニューラルネットワーク、データストリームに関する。 The present invention relates to real-time, noise reduction, sliding window, neural networks, and data streams.
後続の文献は、本発明に関する。 The following documents relate to the present invention:
本発明のこれら及び他の態様は、以下に説明する実施形態を参照して明らかとなり、説明されるであろう。 These and other aspects of the invention will be apparent from and elucidated with reference to the embodiments described hereinafter.
1.緒言
リアルタイムの音声ノイズ除去は、極めて需要がある-おそらくこれまでで最も需要がある-オーディオ処理タスクである。我々の世界が依然コロナウイルス感染症(COVID)のパンデミックにより闇に包まれ、オンライン会議が我々の日常的な社会生活の「新たな通常」となってきているからである。特に最近、従来技術のリアルタイムのノイズ除去技術はすべて、ニューラルネットワークに基づいている[1、2、3、4、5、6、7、8]。それらは処理時間を低減するためネットワークの簡素性を保持しながら、妥当なノイズ除去の質を達成する新規のネットワーク構造を模索するものである。
1. Introduction Real-time speech denoising is a highly demanding audio processing task - perhaps the most demanding ever - as our world remains darkened by the coronavirus disease (COVID) pandemic and online meetings have become the "new normal" of our daily social life. Especially recently, all prior art real-time denoising techniques are based on neural networks [1, 2, 3, 4, 5, 6, 7, 8]. They explore novel network structures to achieve reasonable denoising quality while retaining the simplicity of the network to reduce the processing time.
オフラインでの音声ノイズ除去と異なり、リアルタイムの設定でのオーディオ信号は、ストリーミング方式で提供される。ネットワークは、信号サンプルが到着したとたん、それらを処理し、可能な限り短い遅延で出力サンプルを発生させなければならない。結果として、概ねすべてのリアルタイムの技術において、固定の長さのスライディングウィンドウバッファを使用するのが共通の戦略となっている。 Unlike offline audio denoising, in a real-time setting the audio signal is provided in a streaming manner. The network must process signal samples as they arrive and generate output samples with as short a delay as possible. As a result, a common strategy in nearly all real-time techniques is to use a fixed-length sliding window buffer.
このことは、当然の選択であるように思われる。ネットワークは、スライディングウィンドウバッファが入来オーディオサンプルにより満たされ、次にそのバッファにおいてデータをノイズ除去するまで待機する。後に、結果として生じる信号データがリアルタイムオーディオプレイヤーに供給される。この方法では、ネットワークは固定の長さLの入力信号を予想する。ネットワークの処理時間が常にLより短いものである限り、信号サンプルの到着から対応するノイズ除去されたサンプルの再生時間までの遅れ全体は制限されており、Lよりも長く2L未満である(セクション2.1の分析を参照)。 This seems like a natural choice: the network waits until the sliding window buffer is filled with incoming audio samples and then denoises the data in that buffer. The resulting signal data is later fed to a real-time audio player. In this way, the network expects an input signal of fixed length L. As long as the processing time of the network is always less than L, the overall delay from the arrival of a signal sample to the play-out time of the corresponding denoised sample is bounded, greater than L and less than 2L (see the analysis in Section 2.1).
しかしながら、実践において、リアルタイムのパフォーマンスを確実にするバッファの長さLを選択するのは、不可能ではないが難しい。大きなLは、長い遅れを生起させる;小さなLは、Lより長いネットワークの処理時間をもたらす場合があり、結果として途切れ途切れのオーディオ再生になる。これは、実際の計算環境において、常に他のバックグラウンドプロセス(例えば、4Kビデオの再生及びゲーム)が存在するためである。Lが短いほど、ノイズ除去ネットワークは他のプロセスのCPU占有率に影響されやすい。手短に言うと、スライディングウィンドウ戦略は、リアルタイムのノイズ除去にとって基本的なものであるにもかかわらず、入念な調査ではとらえにくいままなのである。 However, in practice, it is difficult, if not impossible, to choose a buffer length L that ensures real-time performance. A large L will cause a long delay; a small L may result in a network processing time longer than L, resulting in choppy audio playback. This is because in a real computing environment, there are always other background processes (e.g., 4K video playback and gaming). The shorter L is, the more susceptible the denoising network is to the CPU occupancy of other processes. In short, the sliding window strategy, although fundamental for real-time denoising, remains elusive to careful investigation.
本発明者は、異なるスライディングウィンドウ戦略、すなわちダイナミックスライディングウィンドウを提案する。本発明者の手法では、入力バッファの長さが固定されていない。ネットワークは、現在バッファされているデータを、その長さと無関係に取り込み、待機がない状態でそれに対する処理を開始する。ネットワークが実行している間、新たに受信したデータは、バッファに蓄積され、ネットワークが現在のノイズ除去のラウンドを終えるときに処理される準備態勢にある。このスライディングウィンドウ戦略は、概念としては単純だが、他のプロセスのCPU占有率に対してよりロバストであり、それにより、より短くてより安定した遅れという結果になる。その利点を示すために、本発明者は、本発明者の手法が生じさせるオーディオ再生の遅延及び共通して使用されている固定の大きさのスライディングウィンドウを公的に分析する。知る限りにおいて、異なるスライディングウィンドウ戦略下でのネットワークの遅延が調査されるのは、今回が初めてである。 We propose a different sliding window strategy, namely dynamic sliding window. In our approach, the input buffer length is not fixed. The network takes the currently buffered data regardless of its length and starts processing it without waiting. While the network is running, newly received data is accumulated in the buffer and is ready to be processed when the network finishes the current round of denoising. This sliding window strategy is conceptually simple, but is more robust to the CPU occupancy of other processes, thereby resulting in shorter and more stable delays. To show its advantages, we publicly analyze the audio playback delays caused by our approach and a commonly used fixed-size sliding window. To the best of our knowledge, this is the first time that network delays under different sliding window strategies are investigated.
多くの既存のリアルタイムのノイズ除去ネットワーク(例えば、[6、7、8])は、ダイナミックスライディングウィンドウを容易には統合できない(セクション2.2の論述を参照)。したがって、本発明者は、リアルタイムの設定のために適合される軽量のノイズ除去ネットワーク、すなわち:ストリーム信号を受け入れること、及びダイナミックスライディングウィンドウを使用してそれらを処理することを提案する。スライディングウィンドウに亘るデータを入念にパディング及び再使用することで、本発明者のネットワークは、オフラインのストリーミングのない事例と比較して、ノイズ除去の質の喪失を受けない。 Many existing real-time denoising networks (e.g., [6, 7, 8]) cannot easily integrate dynamic sliding windows (see the discussion in Section 2.2). Therefore, we propose a lightweight denoising network adapted for the real-time setting: accepting streaming signals and processing them using dynamic sliding windows. By carefully padding and reusing data across the sliding window, our network does not suffer from loss in denoising quality compared to the offline non-streaming case.
本発明者は、提案のモデルといくつかの従来技術のリアルタイムのノイズ除去方法を比較する広範の実験を実行している。本発明者の提案のモデルが、すべての質のメトリックに関して互角のノイズ除去の質を取得したが、すべての比較された方法の中で再生の遅れが最も少ないという結果が示された。最も重要なことには、先行のリアルタイムのノイズ除去方法[6]と比較して、本発明者のモデルは、Zoomでの会議、4Kビデオの編集、及びテレビゲームなどの他のバックグラウンドのタスクがCPUサイクルを先取りし得る現実世界のシナリオで、リアルタイムのパフォーマンスを維持するのによりロバストである。 We have performed extensive experiments comparing our proposed model with several prior art real-time denoising methods. The results show that our proposed model obtains comparable denoising quality in terms of all quality metrics, but with the lowest playback delay among all compared methods. Most importantly, compared to prior real-time denoising methods [6], our model is more robust in maintaining real-time performance in real-world scenarios where other background tasks such as Zoom meetings, 4K video editing, and video games may preempt CPU cycles.
2.方法
本発明者は、固定の大きさのスライディングウィンドウが使用されるときのオーディオ再生の遅れを分析することから開始している。これは、本発明者の提案したダイナミックスライディングウィンドウを使用するときの遅れと比較されている(セクション2.1)。本発明者の分析に刺激されて、本発明者は、次に、より速くてよりロバストなノイズ除去のためのダイナミックスライディングウィンドウを活用する軽量のノイズ除去ネットワークを提案する(セクション2.2)。
2. Methodology We start by analyzing the delay in audio playback when a fixed-size sliding window is used, which is compared to the delay when using our proposed dynamic sliding window (Section 2.1). Motivated by our analysis, we then propose a lightweight denoising network that exploits the dynamic sliding window for faster and more robust denoising (Section 2.2).
図1は、ダイナミック対固定の大きさのスライディングウィンドウを概略的に示す。異なるウィンドウが異なるハッチングにより示される。各ウィンドウは、個々にネットワークにより処理される。灰色の領域は、CPUサイクルが他のプロセスにより占有され、そのためネットワークの処理時間が増加する期間を示す。 Figure 1 shows a schematic of dynamic vs. fixed size sliding windows. Different windows are indicated by different hatching. Each window is processed by the network individually. The grey areas indicate periods where CPU cycles are occupied by other processes, thus increasing the network processing time.
2.1データストリームのためのスライディングウィンドウ
固定の大きさのスライディングウィンドウ。概ねすべての既存のネットワークベースのノイズ除去モデルにおいて、入来オーディオ信号は、時間の連続する重複のないウィンドウ[X1,X2,…]として扱われる。各ウィンドウは、ストリーミング方式において充足される定常長さLのオーディオサンプル(すなわち、Xi∈RL)をホストする。ネットワークFは最新の未処理のウィンドウXiを取り込み、ノイズ除去された結果F(Xi)を出力し、その後、次のウィンドウXi+1が満たされるまで待機する(図1の(a)を参照)。tkはウィンドウXkのネットワークの処理時間を示す。ウィンドウの大きさが固定されているが、実践においてtkは、他のバックグラウンドプロセスのCPU占有率に起因して、経時的に異なるということに留意されたい。本発明者の分析では、Xiを受け取った瞬間からネットワークがF(Xi)を出力する瞬間までの遅延(又は遅れ)diが、以下のように表されることが示されている。
式(1)の導出は些細なものではない。ここのスペースが限られているので、本発明者は導出の詳細を飛ばすが、本発明者はそれを一般的にオンラインで利用できるようにしている1。 The derivation of equation (1) is non-trivial. Due to limited space here, we skip the details of the derivation, but we have made it publicly available online.1
本発明者の分析(1)は、以下を明示している:ti<Lが常に満たされる理想の場合には、ノイズ除去ネットワークが遅れの蓄積もなく、リアルタイムでスムーズに実行され;再生の遅延は上限が2Lとなる。しかしながら、実際には、ネットワークの実行は、よく、他のバックグラウンド計算プロセスに影響され、その処理時間tiはLよりも長くなることがある。同時に、長さtiのオーディオサンプルが到着し、バッファに蓄積する。この分量のデータを処理すべく、ネットワークは、
ダイナミックスライディングウィンドウ。本発明者は、スライディングウィンドウの大きさをダイナミックに調節することを提案する。ネットワークがデータウィンドウXiを処理し終えたあと即座に、バッファの新たに受信したデータは、長さtiを有し、これはLよりも大きい場合も、そうでない場合もある。バッファの長さと無関係に、本発明者は待機せずに、利用可能なバッファされたデータをノイズ除去する。図1の(b)はプロセスを図解している。この戦略では、ウィンドウXiを再生するための遅延diは、以下である。
i=1のとき、第1のウィンドウの遅延はd1=L0+t1であり、式中L0は開始時にノイズ除去の処理を開始するための初期のウィンドウの大きさである。本発明者らは再度式(2)の導出のための本発明者のオンラインの文献について読者に言及する。 When i=1, the delay of the first window is d1 = L0 + t1 , where L0 is the initial window size to begin the denoising process at the beginning. We again refer the reader to our online literature for the derivation of equation (2).
この分析では、diが2つの連続するウィンドウXk-1及びXkのネットワークの処理時間のみに依拠することが示されている。固定の大きさのスライディングウィンドウ((1)に示す)と対照的に、蓄積する遅延がない。そのため、本発明者の手法は、計算能力の変動に対してよりロバストである。これは注目すべき利点である。なぜなら、実際の計算環境において、ノイズ除去の計算能力は絶えず変動するからである(セクション3.3を参照)。 The analysis shows that d i depends only on the network processing time of two successive windows X k−1 and X k . In contrast to a fixed-size sliding window (shown in (1)), there is no accumulating delay. Therefore, our approach is more robust to variations in computing power. This is a notable advantage, since in a real computing environment, the computing power of denoising varies constantly (see Section 3.3).
2.2ネットワーク構造及びデータパディング
ダイナミックスライディングウィンドウ戦略は、特定のネットワーク構造から独立しているが、多くの既存のリアルタイムのノイズ除去ネットワーク[6、7、8、9、10]はそれを利用するよう容易に適合できない。それらの一部は、ネットワークの実行の前に所定のスライディングウィンドウの大きさを必要とする[6]。他にも、ネットワークの推論コストの低減に注目しているものはあるが、それらが入来データストリームをいかに取り扱うかが依然不明瞭である[7、8、9、10]。
2.2 Network Structure and Data Padding Although the dynamic sliding window strategy is independent of a specific network structure, many existing real-time denoising networks [6, 7, 8, 9, 10] cannot be easily adapted to take advantage of it. Some of them require a given sliding window size before the network runs [6]. Others have focused on reducing the inference cost of the network, but it is still unclear how they handle the incoming data stream [7, 8, 9, 10].
提案されるネットワーク構造。本発明者は、ダイナミックスライディングウィンドウを使用する軽量のノイズ除去ネットワークを提案する。本発明者のネットワークは、[5]のノイズ除去の成分をもとに構築されている(そのため、その中のノイズ除去モデルよりかなり簡素である)。本発明者のネットワークへの入力は、データウィンドウXiへSTFTを適用することにより取得されるスペクトログラムsxである。スペクトログラムsxは最初、時間-周波数領域でカーネルサイズ(5,5)及び膨張(1,1)を有する2Dの畳み込み層により処理される。結果生じる特徴マップは、非表示の大きさ400の一方向性のLSTM[11]に供給される。最終的に、3つの完全に接続された層の非表示の大きさ(400,600,512)が、各タイムビンに対して適用される。他の発話エンハンスメントモデル[5、12、13]と類似して、本発明者のネットワークは、sxと同じ次元の複素数値のマスクcを出力する。最後に、ノイズ除去されたオーディオ信号が、は、逆STFTを
トレーニング時に、本発明者は後続の喪失関数を最適化している:
図2は、データパディングの図解を概略的に示す。大きさ8及び6の連続する2つのウィンドウが、カーネルサイズ3の2つの1Dの畳み込みにより処理される。この事例において、本発明者は各ウィンドウに対する2つの未来の要素(ウィンドウXiについて22、23)をパディングし、先行するウィンドウ(処理ウィンドウXiから取得された15、16)からの第1の畳み込みの結果の2つの要素を再使用する。 Figure 2 shows a schematic illustration of data padding: two consecutive windows of size 8 and 6 are processed by two 1D convolutions with kernel size 3. In this case, we pad two future elements for each window (22, 23 for window X i ) and reuse two elements of the first convolution result from the previous window (15, 16 taken from processing window X i ).
データパディング。本発明者のネットワーク(また多くのその他のもの)は、畳み込み層を有し、それは境界のデータを処理するためにパディングを必要とする。スライディングウィンドウの方法でストリーミングデータを取り扱うために、このことは、データウィンドウを処理するときに充分な「未来の」データ(例えば、図2のウィンドウXi-1についてはブロック16及び17)をバッファする必要があることを意味する。パディングデータの到着を待機することが、さらなる遅れ(本発明者の実施においては48ミリ秒)を導入する。しかし、本発明者は、次のスライディングウィンドウのパディングデータの畳み込みの結果を再使用することができる(図2の図解を参照)。幾分かの計算のコストを節約することとは別に、パディングデータの再使用は、ネットワークのノイズ除去の質に対して重要である。それにより、本発明者のネットワークが、突如信号全体を取り込むかのように、同じノイズ除去の質を維持することが確実になる。おそらく意外に感じられるであろうが、そのような保証は、既存のリアルタイムのノイズ除去ネットワークに依然欠いている(セクション3.2の実験を参照)。 Data padding. Our network (and many others) has convolutional layers, which require padding to process boundary data. To handle streaming data in a sliding window manner, this means that we need to buffer enough “future” data when processing the data window (e.g., blocks 16 and 17 for window X i−1 in FIG. 2). Waiting for the arrival of padding data introduces an additional delay (48 ms in our implementation). However, we can reuse the result of the convolution with the padding data of the next sliding window (see the diagram in FIG. 2). Apart from saving some computational cost, reusing the padding data is important for the denoising quality of the network. It ensures that our network maintains the same denoising quality as if it were suddenly taking in the entire signal. Perhaps surprisingly, such a guarantee is still lacking in existing real-time denoising networks (see experiments in Section 3.2).
3.実験
本発明者の実験には、2要素がある:本発明者は、本発明者のネットワークのノイズ除去の質を、従来技術のリアルタイムのノイズ除去モデルと比較することによって評価している(セクション3.2)。本発明者は、次に、従来型の固定の大きさのスライディングウィンドウの手法を凌ぐダイナミックスライディングウィンドウのパフォーマンスの利点を実証する(セクション3.3)。
3. Experiments Our experiments are two-fold: we evaluate the denoising quality of our network by comparing it with prior art real-time denoising models (Section 3.2). We then demonstrate the performance advantage of a dynamic sliding window over a traditional fixed-size sliding window approach (Section 3.3).
3.1.実験の設定
データセット。本発明者は、2つの一般的に利用可能なデータセットについての実験を実行している。Xuら[5]により提供された第1のものは、AVSPEECHから選択されたクリーンなオーディオ[12]、及びAudioSet[14]及びDEMAND[15]からのノイズを有する。本発明者は、このデータセットをADDデータセットと呼ぶ。加えて、本発明者はまた、Valentini[16]のベンチマークを検証し、これは28のスピーカーからのオーディオクリップを含む;各クリップは、対応するクリーン及びノイズ版を有する。
3.1 Experimental Setup Datasets. We perform experiments on two publicly available datasets. The first one, provided by Xu et al. [5], has clean audio selected from AVSPEECH [12] and noise from AudioSet [14] and DEMAND [15]. We call this dataset the ADD dataset. In addition, we also validate the benchmark of Valentini [16], which contains audio clips from 28 speakers; each clip has corresponding clean and noise versions.
評価のメトリック。ノイズ除去の質を評価すべく、本発明者は、後続の広く使用されている客観的なメトリックを使用する:(i)STOI:短時間客観的明瞭度(Short-Time Objective Intelligibility)[17];(ii)PESQ:客観的音声品質評価法(Perceptual evaluation of speech quality)(本発明者は狭帯域版を使用)[18];(iii)CSIG:符号歪のMOS予測因子[19];(iv)CBAK:バックグラウンドノイズの攻撃性のMOS予測因子[19];(v)COVL:全体的な質のMOS予測因子[19];(vi)SSNR:セグメント信号雑音比(Segmental Signal-to-Noise Ratio)[20]。 Evaluation metric. To evaluate the quality of noise reduction, we use the following widely used objective metrics: (i) STOI: Short-Time Objective Intelligibility [17]; (ii) PESQ: Perceptual evaluation of speech quality (we use the narrowband version) [18]; (iii) CSIG: MOS predictor of code distortion [19]; (iv) CBAK: MOS predictor of background noise aggressiveness [19]; (v) COVL: MOS predictor of overall quality [19]; (vi) SSNR: Segmental Signal-to-Noise Ratio [20].
本発明者は、ネットワークのリアルタイムのパフォーマンスを評価するために2つのメトリックを使用する:平均ネットワークの処理時間(DN)及び最大のオーディオ再生の遅れ(DA)である。
DNは
D.N.
[表1]
3.2.リアルタイムの音声ノイズ除去の質
本発明者は、本発明者のノイズ除去モデルを、Demucs48[6]、FullSub[7]、及びRNN-Mod[8]を含むいくつかの最近提案されたリアルタイムのノイズ除去ネットワークと比較した。本発明者は、同じ前述のデータセットをこれらのモデルでトレーニングして、リアルタイム及びオフライン設定の両方でノイズ除去の質を評価している。オフライン設定において、オーディオ信号はすぐに提供され、そのためスライディングウィンドウは必要ない。同じネットワークからの2つの設定のノイズ除去の質を比較することにより、本発明者は、どの程度スライディングウィンドウ戦略がノイズ除去の質に影響を与えるのか理解することを望んでいる。
3.2. Real-time Audio Denoising Quality We compared our denoising model with several recently proposed real-time denoising networks, including Demucs48 [6], FullSub [7], and RNN-Mod [8]. We train these models on the same aforementioned dataset to evaluate the denoising quality in both real-time and offline settings. In the offline setting, the audio signal is provided immediately, so no sliding window is required. By comparing the denoising quality of the two settings from the same network, we hope to understand to what extent the sliding window strategy affects the denoising quality.
Demucs48について、本発明者は、提供されたスライディングウィンドウの実装を使用する。FullSub及びRNN-Modは、ストリーミングの実装をもたらさず、本発明者は、ダイナミックスライディングウィンドウが追加されたときにこれらのノイズ除去の質が不安定になるということを見出した。したがって、本発明者は、過去及び未来の終わりに16ミリ秒のパディングを伴う大きさ80ミリ秒の固定の大きさのスライディングウィンドウをこれらのためにそれらを採用する。本発明者の実験が、許容し得る遅延を保持しながらも最善の可能なリアルタイムのノイズ除去の質をもたらすことを示したことから、本発明者はこのスライディングウィンドウの設定を選択している。 For Demucs48, we use the sliding window implementation provided. FullSub and RNN-Mod do not provide a streaming implementation, and we found that their denoising quality becomes unstable when a dynamic sliding window is added. Therefore, we adopt for them a fixed size sliding window of size 80 ms with 16 ms padding at the past and future ends. We choose this sliding window setting because our experiments have shown that it provides the best possible real-time denoising quality while maintaining acceptable latency.
表1に、ADDデータセットの評価の結果をまとめている。本発明者のモデルは、すべての質のメトリックに対する最高又は互角のリアルタイムのノイズ除去の質を備える。また、本発明者のモデルが、データパディング戦略のおかげで、対にされる相手であるオフラインと同じリアルタイムのノイズ除去の質を確実にする唯一のものであったことは、留意する価値がある。他のすべてのモデルでは、オフライン設定からリアルタイム設定に切り替えると質が低下する。さらに、Valentiniベンチマークのリアルタイムのノイズ除去の質の結果は、表2で報告されている。 Table 1 summarizes the results of the evaluation on the ADD dataset. Our model has the best or comparable real-time denoising quality for all quality metrics. It is also worth noting that our model was the only one that ensured the same real-time denoising quality as its offline counterpart thanks to the data padding strategy. All other models suffer from a degradation in quality when switching from the offline to the real-time setting. Furthermore, the real-time denoising quality results for the Valentini benchmark are reported in Table 2.
3.3.リアルタイムのパフォーマンス
制御実験。第1に、本発明者は、異なるネットワークモデルのDN及DAを測定した(表3を参照)。これらのモデルは、異なる長さの入力データを取り込み、本発明者はまた、多数のウィンドウにそれを分割することなく、すぐに、200ミリ秒の信号処理するためのネットワーク実行時間を測定している。すべての測定は、大掛かりなバックグラウンドプロセスなしですませられた。結果は、専用の計算環境では、本発明者のネットワークが、従来技術のモデルと同じ速さであることを示している。
3.3. Real-time performance Controlled experiments. First, we measured the D N and D A of different network models (see Table 3). These models take input data of different lengths, and we also measure the network execution time to process a 200 ms signal at once, without splitting it into multiple windows. All measurements were done without extensive background processes. The results show that in a dedicated computing environment, our network is as fast as the prior art models.
[表2]
[表3]
次に、本発明者はダイナミックスライディングウィンドウのリアルタイムのパフォーマンス及びCPUリソースの変動が存在する中での固定の大きさのスライディングウィンドウを理解するための制御実験を行う。その目的で、本発明者は、2つのノイズ除去モデルを作成している:両者とも、AADデータセットでトレーニングされた同じノイズ除去ネットワークを使用している(セクション2.2)。第1のものは、ダイナミックスライディングウィンドウを使用している(Dモデルと称す)が、第2のものは、固定の大きさのスライディングウィンドウを使用している(Fモデルと称す)。公平に比較するために、Dモデルの初期のウィンドウの大きさL0は、Fモデルの固定のウィンドウの大きさと同じものに設定した(L0=16ミリ秒)。本発明者は、同じオーディオのセットをノイズ除去するために2つのモデルを使用しており、その各々は5秒の長さを有している。計算能力の変動を改善するべく、2秒後、本発明者は故意に、因子sによりネットワーク処理を遅延させており、それにおいてsはランダムに[1、7]から選択されている。これは、本発明者が同じ長さの遅延がDモデル及びFモデルの両方に追加されるのを確実にするとき、制御された方法でバックグラウンドプロセスによるCPU占有をシミュレートするものである。 Next, we conduct controlled experiments to understand the real-time performance of dynamic sliding windows and fixed-size sliding windows in the presence of CPU resource variations. To that end, we create two denoising models: both use the same denoising network trained on the AAD dataset (Section 2.2). The first one uses a dynamic sliding window (referred to as D-model), while the second one uses a fixed-size sliding window (referred to as F-model). To make a fair comparison, we set the initial window size L 0 of the D-model to be the same as the fixed window size of the F-model (L 0 =16 ms). We use the two models to denoise the same set of audio, each of which has a duration of 5 seconds. To improve the computational power variations, after 2 seconds we intentionally delay the network processing by a factor s, where s is randomly selected from [1, 7]. This simulates CPU occupancy by background processes in a controlled way as the inventors ensure that the same length of delay is added to both the D and F models.
図3は、オーディオストリームが経時的に到着するときに測定されたDN及びDAを示す。開始時、両者は、リアルタイムでスムーズに実行することができる(再生の遅れNA<100ミリ秒で)。2秒後、計算能力が変動し始め、いくつかのスライディングウィンドウを時間内に処理させないようにする。結果として、Fモデルの再生の遅れDAが蓄積し、出力されるオーディオ再生が途切れ途切れになる。対照的に、DモデルのDAは安定し続けている、なぜならそれがダイナミックにウィンドウの大きさを増加させて遅延に追いつくことができるからである。この実験は、式(1)及び(2)における本発明者の理論的分析を確認するものである。 FIG. 3 shows D N and D A measured as the audio stream arrives over time. At the beginning, both can run smoothly in real time (with playback lag N A <100 ms). After 2 seconds, the computational power starts to fluctuate, preventing some sliding windows from being processed in time. As a result, the playback lag D A of the F model accumulates and the output audio playback becomes choppy. In contrast, D A of the D model remains stable because it can dynamically increase the window size to catch up with the delay. This experiment confirms the inventor's theoretical analysis in equations (1) and (2).
図3は、ダイナミック及び固定のスライディングウィンドウの手法間におけるリアルタイムのパフォーマンスの比較を概略的に示す。本発明者は、人工的に、2秒後ネットワークの処理時間をランダムに1~7倍増加させて、CPU能力の変動をシミュレートしている。曲線は、固定の乱数のシードでの100回を超える試行の結果を平均化した。 Figure 3 shows a schematic comparison of real-time performance between dynamic and fixed sliding window approaches. We artificially randomly increase the network processing time by 1-7 times after 2 seconds to simulate variations in CPU power. The curves are averaged over 100 trials with a fixed random seed.
現実世界での実験。本発明者は、次に、現実のシナリオにおける本発明者のモデルのリアルタイムのパフォーマンスを調べており、バックグラウンドプロセスは、CPUサイクルを先取りし得る。ここで、本発明者は、4Kビデオの再生、Zoomでの会議、iMovieでのビデオ編集、及びテレビゲームApexを含む異なるソフトウエアがバックグラウンドで実行されている間、同じセットのオーディオをノイズ除去している。Apexのゲームを実行するために、本発明者は8コアのIntel CPU(3.60GHz i7-9700K)及びGPU(NVIDIA GeForce RTX 2070 SUPER)を搭載したWindow10 PCを使用している;他のソフトウエアのテストはMacbook Pro(2.3GHz Inter Quad-Core i5)で行う。本発明者は、これらがいっそう多くのCPUサイクルを要請することから、これらのソフトウエアを選択している。 Real-world experiments. We next examine the real-time performance of our model in real-world scenarios, where background processes can preempt CPU cycles. Here, we denoise the same set of audio while different software runs in the background, including 4K video playback, Zoom meetings, iMovie video editing, and the video game Apex. To run the Apex game, we use a Windows 10 PC with an 8-core Intel CPU (3.60GHz i7-9700K) and GPU (NVIDIA GeForce RTX 2070 SUPER); other software tests are done on a MacBook Pro (2.3GHz Inter Quad-Core i5). We choose these software because they require more CPU cycles.
[表4]
本発明者はこれらのソフトウエアを個々に実行しながら、本発明者のモデル及びDemucs48をそれぞれ使用してDN及びDAを測定している。本発明者は、固有のストリーミングの実装を有していて本発明者のものに匹敵するノイズ除去の質を提供することから、Demucs48と比較をしている。結果は表4に報告されている。バックグラウンドプロセスがかなり計算的に集中すると(例えば、iMovieやApex)、Demucs48の再生の遅れが劇的に増加するが、それに対して本発明者のモデルの遅れは軽度で安定し続ける。これは、本発明者のモデル及びダイナミックスライディングウィンドウ戦略のパフォーマンスの利点を示す明確な証拠である。 We measure D N and D A using our model and Demucs 48, respectively, running these software individually. We compare with Demucs 48, as it has its own streaming implementation and provides comparable denoising quality to ours. The results are reported in Table 4. When background processes become quite computationally intensive (e.g., iMovie and Apex), the playback lag of Demucs 48 increases dramatically, whereas the lag of our model remains mild and stable. This is clear evidence of the performance advantage of our model and dynamic sliding window strategy.
4.結論
本発明者は、リアルタイムの音声ノイズ除去のためのダイナミックスライディングウィンドウ戦略を提案してきた。入念な分析及び実験を通して、本発明者は、広く使用されている固定の大きさのスライディングウィンドウ戦略を凌ぐその利点を実証した。本発明者のノイズ除去ネットワークは、SOTAに匹敵するリアルタイムのノイズ除去の質を達成しながらも、ダイナミックスライディングウィンドウを利用することにより、短い遅れを保持する。注目すべきことに、それは本発明者のモデルが他のバックグラウンドのタスクが存在する現実世界のシナリオにおいてロバストに実行することを可能にする。
4. Conclusion We have proposed a dynamic sliding window strategy for real-time speech denoising. Through careful analysis and experiments, we have demonstrated its advantages over the widely used fixed-size sliding window strategy. Our denoising network achieves real-time denoising quality comparable to SOTA while retaining a short lag by utilizing a dynamic sliding window. Notably, it enables our model to perform robustly in real-world scenarios in the presence of other background tasks.
図6は、データ処理装置100、CEP装置200、バッチ処理装置300、又は選択装置400として機能するコンピュータ1200のハードウェア構成の例を概略的に示す。コンピュータ1200にインストールされるプログラムは、コンピュータ1200に、本実施形態に係る装置の1又は複数「ユニット」として機能させるか、又はコンピュータ1200に、装置に関連付けられる動作を実行させるか又は本実施形態に係るその1又は複数の「ユニット」を実行させ、及び/又はコンピュータ1200に、本実施形態に係るプロセスを実行させるか又はプロセスの段階を実行させることができる。そのようなプログラムは、CPU1212に対して、本明細書に記載されているフローチャート及びブロック図のブロックの一部又はすべてに関連付けられる特定の動作をコンピュータ1200に実行させることにより、実行され得る。 6 shows an example of a hardware configuration of a computer 1200 functioning as a data processing device 100, a CEP device 200, a batch processing device 300, or a selection device 400. A program installed on the computer 1200 can cause the computer 1200 to function as one or more "units" of the device according to the present embodiment, or to perform operations associated with the device or to execute one or more "units" thereof according to the present embodiment, and/or to perform a process or execute a step of a process according to the present embodiment. Such a program can be executed by causing the CPU 1212 to cause the computer 1200 to perform specific operations associated with some or all of the blocks of the flowcharts and block diagrams described herein.
本実施形態に係るコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、これらはホストコントローラ1210を介して互いに接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ]、及びICカードドライブなどの入出力ユニットを含み、これらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブは、DVD-ROMドライブ、DVD-RAMドライブなどであり得る。記憶装置1224は、ハードディスクドライブ、ソリッドステートドライブなどであり得る。コンピュータ1200はまた、ROM1230やキーボードなどのレガシー入出力ユニットを含み、これらは入出力チップ1240を介して入出力コントローラ1220に接続される。 The computer 1200 according to this embodiment includes a CPU 1212, a RAM 1214, and a graphics controller 1216, which are connected to each other via a host controller 1210. The computer 1200 also includes input/output units such as a communication interface 1222, a storage device 1224, a DVD drive, and an IC card drive, which are connected to the host controller 1210 via an input/output controller 1220. The DVD drive may be a DVD-ROM drive, a DVD-RAM drive, or the like. The storage device 1224 may be a hard disk drive, a solid state drive, or the like. The computer 1200 also includes legacy input/output units such as a ROM 1230 and a keyboard, which are connected to the input/output controller 1220 via an input/output chip 1240.
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従って動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214又はそれ自体において提供されたフレームバッファなどにある、CPU1212により発せられたイメージデータを取得し、イメージデータがディスプレイデバイス1218に表示されるようにする。 The CPU 1212 operates according to the programs stored in the ROM 1230 and the RAM 1214, thereby controlling each unit. The graphics controller 1216 acquires image data issued by the CPU 1212, which is in the RAM 1214 or a frame buffer provided in the graphics controller 1216 itself, and causes the image data to be displayed on the display device 1218.
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200においてCPU1212により使用されるプログラム及びデータを格納する。DVDドライブは、DVD-ROMなどからプログラム又はデータを読み取って記憶装置1224にプログラム又はデータを提供する。ICカードドライブは、ICカードからプログラム及びデータを読み取り、及び/又はICカードにプログラム及びデータを書き込む。 The communication interface 1222 communicates with other electronic devices via a network. The storage device 1224 stores programs and data used by the CPU 1212 in the computer 1200. The DVD drive reads programs or data from a DVD-ROM or the like and provides the programs or data to the storage device 1224. The IC card drive reads programs and data from an IC card and/or writes programs and data to the IC card.
ROM1230はその中に、作動時にコンピュータ1200によって実行されるブートプログラムなど、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、USBポート、並列ポート、シリアルポート、キーボードポート、マウスポートなどを介して、入出力コントローラ1220に様々な入出力ユニットを接続できる。 ROM 1230 stores therein a boot program and the like executed by computer 1200 during operation, and/or programs that depend on the hardware of computer 1200. I/O chip 1240 can also connect various I/O units to I/O controller 1220 via USB ports, parallel ports, serial ports, keyboard ports, mouse ports, and the like.
プログラムは、DVD-ROM又はICカードなどのコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、同じくコンピュータ可読記憶媒体の例である記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。プログラムに書き込まれている情報処理は、コンピュータ1200により読み取られ、その結果、プログラム及び上記の様々なタイプのハードウェアリソースの間で協働する。装置又は方法は、コンピュータ1200の使用に応じて情報の演算又は処理を実装することによって構成され得る。 The program is provided by a computer-readable storage medium such as a DVD-ROM or an IC card. The program is read from the computer-readable storage medium, installed in storage device 1224, RAM 1214, or ROM 1230, which are also examples of computer-readable storage media, and executed by CPU 1212. Information processing written in the program is read by computer 1200, resulting in cooperation between the program and the various types of hardware resources described above. The apparatus or method can be configured by implementing calculations or processing of information in accordance with the use of computer 1200.
例えば、通信がコンピュータ1200及び外部のデバイスの間で行われている場合、CPU1212は、RAM1214にロードされる通信プログラムを実行し、通信インタフェース1222に、通信プログラムに書き込まれている処理に基づいて通信処理を行うよう命令することができる。通信インタフェース1222は、CPU1212の制御下で、RAM1214、記憶装置1224、DVD-ROM、又はICカードなどの記録媒体に設けられた送信バッファ領域に格納されている伝送データを読み取って送信し、読み取った伝送データをネットワークに送信するか、又はネットワークから受信した受信データを記録媒体に設けられた受信バッファ領域などに書き込む。 For example, when communication is taking place between computer 1200 and an external device, CPU 1212 can execute a communication program loaded into RAM 1214 and instruct communication interface 1222 to perform communication processing based on the processing written in the communication program. Under the control of CPU 1212, communication interface 1222 reads and transmits transmission data stored in a transmission buffer area provided in RAM 1214, storage device 1224, a DVD-ROM, or a recording medium such as an IC card, and transmits the read transmission data to the network, or writes received data received from the network to a reception buffer area or the like provided in the recording medium.
また、CPU1212は、記憶装置1224、DVDドライブ(DVD-ROM)、ICカードなどのような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。次に、CPU1212は、外部記録媒体に処理済みのデータを書き込んで戻すことができる。 The CPU 1212 may also cause all or a necessary portion of a file or database stored in an external recording medium such as the storage device 1224, a DVD drive (DVD-ROM), an IC card, etc. to be read into the RAM 1214, and perform various types of processing on the data on the RAM 1214. The CPU 1212 may then write the processed data back to the external recording medium.
様々なタイプのプログラム、データ、表、データベースなどの様々なタイプの情報が、記録媒体に格納されて情報処理される。CPU1212は、RAM1214に結果を戻して書き込むために、RAM1214から読み取られたデータについて様々なタイプの処理を行うことができ、その処理は、本開示全体に記載され、プログラムの連続する命令により特定され、様々なタイプの動作、情報処理、条件の判断、条件的分岐、条件のない分岐、情報の検索/置換などを含む。また、CPU1212は、記録媒体内のファイル、データベースなどにおける情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられる第1の属性の属性値を有する複数のエントリが、記録媒体に格納されるとき、CPU1212は、複数のエントリから、第1の属性の属性値が指定された条件に適合するエントリを検索して、エントリに格納されている第2の属性の属性値を読み取り、それにより、所定の条件を満たした第1の属性と関連付けられる第2の属性の属性値を取得することができる。 Various types of information, such as various types of programs, data, tables, databases, etc., are stored in the recording medium and processed. The CPU 1212 can perform various types of processing on the data read from the RAM 1214 to write the results back to the RAM 1214, which processing is described throughout this disclosure and specified by the sequential instructions of the program, and includes various types of operations, information processing, conditional judgment, conditional branching, unconditional branching, information search/replacement, etc. The CPU 1212 may also search for information in a file, database, etc. in the recording medium. For example, when multiple entries each having an attribute value of a first attribute associated with an attribute value of a second attribute are stored in the recording medium, the CPU 1212 can search for an entry whose attribute value of the first attribute meets a specified condition from the multiple entries, read the attribute value of the second attribute stored in the entry, and thereby obtain the attribute value of the second attribute associated with the first attribute that meets the specified condition.
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用の通信ネットワーク又はインターネットに接続されるサーバシステムに設けられるハードディスク又はRAMなどの記録媒体が、コンピュータ可読記憶媒体として使用でき、それにより、ネットワークを介してコンピュータ1200にプログラムを提供する。 The above-described programs or software modules may be stored on a computer-readable storage medium on the computer 1200 or in the vicinity of the computer 1200. In addition, a recording medium such as a hard disk or RAM provided in a server system connected to a dedicated communication network or the Internet can be used as a computer-readable storage medium, thereby providing the programs to the computer 1200 via the network.
本実施形態のフローチャート及びブロック図のブロックは、動作が行われるか又は装置の「ユニット」が動作の実行を担うプロセスの段階を表し得る。特定の段階及び「ユニット」は、専用回路、コンピュータ可読記憶媒体に格納されたコンピュータ可読命令が供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体に格納されたコンピュータ可読命令が供給されるプロセッサによって実装され得る。専用回路は、デジタル及び/又はアナログのハードウェア回路を含むことができ、集積回路(IC)及び/又はディスクリート回路を含むことができる。例えば、プログラマブル回路は、再構成可能なハードウェア回路を含み得、例えば論理のAND、OR、XOR、NAND、NOR、及び他の論理動作、フリップフロップ、レジスタ、及びメモリ要素、例えばフィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)などが挙げられる。 The blocks of the flowcharts and block diagrams of the present embodiment may represent stages of a process in which an operation is performed or a "unit" of an apparatus is responsible for performing an operation. Particular stages and "units" may be implemented by dedicated circuitry, programmable circuitry provided with computer-readable instructions stored on a computer-readable storage medium, and/or a processor provided with computer-readable instructions stored on a computer-readable storage medium. Dedicated circuitry may include digital and/or analog hardware circuitry, and may include integrated circuits (ICs) and/or discrete circuits. For example, programmable circuitry may include reconfigurable hardware circuitry, such as logical AND, OR, XOR, NAND, NOR, and other logic operations, flip-flops, registers, and memory elements, such as field programmable gate arrays (FPGAs), programmable logic arrays (PLAs), and the like.
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納できる任意の有形のデバイスを含むことができ、結果として、命令が格納されたコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定された操作を実行するための手段を作成するために実行することができる命令を含む製品が含まれる。コンピュータ可読記憶媒体の例は、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体などを含むことができる。コンピュータ可読記憶媒体のより具体的な例は、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的に消去可能プログラマブルリードオンリメモリ(EEPROM)、スタティックランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード、などを含み得る。 A computer-readable storage medium may include any tangible device capable of storing instructions that are executed by a suitable device, and as a result, a computer-readable storage medium having instructions stored thereon includes a product that includes instructions that can be executed to create a means for performing the operations specified in the flowchart or block diagram. Examples of computer-readable storage media may include electronic storage media, magnetic storage media, optical storage media, electromagnetic storage media, semiconductor storage media, and the like. More specific examples of computer-readable storage media may include floppy (registered trademark) disks, diskettes, hard disks, random access memories (RAMs), read-only memories (ROMs), erasable programmable read-only memories (EPROMs or flash memories), electrically erasable programmable read-only memories (EEPROMs), static random access memories (SRAMs), compact disk read-only memories (CD-ROMs), digital versatile disks (DVDs), Blu-ray (registered trademark) disks, memory sticks, integrated circuit cards, and the like.
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk(登録商標)、JAVA(登録商標)、C++などのようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。 The computer readable instructions may include either assembler instructions, instruction set architecture (ISA) instructions, machine instructions, machine-dependent instructions, microcode, firmware instructions, state setting data, or source or object code written in any combination of one or more programming languages, including object-oriented programming languages such as Smalltalk (registered trademark), JAVA (registered trademark), C++, etc., and conventional procedural programming languages such as the "C" programming language or similar programming languages.
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定された演算を実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネットなどのようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラなどを含む。 The computer-readable instructions may be provided to a processor or programmable circuit of a general-purpose computer, special-purpose computer, or other programmable data processing apparatus, either locally or over a local area network (LAN), a wide area network (WAN) such as the Internet, so that the processor or programmable circuit of the general-purpose computer, special-purpose computer, or other programmable data processing apparatus executes the computer-readable instructions to generate means for performing the operations specified in the flowcharts or block diagrams. Examples of processors include computer processors, processing units, microprocessors, digital signal processors, controllers, microcontrollers, etc.
実施形態により本発明を説明してきたが、本発明の技術的範囲は上記の実施形態に限定されない。上記実施形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。そのような変更又は改良を加えた実施形態はまた、本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 Although the present invention has been described with reference to the above embodiments, the technical scope of the present invention is not limited to the above embodiments. It is clear to those skilled in the art that various modifications and improvements can be made to the above embodiments. It is clear from the claims that embodiments with such modifications or improvements can also be included in the technical scope of the present invention.
特許請求の範囲、実施形態、及び図面において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現し得ることに留意すべきである。特許請求の範囲、実施形態、及び図面の動作フローに関して、便宜上「第1に」又は「次に」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。 The order of execution of each process, such as operations, procedures, steps, and stages, in the devices, systems, programs, and methods shown in the claims, embodiments, and drawings is not specifically stated as "before" or "prior to," and it should be noted that they may be realized in any order, unless the output of a previous process is used in a later process. Even if the operational flow in the claims, embodiments, and drawings is described using "first" or "next" for convenience, it does not mean that it is essential to perform the process in this order.
Claims (3)
入力バッファの長さが固定されていないダイナミックスライディングウィンドウを使用することにより、前記オーディオ信号をノイズ除去するように構成されたノイズ除去ユニット
を備え、
前記ノイズ除去ユニットが、前記オーディオ信号の一部を、第1の大きさを有する前記ダイナミックスライディングウィンドウにバッファし、その後前記オーディオ信号の前記一部のノイズ除去及び前記オーディオ信号の次の一部のバッファを開始して、その後前記ノイズ除去が終了したときに前記バッファを停止するように構成された、オーディオ信号処理装置。 an acquisition unit configured to acquire an audio signal in a streaming manner; and a denoising unit configured to denoise the audio signal by using a dynamic sliding window with an input buffer of a non-fixed length ,
11. An audio signal processing apparatus, wherein the noise removal unit is configured to buffer a portion of the audio signal in the dynamic sliding window having a first size, then start removing noise from the portion of the audio signal and buffering a next portion of the audio signal, and then stop the buffering when the noise removal is completed .
入力バッファの長さが固定されていないダイナミックスライディングウィンドウを使用することにより、前記取得する段階で取得された前記オーディオ信号をノイズ除去する段階
を備え、
前記ノイズ除去する段階は、前記オーディオ信号の一部を、第1の大きさを有する前記ダイナミックスライディングウィンドウにバッファし、その後前記オーディオ信号の前記一部のノイズ除去及び前記オーディオ信号の次の一部のバッファを開始して、その後前記ノイズ除去が終了したときに前記バッファを停止する、オーディオ信号処理方法。 acquiring an audio signal in a streaming manner; and denoising the audio signal acquired in the acquiring step by using a dynamic sliding window in which an input buffer length is not fixed,
11. A method for processing an audio signal, wherein the denoising step comprises buffering a portion of the audio signal in the dynamic sliding window having a first size, then commencing denoising the portion of the audio signal and buffering a next portion of the audio signal, and then stopping the buffering when the denoising is completed .
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202263338857P | 2022-05-05 | 2022-05-05 | |
| US63/338,857 | 2022-05-05 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023165667A JP2023165667A (en) | 2023-11-16 |
| JP7588679B2 true JP7588679B2 (en) | 2024-11-22 |
Family
ID=88748850
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023076242A Active JP7588679B2 (en) | 2022-05-05 | 2023-05-02 | Audio signal processing device, program, and audio signal processing method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7588679B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118338074B (en) * | 2024-06-12 | 2024-08-20 | 广州市艾索技术有限公司 | Multimedia audio and video data management system |
| CN119251084A (en) * | 2024-09-19 | 2025-01-03 | 南京信息工程大学 | Real-time outlier noise removal method and system for array point cloud based on sliding completion |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160171727A1 (en) | 2014-12-16 | 2016-06-16 | The Regents Of The University Of California | Feature-preserving noise removal |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10240294A (en) * | 1997-02-28 | 1998-09-11 | Mitsubishi Electric Corp | Noise reduction method and noise reduction device |
| JP2007072334A (en) * | 2005-09-09 | 2007-03-22 | Hitachi Kokusai Electric Inc | Decoding device and decoding method |
| JP4989379B2 (en) * | 2007-09-05 | 2012-08-01 | 日本電信電話株式会社 | Noise suppression device, noise suppression method, noise suppression program, and recording medium |
-
2023
- 2023-05-02 JP JP2023076242A patent/JP7588679B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160171727A1 (en) | 2014-12-16 | 2016-06-16 | The Regents Of The University Of California | Feature-preserving noise removal |
Non-Patent Citations (1)
| Title |
|---|
| 長野優貴他,可変フレーム長を用いた反復型スペクトルサブトラクションによる雑音抑圧,日本音響学会2015年秋季研究発表会講演論文集[CD-ROM],2015年09月,pp.93-94 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023165667A (en) | 2023-11-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Triantafyllopoulos et al. | Towards robust speech emotion recognition using deep residual networks for speech enhancement | |
| Satt et al. | Efficient emotion recognition from speech using deep learning on spectrograms. | |
| JP7588679B2 (en) | Audio signal processing device, program, and audio signal processing method | |
| CN113870878B (en) | Speech Enhancement | |
| US12153648B2 (en) | Quality estimation models for various signal characteristics | |
| US20220076077A1 (en) | Quality estimation model trained on training signals exhibiting diverse impairments | |
| CN106486131A (en) | A kind of method and device of speech de-noising | |
| JP7615510B2 (en) | Speech enhancement method, speech enhancement device, electronic device, and computer program | |
| US20220084535A1 (en) | Reduced latency streaming dynamic noise suppression using convolutional neural networks | |
| WO2023001128A1 (en) | Audio data processing method, apparatus and device | |
| Bonet et al. | Speech enhancement for wake-up-word detection in voice assistants | |
| CN114360561A (en) | Voice enhancement method based on deep neural network technology | |
| CN114333912B (en) | Voice activation detection method, device, electronic device and storage medium | |
| CN115206345A (en) | Music and human voice separation method, device, equipment and medium based on time-frequency combination | |
| Lay et al. | Diffusion buffer: Online diffusion-based speech enhancement with sub-second latency | |
| Westhausen et al. | tplcnet: Real-time deep packet loss concealment in the time domain using a short temporal context | |
| Nakata et al. | Sidon: Fast and robust open-source multilingual speech restoration for large-scale dataset cleansing | |
| Iqbal et al. | Speech enhancement using deep complex convolutional neural network (DCCNN) model | |
| CN112331187A (en) | Multi-task speech recognition model training method, multi-task speech recognition method | |
| Joy et al. | Deep scattering power spectrum features for robust speech recognition | |
| Hussain et al. | Bone-conducted speech enhancement using hierarchical extreme learning machine | |
| Dissen et al. | Enhanced ASR robustness to packet loss with a front-end adaptation network | |
| Xiang et al. | Dynamic sliding window for realtime denoising networks | |
| CN110875037A (en) | Voice data processing method and device and electronic equipment | |
| Mashiana et al. | Speech enhancement using residual convolutional neural network |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230712 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240822 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240903 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241001 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241029 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241112 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7588679 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |