Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7724678B2 - Howling prevention circuit, microphone device and electronic device - Google Patents
[go: Go Back, main page]

JP7724678B2 - Howling prevention circuit, microphone device and electronic device - Google Patents

Howling prevention circuit, microphone device and electronic device

Info

Publication number
JP7724678B2
JP7724678B2 JP2021171752A JP2021171752A JP7724678B2 JP 7724678 B2 JP7724678 B2 JP 7724678B2 JP 2021171752 A JP2021171752 A JP 2021171752A JP 2021171752 A JP2021171752 A JP 2021171752A JP 7724678 B2 JP7724678 B2 JP 7724678B2
Authority
JP
Japan
Prior art keywords
audio signal
unit
noise cancellation
input
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021171752A
Other languages
Japanese (ja)
Other versions
JP2023061676A (en
Inventor
二郎 國分
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alinco Inc
Original Assignee
Alinco Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alinco Inc filed Critical Alinco Inc
Priority to JP2021171752A priority Critical patent/JP7724678B2/en
Publication of JP2023061676A publication Critical patent/JP2023061676A/en
Application granted granted Critical
Publication of JP7724678B2 publication Critical patent/JP7724678B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、ハウリングを防止するためのハウリング防止回路と、前記ハウリング防止回路を備えるマイクロホン装置と、前記ハウリング防止回路を備える電子機器とに関する。 The present invention relates to an anti-feedback circuit for preventing feedback, a microphone device equipped with the anti-feedback circuit, and an electronic device equipped with the anti-feedback circuit.

図8は従来例の拡声装置110Aにおける構成例及び問題点を示すブロック図である。 Figure 8 is a block diagram showing an example configuration and problems with a conventional public address system 110A.

図8に示すように、拡声装置(もしくは、会議装置、又は通信装置など)110Aのマイクロホンとスピーカとの組み合わせで、ユーザがマイクロホンに向かって話した音声の音声信号を増幅してスピーカから出力した場合(会議装置又は通信装置のときは、送受信分離用ハイブリッド回路(二線四線変換器)での一部漏洩によるハウリングの発生、もしくは、別の通信装置の受信機のスピーカから出力した場合のハウリングの発生)、マイクロホン、音声増幅部、及びスピーカの間でループ回路が形成され、回り込み音の音声信号の増幅がループ回路内で繰り返されてハウリングが発生する。 As shown in Figure 8, when a microphone and speaker are combined in a public address system (or conference device, communication device, etc.) 110A, and the audio signal of the user speaking into the microphone is amplified and output from the speaker (in the case of a conference device or communication device, howling occurs due to partial leakage in the transmission/reception separation hybrid circuit (two-wire/four-wire converter), or howling occurs when output from the speaker of the receiver of another communication device), a loop circuit is formed between the microphone, audio amplifier, and speaker, and the amplification of the audio signal of the return sound is repeated within the loop circuit, causing howling.

例えば、特許文献1では、ハンドセット(送受話器)を用いずにスピーカとマイクロホンにて通話ができる拡声電話機が開示されている。この従来例に係る拡声電話機は、特に、スピーカから出た音が室内の壁などで反射してマイクロホンに入ることにより発生するハウリングを防止するために、反響消去回路を備えたことを特徴とする。 For example, Patent Document 1 discloses a loudspeaker telephone that allows communication using a speaker and microphone without using a handset (transmitter/receiver). This conventional loudspeaker telephone is characterized by the inclusion of an echo cancellation circuit to prevent feedback, which occurs when sound emitted from the speaker reflects off the walls of a room and enters the microphone.

特開平1-198155号公報Japanese Patent Application Publication No. 198155

上述のハウリングを防止するためには、回り込む音声信号の利得を一定レベルに抑えるために、入力される音声信号を一定レベル以下に制限するリミッタに通過させることで解決されるが、当該リミッタでの音質変化又は音量変化が発生するため、ハウリングではない本来の音声の音質も変化するという問題点があった。 To prevent the above-mentioned feedback, the input audio signal is passed through a limiter that restricts the gain of the incoming audio signal to a certain level or below. However, this limiter causes changes in sound quality or volume, which can cause changes in the sound quality of the original audio that is not feedback.

また、マイクロホンから入力される第1の音声信号とスピーカに出力される第2の音声信号を使う、ハウリングの除去方法として以下の方法がある。
(1)例えば、マイクロホンからの第1の音声信号の反転信号を、第2の音声信号に加算することで打ち消す。もしくは、
(2)第1の音声信号をデジタルデータに変換して、マイクロホンからの第1の音声信号のみを第2の音声信号から除去する。
Furthermore, there is the following method for eliminating feedback, which uses a first audio signal input from a microphone and a second audio signal output to a speaker.
(1) For example, canceling the first audio signal from a microphone by adding an inverted signal to the second audio signal.
(2) Converting the first audio signal into digital data and removing only the first audio signal from the microphone from the second audio signal.

これらの方法では音声入力部と音声出力部の両方でこれらのハウリング除去の制御が必要となり、システム構成が複雑になり製品の小型化が困難になる。 These methods require feedback cancellation control at both the audio input and audio output sections, which complicates the system configuration and makes it difficult to miniaturize the product.

本発明の目的は以上の問題点を解決し、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができるハウリング防止回路と、前記ハウリング防止回路を備えたマイクロホン装置と、前記ハウリング防止回路を備えた電子機器とを提供することにある。 The object of the present invention is to solve the above problems and provide a feedback prevention circuit that can prevent feedback with high accuracy using a relatively simple configuration compared to conventional examples, a microphone device equipped with said feedback prevention circuit, and electronic equipment equipped with said feedback prevention circuit.

本発明の一態様に係るハウリング防止回路は、
入力される音声を音声信号に変換するマイクロホンからの前記音声信号の音声の少なくとも一部が前記マイクロホンに入力されるときに発生するハウリングを防止するハウリング防止回路であって、
前記マイクロホンからの音声信号からノイズを除去して音声信号のみを出力するノイズキャンセル部を備え、
前記ノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行い、
前記ノイズキャンセル部は、前記深層学習モデル部の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える。
A howling prevention circuit according to one aspect of the present invention comprises:
1. A howling prevention circuit for preventing howling that occurs when at least a part of a sound of an audio signal from a microphone that converts input audio into an audio signal is input to the microphone,
a noise cancellation unit that removes noise from the audio signal from the microphone and outputs only the audio signal;
the noise cancellation unit performs noise cancellation processing using a deep learning model unit that is trained using feature parameters of human voice and determines whether an input voice signal contains noise or not;
The noise cancellation unit includes an audio signal processing unit that performs noise cancellation processing based on the judgment of the deep learning model unit to prevent non-audio periods containing noise from passing through the input audio signal, and outputs the audio signal after the noise cancellation processing.

従って、本発明に係るハウリング防止回路等によれば、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。 Therefore, the anti-feedback circuit according to the present invention can prevent feedback with a relatively simple configuration compared to conventional examples, and with high accuracy.

実施形態1に係る拡声装置110の構成例を示すブロック図である。1 is a block diagram showing an example of the configuration of a loudspeaker 110 according to a first embodiment. 図1のノイズキャンセル部102の詳細構成例を示すブロック図である。FIG. 2 is a block diagram showing a detailed configuration example of a noise cancellation unit 102 in FIG. 1 . 図2の深層学習モデル部35の詳細構成例を示すブロック図である。FIG. 3 is a block diagram showing a detailed configuration example of the deep learning model unit 35 in FIG. 2 . 実施形態2に係る拡声システム113の構成例を示すブロック図である。FIG. 10 is a block diagram showing an example of the configuration of a loudspeaker system 113 according to a second embodiment. 実施形態3に係る会議装置120の構成例を示すブロック図である。FIG. 10 is a block diagram illustrating an example of the configuration of a conference device 120 according to a third embodiment. 実施形態4に係る無線通信装置130の構成例を示すブロック図である。FIG. 10 is a block diagram showing an example of the configuration of a wireless communication device 130 according to a fourth embodiment. 図1の拡声装置110の構成例及び動作例を示すブロック図である。2 is a block diagram showing an example of the configuration and operation of the loudspeaker 110 of FIG. 1. 従来例の拡声装置110Aにおける構成例及び問題点を示すブロック図である。FIG. 1 is a block diagram showing an example of the configuration and problems of a conventional loudspeaker 110A.

以下、本発明に係る実施形態及び変形例について図面を参照して説明する。なお、同一又は同様の構成要素については同一の符号を付している。 Embodiments and variations of the present invention will be described below with reference to the drawings. Note that the same or similar components are designated by the same reference numerals.

(実施形態1)
図1は、実施形態1に係る拡声装置110の構成例を示すブロック図である。
(Embodiment 1)
FIG. 1 is a block diagram showing an example of the configuration of a loudspeaker 110 according to the first embodiment.

図1において、拡声装置110は、マイクロホン101と、ノイズキャンセル部102と、音声信号増幅部103と、スピーカ104とを備えて構成される。 In FIG. 1, the public address system 110 is composed of a microphone 101, a noise cancellation unit 102, an audio signal amplification unit 103, and a speaker 104.

拡声装置110において、マイクロホン101に入力された音声は電気信号に変換された後、ノイズキャンセル部102に入力される。ノイズキャンセル部102は、後述する深層学習モデル部35(図2及び図3)を用いて音声期間と、ノイズを含む非音声期間とを区別して、非音声期間を通過させないようにノイズキャンセル処理を行って、音声以外のノイズを除去する処理を行った後、処理後の音声信号を音声信号増幅部103に出力する。音声信号増幅部103は入力される音声信号を増幅してスピーカ104に出力し、スピーカ104は入力される音声信号を音声に変換して出力する。 In the public address system 110, audio input to the microphone 101 is converted into an electrical signal and then input to the noise cancellation unit 102. The noise cancellation unit 102 uses the deep learning model unit 35 (Figures 2 and 3), described below, to distinguish between audio periods and silent periods containing noise, and performs noise cancellation processing to prevent the silent periods from passing through, removing noise other than audio, and then outputs the processed audio signal to the audio signal amplification unit 103. The audio signal amplification unit 103 amplifies the input audio signal and outputs it to the speaker 104, which then converts the input audio signal into audio and outputs it.

図2は図1のノイズキャンセル部102の詳細構成例を示すブロック図である。 Figure 2 is a block diagram showing an example of the detailed configuration of the noise cancellation unit 102 in Figure 1.

図2を参照して、深層学習モデル部35を用いた図1のノイズキャンセル部102の構成及び動作について以下に説明する。 With reference to Figure 2, the configuration and operation of the noise cancellation unit 102 in Figure 1 using the deep learning model unit 35 will be described below.

ここで、「音素」という用語は、特定の言語において1つの単語を他の単語から区別する音の単位を意味し、「振動レート」という用語は、各秒におけるデジタル化された振動データの0と1の間の移動の数を意味し、「振動計数値(VC)」という用語は、各フレーム内のデジタル化された振動データの値の合計を意味する。また、「振動パターン」とは、時間軸に沿った所定のフレーム数ごとに算出された振動数の総和のデータ分布を意味する。深層学習モデル部35では、異なる振動パターン、すなわち異なる振動計数値の総和(VS値)のデータ分布の違いを考慮して、ノイズキャンセル処理を行っており、振動レートは振動計数値に類似しているが、振動レートが大きいほど、振動計数値も大きくなる。 Here, the term "phoneme" refers to a unit of sound that distinguishes one word from another in a particular language, the term "vibration rate" refers to the number of shifts between 0 and 1 in digitized vibration data per second, and the term "vibration count (VC)" refers to the sum of the values of digitized vibration data in each frame. Furthermore, the term "vibration pattern" refers to the data distribution of the sum of vibration frequencies calculated for each predetermined number of frames along the time axis. The deep learning model unit 35 performs noise cancellation processing by taking into account the differences in the data distribution of different vibration patterns, i.e., the sum of different vibration counts (VS values). The vibration rate is similar to the vibration count, but the higher the vibration rate, the larger the vibration count.

音声信号の振幅と振動レートは共に観測可能である。ノイズキャンセル部102の特徴は、音声信号の振幅と振動率に応じて音声イベントを検出することである。また、別の特徴は、デジタル化された振動データの振動計数値の総和を、あらかじめ定義されたフレーム数分だけ計測することで、音声と、非音声/無音を区別することである。もう一つの特徴は、入力される音声信号データのストリームをその振動パターンによって異なる音素に分類することである。別の特徴は、下流の処理部をトリガするように、入力される音声信号データストリームから最初の起動音素を正しく区別することであり、それによって、処理部を含む計算システムの電力消費等の計算コストを節約することである。 Both the amplitude and vibration rate of the audio signal can be observed. A feature of the noise cancellation unit 102 is to detect audio events according to the amplitude and vibration rate of the audio signal. Another feature is to distinguish between voice and non-voice/silence by measuring the sum of vibration count values of digitized vibration data for a predefined number of frames. Another feature is to classify the input audio signal data stream into different phonemes based on their vibration patterns. Another feature is to correctly identify the first activation phoneme from the input audio signal data stream so as to trigger downstream processing units, thereby saving computational costs such as power consumption of the computing system including the processing units.

図2において、ノイズキャンセル部102は音声イベント検出を用いてノイズキャンセル処理を行うものであって、音声前置処理部38と、AD変換器39と、音声信号処理部30とを備えて構成される。ここで、音声前置処理部38は、アナログ音声信号に対して、ハイパスフィルタリング、ローパスフィルタリング、増幅又はそれらの組み合わせ等を含む、音声信号前置処理を行って、処理後のアナログ音声信号をAD変換器39に出力する。すなわち、音声前置処理部38は、マイクロホン101からの音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる。次いで、AD変換器39は、所定の基準電圧Vref及び許容電圧Vadm(<Vref)に従って、アナログ音声信号をデジタル音声信号にAD変換して音声信号処理部30の入力インターフェース36に出力する。 In FIG. 2, the noise cancellation unit 102 performs noise cancellation processing using audio event detection and is composed of an audio pre-processing unit 38, an AD converter 39, and an audio signal processing unit 30. Here, the audio pre-processing unit 38 performs audio signal pre-processing on the analog audio signal, including high-pass filtering, low-pass filtering, amplification, or a combination thereof, and outputs the processed analog audio signal to the AD converter 39. In other words, the audio pre-processing unit 38 passes only the audio signal from the microphone 101 within a predetermined level range of human audio signals and a predetermined bandwidth. Next, the AD converter 39 AD-converts the analog audio signal to a digital audio signal in accordance with a predetermined reference voltage Vref and an allowable voltage Vadm (<Vref), and outputs the digital audio signal to the input interface 36 of the audio signal processing unit 30.

本実施形態において、AD変換器39において、基準電圧Vrefよりも小さい許容電圧Vadmは、基準電圧Vrefと組み合わせて、第1のしきい値電圧Vth1(=Vref+Vadm))及び第2のしきい値電圧Vth2(=Vref-Vadm)を形成するために使用され、AD変換器39は、第1のしきい値電圧Vth1及び第2のしきい値電圧Vth2に基づいて、第1のしきい値電圧Vth1以上又は第2のしきい値電圧Vth2以下のノイズに対してAD変換を実行せず、その間の音声信号に対してAD変換を実行することで、入力されるアナログ音声信号のノイズ及び干渉を除去することができる。ここで、例えばVref=1.0V,Vadm=0.01Vとすると、静かな環境では振動データの振動数が少なく,音声環境では振動データの振動数が多いことが理解できる。なお、本実施形態において、「フレームサイズ」とは、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数を意味し、「音素ウィンドウTw」とは、各音素の音声特徴量を収集するための時間を意味する。好ましい実施形態では、各フレームの継続時間Tfは例えば0.1~1ミリ秒(ms)であり、音素ウィンドウTwは例えば約0.3秒である。さらに好ましい実施形態では、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数は例えば1~16の範囲である。 In this embodiment, the AD converter 39 uses an allowable voltage Vadm, which is smaller than the reference voltage Vref, in combination with the reference voltage Vref to form a first threshold voltage Vth1 (= Vref + Vadm) and a second threshold voltage Vth2 (= Vref - Vadm). Based on the first and second threshold voltages Vth1 and Vth2, the AD converter 39 does not perform AD conversion on noise above the first threshold voltage Vth1 or below the second threshold voltage Vth2, but instead performs AD conversion on the audio signal in between, thereby eliminating noise and interference from the input analog audio signal. Here, for example, if Vref = 1.0 V and Vadm = 0.01 V, it can be understood that the frequency of vibration data is low in a quiet environment and high in a voice environment. In this embodiment, "frame size" refers to the number of sampling points corresponding to the digitized vibration data within each frame, and "phoneme window Tw" refers to the time required to collect audio features for each phoneme. In a preferred embodiment, the duration Tf of each frame is, for example, 0.1 to 1 millisecond (ms), and the phoneme window Tw is, for example, approximately 0.3 seconds. In a further preferred embodiment, the number of sampling points corresponding to the digitized vibration data within each frame is, for example, in the range of 1 to 16.

音声信号を分析する場合、ほとんどの音声信号は短期間で安定しているので、通常、短期分析の方法が採用される。例えば、AD変換器39で使用されるサンプリング周波数fsが16000であり、各フレームの時間継続期間Tfが1msであると仮定すると、フレームサイズはfs×1/1000=16サンプルポイントとなる。 When analyzing audio signals, short-term analysis methods are usually employed, since most audio signals are stable over a short period of time. For example, assuming the sampling frequency fs used by the AD converter 39 is 16000 and the time duration Tf of each frame is 1 ms, the frame size is fs x 1/1000 = 16 sample points.

図2において、音声信号処理部30は例えばコンピュータデバイスで構成され、
(1)ノイズキャンセルなどの所定の音声信号処理を実行するCPU(Central Processing Unit)31と、
(2)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラム、並びに当該プログラムを実行するために必要なデータ等を格納するROM(Read Only Memory)32と、
(3)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラムの実行時に、処理中のデータ等を格納するRAM(Read Access Memory)33と、
(4)前記音声信号処理を実行するために必要な後述する設定データ等を格納する不揮発性のEEPROM(Electrically Erasable Programmable Memory)34と、
(5)例えばニューラルネットワークなどで構成され、人間の音声信号データに基づいて深層学習されて入力される音声信号データに対して、ノイズを除去して実質的に音声信号のみを抽出して出力する深層学習モデル部35と、
(6)AD変換器39から入力される音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行ってCPU31に出力する入力インターフェース36と、
(7)深層学習モデル部35によりノイズが除去された音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行って音声信号増幅部103に出力する出力インターフェース37と、
を備えて構成される。
In FIG. 2, the audio signal processing unit 30 is configured, for example, by a computer device.
(1) a CPU (Central Processing Unit) 31 that executes predetermined audio signal processing such as noise cancellation;
(2) a ROM (Read Only Memory) 32 that stores an operating system that executes the basic processing of the CPU 31, a program for the audio signal processing, and data necessary for executing the program;
(3) RAM (Read Access Memory) 33 for storing data being processed when the CPU 31 executes an operating system that executes basic processing and the audio signal processing program;
(4) a non-volatile EEPROM (Electrically Erasable Programmable Memory) 34 for storing setting data, etc., which will be described later, necessary for executing the audio signal processing;
(5) A deep learning model unit 35, which is configured, for example, by a neural network, removes noise from input voice signal data that has been deep learned based on human voice signal data, and extracts and outputs substantially only the voice signal;
(6) an input interface 36 that performs a predetermined signal conversion process on the audio signal data input from the AD converter 39 to convert it into a signal specification value for the subsequent stage and outputs it to the CPU 31;
(7) An output interface 37 that performs a predetermined signal conversion process on the audio signal data from which noise has been removed by the deep learning model unit 35 to convert it into a signal specification value at a subsequent stage and outputs it to the audio signal amplifier unit 103;
The device is configured to include:

ここで、EEPROM34は例えば、一連の振動計数値VC、振動計数値の総和VS、振動計数値の総和VSf、振動計数値の総和VSp(後述する)、及びすべての特徴ベクトルの音声特徴値を記憶する。なお、EEPROM34は外部メモリなどの記憶装置であってもよい。ここで、x個のフレームの振動計数値VCを加算して、時点Tjにおける現在のフレームの振動計数値の総和VSを得る。x個のフレームには現在のフレームが含まれる。一実施形態では、CPU31は、時点Tjにおける現在のフレームの振動計数値VCと、その直前(x-1)個のフレームの振動計数値の総和VSpとを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSp)を得る。 Here, EEPROM 34 stores, for example, a series of vibration count values VC, a vibration count sum VS, a vibration count sum VSf, a vibration count sum VSp (described later), and audio feature values of all feature vectors. EEPROM 34 may also be a storage device such as an external memory. Here, the vibration count values VC of x frames are added together to obtain the vibration count sum VS of the current frame at time Tj. The x frames include the current frame. In one embodiment, CPU 31 adds the vibration count value VC of the current frame at time Tj to the vibration count sum VSp of the immediately preceding (x-1) frames to obtain the vibration count sum VS (= VC + VSp) of the x frames at time Tj.

なお、変形例では、CPU31は、時点Tjにおける現在のフレームの振動計数値VC、その直後のy個のフレームの振動計数値の総和VSf、及びその直前の(x-y-1)個のフレームの振動計数値の総和VSpを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSf+VSp)を得るが、yはゼロ以上である。CPU31は、VS、VSf及びVSpの値をEEPROM34に格納する。好ましい実施形態では、x個のフレーム(音素ウィンドウTw)の継続時間(x×Tf)は、約0.3秒である。さらに好ましい実施形態では、x個のフレームのデジタル化された振動データに対応するサンプリングポイントの数は、x~16xの範囲にある。 In a modified example, the CPU 31 adds the vibration count value VC of the current frame at time Tj, the sum of the vibration count values VSf of the immediately succeeding y frames, and the sum of the vibration count values VSp of the immediately preceding (x-y-1) frames to obtain the sum of the vibration count values VS (=VC+VSf+VSp) of the x frames at time Tj, where y is greater than or equal to zero. The CPU 31 stores the values of VS, VSf, and VSp in the EEPROM 34. In a preferred embodiment, the duration (x×Tf) of x frames (phoneme window Tw) is approximately 0.3 seconds. In a more preferred embodiment, the number of sampling points corresponding to the digitized vibration data of x frames is in the range of x to 16x.

一般的に、音声信号データについては、同じ音素では振動計数値VCの振動パターンが類似しているが、異なる音素ではVS値の振動パターンが全く異なる。従って、振動計数値VCの振動パターンを利用して、音素を区別することができる。特に、例えば鶏又は猫の鳴き声と、人間の音声とは、振動計数値VCの周波数分布に関して全く異なり、人間の音声の振動計数値VCのほとんどは40以下に分布していることが既知である。 Generally, in voice signal data, the vibration patterns of the vibration count value VC are similar for the same phoneme, but the vibration patterns of the VS value are completely different for different phonemes. Therefore, the vibration patterns of the vibration count value VC can be used to distinguish between phonemes. In particular, it is known that the frequency distribution of the vibration count value VC is completely different between, for example, the cry of a chicken or a cat and human speech, and that most of the vibration count value VC of human speech is distributed below 40.

学習フェーズにおいて、音声信号処理部30のCPU31は、まず、所定の音声信号データ収集方法を複数回実行して、複数の音素に対する複数の特徴ベクトルを収集し、複数の特徴ベクトルに対応するラベルを付加して、複数のラベル付き学習例を形成する。その後、起動音素を含む異なる音素に対する複数のラベル付き学習例を、深層学習モデル部35の学習に適用する。最後に、学習された深層学習モデル部35(音声信号データの予測モデルを構成する)を作成して、入力される音声信号データのストリームが起動音素を含むかどうかを分類する。音声信号処理部30の起動音素として、所定の音素が指定されている場合、深層学習モデル部35は、少なくとも当該指定された音素を含む異なる音素についての複数のラベル付き学習例で学習される。 In the training phase, the CPU 31 of the audio signal processing unit 30 first executes a predetermined audio signal data collection method multiple times to collect multiple feature vectors for multiple phonemes, and then attaches labels corresponding to the multiple feature vectors to form multiple labeled training examples. The multiple labeled training examples for different phonemes, including the activation phoneme, are then applied to training the deep learning model unit 35. Finally, a trained deep learning model unit 35 (which constitutes a predictive model of the audio signal data) is created to classify the input audio signal data stream as to whether it contains the activation phoneme. When a predetermined phoneme is designated as the activation phoneme of the audio signal processing unit 30, the deep learning model unit 35 is trained with multiple labeled training examples for different phonemes, including at least the designated phoneme.

すなわち、学習段階では、ラベル付けされた学習例のセットを使用して深層学習モデル部35を学習し、それによって深層学習モデル部35が、ラベル付けされた学習例の各フレームの3つの音声特徴量(例えば、(VSj,TDj,TGj))に基づいて、j=0~299の間で、所定の起動音素を認識するようにする。学習段階の終わりに、学習された深層学習モデル部35は、当該起動音素に対応する学習されたスコアを提供し、学習されたスコアは、次に、入力される音声信号データのストリームをランタイムで分類するための基準として使用される。なお、VSj,TDj,TGjは以下のように定義される。
(1)VSj:フレームjの振動計数値の総和(VS値);
(2)TDj:フレームjにおいて、ゼロではない振動計数値の総和(VS値)の時間期間;及び
(3)TGj;フレームjにおける、ゼロではない振動計数値の総和(VS値)間の時間ギャップ(時間隙間)。
That is, in the training phase, the set of labeled training examples is used to train the deep learning model unit 35 so that the deep learning model unit 35 recognizes a given activated phoneme, where j=0 to 299, based on three speech features (e.g., (VSj, TDj, TGj)) of each frame of the labeled training examples. At the end of the training phase, the trained deep learning model unit 35 provides a trained score corresponding to the activated phoneme, which is then used as a criterion for classifying an input stream of speech signal data at runtime, where VSj, TDj, and TGj are defined as follows:
(1) VSj: the sum of vibration count values of frame j (VS value);
(2) TDj: the time period of non-zero sum of vibration counts (VS values) in frame j; and (3) TGj: the time gap (time gap) between non-zero sum of vibration counts (VS values) in frame j.

深層学習モデル部35を学習するために、教師付き学習に関連する様々な機械学習技術を使用することができ、例えば、サポートベクターマシン(SVM)法、ランダムフォレスト法、畳み込みニューラルネットワーク法などを利用できる。教師付き学習では、複数のラベル付けされた学習例を使用して関数計算部(すなわち、深層学習モデル部35)が作成され、その各例は、入力特徴ベクトルとラベル付けされた出力からなる。学習されたとき、深層学習モデル部35は、対応するスコア又は予測値を生成するために、新しいラベルのない例に適用することができる。 Various machine learning techniques related to supervised learning can be used to train the deep learning model unit 35, such as support vector machine (SVM) methods, random forest methods, and convolutional neural network methods. In supervised learning, a function calculation unit (i.e., the deep learning model unit 35) is created using multiple labeled training examples, each of which consists of an input feature vector and a labeled output. Once trained, the deep learning model unit 35 can be applied to new unlabeled examples to generate a corresponding score or prediction.

図3は図2の深層学習モデル部35の詳細構成例を示すブロック図である。 Figure 3 is a block diagram showing an example of the detailed configuration of the deep learning model unit 35 in Figure 2.

深層学習モデル部35は、例えば、図3に示すように、ニューラルネットワークを用いて実装される。ここで、ニューラルネットワークは、1つの入力層41と、少なくとも1つであり好ましくは複数の中間層42と、1つの出力層43を含む。入力層41には3つの入力ニューロン51,52,53があり、各入力ニューロン51,52,53は、特徴ベクトルの各フレームの3つのオーディオ特徴値(すなわち、VSj,TDj,TGj)に対応する。また、中間層42は、各入力ニューロン51,52,53に関連する重み係数と各ニューロンのバイアス係数を有するニューロン61~74で構成される。学習フェーズのサイクルを通じて中間層42の各ニューロン61~74の重み係数とバイアス係数を変更することにより,ニューラルネットワークを学習して,所定の種類の入力に対する予測値を報告するようにすることができる。さらに、出力層43は、音素に対応する1つの予測値(具体的には、音声期間であるか、ノイズを含む非音声期間であるかを示す)を提供する1つの出力ニューロン81を含む。 The deep learning model unit 35 is implemented using a neural network, as shown in FIG. 3, for example. Here, the neural network includes an input layer 41, at least one, but preferably multiple, hidden layers 42, and an output layer 43. The input layer 41 includes three input neurons 51, 52, and 53, each corresponding to one of three audio feature values (i.e., VSj, TDj, and TGj) for each frame of the feature vector. The hidden layer 42 includes neurons 61-74, each with a weight coefficient associated with each input neuron 51, 52, and 53, and a bias coefficient for each neuron. By changing the weight coefficients and bias coefficients of the neurons 61-74 in the hidden layer 42 through a training phase cycle, the neural network can be trained to report a prediction for a given type of input. The output layer 43 includes an output neuron 81 that provides a prediction corresponding to a phoneme (specifically, indicating whether the input is a speech period or a noisy non-speech period).

以上説明したように、前記ノイズキャンセル部において、深層学習モデル部35は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する。そして、音声信号処理部30のCPU31は、深層学習モデル部35の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する。ここで、深層学習モデル部35は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、図3のニューラルネットワークにより構成される。 As explained above, in the noise cancellation unit, the deep learning model unit 35 learns using human voice characteristic parameters and determines whether the input audio signal contains noise or not. Then, based on the determination by the deep learning model unit 35, the CPU 31 of the audio signal processing unit 30 performs noise cancellation processing to prevent noise or not from passing through the input audio signal, and outputs the audio signal after the noise cancellation processing. Here, the deep learning model unit 35 is configured by the neural network of Figure 3, which receives human voice characteristic parameters as input and outputs the determination result of whether the input audio signal contains noise or not.

以上のように構成された拡声装置110の動作例について、図1及び図7を参照して以下に説明する。 An example of the operation of the loudspeaker 110 configured as described above will be described below with reference to Figures 1 and 7.

図7は図1の拡声装置110の構成例及び動作例を示すブロック図である。 Figure 7 is a block diagram showing an example configuration and operation of the loudspeaker 110 in Figure 1.

図7において、マイクロホン101から入力される音声信号を、深層学習モデル部35(図3)を用いたノイズキャンセル部102を通過させることで、本来はマイクロホン101に入力される周囲ノイズ音の非音声信号を低減して目的の音声の音声信号を抽出する目的であるが、ハウリングで発生する回り込み音の非音声信号も同様に低減することが可能となり、回り込み音の音声信号の増幅の繰り返しが回避される。これにより、マイクロホン101からの目的の音声の音声信号のみを抽出することができ、マイクロホン101に入力される周囲ノイズの低減を含め、ハウリング時においてもスピーカ104から出力される音声信号は音質変化が無く、かつ小規模でのシステム構成により小型製品でのハウリングを除去することが可能となる。 In Figure 7, the audio signal input from microphone 101 is passed through noise cancellation unit 102, which uses deep learning model unit 35 (Figure 3). The original purpose is to reduce the non-audio signals of ambient noise input to microphone 101 and extract the audio signal of the desired audio. However, it is also possible to similarly reduce the non-audio signals of feedback noise, thereby avoiding repeated amplification of the feedback audio signal. This makes it possible to extract only the audio signal of the desired audio from microphone 101. Even during feedback, there is no change in the sound quality of the audio signal output from speaker 104, including the reduction of ambient noise input to microphone 101. Furthermore, a small-scale system configuration makes it possible to eliminate feedback in small products.

なお、本発明者らは、図1の拡声装置110を試作してハウリングを発生して実験を行った。実験の結果、本実施形態に係る拡声装置110のノイズキャンセル部102により高精度で有効的にハウリングの発生を防止できることを確認した。 The inventors conducted an experiment in which they prototyped the public address system 110 shown in Figure 1 and generated feedback. As a result of the experiment, they confirmed that the noise cancellation unit 102 of the public address system 110 according to this embodiment can effectively prevent feedback with high accuracy.

以上説明したように、前記深層学習モデル部35を用いたノイズキャンセル部102により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができるハウリング防止回路を提供できる。また、ノイズキャンセル部102を拡声装置110に備えることで、ハウリングを高精度で有効的に防止することができる拡声装置を実現できる。 As described above, the noise cancellation unit 102 using the deep learning model unit 35 can provide a howling prevention circuit that can prevent howling with high accuracy, with a relatively simple configuration compared to conventional examples. Furthermore, by providing the noise cancellation unit 102 in the public address system 110, it is possible to realize a public address system that can effectively prevent howling with high accuracy.

(実施形態2)
図4は、実施形態2に係る拡声システム113の構成例を示すブロック図である。
(Embodiment 2)
FIG. 4 is a block diagram showing an example of the configuration of a loudspeaker system 113 according to the second embodiment.

図4において、拡声システム113は、マイクロホン装置111と拡声装置112とを、音声信号ケーブル105を用いて接続されて構成される。 In Figure 4, the public address system 113 is composed of a microphone device 111 and a public address device 112 connected using an audio signal cable 105.

マイクロホン装置111は、マイクロホン101と、例えばリチウム電池等の二次電池である直流電源102Bにより電源供給されるノイズキャンセル部102とを備えて構成される。ノイズキャンセル部102の構成及び動作は、実施形態1に係るノイズキャンセル部102と同様である。ノイズキャンセル部102への電源供給は、直流電源102Bに限らず、交流電圧を整流平滑するいわゆるACアダプタにより、もしくは、拡声装置112本体からの直流電圧の電源供給であってもよい。 The microphone device 111 is configured to include a microphone 101 and a noise cancellation unit 102 that is powered by a DC power supply 102B, which is a secondary battery such as a lithium battery. The configuration and operation of the noise cancellation unit 102 are similar to the noise cancellation unit 102 according to the first embodiment. Power supply to the noise cancellation unit 102 is not limited to the DC power supply 102B, but may also be provided by a so-called AC adapter that rectifies and smooths AC voltage, or by DC voltage power supply from the loudspeaker 112 itself.

また、拡声装置112は、音声信号増幅部103と、スピーカ104とを備えて構成され、これらの動作は図1の実施形態1と同様である。 The loudspeaker 112 is also configured with an audio signal amplifier 103 and a speaker 104, and their operation is the same as in embodiment 1 in Figure 1.

以上説明したように、前記深層学習モデル部35を用いたノイズキャンセル部102により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部102をマイクロホン装置111に備えることで、ハウリングを高精度で有効的に防止することができる拡声システム113を実現できる。 As described above, the noise cancellation unit 102 using the deep learning model unit 35 can prevent feedback with a relatively simple configuration compared to conventional examples, and with high accuracy. Furthermore, by providing the noise cancellation unit 102 in the microphone device 111, a public address system 113 can be realized that can effectively prevent feedback with high accuracy.

図4において、マイクロホン装置111は、例えば「オプションマイクロホン」もしくは「外部マイクロホン」と呼ばれることがある。また、拡声装置112は無線通信装置又は有線通信装置であってもよい。 In FIG. 4, the microphone device 111 may be referred to as, for example, an "optional microphone" or an "external microphone." Furthermore, the loudspeaker device 112 may be a wireless communication device or a wired communication device.

(実施形態3)
図5は、実施形態3に係る会議装置120の構成例を示すブロック図である。
(Embodiment 3)
FIG. 5 is a block diagram illustrating an example of the configuration of the conferencing device 120 according to the third embodiment.

図5において、会議装置120において、マイクロホン101-1に入力された音声は電気信号に変換された後、ノイズキャンセル部102-1に入力される。また、マイクロホン101-2に入力された音声は電気信号に変換された後、ノイズキャンセル部102-2に入力される。各ノイズキャンセル部102-1,102-2は、前記深層学習モデル部35(図2及び図3)を用いて音声期間と、ノイズを含む非音声期間とを区別して、非音声期間を通過させないようにノイズキャンセル処理を行って、音声以外のノイズを除去する処理を行った後、処理後の音声信号を加算器121に出力する。加算器121は入力される2個の音声信号を加算した後、加算後の合成音声信号を、送受信分離用ハイブリッド回路(二線四線変換器)122を介して通信インターフェース123に出力する。 In FIG. 5, in the conferencing device 120, the voice input to microphone 101-1 is converted into an electrical signal and then input to noise cancellation unit 102-1. Similarly, the voice input to microphone 101-2 is converted into an electrical signal and then input to noise cancellation unit 102-2. Each noise cancellation unit 102-1, 102-2 uses the deep learning model unit 35 (FIGS. 2 and 3) to distinguish between voice periods and silent periods containing noise, performs noise cancellation processing to prevent the silent periods from passing through, and performs processing to remove noise other than voice. The processed voice signal is then output to adder 121. Adder 121 adds the two input voice signals and then outputs the resulting synthesized voice signal to communication interface 123 via transmission/reception separation hybrid circuit (two-wire/four-wire converter) 122.

通信インターフェース123は例えばUSB(Universal Serial Bus)インターフェースであって、通信ケーブル124を介して、例えばパーソナルコンピュータ(PC)125に接続されて、USBインターフェース信号を送受信する。本実施形態では、通信インターフェース123は、会議装置120で取得した合成音声信号を、パーソナルコンピュータ125に例えばインターネットなどの所定のネットワークを介して接続された相手方のパーソナルコンピュータ(図示せず)に送信するとともに、相手方の音声信号を受信する。受信された相手方の音声信号はハイブリッド回路122及び音声信号増幅部103を介してスピーカ104から当該音声信号の音声が出力される。 The communication interface 123 is, for example, a USB (Universal Serial Bus) interface, and is connected to, for example, a personal computer (PC) 125 via a communication cable 124 to send and receive USB interface signals. In this embodiment, the communication interface 123 transmits a synthesized voice signal acquired by the conferencing device 120 to a remote personal computer (not shown) connected to the personal computer 125 via a predetermined network such as the Internet, and also receives the remote voice signal. The received remote voice signal is passed through the hybrid circuit 122 and the voice signal amplifier 103, and the voice of the voice signal is output from the speaker 104.

以上のように構成された会議装置120を用いた会議システムでは、例えば以下のハウリング経路が考えられる。
(1)ハイブリッド回路122における一部漏洩により、マイクロホン101-1,101-2に入力された会議装置120のユーザの音声信号が加算器121からハイブリッド回路122及び音声信号増幅部103を介してスピーカ104から出力される音声が、マイクロホン101-1,101-2に回り込む。
(2)マイクロホン101-1,101-2に入力された会議装置120のユーザの音声信号が通信インターフェース123及びパーソナルコンピュータ125、及び相手方のパーソナルコンピュータを介して相手方のスピーカから音声信号の音声が出力される。この音声が、相手方のマイクロホンに拾われて、逆方向でパーソナルコンピュータ125、通信インターフェース123、ハイブリッド回路122及び音声信号増幅部103を介してスピーカ104から出力されて、マイクロホン101-1,101-2に回り込む。もしくは、相手方のハイブリッド回路での一部漏洩により、ユーザの音声信号が戻ってくる場合もある。
In a conference system using the conference device 120 configured as above, for example, the following howling paths are conceivable.
(1) Due to partial leakage in hybrid circuit 122, the voice signal of the user of conference device 120 input to microphones 101-1 and 101-2 is passed from adder 121 through hybrid circuit 122 and voice signal amplifier 103, and the voice output from speaker 104 is passed through to microphones 101-1 and 101-2.
(2) The voice signal of the user of the conference device 120 input to the microphones 101-1 and 101-2 is output from the speaker of the other party via the communication interface 123, the personal computer 125, and the other party's personal computer. This voice is picked up by the microphone of the other party and output from the speaker 104 in the reverse direction via the personal computer 125, the communication interface 123, the hybrid circuit 122, and the voice signal amplifier 103, and then returns to the microphones 101-1 and 101-2. Alternatively, the user's voice signal may return due to partial leakage in the other party's hybrid circuit.

しかしながら、本実施形態では、前記深層学習モデル部35を用いたノイズキャンセル部102-1,102-2により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部102-1,102-2を会議装置120に備えることで、ハウリングを高精度で有効的に防止することができる会議システムを実現できる。 However, in this embodiment, the noise cancellation units 102-1 and 102-2 using the deep learning model unit 35 can prevent feedback with a relatively simple configuration compared to conventional examples, and with high accuracy. Furthermore, by providing the noise cancellation units 102-1 and 102-2 in the conference device 120, a conference system can be realized that can effectively prevent feedback with high accuracy.

以上の実施形態では、2個のマイクロホン101-1,101-2及び2個のノイズキャンセル部102-1,102-2を備えているが、本開示はこれに限らず、複数個のマイクロホン101及び複数個のノイズキャンセル部102を備えてもよい。 In the above embodiment, two microphones 101-1 and 101-2 and two noise cancellation units 102-1 and 102-2 are provided, but the present disclosure is not limited to this and multiple microphones 101 and multiple noise cancellation units 102 may be provided.

以上の実施形態では、1個のマイクロホン101-1,101-2に対して各1個のノイズキャンセル部102-1,102-2を備えているが、本発明はこれに限らず、2個のマイクロホン101-1,101-2からの2個の音声信号を加算した後、1個のノイズキャンセル部102により、前記深層学習モデル部35を用いたノイズキャンセル処理を行ってもよい。 In the above embodiment, one noise cancellation unit 102-1, 102-2 is provided for each microphone 101-1, 101-2, but the present invention is not limited to this. After adding two audio signals from the two microphones 101-1, 101-2, noise cancellation processing using the deep learning model unit 35 may be performed by a single noise cancellation unit 102.

(実施形態4)
図6は、実施形態4に係る無線通信装置130の構成例を示すブロック図である。
(Embodiment 4)
FIG. 6 is a block diagram showing an example of the configuration of a wireless communication device 130 according to the fourth embodiment.

図6において、無線通信装置130は、マイクロホン101と、ノイズキャンセル部102と、音声信号増幅部103Aと、変調送信部131と、送信アンテナ132と、受信アンテナ133と、受信復調部134と、音声信号増幅部103と、スピーカ104とを備えて構成される。 In FIG. 6, the wireless communication device 130 is configured to include a microphone 101, a noise cancellation unit 102, an audio signal amplification unit 103A, a modulation transmission unit 131, a transmission antenna 132, a reception antenna 133, a reception demodulation unit 134, an audio signal amplification unit 103, and a speaker 104.

図6の無線通信装置130において、マイクロホン101に入力された音声は電気信号に変換された後、ノイズキャンセル部102に入力される。ノイズキャンセル部102は、前記深層学習モデル部35(図2及び図3)を用いて音声期間と、ノイズを含む非音声期間とを区別して、非音声期間を通過させないようにノイズキャンセル処理を行って、音声以外のノイズを除去する処理を行った後、音声信号増幅部103Aを介して変調送信部131に出力する。変調送信部131は入力される音声信号に従って、所定の変調方式で搬送波を変調することで変調無線信号を発生して送信アンテナ132を介して送信する。一方、受信復調部134は、相手方の無線通信装置からの変調無線信号を受信アンテナ133により受信し、当該受信した変調無線信号を低雑音増幅、周波数変換、中間周波増幅などを行った後、所定の復調方式で音声信号に復調して音声信号増幅部103を介してスピーカ104に出力する。 In the wireless communication device 130 of FIG. 6, voice input to the microphone 101 is converted into an electrical signal and then input to the noise cancellation unit 102. The noise cancellation unit 102 uses the deep learning model unit 35 (FIGS. 2 and 3) to distinguish between voice periods and silent periods containing noise, performs noise cancellation processing to prevent the silent periods from passing through, and performs processing to remove noise other than voice. The noise cancellation unit 102 then outputs the signal to the modulation/transmission unit 131 via the audio signal amplification unit 103A. The modulation/transmission unit 131 generates a modulated radio signal by modulating a carrier wave using a predetermined modulation method in accordance with the input voice signal, and transmits the modulated radio signal via the transmission antenna 132. Meanwhile, the reception/demodulation unit 134 receives the modulated radio signal from the other wireless communication device via the reception antenna 133, performs low-noise amplification, frequency conversion, intermediate frequency amplification, etc. on the received modulated radio signal, and then demodulates it into an audio signal using a predetermined demodulation method and outputs the audio signal to the speaker 104 via the audio signal amplification unit 103.

以上のように構成された無線通信装置130を用いた無線通信システムでは、例えば以下のハウリング経路が考えられる。
(1)マイクロホン101に入力された無線通信装置130のユーザの音声信号が変調送信部131により変調しかつ無線送信されて、相手方の無線通信装置のスピーカから音声信号の音声が出力される。この音声が、相手方のマイクロホンに拾われて、逆方向で無線通信装置130の受信復調部134及び音声信号増幅部103を介してスピーカ104から出力されて、マイクロホン101に回り込む場合が考えられる。
In a wireless communication system using the wireless communication device 130 configured as above, for example, the following howling paths are conceivable.
(1) A voice signal of the user of wireless communication device 130 input to microphone 101 is modulated and wirelessly transmitted by modulation/transmission unit 131, and the sound of the voice signal is output from the speaker of the other wireless communication device. This voice may be picked up by the other microphone, and output from speaker 104 in the opposite direction via reception/demodulation unit 134 and audio signal amplifier 103 of wireless communication device 130, and may then be sent back to microphone 101.

しかしながら、本実施形態では、前記深層学習モデル部35を用いたノイズキャンセル部102により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部102を無線通信装置130に備えることで、ハウリングを高精度で有効的に防止することができる無線通信システムを実現できる。 However, in this embodiment, the noise cancellation unit 102 using the deep learning model unit 35 can prevent feedback with a relatively simple configuration compared to conventional examples, and with high accuracy. Furthermore, by providing the noise cancellation unit 102 in the wireless communication device 130, a wireless communication system can be realized that can effectively prevent feedback with high accuracy.

以上の実施形態においては、変調送信部131と、受信復調部134とを備えているが、本発明はこれに限らず、受信復調部134は別体の装置とし、少なくとも変調送信部131を備えてもよい。 In the above embodiment, the system is equipped with a modulation/transmission unit 131 and a reception/demodulation unit 134, but the present invention is not limited to this. The reception/demodulation unit 134 may be a separate device, and at least the modulation/transmission unit 131 may be included.

以上の実施形態では、無線通信装置130について説明しているが、本発明はこれに限らず、無線通信装置130に代えて、有線通信装置、電話機、スマートホンなどの通信装置にも適用することができる。 In the above embodiment, a wireless communication device 130 has been described, but the present invention is not limited to this and can also be applied to communication devices such as wired communication devices, telephones, and smartphones instead of wireless communication devices 130.

以上詳述したように、本発明に係るハウリング防止回路によれば、深層学習モデル部を用いたノイズキャンセル部により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部を、拡声装置、通信装置、会議装置、電話機、スマートホン、又はコンピュータに備えることで、ハウリングを高精度で有効的に防止することができる音声処理システムを実現できる。 As described above in detail, the anti-feedback circuit of the present invention uses a noise cancellation unit that uses a deep learning model, making it possible to prevent feedback with a relatively simple configuration compared to conventional examples and with high accuracy. Furthermore, by incorporating a noise cancellation unit into a public address system, communication device, conference device, telephone, smartphone, or computer, it is possible to realize an audio processing system that can effectively prevent feedback with high accuracy.

30 音声信号処理部
31 CPU
32 ROM
33 RAM
34 EEPROM
35 深層学習モデル部
36 入力インターフェース
37 出力インターフェース
38 音声信号前置処理部
39 AD変換器
41 入力層
42 中間層
43 出力層
51~81 ニューロン
101,101-1,101-2 マイクロホン
102,102-1,102-2 ノイズキャンセル部
102B 直流電源
103,103A 音声信号増幅部
104 スピーカ
105 音声信号ケーブル
110,110A 拡声装置
111 マイクロホン装置
112 拡声装置
113 拡声システム
120 会議装置
121 加算器
122 ハイブリッド回路
123 通信インターフェース
124 通信ケーブル
125 パーソナルコンピュータ
130 無線通信装置
131 変調送信部
132 送信アンテナ
133 受信アンテナ
134 受信復調部
30 Audio signal processing unit 31 CPU
32 ROM
33 RAM
34 EEPROM
35 Deep learning model unit 36 Input interface 37 Output interface 38 Audio signal pre-processing unit 39 AD converter 41 Input layer 42 Intermediate layer 43 Output layer 51 to 81 Neurons 101, 101-1, 101-2 Microphones 102, 102-1, 102-2 Noise cancellation unit 102B DC power supply 103, 103A Audio signal amplifier unit 104 Speaker 105 Audio signal cable 110, 110A Public address device 111 Microphone device 112 Public address device 113 Public address system 120 Conference device 121 Adder 122 Hybrid circuit 123 Communication interface 124 Communication cable 125 Personal computer 130 Wireless communication device 131 Modulation transmission unit 132 Transmission antenna 133 Reception antenna 134 Reception demodulation unit

Claims (6)

入力される音声を音声信号に変換するマイクロホンからの前記音声信号の音声の少なくとも一部が前記マイクロホンに入力されるときに発生するハウリングを防止するハウリング防止回路であって、
前記マイクロホンからの音声信号からノイズを除去して音声信号のみを出力するノイズキャンセル部を備え、
前記ノイズキャンセル部は入力される音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、前記判定の結果に基づいてノイズキャンセル処理を行い、
前記深層学習モデル部は、学習時において、前記音声信号における時間軸に沿った所定のフレーム数ごとに算出された振動数の総和のデータ分布である人間の音声の特徴パラメータを、学習の入力として用い、前記振動数の総和のデータ分布を表す振動パターンに基づいて、前記音声信号からノイズを含む前記非音声期間であるか否かを判定する判定の結果を学習し、
前記深層学習モデル部は、学習後の動作時において、入力される音声から変換された音声信号に関する人間の音声の特徴パラメータを入力したときに、前記判定の結果を出力し、
前記ノイズキャンセル部は、前記深層学習モデル部の前記判定の結果が前記非音声期間であるときに、入力される音声から変換された音声信号からノイズを含む前記非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える、
ハウリング防止回路。
1. A howling prevention circuit for preventing howling that occurs when at least a part of a sound of an audio signal from a microphone that converts input audio into an audio signal is input to the microphone,
a noise cancellation unit that removes noise from the audio signal from the microphone and outputs only the audio signal;
the noise cancellation unit uses a deep learning model unit that determines whether an input audio signal is a non-audio period including noise, and performs noise cancellation processing based on the result of the determination ;
During learning, the deep learning model unit uses, as a learning input, a feature parameter of human voice, which is a data distribution of a sum of vibration frequencies calculated for each predetermined number of frames along a time axis in the voice signal, and learns a result of a determination as to whether or not the voice signal is the non-voice period containing noise, based on a vibration pattern representing the data distribution of the sum of vibration frequencies;
the deep learning model unit, during operation after learning, outputs the result of the determination when a feature parameter of a human voice related to a voice signal converted from an input voice is input;
The noise cancellation unit includes an audio signal processing unit that, when the result of the determination by the deep learning model unit is the silent period, performs noise cancellation processing on an audio signal converted from input audio so as not to pass the silent period containing noise, and outputs the audio signal after the noise cancellation processing.
Anti-feedback circuit.
前記深層学習モデル部は所定のニューラルネットワークにより構成される、
請求項1に記載のハウリング防止回路。
The deep learning model unit is configured by a predetermined neural network.
2. The howling prevention circuit according to claim 1.
前記ノイズキャンセル部は、
前記音声信号処理部の前段に設けられ、前記マイクロホンからの音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる音声信号前置処理部をさらに備える、
請求項1又は2に記載のハウリング防止回路。
The noise cancellation unit
an audio signal pre-processing unit provided in a stage preceding the audio signal processing unit, for passing only audio signals from the microphone that are within a predetermined level range of human audio signals and have a predetermined bandwidth;
3. The howling prevention circuit according to claim 1 or 2.
請求項1~3のうちのいずれか1つに記載の前記ハウリング防止回路を備える、
マイクロホン装置。
The howling prevention circuit according to any one of claims 1 to 3 is provided.
Microphone device.
請求項1~3のうちのいずれか1つに記載の前記ハウリング防止回路を備える、
電子機器。
The howling prevention circuit according to any one of claims 1 to 3 is provided.
electronic equipment.
前記電子機器は、拡声装置、通信装置、会議装置、電話機、スマートホン、又はコンピュータである、請求項5に記載の電子機器。 The electronic device of claim 5, wherein the electronic device is a public address system, a communication device, a conference device, a telephone, a smartphone, or a computer.
JP2021171752A 2021-10-20 2021-10-20 Howling prevention circuit, microphone device and electronic device Active JP7724678B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021171752A JP7724678B2 (en) 2021-10-20 2021-10-20 Howling prevention circuit, microphone device and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021171752A JP7724678B2 (en) 2021-10-20 2021-10-20 Howling prevention circuit, microphone device and electronic device

Publications (2)

Publication Number Publication Date
JP2023061676A JP2023061676A (en) 2023-05-02
JP7724678B2 true JP7724678B2 (en) 2025-08-18

Family

ID=86249718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021171752A Active JP7724678B2 (en) 2021-10-20 2021-10-20 Howling prevention circuit, microphone device and electronic device

Country Status (1)

Country Link
JP (1) JP7724678B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004200883A (en) 2002-12-17 2004-07-15 Toa Corp Howling suppression apparatus
JP2007267044A (en) 2006-03-28 2007-10-11 Matsushita Electric Works Ltd Speaking device
WO2015059947A1 (en) 2013-10-22 2015-04-30 日本電気株式会社 Speech detection device, speech detection method, and program
JP2019168674A (en) 2018-03-22 2019-10-03 カシオ計算機株式会社 Voice section detection apparatus, voice section detection method, and program
CN112382282A (en) 2020-11-06 2021-02-19 北京五八信息技术有限公司 Voice denoising processing method and device, electronic equipment and storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253300A (en) * 1989-03-28 1990-10-12 Sharp Corp Voice pass filter

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004200883A (en) 2002-12-17 2004-07-15 Toa Corp Howling suppression apparatus
JP2007267044A (en) 2006-03-28 2007-10-11 Matsushita Electric Works Ltd Speaking device
WO2015059947A1 (en) 2013-10-22 2015-04-30 日本電気株式会社 Speech detection device, speech detection method, and program
JP2019168674A (en) 2018-03-22 2019-10-03 カシオ計算機株式会社 Voice section detection apparatus, voice section detection method, and program
CN112382282A (en) 2020-11-06 2021-02-19 北京五八信息技术有限公司 Voice denoising processing method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP2023061676A (en) 2023-05-02

Similar Documents

Publication Publication Date Title
CN113241085B (en) Echo cancellation method, device, equipment and readable storage medium
CN105611477B (en) The voice enhancement algorithm that depth and range neutral net are combined in digital deaf-aid
US10224019B2 (en) Wearable audio device
ES2373511T3 (en) VOCAL ACTIVITY DETECTOR IN MULTIPLE MICROPHONES.
US12425781B2 (en) Mobile device that provides sound enhancement for hearing device
CN111836178A (en) Hearing device including keyword detector and self-speech detector and/or transmitter
CN114822573B (en) Voice enhancement method, device, earphone device and computer readable storage medium
EP4218263A1 (en) Hearing augmentation and wearable system with localized feedback
US20240371388A1 (en) Recovery of voice audio quality using a deep learning model
AU2003296976A1 (en) System and method for speech processing using independent component analysis under stability constraints
WO2010140358A1 (en) Hearing aid, hearing assistance system, walking detection method, and hearing assistance method
CN113808566B (en) Vibration noise processing method and device, electronic equipment and storage medium
CN119946506B (en) Audio processing method, electronic equipment and storage medium
CN105915738A (en) Echo cancellation method, echo cancellation device and terminal
US12229472B2 (en) Hearing augmentation and wearable system with localized feedback
CN110364175B (en) Voice enhancement method and system and communication equipment
CN115484536A (en) Hearing device comprising a speech intelligibility estimator
JP6979146B1 (en) External microphone device and communication device
JP7724678B2 (en) Howling prevention circuit, microphone device and electronic device
CN113314121A (en) Silent speech recognition method, silent speech recognition device, silent speech recognition medium, earphone, and electronic apparatus
JP7179128B1 (en) Wireless communication device and wireless communication system
JP7100746B1 (en) Wireless relay device and wireless communication system
JP7653311B2 (en) Wireless communication device and wireless communication system
JP7221335B2 (en) wireless communication device
CN223652363U (en) Handpiece noise reduction devices and electronic equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250805

R150 Certificate of patent or registration of utility model

Ref document number: 7724678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150