JP6435133B2 - Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program - Google Patents
Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program Download PDFInfo
- Publication number
- JP6435133B2 JP6435133B2 JP2014163880A JP2014163880A JP6435133B2 JP 6435133 B2 JP6435133 B2 JP 6435133B2 JP 2014163880 A JP2014163880 A JP 2014163880A JP 2014163880 A JP2014163880 A JP 2014163880A JP 6435133 B2 JP6435133 B2 JP 6435133B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- time constant
- sound
- phoneme
- branching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
本発明は、音声信号から音素を分割・抽出するための音素分割装置、該音素分割装置を用いた音声処理システム、音素分割方法、音素分割プログラム、および騒音測定装置に関する。 The present invention relates to a phoneme dividing device for dividing and extracting phonemes from a speech signal, a speech processing system using the phoneme dividing device, a phoneme dividing method, a phoneme dividing program, and a noise measuring device.
近年、「個人情報保護法」の施行等により銀行やオフィスにおいて会話情報を保護する必要性が高まってきたが、その手段として、物理的に空間を分離する従来の遮音・防音とは別に、オープンプランオフィスなどにおいて音声信号を別の雑音・音楽などで隠蔽(情報マスキング)するスピーチプライバシーシステム(音声情報秘話装置)が提案されている。スピーチプライバシーシステムとしては、例えば原音声をマスカーとして用いるもの(例えば、特許文献1参照)が知られている。 In recent years, the need to protect conversation information in banks and offices has increased due to the enforcement of the “Personal Information Protection Law”, etc., but as a means of doing so, it has been opened apart from conventional sound and sound insulation that physically separates spaces. A speech privacy system (speech information secret device) that conceals (information masking) an audio signal with another noise or music in a plan office or the like has been proposed. As a speech privacy system, for example, a system that uses original speech as a masker (see, for example, Patent Document 1) is known.
電気音響を用いた一般のSR(Sound Reinforcement)システムやPA(Public Address)システムが音量や明瞭を向上させる目的で用いられるのに対し、スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽/遮断し、受聴者に会話の中身を理解不能とすることを目的としたものである。 While a general SR (Sound Reinforcement) system and PA (Public Address) system using electroacoustics are used for the purpose of improving sound volume and clarity, the speech privacy system is a simplified structure of an audio signal by signal processing. By changing and processing in real time, without significantly changing statistical properties such as the spectrum and energy envelope of the audio signal, only the content of the audio is concealed / blocked and the listener cannot understand the contents of the conversation. It is intended to be.
上記特許文献1では、音声包絡線の「略一山」を1つの音素として抽出し、これを再配置するなどして音声の構造を変化させてマスカー(原音声に重畳してその内容を隠蔽する別音声)として利用している。
In the
従来、音声包絡線の略一山を抽出する方法としては、入力音声のエネルギー包絡線が閾値を越えて立ち上がり、再び元に戻るまでを1音素(1 mora)とする方法が一般的である。 Conventionally, as a method for extracting substantially one peak of a speech envelope, a method in which one energy element (1 mora) from when the energy envelope of an input speech rises beyond a threshold and returns to the original level is generally used.
しかしながら、マイクロホン等で集音された入力音声には通常、暗騒音(バックグラウンドノイズ)が重畳している。一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみるとかなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値を設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値を手作業で調整するのは大変な作業である。 However, background noise is usually superimposed on input sound collected by a microphone or the like. The background noise in a general room or space is almost constant in a short time, but tends to fluctuate considerably in a long time. Therefore, even if the threshold is set based on the background noise level for a certain time, there is a possibility that appropriate phoneme division cannot be performed due to the background noise level fluctuation. Also, it is a difficult task to manually adjust the threshold according to the background noise level fluctuation.
本発明はこうした課題に鑑みてなされたものであり、その目的は、暗騒音のレベルを自動で検知することを可能ならしめる技術を提供することにある。 The present invention has been made in view of these problems, and an object of the present invention is to provide a technique that makes it possible to automatically detect the background noise level.
上記課題を解決するために、本発明のある態様の音素分割装置は、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐部と、第1分岐部で分岐された一方の音信号をさらに2つに分岐する第2分岐部と、第2分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、第2分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを比較する比較部と、比較部の比較結果に応じて、第1分岐部で分岐された他方の音信号の通過/非通過を制御するゲート部とを備える。 In order to solve the above problems, a phoneme division device according to an aspect of the present invention is divided into a first branching unit that branches a sound signal in which a background noise signal is superimposed on a sound signal into two, and a first branching unit. A second branching unit for further branching the other sound signal into two, and a sound time constant unit for smoothing one sound signal branched by the second branching unit with a sound time constant of several tens to several hundreds of ms The rise of the other sound signal branched by the second branching unit is smoothed with a rise time constant that is at least 10 times larger than the sound time constant, and the rise of the other sound signal Is a comparison unit that compares the signal from the time constant part for background noise and the signal from the time constant part for background noise with the time constant part for background noise that is smoothed by the time constant for falling that is almost the same as the time constant for voice And other branches branched at the first branch according to the comparison result of the comparator And a gate portion for controlling transmission / non-transmission of the sound signal.
本発明の別の態様は、音声処理システムである。このシステムは、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する集音装置と、集音装置からの音信号を受信して、音声信号を音素に分割する上述の音素分割装置と、音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、音素処理装置によって処理された音素信号を音として空間に出力する出力装置とを備える。 Another aspect of the present invention is a speech processing system. This system collects the original sound and outputs a sound signal in which a background noise signal is superimposed on the sound signal, and receives the sound signal from the sound collector and divides the sound signal into phonemes The above-mentioned phoneme dividing device, a phoneme processing device that performs a predetermined process on a phoneme signal obtained from the phoneme dividing device, and an output device that outputs the phoneme signal processed by the phoneme processing device as a sound to space.
本発明のさらに別の態様は、音素分割方法である。この方法は、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、第1平滑化ステップで演算された信号と、第2平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップとを備える。 Yet another embodiment of the present invention is a phoneme division method. This method includes a first branching step for branching a sound signal in which a background noise signal is superimposed on an audio signal into two, and a second branching step for branching one of the sound signals branched in the first branching step into two. A first smoothing step for smoothing one sound signal branched in the second branching step with a time constant for sound of several tens to several hundreds of ms, and a rise of the other sound signal branched in the second branching step Is smoothed with a rising time constant that is at least 10 times larger than the audio time constant, and the other sound signal is smoothed with a falling time constant that is substantially the same as the audio time constant. The first smoothing step, the comparison step comparing the signal calculated in the first smoothing step and the signal calculated in the second smoothing step, and the first branch depending on the comparison result of the comparison step Ste And a transmission controlling step for controlling passage / non-passage of the other sound signals branched by up.
本発明のさらに別の態様は、音素分割プログラムである。このプログラムは、コンピュータに、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、第1平滑化ステップで演算された信号と、第2平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップとを実行させるための音素分割プログラムである。
Yet another embodiment of the present invention is a phoneme division program. This program causes a computer to branch a sound signal obtained by superimposing a background noise signal on a sound signal into two, and to branch one sound signal branched in the first branch step into two. A second smoothing step, a first smoothing step for smoothing one sound signal branched in the second branching step with an audio time constant of several tens to several hundreds of ms, and the other sound branched in the second branching step The signal rise is smoothed by a rise time constant that is at least 10 times larger than the audio time constant, and the fall time constant of the other sound signal is substantially the same as the audio time constant. The second smoothing step smoothed in
本発明のさらに別の態様は、騒音測定装置である。この装置は、周囲音に含まれる暗騒音のレベルを測定する騒音測定装置であって、周囲音を集音する集音部と、集音部からの音信号の立ち下がりに対しては数10〜数100msの立ち下がり用時定数で平滑化するとともに、集音部からの音信号の立ち上がりに対しては立ち下がり用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化する暗騒音用時定数部とを備える。 Yet another embodiment of the present invention is a noise measurement device. This device is a noise measurement device that measures the level of background noise included in ambient sound, and is a tens of times for a sound collection unit that collects ambient sound and a falling edge of a sound signal from the sound collection unit. Smoothing with a falling time constant of ˜100 ms, and for dark noise smoothing with a rising time constant that is at least 10 times greater than the falling time constant for the rise of the sound signal from the sound collection unit And a time constant part.
本発明のさらに別の態様もまた、騒音測定装置である。この装置は、周囲音に含まれる騒音のレベルを測定する騒音測定装置であって、周囲音を2つに分岐する分岐部と、分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを表示する表示部とを備える。 Yet another embodiment of the present invention is also a noise measurement device. This device is a noise measuring device that measures the level of noise included in ambient sound, and a branching unit that branches the ambient sound into two, and one sound signal branched at the branching unit is several 10 to several 100 ms. The time constant for speech smoothing with the time constant for speech and the rise of the other sound signal branched at the branching portion are smoothed with a time constant for rise of at least 10 times greater than the time constant for speech. In addition, for the falling edge of the other sound signal, the background time constant part for smoothing with the time constant for falling substantially the same as the time constant for sound, the signal from the time constant part for sound, and for the background noise And a display unit for displaying a signal from the time constant unit.
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements, or those obtained by replacing the constituent elements and expressions of the present invention with each other between apparatuses, methods, systems, computer programs, recording media storing computer programs, and the like are also included in the present invention. It is effective as an embodiment of
本発明によれば、暗騒音のレベルを自動で検知することができる。 According to the present invention, the background noise level can be automatically detected.
以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。 The present invention will be described below based on preferred embodiments with reference to the drawings. The same or equivalent components, members, and processes shown in the drawings are denoted by the same reference numerals, and repeated descriptions are omitted as appropriate.
まず、本発明の実施形態に係る音素分割装置について説明する前に、従来の音素分割装置の一例について説明する。 First, an example of a conventional phoneme dividing apparatus will be described before describing a phoneme dividing apparatus according to an embodiment of the present invention.
図1は、従来の音素分割装置の一例を説明するための図である。図1に音素分割装置100は、マイクアンプ104と、絶対値回路106と、時定数回路108と、比較器110と、可変抵抗器112と、ゲート回路114とを備える。
FIG. 1 is a diagram for explaining an example of a conventional phoneme dividing apparatus. 1 includes a
マイクアンプ104は、マイクロホン102に接続される。マイクロホン102は、原音声(マスキー)を集音し、音信号に変換する。この音信号は、音声に暗騒音が重畳されたものである。マイクアンプ104は、マイクロホン102からの音信号を増幅する。マイクアンプ104から出力された音信号X(t)は、分岐部105で2つに分岐され、一方の音信号X(t)は絶対値回路106に入力され、他方の音信号X(t)はゲート回路114に入力される。絶対値回路106は、音信号X(t)の絶対値を出力する。絶対値回路106から出力された音信号の絶対値|X(t)|は、時定数回路108に入力される。時定数回路108は、抵抗値Rの抵抗器および容量値Cのコンデンサから構成された一次のローパスフィルタであり、その時定数τ=RCは100ms程度に設定される。時定数回路108は、音信号の絶対値|X(t)|を平滑化する。時定数回路108による平滑化処理により、音信号の絶対値|X(t)|から時定数τよりも速い成分が取り除かれ、包絡線信号A(t)が得られる。比較器110は、包絡線信号A(t)と、所定の閾値Tとを比較し、A(t)≧Tとなるタイミングでゲート回路114を開状態とする。これにより、ゲート回路114が開状態のときの音信号の区間が、音素(mora)として分割・抽出される。
The
音素分割装置100において、閾値Tは、電源電圧+Vcを可変抵抗器112で調整することにより手動で設定される。音声を高い精度で音素に分割するためには、この閾値Tの設定が重要である。
In the
図2(a)〜(e)は、図1に示す音素分割装置100による音素分割処理を説明するための図である。図2(a)〜(e)の縦軸は信号レベルを任意の単位で表し、横軸は時間tを表す。図2(a)は、マイクアンプ104から出力される音信号X(t)の波形を示す。図2(b)は、絶対値回路106から出力される音信号の絶対値|X(t)|の波形と、時定数回路108から出力される包絡線信号A(t)の波形を示す。包絡線信号A(t)の波形の「略一山」が一つの音素(1mora)に対応する。
2A to 2E are diagrams for explaining phoneme division processing by the
図2(b)に示すように、本例において包絡線信号A(t)は6個の「略一山」、すなわち音素1〜6を含んでいる。また、図2(b)には、比較器110において包絡線信号A(t)から音素を分割する際に用いる3段階の閾値T(閾値T1〜T3)が図示されている。図2(c)〜(e)は、ゲート回路114からの出力信号の波形、すなわち、音素分割装置100による音素分割結果を示す。音素分割装置100による音素分割結果は、閾値Tに依存する。
As shown in FIG. 2B, in this example, the envelope signal A (t) includes six “substantially one mountain”, that is,
図2(c)は、閾値Tを暗騒音のレベルより十分大きな閾値T1に設定したときの音素分割結果を示す。音素分割装置100のように音信号の包絡線と閾値を比較することで音素分割を行う方法においては、できるだけ安定に音素を分割・抽出しようとすると閾値Tを暗騒音のレベルより十分大きな値に設定することとなる。この場合、図2(c)に示すように、音素4,6のような小さいレベルの音素が欠落する可能性がある。
FIG. 2C shows a phoneme division result when the threshold value T is set to a threshold value T1 sufficiently larger than the background noise level. In a method of dividing a phoneme by comparing an envelope of a sound signal and a threshold as in the
図2(e)は、閾値Tを暗騒音のレベルと同程度の小さな閾値T3に設定したときの音素分割結果を示す。この場合、図2(e)に示すように、隣接する音素1と2および隣接する音素3〜5が分割されていない。このように、閾値Tを小さな閾値T3に設定した場合、音素間の境界があいまいとなり、図2(e)に示すように複数の音素が分割されずに繋がってしまう可能性がある。
FIG. 2E shows a phoneme division result when the threshold value T is set to a small threshold value T3 comparable to the background noise level. In this case, as shown in FIG. 2E, the
図2(d)は、閾値Tを暗騒音のレベルにマージンHを加えた最適な閾値T2に設定したときの音素分割結果を示す。この場合、図2(d)に示すように音素1〜6が適切に分割されている。このように、適切な音素分割を行うためには、暗騒音のレベルを正確に検知し、この暗騒音のレベルよりも僅かに大きな値を閾値Tに設定することが重要である。
FIG. 2D shows a phoneme division result when the threshold T is set to an optimum threshold T2 obtained by adding a margin H to the background noise level. In this case,
一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみると午前と午後、昼食時と執務時というように、かなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値Tを設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値Tを手作業で調整するのは大変な作業である。 The general background noise in a room or space is almost constant in a short time, but in the long time, it tends to fluctuate considerably in the morning and afternoon, lunch and office hours. Therefore, even if the threshold value T is set based on the background noise level for a certain period of time, there is a possibility that appropriate phoneme division cannot be performed due to background noise level fluctuations. In addition, it is a difficult task to manually adjust the threshold T in accordance with the background noise level fluctuation.
上記のような従来の音素分割装置の課題を認識した上で、本発明者は、暗騒音のレベルが変動した場合であっても適切な音素分割を自動で実行することを可能ならしめる音素分割方法及び装置を発明した。 After recognizing the problems of the conventional phoneme dividing device as described above, the present inventor has made it possible to automatically perform appropriate phoneme division even when the background noise level fluctuates. Invented a method and apparatus.
図3は、本発明の実施形態に係る音素分割装置10を説明するための図である。図3に示すように、音素分割装置10は、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。
FIG. 3 is a diagram for explaining the
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。
The
バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。このバンドパスフィルタ15は、例えば成人音声の平均スペクトルに対応する通過帯域(例えば100Hz〜7kHz、より好適には250Hz〜4kHz)を有する。バンドパスフィルタ15を設けることにより、音素の分割・抽出精度を向上できる。
The band-
バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。すなわち、X(t)=x(t)+n(t)と表される。
The sound signal X (t) output from the
バンドパスフィルタ15から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。図3から分かるように、本実施形態では第1分岐部13の前段にバンドパスフィルタ15が設けられている。また、第1分岐部13と第2分岐部17との間には自乗回路16が設けられている。
The sound signal X (t) output from the
自乗回路16は、第1分岐部13で分岐された一方の音信号X(t)の自乗信号X2(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16から出力された自乗信号X2(t)は、第2分岐部17で2つの分岐される。第2分岐部17で分岐された一方の自乗信号X2(t)は音声用時定数回路18に入力され、他方の自乗信号X2(t)は暗騒音用時定数回路20に入力される。
The
音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。第1抵抗器34の一方の端子は自乗回路16に接続され、他方の端子は音声用平方根回路22に接続されている。第2コンデンサ36の一方の端子は第1抵抗器34の他方の端子に接続され、第2コンデンサ36の他方の端子は接地されている。音声用時定数回路18の時定数(以下、「音声用時定数」と呼ぶ)τv=RCは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。音声用時定数回路18は、自乗信号X2(t)を音声用時定数τvで平滑化(平均化)する。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X2(t)から音声用時定数τvよりも速い成分が取り除かれ、自乗信号X2(t)の包絡線信号が得られる。
The audio time
音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrmsと見なすことができる(以下の数式参照)。以下、A(t)を「音声包絡線信号」と呼ぶ。
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20は、抵抗値R’の第2抵抗器38と、容量Cの第2コンデンサ40と、ダイオード42と、抵抗値Rの第3抵抗器44とから成る。第2抵抗器38の一方の端子は自乗回路16に接続され、他方の端子は暗騒音用平方根回路24に接続されている。ダイオード42のカソード端子は自乗回路16に接続され、アノード端子は第3抵抗器44の一方の端子に接続されている。第3抵抗器44の他方の端子は暗騒音用平方根回路24に接続されている。第2コンデンサ40の一方の端子は第2抵抗器38および第3抵抗器44の他方の端子接続され、第2コンデンサ40の他方の端子は接地されている。
The background noise time
このように構成された暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、第2抵抗器38と第2コンデンサ40から構成される時定数(以下、「立ち上がり用時定数」と呼ぶ)τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、第3抵抗器44と第2コンデンサ40から構成される時定数(以下、「立ち下がり用時定数」と呼ぶ)τd=RCのローパスフィルタで平滑化が行われる。
In the background noise time
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。すなわち、暗騒音用時定数回路20は、非対称な2つの時定数で構成される。具体的には、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。一方、立ち下がり用時定数τdは、音声用時定数回路18の音声用時定数τv と同じ値に設定される。本実施形態では、立ち下がり用時定数τdは音声用時定数に等しい(すなわち、τd=τv=RC)。
In the background noise time
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。暗騒音用時定数回路20の立ち上がり用時定数τuは、音声用時定数回路18の音声用時定数τvよりも非常に大きな値に設定されるため、B(t)は音声信号x(t)のレベル変化にはほとんど不感で、一般的にはほぼ一定と考えられる暗騒音レベル(例えば、銀行ロビーや病院の待合室などの暗騒音レベル)、つまり音信号X(t)の最低レベル付近に維持される。すなわち、B(t)は音素(mora)間の僅かの無音部(途切れ目)を通じて素早く暗騒音レベルまで低下し、全体において常に暗騒音に等しいレベルを維持する。
The background noise
しかし場合によっては、大声の人が連続して話したり、短時間の始業ベルが鳴ったりしてゆっくりではあるが信号B(t)が上昇することがあるため、それらが停止した時点で速やかに本来の暗騒音レベルに戻るよう、立ち下がり用時定数τdについては立ち上がり用時定数τuとは異なる値、具体的には音声用時定数回路18の音声用時定数τvと同程度の時定数となっている。これにより、信号B(t)は朝の早い時間から午前中にかけて、また昼食時から午後にかけて、といった対称空間のゆっくりした暗騒音変化には追従するが、音声程度の速いレベル変化にはほとんど追従せず不感、ということになる。このように変化する信号B(t)は、刻々変化する音声包絡線信号A(t)に対し、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrmsと見なすことができる(以下の数式参照)。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。
比較器30は、音声用平方根回路22から出力された音声包絡線信号A(t)と暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。一般に暗騒音レベルは音声レベルに対し十分低いので、このようにB(t)よりも僅かに大きな閾値信号B’(t)と音声包絡線信号A(t)とを比較することで、音素分割を安全・安定に行うことができる。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。
The
比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。
The
ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。
The
図4(a)〜(f)は、図3に示す音素分割装置10による音素分割処理を説明するための図である。図4(a)〜(f)の縦軸は信号レベルvを単位mVで表し、横軸は時間tを単位msで表す。
FIGS. 4A to 4F are diagrams for explaining phoneme division processing by the
図4(a)は、バンドパスフィルタ15から出力される音信号X(t)の波形を示す。音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。この音信号X(t)は、第1分岐部13で2つに分岐される。分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。
FIG. 4A shows the waveform of the sound signal X (t) output from the
図4(b)は、自乗回路16から出力された自乗信号X2(t)の波形を示す。図4(b)に示すように、自乗信号X2(t)は正の成分のみを含む。この自乗信号X2(t)は、第2分岐部17で2つに分岐される。分岐された一方の自乗信号X2(t)は音声用時定数回路18に入力され、他方の自乗信号X2(t)は暗騒音用時定数回路20に入力される。
FIG. 4B shows the waveform of the square signal X 2 (t) output from the
音声用時定数回路18で平滑化された信号は、音声用平方根回路22でその平方根がとられる。この平方根は音声包絡線信号A(t)となる。図4(c)は、音声用平方根回路22から出力される音声包絡線信号A(t)の波形を示す。図4(c)に示すように、音声包絡線信号A(t)は、ほぼ入力原音声の実効値xrmsに追従して変化する正の波形である。
The signal smoothed by the audio time
一方、暗騒音用時定数回路20で平滑化された信号は、暗騒音用平方根回路24でその平方根がとられる。この平方根は暗騒音包絡線信号B(t)となる。図4(d)は、暗騒音用平方根回路24から出力される暗騒音包絡線信号B(t)の波形を示す。図4(d)に示すように、暗騒音包絡線信号B(t)は、入力原音声にはほとんど追従せず、入力原音声の途切れ部分においてのみこれに沿って急速に最低値、即ち暗騒音レベルまで低下する。つまり、B(t)は常に暗騒音のレベルに維持され、音素分割の域値として利用することができる。
On the other hand, the square root of the signal smoothed by the time
暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)は、バッファアンプ26でm倍に増幅された後、加算器28でオフセット値hが加算され、閾値信号B’(t)=mB(t)+hとされる。図4(d)には、暗騒音包絡線信号B(t)に加えて、閾値信号B’(t)の波形が図示されている。
The background noise envelope signal B (t) output from the background noise
図4(c)は、音声包絡線信号A(t)に加えて、閾値信号B’(t)=mB(t)+hを図示している。すなわち、図4(c)には、比較器30で比較される2つの信号が図示されている。図4(c)に示すように、音声包絡線信号A(t)と閾値信号B’(t)との交点が得られる。図4(e)は、比較器30の出力信号を示す。比較器30は、音声包絡線信号A(t)と閾値信号B’(t)との交点に有効に挟まれる区間のうち、A(t)≧B’(t)となる区間でハイレベルを出力し、A(t)<B’(t)となる区間でローレベルを出力する。
FIG. 4C illustrates the threshold signal B ′ (t) = mB (t) + h in addition to the voice envelope signal A (t). That is, in FIG. 4C, two signals to be compared by the
図4(f)は、ゲート回路32の出力信号を示す。ゲート回路32は、比較器30からハイレベルを受けたときだけ音号X(t)を通過させ、比較器30からローレベルを受けたときには音号X(t)を非通過とする。これにより、図4(f)に示すように音素と暗騒音が明確に区画され、3つの音素が分割・抽出されている。
FIG. 4F shows the output signal of the
以上、本実施形態に係る音素分割装置10について説明した。この音素分割装置10によれば、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。
The
本実施形態の音素分割装置10によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
According to the
図5は、変形例に係る音素分割装置50を説明するための図である。図5に示す音素分割装置50は、バンドパスフィルタ15が第1分岐部13と自乗回路16との間に設けられている点が図3に示す音素分割装置10と異なる。
FIG. 5 is a diagram for explaining a
本変形例に係る音素分割装置50では、第1分岐部13と自乗回路16の間にバンドパスフィルタ15が設けられていることにより、ゲート回路32にはバンドバスフィルタを通っていない音信号が入力される。従って、音素分割装置50では原音声信号により近い音素信号が得られるため、図3に示す音素分割装置10と比べて音質を向上することができる。なお、音素分割装置50においては自乗回路16に入る音信号はバンドパスフィルタ15を通っているため、音素の分割・抽出精度は図3に示す音素分割装置と同等である。
In the
図6は、本発明の別の実施形態に係る音素分割装置60を説明するための図である。図6に示す音素分割装置60は、自乗回路に代えて絶対値回路62を備える点が図3に示す音素分割装置10と異なる。
FIG. 6 is a diagram for explaining a
図6に示すように、音素分割装置60は、マイクアンプ14と、絶対値回路62と、音声用時定数回路18と、暗騒音用時定数回路20と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。
As shown in FIG. 6, the
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。
The
マイクアンプ14から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は絶対値回路62に入力され、他方の音信号X(t)はゲート回路32に入力される。図3に示す音素分割装置10と同様に、第1分岐部13の前段にバンドパスフィルタが設けられてもよい。あるいは、図5に示す音素分割装置50と同様に、第1分岐部13と絶対値回路62の間にバンドパスフィルタが設けられてもよい。また、第1分岐部13と第2分岐部17との間には絶対値回路62が設けられている。
The sound signal X (t) output from the
絶対値回路62は、第1分岐部13で分岐された一方の音信号X(t)の絶対値|X(t)|を出力する。自乗回路を用いた実施形態と同様に、絶対値回路62で音信号X(t)の絶対値をとることで、正の値のみを処理すればよいため、信号処理を容易にすることができる。絶対値回路62から出力された絶対値信号|X(t)|は、第2分岐部17で2つに分岐される。第2分岐部17で分岐された一方の絶対値信号|X(t)|は音声用時定数回路18に入力され、他方の絶対値信号|X(t)|は暗騒音用時定数回路20に入力される。
The
音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。音声用時定数回路18は、絶対値信号|X(t)|を数10〜数100msの音声用時定数τvで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrmsと見なすことができる。以下、A(t)を「音声包絡線信号」と呼ぶ。
The audio time
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τd=RCのローパスフィルタで平滑化が行われる。
The background noise time
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。一方、立ち下がり用時定数τdは、音声用時定数回路18の音声用時定数τvと略同じ値に設定される。本実施形態では、立ち下がり用時定数τdは音声用時定数に等しい(すなわち、τd=τv=RC)。
In the background noise time
暗騒音用時定数回路20で平滑化された信号B(t)は、音声信号x(t)のレベル変化にはほとんど不感で、暗騒音レベル付近に維持される。信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrmsと見なすことができる。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。
The signal B (t) smoothed by the background noise time
比較器30は、音声用時定数回路18から出力された音声包絡線信号A(t)と暗騒音用時定数回路20から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。
The
比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。
The
ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。
The
以上、本実施形態に係る音素分割装置60について説明した。この音素分割装置60においても、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。
The
また、本実施形態の音素分割装置60においても、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
In the
図7は、本発明のさらに別の実施形態に係る音素分割装置70を説明するための図である。図3,5,6に示す実施形態では、音素分割処理をアナログ回路で実現したが、図7に示す本実施形態では、音素分割処理をソフトウェアによって実現している。
FIG. 7 is a diagram for explaining a
音素分割装置70は、マイクアンプ14と、DSP(Digital Signal Processor)ボード71とを備える。DSPボード71には、入力アンプ72と、A/D変換器73と、DSP74と、D/A変換器75と、出力アンプ76と、ROM77と、SD−RAM78と、入力ポート79と、出力ポート80とが実装されている。
The
マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、DSPボード71の入力ポート79に入力される。音信号X(t)は、アナログ信号であり、音声信号に暗騒音信号が重畳されたものである。入力ポート79から入力された音信号X(t)は、入力アンプ72で増幅された後、A/D変換器73でデジタル信号に変換される。A/D変換器73から出力された音信号X(t)のデジタル信号は、DSP74に入力される。
The
DSP74は、音素分割処理を行うためのプログラムを格納するROM77と、DSP74で処理中のデータを格納するSD−RAM78と接続されている。DSP74は、ROM77から音素分割プログラムを読み込み、音素分割処理を行う。
The
ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)を自乗する自乗ステップと、自乗信号X2(t)を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の自乗信号X2(t)を数10〜数100msの音声用時定数τvで平滑化する第1平滑化ステップと、第1平滑化ステップで平滑化された信号の平方根を演算する第1平方根演算ステップと、第2分岐ステップで分岐された他方の自乗信号X2(t)の立ち上がりに対しては音声用時定数τvより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τuで平滑化するとともに、他方の自乗信号X2(t)の立ち下がりに対しては音声用時定数τvと略同じ立ち下がり用時定数τdで平滑化する第2平滑化ステップと、第2平滑化ステップで平滑化された信号の平方根を演算する第2平方根演算ステップと、第1平方根演算ステップで演算された音声包絡線信号A(t)と、第2平方根演算ステップで演算された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってよい。このプログラムの比較ステップでは、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。
The phoneme division program stored in the
あるいは、ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)の絶対値|X(t)|を演算する絶対値演算ステップと、絶対値演算ステップからの絶対値信号|X(t)|を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の絶対値信号|X(t)|を数10〜数100msの音声用時定数τvで平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の絶対値信号|X(t)|の立ち上がりに対しては音声用時定数τvより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τuで平滑化するとともに、他方の絶対値信号|X(t)|の立ち下がりに対しては音声用時定数τvと略同じ立ち下がり用時定数τdで平滑化する第2平滑化ステップと、第1平滑化ステップで平滑化された音声包絡線信号A(t)と、第2平滑化ステップで平滑化された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号X(t)の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってもよい。このプログラムの比較ステップにおいても、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。
Alternatively, the phoneme division program stored in the
DSP74からの出力された音素のデジタル信号は、D/A変換器75でアナログ信号に変換された後、出力アンプ76で増幅され、出力ポート80から出力される。
The phoneme digital signal output from the
図8(a)〜(c)は、図7に示す音素分割装置70による音素分割処理を説明するための図である。図8(a)〜(c)の縦軸は信号レベルを任意の単位で表し、横軸は時間を任意の単位で表す。
8A to 8C are diagrams for explaining phoneme division processing by the
図8(a)は、音声包絡線信号A(t)の波形を示す。図8(b)は、暗騒音包絡線信号B(t)の波形を示す。図8(c)は、音声包絡線信号A(t)と閾値信号B’(t)=mB(t)+hを比較した波形(すなわち、A(t)−B’(t))を示す。ここでは、増幅率m=1、オフセット値h=200に設定されている。図8(a)および(b)に示すように、音素分割処理をソフトウェアで行った場合も、音信号から適切に音声包絡線信号A(t)と暗騒音包絡線信号B(t)とを分離することができる。暗騒音のレベルが自動で検知されるため、図8(c)に示すように音声包絡線信号A(t)と閾値信号B’(t)との比較により高い精度で音素の分割・抽出を行うことができる。また、本実施形態の音素分割装置70によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。
FIG. 8A shows the waveform of the voice envelope signal A (t). FIG. 8B shows the waveform of the background noise envelope signal B (t). FIG. 8C shows a waveform (ie, A (t) −B ′ (t)) comparing the voice envelope signal A (t) and the threshold signal B ′ (t) = mB (t) + h. Here, the amplification factor m = 1 and the offset value h = 200 are set. As shown in FIGS. 8A and 8B, when the phoneme division process is performed by software, the sound envelope signal A (t) and the background noise envelope signal B (t) are appropriately obtained from the sound signal. Can be separated. Since the background noise level is automatically detected, as shown in FIG. 8C, the phoneme segmentation / extraction is performed with high accuracy by comparing the voice envelope signal A (t) and the threshold signal B ′ (t). It can be carried out. Further, according to the
図9は、本発明のさらに別の実施形態に係る音声処理システム90を説明するための図である。この音声処理システム90は、上述の音素分割装置を利用して入力された音声に所定の処理を施し、空間に出力するものである。
FIG. 9 is a diagram for explaining an
図9に示すように、音声処理システム90は、集音装置としてのマイクロホン12と、マイクアンプ14と、音素分割装置92と、音素処理装置94と、アンプ95と、出力装置としてのスピーカ96とを備える。マイクロホン12は、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。音素分割装置92は、マイクアンプ14からの増幅音信号を受信して、音声信号を音素に分割する。音素分割装置92としては、上述の音素分割装置10,50,60,70を好適に利用することができる。音素処理装置94は、音素処理装置94から得られる音素信号に所定の処理を施す。この所定の処理の例については後述する。アンプ95は、音素処理装置94によって処理された音素信号を増幅する。スピーカ96は、増幅された音素信号を音として空間に出力する。
As shown in FIG. 9, the
音声処理システム90は、例えばスピーチプライバシーシステム(音声情報秘話装置)であってよい。スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽/遮断し、受聴者に会話の中身を理解不能とするものである.このスピーチプライバシーシステムは、従来の音声マスキングシステムと異なり、原音声の発生時(発声時)以外には音が出ないので、室内の騒音レベルや受聴者の不快感を増長させることなく、音声の内容のみを有効に隠蔽することができる。スピーチプライバシーシステムの詳細については、例えば上記の特許文献1を参照されたい。
The
スピーチプライバシーシステムにおいては、音素処理装置94は、音素分割装置92で分割・抽出された音素(mora)を再配置、例えば音素の順番を入れ替えたりする。そしてこの再配置された音素信号がスピーカ96から音として空間に出力される。このスピーカ96からの音により原音声がマスキングされるため、原音声の内容を受聴者に理解不能とすることができる。
In the speech privacy system, the
あるいは、音声処理システム90は、携帯電話、無線機、トランシーバなどの通信システムであってもよい。例えば工事現場やガード下、或いは鉄道のホームなどで携帯電話を使う場合、受信側では暗騒音が受信音声に重畳し、会話内容の理解を妨げる。すなわち、聞き取りや文章了解度が低下する。そこで、音素処理装置94は、音素分割装置92で分割・抽出された音素間(すなわち、会話の途切れ部分)の出力をゼロ(無音)にする。このように処理された音素信号をスピーカ96から出力することで騒音低減・通話品質の向上を図ることができる。このような通信システムにおいて、音素分割装置92の暗騒音用時定数回路における立ち上がり用時定数τu=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。なお、音声部分には暗騒音が依然として重畳しているが、聴覚の補完作用により音声のあるこの部分の暗騒音はほとんど認識されず、聴感的には騒音がほとんど除去されたように認識されるため、聞き取りは大きく改善される。
Alternatively, the
あるいは、上述の実施形態に係る音素分割装置は、音声認識機能を内包した車載ナビゲーションシステムに用いられてもよい。上述の音素分割装置から出力される音素信号を音声認識に利用することで、刻々変化する走行騒音の影響を受けることなく音声の認識率を向上させることができる。この場合、音素分割装置の暗騒音用時定数回路における立ち上がり用時定数τu=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。 Or the phoneme division | segmentation apparatus which concerns on the above-mentioned embodiment may be used for the vehicle-mounted navigation system which included the speech recognition function. By using the phoneme signal output from the above phoneme splitting device for speech recognition, the speech recognition rate can be improved without being affected by the constantly changing traveling noise. In this case, the rise time constant τ u = R′C in the background noise time constant circuit of the phoneme division apparatus is preferably set smaller than that used in the speech privacy system.
あるいは、上述の実施形態に係る音素分割装置は、半二重通信のVOX(Voice Operating tX; tx=Transmitter)機能に利用されてもよい。音素分割装置から出力される音素信号に基づいて発話の発生を的確に把握することで、確実に送信・受信を切り替えることが可能となる。 Alternatively, the phoneme division device according to the above-described embodiment may be used for a VOX (Voice Operating tX; tx = Transmitter) function of half-duplex communication. By accurately grasping the occurrence of an utterance based on the phoneme signal output from the phoneme dividing device, it is possible to switch between transmission and reception with certainty.
図10は、本発明のさらに別の実施形態に係る騒音測定装置120を説明するための図である。図10に示す騒音測定装置120は、周囲音に含まれる暗騒音のレベルを測定することができる。騒音測定装置120は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、暗騒音用時定数回路20と、暗騒音用平方根回路24とを備える。
FIG. 10 is a diagram for explaining a
マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。
The
自乗回路16は、音信号X(t)の自乗信号X2(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、暗騒音用平方根回路24は不要となる。
The
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τd=RCのローパスフィルタで平滑化が行われる。
The background noise time
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。具体的には、立ち下がり用時定数τdは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。一方、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。
In the background noise time
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。
The background noise
このように、本実施形態に係る騒音測定装置120によれば、周囲音に含まれる暗騒音のレベルを測定することができる。本実施形態に係る騒音測定装置120は、会話や特定の変動騒音(有意味騒音)がある空間での暗騒音測定に特に有効である。騒音測定装置120は、暗騒音用平方根回路24から出力される信号を表示する表示部を備えてもよい。この場合、暗騒音を視覚的に認識することができる。
Thus, according to the
騒音測定装置120は、例えばテレビジョンシステム、車載テレビジョンシステム、カーステレオシステム等の音響システムに用いることができる。騒音測定装置120で測定される暗騒音のレベルは、在室者間の会話音声や短時間の間歇的騒音の影響を受けない。従って、この暗騒音のレベルを参照することで、例えば、暗騒音レベルが高い場合にはスピーカーの音量を上げ、暗騒音レベルが低い場合にはスピーカーの音量を下げるといったように、スピーカーの音量を最適に制御することができる。
The
図11は、本発明のさらに別の実施形態に係る騒音測定装置130を説明するための図である。図11に示す騒音測定装置130は、周囲音に含まれる騒音のレベルを測定することができる。騒音測定装置130は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、表示部134とを備える。
FIG. 11 is a diagram for explaining a
マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。
The
自乗回路16は、音信号X(t)の自乗信号X2(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、音声用平方根回路22および暗騒音用平方根回路24は不要となる。
The
自乗回路16から出力された自乗信号X2(t)は、分岐部132で2つの分岐される。分岐部132で分岐された一方の自乗信号X2(t)は音声用時定数回路18に入力され、他方の自乗信号X2(t)は暗騒音用時定数回路20に入力される。
The square signal X 2 (t) output from the
音声用時定数回路18は、数10〜数100msの音声用時定数τvを有する一次のローパスフィルタである。音声用時定数回路18は、入力信号を音声用時定数τvで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。
The audio time
暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τu=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τd=RCのローパスフィルタで平滑化が行われる。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X2(t)から音声用時定数τvよりも速い成分が取り除かれ、自乗信号X2(t)の包絡線信号が得られる。
The background noise time
音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。
The audio
本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τuは、立ち下がり用時定数τdよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τuは、立ち下がり用時定数τdより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τu=R’C≧300τd〜3000τdのように設定されてよい。一方、立ち下がり用時定数τdは、音声用時定数回路18の音声用時定数τvと略同じ値に設定される。本実施形態では、立ち下がり用時定数τdは音声用時定数に等しい(すなわち、τd=τv=RC)。
In the background noise time
暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。
The background noise
表示部134は、音声用平方根回路22からの信号A(t)と、暗騒音用平方根回路24からの信号B(t)とを表示する。例えば、表示部134は、信号A(t)と、信号B(t)の両者を区別して二元表示してもよい。信号A(t)は、短時間に変化する会話音声や建設現場の間歇騒音のレベルを表し、信号B(t)は、暗騒音のレベルを表す。信号A(t)については、A(t)が暗騒音が含まれる。そこで、表示部134は、信号A(t)に代えてまたは加えて、以下の数式に従って得られる「暗騒音補正された信号A’(t)」を「正味騒音レベル」として表示させることもできる。
図12は、表示部134による騒音レベル表示の一例を示す。図12に示す騒音レベル表示例では、音声用平方根回路22からの信号A(t)が「全騒音」として表示され、暗騒音用平方根回路24からの信号B(t)が「暗騒音」として表示され、暗騒音補正された信号A’(t)が「正味騒音」として表示されている。図12に示すように全騒音、暗騒音、正味騒音のレベルを可視化することで、ユーザは瞬時に各騒音レベルを把握することができる。
FIG. 12 shows an example of noise level display by the
以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。 Although the present invention has been described based on the embodiments, the embodiments merely show the principle and application of the present invention, and the embodiments are defined in the claims. Needless to say, many modifications and arrangements can be made without departing from the spirit of the present invention.
入力信号に対する包絡線取得、すなわち包絡線検波は、上述の実施形態で説明した自乗平均値の平方根を取る方法や絶対値を平滑化する方法のみならず、ウェーブレット変換やヒルベルト変換、あるいは簡略的にはダイオードなどにより半波整流した結果を平滑化する方法などその他の類似の方法によってなされてもよい。 Envelope acquisition for the input signal, that is, envelope detection is not only the method of taking the square root of the mean square value described in the above embodiment and the method of smoothing the absolute value, but also the wavelet transform, the Hilbert transform, or simply May be performed by other similar methods such as a method of smoothing the result of half-wave rectification by a diode or the like.
10,50,60,70,92 音素分割装置、 12 マイクロホン、 13 第1分岐部、 14 マイクアンプ、 15 バンドパスフィルタ、 16 自乗回路、 17 第2分岐部、 18 音声用時定数回路、 20 暗騒音用時定数回路、 22 音声用平方根回路、 24 暗騒音用平方根回路、 26 バッファアンプ、 28 加算器、 30 比較器、 32 ゲート回路、 62 絶対値回路、 71 DSPボード、 74 DSP、 76 出力アンプ、 77 ROM、 90 音声処理システム、 94 音素処理装置、 96 スピーカ、 120,130 騒音測定装置、 134 表示部。
10, 50, 60, 70, 92 Phoneme splitting device, 12 microphone, 13 first branching unit, 14 microphone amplifier, 15 bandpass filter, 16 square circuit, 17 second branching unit, 18 time constant circuit for voice, 20 dark Time constant circuit for noise, 22 Square root circuit for sound, 24 Square root circuit for background noise, 26 Buffer amplifier, 28 Adder, 30 Comparator, 32 Gate circuit, 62 Absolute value circuit, 71 DSP board, 74 DSP, 76
Claims (10)
音信号を2つに分岐する第1分岐部と、
前記第1分岐部で分岐された一方の音信号をさらに2つに分岐する第2分岐部と、
前記第2分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、
前記第2分岐部で分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、
前記音声用時定数部からの信号と、前記暗騒音用時定数部からの信号とを比較する比較部と、
前記比較部の比較結果に応じて、前記第1分岐部で分岐された他方の音信号の通過/非通過を制御するゲート部と、
を備えることを特徴とする音素分割装置。 A phoneme dividing device that divides a sound signal in which a background noise signal is superimposed on a sound signal into phonemes that are substantially a single envelope signal based on the sound signal,
A first branching section for branching the sound signal into two;
A second branching section for branching the one sound signal branched at the first branching section into two further;
A sound time constant part for smoothing one sound signal branched by the second branch part with a sound time constant of several tens to several hundreds of milliseconds;
The rising edge of the other sound signal branched by the second branching unit is smoothed with a rising time constant that is at least 10 times larger than the sound time constant, and the rising edge of the other sound signal is A background time constant portion for smoothing with a time constant for falling substantially the same as the time constant for sound,
A comparison unit that compares the signal from the time constant unit for sound and the signal from the time constant unit for background noise;
A gate unit for controlling passage / non-passage of the other sound signal branched by the first branch unit according to a comparison result of the comparison unit;
A phoneme segmentation device comprising:
前記アンプからの出力に所定のオフセット値を加える加算器と、をさらに備え、
前記比較部は、前記音声用時定数部からの信号と、前記加算器からの信号とを比較することを特徴とする請求項1または2に記載の音素分割装置。 An amplifier that amplifies the signal from the time constant portion for background noise at a predetermined amplification rate;
An adder for adding a predetermined offset value to the output from the amplifier, and
The phoneme division apparatus according to claim 1, wherein the comparison unit compares a signal from the time constant unit for speech with a signal from the adder.
前記音声用時定数部の後段に設けられた、前記音声用時定数部からの信号の平方根を演算する音声用平方根演算部と、
前記暗騒音用時定数部の後段に設けられた、前記暗騒音用時定数部からの信号の平方根を演算する暗騒音用平方根演算部と、
をさらに備えることを特徴とする請求項1から5のいずれかに記載の音素分割装置。 A square section that squares one of the sound signals branched by the first branch section, provided between the second branch section and the second branch section after the first branch section;
A voice square root calculation unit for calculating a square root of a signal from the voice time constant unit, provided at a subsequent stage of the voice time constant unit;
A background noise square root calculation unit for calculating a square root of the signal from the background noise time constant unit, which is provided at a subsequent stage of the background noise time constant unit,
The phoneme dividing apparatus according to claim 1, further comprising:
前記集音装置からの前記音信号を受信して、前記音信号を音素に分割する請求項1から7のいずれかに記載の音素分割装置と、
前記音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、
前記音素処理装置によって処理された音素信号を音として空間に出力する出力装置と、
を備えることを特徴とする音声処理システム。 A sound collector that collects the original sound and outputs a sound signal in which a background noise signal is superimposed on the sound signal;
Wherein receiving the sound signal from the sound collecting device, the phoneme splitting device according to any one of 7 to claim 1 for dividing the sound signal into phonemes,
A phoneme processing device that performs predetermined processing on a phoneme signal obtained from the phoneme splitting device;
An output device that outputs the phoneme signal processed by the phoneme processing device as a sound to a space;
A speech processing system comprising:
音信号を2つに分岐する第1分岐ステップと、
前記第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、
前記第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、
前記第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、
前記第1平滑化ステップで演算された信号と、前記第2平滑化ステップで演算された信号とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、
を備えることを特徴とする音素分割方法。 A phoneme division method that divides a sound signal in which a background noise signal is superimposed on an audio signal into phonemes that are substantially a mountain of envelope signals based on the sound signal,
A first branching step for branching the sound signal into two;
A second branching step for branching one of the sound signals branched in the first branching step into two;
A first smoothing step of smoothing one of the sound signals branched in the second branching step with an audio time constant of several tens to several hundreds of ms;
The rising edge of the other sound signal branched in the second branching step is smoothed with a rising time constant that is at least 10 times larger than the sound time constant, and the rising edge of the other sound signal is A second smoothing step of smoothing with a falling time constant substantially the same as the sound time constant;
A comparison step for comparing the signal calculated in the first smoothing step with the signal calculated in the second smoothing step;
A passage control step for controlling passage / non-passage of the other sound signal branched in the first branch step according to a comparison result of the comparison step;
A phoneme segmentation method comprising:
コンピュータに、
音信号を2つに分岐する第1分岐ステップと、
前記第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、
前記第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、
前記第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、
前記第1平滑化ステップで演算された信号と、前記第2平滑化ステップで演算された信号とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、
を実行させるための音素分割プログラム。 A phoneme division program that divides a sound signal in which a background noise signal is superimposed on an audio signal into phonemes that are substantially a single envelope signal based on the sound signal,
On the computer,
A first branching step for branching the sound signal into two;
A second branching step for branching one of the sound signals branched in the first branching step into two;
A first smoothing step of smoothing one of the sound signals branched in the second branching step with an audio time constant of several tens to several hundreds of ms;
The rising edge of the other sound signal branched in the second branching step is smoothed with a rising time constant that is at least 10 times larger than the sound time constant, and the rising edge of the other sound signal is A second smoothing step of smoothing with a falling time constant substantially the same as the sound time constant;
A comparison step for comparing the signal calculated in the first smoothing step with the signal calculated in the second smoothing step;
A passage control step for controlling passage / non-passage of the other sound signal branched in the first branch step according to a comparison result of the comparison step;
Phoneme segmentation program to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014163880A JP6435133B2 (en) | 2014-08-11 | 2014-08-11 | Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014163880A JP6435133B2 (en) | 2014-08-11 | 2014-08-11 | Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016038552A JP2016038552A (en) | 2016-03-22 |
| JP6435133B2 true JP6435133B2 (en) | 2018-12-05 |
Family
ID=55529642
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014163880A Expired - Fee Related JP6435133B2 (en) | 2014-08-11 | 2014-08-11 | Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6435133B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115841821B (en) * | 2022-11-15 | 2026-04-03 | 浙江大学杭州国际科创中心 | A method for designing speech interference noise based on human speech structure |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0315897A (en) * | 1989-06-14 | 1991-01-24 | Fujitsu Ltd | Decision threshold value setting control system |
| JPH06332491A (en) * | 1993-05-21 | 1994-12-02 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | Voiced section detecting device and noise suppressing device |
| JP2929525B2 (en) * | 1996-08-12 | 1999-08-03 | 西松建設株式会社 | Noise and vibration measurement method |
| JP3843742B2 (en) * | 2001-03-09 | 2006-11-08 | 独立行政法人科学技術振興機構 | Robot audio-visual system |
| JP4798601B2 (en) * | 2004-12-28 | 2011-10-19 | 株式会社国際電気通信基礎技術研究所 | Voice segment detection device and voice segment detection program |
| JP2008015481A (en) * | 2006-06-08 | 2008-01-24 | Audio Technica Corp | Audio conferencing equipment |
| JP2012008393A (en) * | 2010-06-25 | 2012-01-12 | Nippon Sheet Glass Environment Amenity Co Ltd | Device and method for changing voice, and confidential communication system for voice information |
-
2014
- 2014-08-11 JP JP2014163880A patent/JP6435133B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016038552A (en) | 2016-03-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Goehring et al. | Using recurrent neural networks to improve the perception of speech in non-stationary noise by people with cochlear implants | |
| EP3689002B1 (en) | Howl detection in conference systems | |
| CN114390390B (en) | Noise reduction method and device for earphone, electronic equipment and storage medium | |
| Koning et al. | The potential of onset enhancement for increased speech intelligibility in auditory prostheses | |
| CN108235181B (en) | Method for noise reduction in an audio processing apparatus | |
| US10176824B2 (en) | Method and system for consonant-vowel ratio modification for improving speech perception | |
| US12148432B2 (en) | Signal processing device, signal processing method, and signal processing system | |
| US9119007B2 (en) | Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
| JP5115818B2 (en) | Speech signal enhancement device | |
| WO2010092914A1 (en) | Method for processing multichannel acoustic signal, system thereof, and program | |
| KR101961998B1 (en) | Reducing instantaneous wind noise | |
| US20130120124A1 (en) | Methods and systems to support auditory signal detection | |
| CN111477246B (en) | Voice processing method and device and intelligent terminal | |
| JP6435133B2 (en) | Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program | |
| JP6296219B2 (en) | Hearing aid | |
| US20110208516A1 (en) | Information processing apparatus and operation method thereof | |
| US12542147B2 (en) | Mapping sound sources in a user interface | |
| VH et al. | A study on speech recognition technology | |
| KR20160000680A (en) | Apparatus for enhancing intelligibility of speech, voice output apparatus with the apparatus | |
| JP2011170113A (en) | Conversation protection degree evaluation system and conversation protection degree evaluation method | |
| Kupryjanow et al. | Improved method for real-time speech stretching | |
| CN109994121A (en) | Eliminate system, method and the computer storage medium of audio crosstalk | |
| Paul et al. | A dynamic automatic noisy speech recognition (DANSR) system for a single-channel hybrid noisy industrial environment | |
| HK40035084B (en) | Howl detection in conference systems | |
| HK40035084A (en) | Howl detection in conference systems |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170721 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180418 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180522 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180713 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181106 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181112 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6435133 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |