Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6435133B2 - Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program - Google Patents
[go: Go Back, main page]

JP6435133B2 - Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program - Google Patents

Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program Download PDF

Info

Publication number
JP6435133B2
JP6435133B2 JP2014163880A JP2014163880A JP6435133B2 JP 6435133 B2 JP6435133 B2 JP 6435133B2 JP 2014163880 A JP2014163880 A JP 2014163880A JP 2014163880 A JP2014163880 A JP 2014163880A JP 6435133 B2 JP6435133 B2 JP 6435133B2
Authority
JP
Japan
Prior art keywords
signal
time constant
sound
phoneme
branching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014163880A
Other languages
Japanese (ja)
Other versions
JP2016038552A (en
Inventor
川上 福司
福司 川上
雅和 木山
雅和 木山
健久 岡本
健久 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Sheet Glass Environment Amenity Co Ltd
Original Assignee
Nippon Sheet Glass Environment Amenity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Sheet Glass Environment Amenity Co Ltd filed Critical Nippon Sheet Glass Environment Amenity Co Ltd
Priority to JP2014163880A priority Critical patent/JP6435133B2/en
Publication of JP2016038552A publication Critical patent/JP2016038552A/en
Application granted granted Critical
Publication of JP6435133B2 publication Critical patent/JP6435133B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、音声信号から音素を分割・抽出するための音素分割装置、該音素分割装置を用いた音声処理システム、音素分割方法、音素分割プログラム、および騒音測定装置に関する。   The present invention relates to a phoneme dividing device for dividing and extracting phonemes from a speech signal, a speech processing system using the phoneme dividing device, a phoneme dividing method, a phoneme dividing program, and a noise measuring device.

近年、「個人情報保護法」の施行等により銀行やオフィスにおいて会話情報を保護する必要性が高まってきたが、その手段として、物理的に空間を分離する従来の遮音・防音とは別に、オープンプランオフィスなどにおいて音声信号を別の雑音・音楽などで隠蔽(情報マスキング)するスピーチプライバシーシステム(音声情報秘話装置)が提案されている。スピーチプライバシーシステムとしては、例えば原音声をマスカーとして用いるもの(例えば、特許文献1参照)が知られている。   In recent years, the need to protect conversation information in banks and offices has increased due to the enforcement of the “Personal Information Protection Law”, etc., but as a means of doing so, it has been opened apart from conventional sound and sound insulation that physically separates spaces. A speech privacy system (speech information secret device) that conceals (information masking) an audio signal with another noise or music in a plan office or the like has been proposed. As a speech privacy system, for example, a system that uses original speech as a masker (see, for example, Patent Document 1) is known.

電気音響を用いた一般のSR(Sound Reinforcement)システムやPA(Public Address)システムが音量や明瞭を向上させる目的で用いられるのに対し、スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽/遮断し、受聴者に会話の中身を理解不能とすることを目的としたものである。   While a general SR (Sound Reinforcement) system and PA (Public Address) system using electroacoustics are used for the purpose of improving sound volume and clarity, the speech privacy system is a simplified structure of an audio signal by signal processing. By changing and processing in real time, without significantly changing statistical properties such as the spectrum and energy envelope of the audio signal, only the content of the audio is concealed / blocked and the listener cannot understand the contents of the conversation. It is intended to be.

上記特許文献1では、音声包絡線の「略一山」を1つの音素として抽出し、これを再配置するなどして音声の構造を変化させてマスカー(原音声に重畳してその内容を隠蔽する別音声)として利用している。   In the above Patent Document 1, “substantially a mountain” of a speech envelope is extracted as one phoneme and rearranged to change the structure of the speech to mask a masker (superimposed on the original speech to conceal its contents) Used as a separate voice).

従来、音声包絡線の略一山を抽出する方法としては、入力音声のエネルギー包絡線が閾値を越えて立ち上がり、再び元に戻るまでを1音素(1 mora)とする方法が一般的である。   Conventionally, as a method for extracting substantially one peak of a speech envelope, a method in which one energy element (1 mora) from when the energy envelope of an input speech rises beyond a threshold and returns to the original level is generally used.

特開2011−123141号公報JP 2011-123141 A

しかしながら、マイクロホン等で集音された入力音声には通常、暗騒音(バックグラウンドノイズ)が重畳している。一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみるとかなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値を設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値を手作業で調整するのは大変な作業である。   However, background noise is usually superimposed on input sound collected by a microphone or the like. The background noise in a general room or space is almost constant in a short time, but tends to fluctuate considerably in a long time. Therefore, even if the threshold is set based on the background noise level for a certain time, there is a possibility that appropriate phoneme division cannot be performed due to the background noise level fluctuation. Also, it is a difficult task to manually adjust the threshold according to the background noise level fluctuation.

本発明はこうした課題に鑑みてなされたものであり、その目的は、暗騒音のレベルを自動で検知することを可能ならしめる技術を提供することにある。   The present invention has been made in view of these problems, and an object of the present invention is to provide a technique that makes it possible to automatically detect the background noise level.

上記課題を解決するために、本発明のある態様の音素分割装置は、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐部と、第1分岐部で分岐された一方の音信号をさらに2つに分岐する第2分岐部と、第2分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、第2分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを比較する比較部と、比較部の比較結果に応じて、第1分岐部で分岐された他方の音信号の通過/非通過を制御するゲート部とを備える。   In order to solve the above problems, a phoneme division device according to an aspect of the present invention is divided into a first branching unit that branches a sound signal in which a background noise signal is superimposed on a sound signal into two, and a first branching unit. A second branching unit for further branching the other sound signal into two, and a sound time constant unit for smoothing one sound signal branched by the second branching unit with a sound time constant of several tens to several hundreds of ms The rise of the other sound signal branched by the second branching unit is smoothed with a rise time constant that is at least 10 times larger than the sound time constant, and the rise of the other sound signal Is a comparison unit that compares the signal from the time constant part for background noise and the signal from the time constant part for background noise with the time constant part for background noise that is smoothed by the time constant for falling that is almost the same as the time constant for voice And other branches branched at the first branch according to the comparison result of the comparator And a gate portion for controlling transmission / non-transmission of the sound signal.

本発明の別の態様は、音声処理システムである。このシステムは、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する集音装置と、集音装置からの音信号を受信して、音声信号を音素に分割する上述の音素分割装置と、音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、音素処理装置によって処理された音素信号を音として空間に出力する出力装置とを備える。   Another aspect of the present invention is a speech processing system. This system collects the original sound and outputs a sound signal in which a background noise signal is superimposed on the sound signal, and receives the sound signal from the sound collector and divides the sound signal into phonemes The above-mentioned phoneme dividing device, a phoneme processing device that performs a predetermined process on a phoneme signal obtained from the phoneme dividing device, and an output device that outputs the phoneme signal processed by the phoneme processing device as a sound to space.

本発明のさらに別の態様は、音素分割方法である。この方法は、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、第1平滑化ステップで演算された信号と、第2平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップとを備える。   Yet another embodiment of the present invention is a phoneme division method. This method includes a first branching step for branching a sound signal in which a background noise signal is superimposed on an audio signal into two, and a second branching step for branching one of the sound signals branched in the first branching step into two. A first smoothing step for smoothing one sound signal branched in the second branching step with a time constant for sound of several tens to several hundreds of ms, and a rise of the other sound signal branched in the second branching step Is smoothed with a rising time constant that is at least 10 times larger than the audio time constant, and the other sound signal is smoothed with a falling time constant that is substantially the same as the audio time constant. The first smoothing step, the comparison step comparing the signal calculated in the first smoothing step and the signal calculated in the second smoothing step, and the first branch depending on the comparison result of the comparison step Ste And a transmission controlling step for controlling passage / non-passage of the other sound signals branched by up.

本発明のさらに別の態様は、音素分割プログラムである。このプログラムは、コンピュータに、音声信号に暗騒音信号が重畳された音信号を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、第1平滑化ステップで演算された信号と、第2平滑化ステップで演算された信号とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップとを実行させるための音素分割プログラムである。   Yet another embodiment of the present invention is a phoneme division program. This program causes a computer to branch a sound signal obtained by superimposing a background noise signal on a sound signal into two, and to branch one sound signal branched in the first branch step into two. A second smoothing step, a first smoothing step for smoothing one sound signal branched in the second branching step with an audio time constant of several tens to several hundreds of ms, and the other sound branched in the second branching step The signal rise is smoothed by a rise time constant that is at least 10 times larger than the audio time constant, and the fall time constant of the other sound signal is substantially the same as the audio time constant. The second smoothing step smoothed in step 1, the comparison step comparing the signal calculated in the first smoothing step with the signal calculated in the second smoothing step, and the comparison result of the comparison step In response, a phoneme splitting program for executing a transmission control step of controlling transmission / non-transmission of the other sound signal branched by the first branching step.

本発明のさらに別の態様は、騒音測定装置である。この装置は、周囲音に含まれる暗騒音のレベルを測定する騒音測定装置であって、周囲音を集音する集音部と、集音部からの音信号の立ち下がりに対しては数10〜数100msの立ち下がり用時定数で平滑化するとともに、集音部からの音信号の立ち上がりに対しては立ち下がり用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化する暗騒音用時定数部とを備える。   Yet another embodiment of the present invention is a noise measurement device. This device is a noise measurement device that measures the level of background noise included in ambient sound, and is a tens of times for a sound collection unit that collects ambient sound and a falling edge of a sound signal from the sound collection unit. Smoothing with a falling time constant of ˜100 ms, and for dark noise smoothing with a rising time constant that is at least 10 times greater than the falling time constant for the rise of the sound signal from the sound collection unit And a time constant part.

本発明のさらに別の態様もまた、騒音測定装置である。この装置は、周囲音に含まれる騒音のレベルを測定する騒音測定装置であって、周囲音を2つに分岐する分岐部と、分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、分岐部で分岐された他方の音信号の立ち上がりに対しては音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、他方の音信号の立ち下がりに対しては音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、音声用時定数部からの信号と、暗騒音用時定数部からの信号とを表示する表示部とを備える。   Yet another embodiment of the present invention is also a noise measurement device. This device is a noise measuring device that measures the level of noise included in ambient sound, and a branching unit that branches the ambient sound into two, and one sound signal branched at the branching unit is several 10 to several 100 ms. The time constant for speech smoothing with the time constant for speech and the rise of the other sound signal branched at the branching portion are smoothed with a time constant for rise of at least 10 times greater than the time constant for speech. In addition, for the falling edge of the other sound signal, the background time constant part for smoothing with the time constant for falling substantially the same as the time constant for sound, the signal from the time constant part for sound, and for the background noise And a display unit for displaying a signal from the time constant unit.

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。   It should be noted that any combination of the above-described constituent elements, or those obtained by replacing the constituent elements and expressions of the present invention with each other between apparatuses, methods, systems, computer programs, recording media storing computer programs, and the like are also included in the present invention. It is effective as an embodiment of

本発明によれば、暗騒音のレベルを自動で検知することができる。   According to the present invention, the background noise level can be automatically detected.

従来の音素分割装置の一例を説明するための図である。It is a figure for demonstrating an example of the conventional phoneme division | segmentation apparatus. 図2(a)〜(e)は、図1に示す音素分割装置による音素分割処理を説明するための図である。2A to 2E are diagrams for explaining phoneme division processing by the phoneme division apparatus shown in FIG. 本発明の実施形態に係る音素分割装置を説明するための図である。It is a figure for demonstrating the phoneme division | segmentation apparatus which concerns on embodiment of this invention. 図4(a)〜(f)は、図3に示す音素分割装置による音素分割処理を説明するための図である。FIGS. 4A to 4F are diagrams for explaining phoneme division processing by the phoneme division apparatus shown in FIG. 変形例に係る音素分割装置を説明するための図である。It is a figure for demonstrating the phoneme division | segmentation apparatus which concerns on a modification. 本発明の別の実施形態に係る音素分割装置を説明するための図である。It is a figure for demonstrating the phoneme division | segmentation apparatus which concerns on another embodiment of this invention. 本発明のさらに別の実施形態に係る音素分割装置を説明するための図である。It is a figure for demonstrating the phoneme division | segmentation apparatus which concerns on another embodiment of this invention. 図8(a)〜(c)は、図7に示す音素分割装置による音素分割処理を説明するための図である。8A to 8C are diagrams for explaining phoneme division processing by the phoneme division apparatus shown in FIG. 本発明のさらに別の実施形態に係る音声処理システムを説明するための図である。It is a figure for demonstrating the speech processing system which concerns on another embodiment of this invention. 本発明のさらに別の実施形態に係る騒音測定装置を説明するための図である。It is a figure for demonstrating the noise measuring device which concerns on another embodiment of this invention. 本発明のさらに別の実施形態に係る騒音測定装置を説明するための図である。It is a figure for demonstrating the noise measuring device which concerns on another embodiment of this invention. 表示部による騒音レベル表示の一例を示す図である。It is a figure which shows an example of the noise level display by a display part.

以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。   The present invention will be described below based on preferred embodiments with reference to the drawings. The same or equivalent components, members, and processes shown in the drawings are denoted by the same reference numerals, and repeated descriptions are omitted as appropriate.

まず、本発明の実施形態に係る音素分割装置について説明する前に、従来の音素分割装置の一例について説明する。   First, an example of a conventional phoneme dividing apparatus will be described before describing a phoneme dividing apparatus according to an embodiment of the present invention.

図1は、従来の音素分割装置の一例を説明するための図である。図1に音素分割装置100は、マイクアンプ104と、絶対値回路106と、時定数回路108と、比較器110と、可変抵抗器112と、ゲート回路114とを備える。   FIG. 1 is a diagram for explaining an example of a conventional phoneme dividing apparatus. 1 includes a microphone amplifier 104, an absolute value circuit 106, a time constant circuit 108, a comparator 110, a variable resistor 112, and a gate circuit 114.

マイクアンプ104は、マイクロホン102に接続される。マイクロホン102は、原音声(マスキー)を集音し、音信号に変換する。この音信号は、音声に暗騒音が重畳されたものである。マイクアンプ104は、マイクロホン102からの音信号を増幅する。マイクアンプ104から出力された音信号X(t)は、分岐部105で2つに分岐され、一方の音信号X(t)は絶対値回路106に入力され、他方の音信号X(t)はゲート回路114に入力される。絶対値回路106は、音信号X(t)の絶対値を出力する。絶対値回路106から出力された音信号の絶対値|X(t)|は、時定数回路108に入力される。時定数回路108は、抵抗値Rの抵抗器および容量値Cのコンデンサから構成された一次のローパスフィルタであり、その時定数τ=RCは100ms程度に設定される。時定数回路108は、音信号の絶対値|X(t)|を平滑化する。時定数回路108による平滑化処理により、音信号の絶対値|X(t)|から時定数τよりも速い成分が取り除かれ、包絡線信号A(t)が得られる。比較器110は、包絡線信号A(t)と、所定の閾値Tとを比較し、A(t)≧Tとなるタイミングでゲート回路114を開状態とする。これにより、ゲート回路114が開状態のときの音信号の区間が、音素(mora)として分割・抽出される。   The microphone amplifier 104 is connected to the microphone 102. The microphone 102 collects the original voice (Muskey) and converts it into a sound signal. This sound signal is a sound in which background noise is superimposed. The microphone amplifier 104 amplifies the sound signal from the microphone 102. The sound signal X (t) output from the microphone amplifier 104 is branched into two by the branching unit 105, one sound signal X (t) is input to the absolute value circuit 106, and the other sound signal X (t) Is input to the gate circuit 114. The absolute value circuit 106 outputs the absolute value of the sound signal X (t). The absolute value | X (t) | of the sound signal output from the absolute value circuit 106 is input to the time constant circuit 108. The time constant circuit 108 is a primary low-pass filter composed of a resistor having a resistance value R and a capacitor having a capacitance value C, and the time constant τ = RC is set to about 100 ms. The time constant circuit 108 smoothes the absolute value | X (t) | of the sound signal. By the smoothing processing by the time constant circuit 108, a component faster than the time constant τ is removed from the absolute value | X (t) | of the sound signal, and an envelope signal A (t) is obtained. The comparator 110 compares the envelope signal A (t) with a predetermined threshold T, and opens the gate circuit 114 at a timing when A (t) ≧ T. Thereby, the section of the sound signal when the gate circuit 114 is in the open state is divided and extracted as a phoneme (mora).

音素分割装置100において、閾値Tは、電源電圧+Vcを可変抵抗器112で調整することにより手動で設定される。音声を高い精度で音素に分割するためには、この閾値Tの設定が重要である。   In the phoneme dividing apparatus 100, the threshold value T is manually set by adjusting the power supply voltage + Vc with the variable resistor 112. In order to divide speech into phonemes with high accuracy, the setting of this threshold value T is important.

図2(a)〜(e)は、図1に示す音素分割装置100による音素分割処理を説明するための図である。図2(a)〜(e)の縦軸は信号レベルを任意の単位で表し、横軸は時間tを表す。図2(a)は、マイクアンプ104から出力される音信号X(t)の波形を示す。図2(b)は、絶対値回路106から出力される音信号の絶対値|X(t)|の波形と、時定数回路108から出力される包絡線信号A(t)の波形を示す。包絡線信号A(t)の波形の「略一山」が一つの音素(1mora)に対応する。   2A to 2E are diagrams for explaining phoneme division processing by the phoneme division apparatus 100 shown in FIG. 2A to 2E, the vertical axis represents the signal level in arbitrary units, and the horizontal axis represents time t. FIG. 2A shows the waveform of the sound signal X (t) output from the microphone amplifier 104. FIG. 2B shows the waveform of the absolute value | X (t) | of the sound signal output from the absolute value circuit 106 and the waveform of the envelope signal A (t) output from the time constant circuit 108. The “approximately one mountain” of the waveform of the envelope signal A (t) corresponds to one phoneme (1 mora).

図2(b)に示すように、本例において包絡線信号A(t)は6個の「略一山」、すなわち音素1〜6を含んでいる。また、図2(b)には、比較器110において包絡線信号A(t)から音素を分割する際に用いる3段階の閾値T(閾値T1〜T3)が図示されている。図2(c)〜(e)は、ゲート回路114からの出力信号の波形、すなわち、音素分割装置100による音素分割結果を示す。音素分割装置100による音素分割結果は、閾値Tに依存する。   As shown in FIG. 2B, in this example, the envelope signal A (t) includes six “substantially one mountain”, that is, phonemes 1 to 6. FIG. 2B shows three-stage threshold values T (threshold values T1 to T3) used when the phoneme is divided from the envelope signal A (t) in the comparator 110. 2C to 2E show waveforms of output signals from the gate circuit 114, that is, phoneme division results by the phoneme division device 100. FIG. The phoneme segmentation result by the phoneme segmentation apparatus 100 depends on the threshold value T.

図2(c)は、閾値Tを暗騒音のレベルより十分大きな閾値T1に設定したときの音素分割結果を示す。音素分割装置100のように音信号の包絡線と閾値を比較することで音素分割を行う方法においては、できるだけ安定に音素を分割・抽出しようとすると閾値Tを暗騒音のレベルより十分大きな値に設定することとなる。この場合、図2(c)に示すように、音素4,6のような小さいレベルの音素が欠落する可能性がある。   FIG. 2C shows a phoneme division result when the threshold value T is set to a threshold value T1 sufficiently larger than the background noise level. In a method of dividing a phoneme by comparing an envelope of a sound signal and a threshold as in the phoneme dividing apparatus 100, the threshold T is set to a value sufficiently larger than the background noise level in order to divide and extract the phoneme as stably as possible. It will be set. In this case, as shown in FIG. 2C, there is a possibility that a small level of phonemes such as phonemes 4 and 6 may be lost.

図2(e)は、閾値Tを暗騒音のレベルと同程度の小さな閾値T3に設定したときの音素分割結果を示す。この場合、図2(e)に示すように、隣接する音素1と2および隣接する音素3〜5が分割されていない。このように、閾値Tを小さな閾値T3に設定した場合、音素間の境界があいまいとなり、図2(e)に示すように複数の音素が分割されずに繋がってしまう可能性がある。   FIG. 2E shows a phoneme division result when the threshold value T is set to a small threshold value T3 comparable to the background noise level. In this case, as shown in FIG. 2E, the adjacent phonemes 1 and 2 and the adjacent phonemes 3 to 5 are not divided. Thus, when the threshold value T is set to a small threshold value T3, the boundary between phonemes becomes ambiguous, and a plurality of phonemes may be connected without being divided as shown in FIG.

図2(d)は、閾値Tを暗騒音のレベルにマージンHを加えた最適な閾値T2に設定したときの音素分割結果を示す。この場合、図2(d)に示すように音素1〜6が適切に分割されている。このように、適切な音素分割を行うためには、暗騒音のレベルを正確に検知し、この暗騒音のレベルよりも僅かに大きな値を閾値Tに設定することが重要である。   FIG. 2D shows a phoneme division result when the threshold T is set to an optimum threshold T2 obtained by adding a margin H to the background noise level. In this case, phonemes 1 to 6 are appropriately divided as shown in FIG. Thus, in order to perform appropriate phoneme division, it is important to accurately detect the background noise level and set the threshold T to a value slightly larger than the background noise level.

一般的な室や空間の暗騒音は、短い時間ではほぼ一定しているのに、長時間でみると午前と午後、昼食時と執務時というように、かなり大きく変動する傾向がある。従って、ある時間の暗騒音のレベルに基づいて閾値Tを設定したとしても、暗騒音のレベル変動に起因して適切な音素分割を行うことができない可能性がある。また、暗騒音のレベル変動に合わせて閾値Tを手作業で調整するのは大変な作業である。   The general background noise in a room or space is almost constant in a short time, but in the long time, it tends to fluctuate considerably in the morning and afternoon, lunch and office hours. Therefore, even if the threshold value T is set based on the background noise level for a certain period of time, there is a possibility that appropriate phoneme division cannot be performed due to background noise level fluctuations. In addition, it is a difficult task to manually adjust the threshold T in accordance with the background noise level fluctuation.

上記のような従来の音素分割装置の課題を認識した上で、本発明者は、暗騒音のレベルが変動した場合であっても適切な音素分割を自動で実行することを可能ならしめる音素分割方法及び装置を発明した。   After recognizing the problems of the conventional phoneme dividing device as described above, the present inventor has made it possible to automatically perform appropriate phoneme division even when the background noise level fluctuates. Invented a method and apparatus.

図3は、本発明の実施形態に係る音素分割装置10を説明するための図である。図3に示すように、音素分割装置10は、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。   FIG. 3 is a diagram for explaining the phoneme dividing apparatus 10 according to the embodiment of the present invention. As shown in FIG. 3, the phoneme dividing apparatus 10 includes a microphone amplifier 14, a bandpass filter 15, a square circuit 16, an audio time constant circuit 18, a background noise time constant circuit 20, and an audio square root circuit. 22, a background noise square root circuit 24, a buffer amplifier 26, an adder 28, a variable resistor 29, a comparator 30, and a gate circuit 32.

マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。   The microphone amplifier 14 is connected to the microphone 12. The microphone 12 collects original voice (masky) such as conversation and converts it into a sound signal. The microphone amplifier 14 amplifies the sound signal from the microphone 12.

バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。このバンドパスフィルタ15は、例えば成人音声の平均スペクトルに対応する通過帯域(例えば100Hz〜7kHz、より好適には250Hz〜4kHz)を有する。バンドパスフィルタ15を設けることにより、音素の分割・抽出精度を向上できる。   The band-pass filter 15 passes a signal component in a predetermined pass band in the amplified sound signal from the microphone amplifier 14. The band pass filter 15 has a pass band (for example, 100 Hz to 7 kHz, more preferably 250 Hz to 4 kHz) corresponding to the average spectrum of adult speech, for example. By providing the band-pass filter 15, the phoneme segmentation / extraction accuracy can be improved.

バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。すなわち、X(t)=x(t)+n(t)と表される。   The sound signal X (t) output from the bandpass filter 15 is obtained by superimposing the background noise signal n (t) of the room (space) on the sound signal x (t). That is, X (t) = x (t) + n (t).

バンドパスフィルタ15から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。図3から分かるように、本実施形態では第1分岐部13の前段にバンドパスフィルタ15が設けられている。また、第1分岐部13と第2分岐部17との間には自乗回路16が設けられている。   The sound signal X (t) output from the bandpass filter 15 is branched into two by the first branching unit 13. One sound signal X (t) branched by the first branching unit 13 is input to the square circuit 16, and the other sound signal X (t) is input to the gate circuit 32. As can be seen from FIG. 3, in the present embodiment, a bandpass filter 15 is provided in front of the first branching unit 13. Further, a square circuit 16 is provided between the first branch part 13 and the second branch part 17.

自乗回路16は、第1分岐部13で分岐された一方の音信号X(t)の自乗信号X(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16から出力された自乗信号X(t)は、第2分岐部17で2つの分岐される。第2分岐部17で分岐された一方の自乗信号X(t)は音声用時定数回路18に入力され、他方の自乗信号X(t)は暗騒音用時定数回路20に入力される。 The square circuit 16 outputs a square signal X 2 (t) of one sound signal X (t) branched by the first branching unit 13. The sound signal X (t) includes positive and negative values. Since the squaring circuit 16 squares the sound signal X (t), only a positive value needs to be processed, so that signal processing can be facilitated. The square signal X 2 (t) output from the square circuit 16 is branched into two by the second branch unit 17. One square signal X 2 (t) branched by the second branching unit 17 is input to the audio time constant circuit 18, and the other square signal X 2 (t) is input to the background noise time constant circuit 20. .

音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。第1抵抗器34の一方の端子は自乗回路16に接続され、他方の端子は音声用平方根回路22に接続されている。第2コンデンサ36の一方の端子は第1抵抗器34の他方の端子に接続され、第2コンデンサ36の他方の端子は接地されている。音声用時定数回路18の時定数(以下、「音声用時定数」と呼ぶ)τ=RCは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。音声用時定数回路18は、自乗信号X(t)を音声用時定数τで平滑化(平均化)する。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X(t)から音声用時定数τよりも速い成分が取り除かれ、自乗信号X(t)の包絡線信号が得られる。 The audio time constant circuit 18 is a primary low-pass filter including a first resistor 34 having a resistance value R and a second capacitor 36 having a capacitance value C. One terminal of the first resistor 34 is connected to the square circuit 16, and the other terminal is connected to the audio square root circuit 22. One terminal of the second capacitor 36 is connected to the other terminal of the first resistor 34, and the other terminal of the second capacitor 36 is grounded. The time constant (hereinafter referred to as “sound time constant”) τ v = RC of the sound time constant circuit 18 is set to a relatively small value of several tens of ms to several hundreds of ms (for example, 125 ms). The audio time constant circuit 18 smoothes (averages) the square signal X 2 (t) with the audio time constant τ v . The smoothing by the audio time constant circuit 18 processes (averaging process), squared signal X 2 (t) at the time for sound from the constant tau v fast component than is removed, the envelope signal of the squared signal X 2 (t) Is obtained.

音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrmsと見なすことができる(以下の数式参照)。以下、A(t)を「音声包絡線信号」と呼ぶ。

Figure 0006435133
The audio square root circuit 22 provided at the subsequent stage of the audio time constant circuit 18 calculates the square root of the signal input from the audio time constant circuit 18. The signal A (t) output from the sound square root circuit 22 can be regarded as an envelope of the sound signal x (t), that is, an effective value x rms of the sound signal x (t) (see the following formula). . Hereinafter, A (t) is referred to as a “voice envelope signal”.
Figure 0006435133

暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20は、抵抗値R’の第2抵抗器38と、容量Cの第2コンデンサ40と、ダイオード42と、抵抗値Rの第3抵抗器44とから成る。第2抵抗器38の一方の端子は自乗回路16に接続され、他方の端子は暗騒音用平方根回路24に接続されている。ダイオード42のカソード端子は自乗回路16に接続され、アノード端子は第3抵抗器44の一方の端子に接続されている。第3抵抗器44の他方の端子は暗騒音用平方根回路24に接続されている。第2コンデンサ40の一方の端子は第2抵抗器38および第3抵抗器44の他方の端子接続され、第2コンデンサ40の他方の端子は接地されている。   The background noise time constant circuit 20 is a primary low-pass filter configured to have different time constants at the rise and fall of the input signal. The background noise time constant circuit 20 includes a second resistor 38 having a resistance value R ′, a second capacitor 40 having a capacitance C, a diode 42, and a third resistor 44 having a resistance value R. One terminal of the second resistor 38 is connected to the square circuit 16, and the other terminal is connected to the background noise square root circuit 24. The cathode terminal of the diode 42 is connected to the square circuit 16, and the anode terminal is connected to one terminal of the third resistor 44. The other terminal of the third resistor 44 is connected to the background noise square root circuit 24. One terminal of the second capacitor 40 is connected to the other terminal of the second resistor 38 and the third resistor 44, and the other terminal of the second capacitor 40 is grounded.

このように構成された暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、第2抵抗器38と第2コンデンサ40から構成される時定数(以下、「立ち上がり用時定数」と呼ぶ)τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、第3抵抗器44と第2コンデンサ40から構成される時定数(以下、「立ち下がり用時定数」と呼ぶ)τ=RCのローパスフィルタで平滑化が行われる。 In the background noise time constant circuit 20 configured in this manner, the time constant (hereinafter referred to as “rising time constant”) composed of the second resistor 38 and the second capacitor 40 with respect to the rising of the input signal. Smoothing is performed with a low-pass filter of τ u = R′C. On the other hand, the falling of the input signal is smoothed by a low-pass filter having a time constant (hereinafter referred to as “time constant for falling”) τ d = RC composed of the third resistor 44 and the second capacitor 40. Is done.

本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。すなわち、暗騒音用時定数回路20は、非対称な2つの時定数で構成される。具体的には、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。一方、立ち下がり用時定数τは、音声用時定数回路18の音声用時定数τ と同じ値に設定される。本実施形態では、立ち下がり用時定数τは音声用時定数に等しい(すなわち、τ=τ=RC)。 In the background noise time constant circuit 20 according to the present embodiment, the rising time constant τ u is set to a value that is much larger than the falling time constant τ d . That is, the background noise time constant circuit 20 is composed of two asymmetric time constants. Specifically, the rising time constant τ u is set to be at least 10 times, more preferably 100 times to 1000 times larger than the falling time constant τ d . For example, τ u = R′C ≧ 300τ d to 3000τ d may be set. On the other hand, the time constant tau d for falling is set to the same value and the time constant tau v audio voice for the time constant circuit 18. In the present embodiment, the falling time constant τ d is equal to the audio time constant (ie, τ d = τ v = RC).

暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。暗騒音用時定数回路20の立ち上がり用時定数τは、音声用時定数回路18の音声用時定数τよりも非常に大きな値に設定されるため、B(t)は音声信号x(t)のレベル変化にはほとんど不感で、一般的にはほぼ一定と考えられる暗騒音レベル(例えば、銀行ロビーや病院の待合室などの暗騒音レベル)、つまり音信号X(t)の最低レベル付近に維持される。すなわち、B(t)は音素(mora)間の僅かの無音部(途切れ目)を通じて素早く暗騒音レベルまで低下し、全体において常に暗騒音に等しいレベルを維持する。 The background noise square root circuit 24 provided at the subsequent stage of the background noise time constant circuit 20 calculates the square root B (t) of the signal input from the background noise time constant circuit 20. Since the rising time constant τ u of the background noise time constant circuit 20 is set to a value that is much larger than the sound time constant τ v of the sound time constant circuit 18, B (t) is the sound signal x ( t) is almost insensitive to changes in level, and is generally considered to be almost constant (eg, background noise level in a bank lobby or hospital waiting room), that is, near the lowest level of the sound signal X (t) Maintained. That is, B (t) quickly decreases to the background noise level through a slight silence (discontinuity) between phonemes (mora), and always maintains a level equal to background noise.

しかし場合によっては、大声の人が連続して話したり、短時間の始業ベルが鳴ったりしてゆっくりではあるが信号B(t)が上昇することがあるため、それらが停止した時点で速やかに本来の暗騒音レベルに戻るよう、立ち下がり用時定数τについては立ち上がり用時定数τとは異なる値、具体的には音声用時定数回路18の音声用時定数τと同程度の時定数となっている。これにより、信号B(t)は朝の早い時間から午前中にかけて、また昼食時から午後にかけて、といった対称空間のゆっくりした暗騒音変化には追従するが、音声程度の速いレベル変化にはほとんど追従せず不感、ということになる。このように変化する信号B(t)は、刻々変化する音声包絡線信号A(t)に対し、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrmsと見なすことができる(以下の数式参照)。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。

Figure 0006435133
However, in some cases, a loud speaker may speak continuously or a short start bell will ring, but the signal B (t) will rise slowly, but promptly when they stop. In order to return to the original background noise level, the falling time constant τ d is different from the rising time constant τ u , specifically, the same as the audio time constant τ v of the audio time constant circuit 18. It is a time constant. As a result, the signal B (t) follows a slow background noise change in a symmetric space from early morning to morning and from lunch to afternoon, but almost follows a quick level change such as speech. It would be insensitive. The signal B (t) changing in this way is an envelope of the background noise signal n (t), that is, an effective value n rms of the background noise signal n (t), with respect to the voice envelope signal A (t) changing every moment. (See formula below). Hereinafter, B (t) is referred to as a “background noise envelope signal”.
Figure 0006435133

比較器30は、音声用平方根回路22から出力された音声包絡線信号A(t)と暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。一般に暗騒音レベルは音声レベルに対し十分低いので、このようにB(t)よりも僅かに大きな閾値信号B’(t)と音声包絡線信号A(t)とを比較することで、音素分割を安全・安定に行うことができる。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。   The comparator 30 compares the speech envelope signal A (t) output from the speech square root circuit 22 with the background noise envelope signal B (t) output from the background noise square root circuit 24. Here, in this embodiment, before inputting to the comparator 30, the background noise envelope signal B (t) is amplified with a predetermined amplification factor m using the buffer amplifier 26 and further added with the adder 28. The offset value h is added. That is, in the present embodiment, the speech envelope signal A (t) and B ′ (t) = mB (t) + h are compared by the comparator 30. Hereinafter, B ′ (t) = mB (t) + h is referred to as “threshold signal”. The amplification factor m may be selected in the range of m = 1 to 3, for example. The offset value h may be selected from a range of h = 0 to [about 10 times the maximum value assumed for B (t)], for example. In general, the background noise level is sufficiently lower than the voice level. Thus, by comparing the threshold signal B ′ (t) slightly larger than B (t) with the voice envelope signal A (t), the phoneme division is performed. Can be performed safely and stably. In the modification, the voice envelope signal A (t) and the background noise envelope signal B (t) may be directly compared.

比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。   The comparator 30 outputs a high level to the gate circuit 32 in a section where the voice envelope signal A (t) is equal to or greater than the threshold signal B ′ (t) (that is, A (t) ≧ B ′ (t)), A low level is output to the gate circuit 32 in a section where the voice envelope signal A (t) is less than the threshold signal B ′ (t) (that is, A (t) <B ′ (t)).

ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。   The gate circuit 32 controls passage / non-passage of the other sound signal X (t) branched by the first branching unit 13 according to the comparison result of the comparator 30. That is, the gate circuit 32 is opened when the high level is received from the comparator 30 and passes the sound signal X (t), and is closed when the low level is received from the comparator 30. Let X (t) not pass. With such an operation, a phoneme signal is output from the gate circuit 32.

図4(a)〜(f)は、図3に示す音素分割装置10による音素分割処理を説明するための図である。図4(a)〜(f)の縦軸は信号レベルvを単位mVで表し、横軸は時間tを単位msで表す。   FIGS. 4A to 4F are diagrams for explaining phoneme division processing by the phoneme division apparatus 10 shown in FIG. 4A to 4F, the vertical axis represents the signal level v in the unit mV, and the horizontal axis represents the time t in the unit ms.

図4(a)は、バンドパスフィルタ15から出力される音信号X(t)の波形を示す。音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。この音信号X(t)は、第1分岐部13で2つに分岐される。分岐された一方の音信号X(t)は自乗回路16に入力され、他方の音信号X(t)はゲート回路32に入力される。   FIG. 4A shows the waveform of the sound signal X (t) output from the bandpass filter 15. The sound signal X (t) is obtained by superimposing the background noise signal n (t) on the audio signal x (t). The sound signal X (t) is branched into two by the first branching unit 13. One of the branched sound signals X (t) is input to the square circuit 16, and the other sound signal X (t) is input to the gate circuit 32.

図4(b)は、自乗回路16から出力された自乗信号X(t)の波形を示す。図4(b)に示すように、自乗信号X(t)は正の成分のみを含む。この自乗信号X(t)は、第2分岐部17で2つに分岐される。分岐された一方の自乗信号X(t)は音声用時定数回路18に入力され、他方の自乗信号X(t)は暗騒音用時定数回路20に入力される。 FIG. 4B shows the waveform of the square signal X 2 (t) output from the square circuit 16. As shown in FIG. 4B, the square signal X 2 (t) includes only a positive component. The square signal X 2 (t) is branched into two by the second branching unit 17. One of the branched square signals X 2 (t) is input to the audio time constant circuit 18, and the other square signal X 2 (t) is input to the background noise time constant circuit 20.

音声用時定数回路18で平滑化された信号は、音声用平方根回路22でその平方根がとられる。この平方根は音声包絡線信号A(t)となる。図4(c)は、音声用平方根回路22から出力される音声包絡線信号A(t)の波形を示す。図4(c)に示すように、音声包絡線信号A(t)は、ほぼ入力原音声の実効値xrmsに追従して変化する正の波形である。 The signal smoothed by the audio time constant circuit 18 is square-rooted by the audio square root circuit 22. This square root becomes the voice envelope signal A (t). FIG. 4C shows the waveform of the sound envelope signal A (t) output from the sound square root circuit 22. As shown in FIG. 4C, the speech envelope signal A (t) is a positive waveform that changes substantially following the effective value x rms of the input original speech.

一方、暗騒音用時定数回路20で平滑化された信号は、暗騒音用平方根回路24でその平方根がとられる。この平方根は暗騒音包絡線信号B(t)となる。図4(d)は、暗騒音用平方根回路24から出力される暗騒音包絡線信号B(t)の波形を示す。図4(d)に示すように、暗騒音包絡線信号B(t)は、入力原音声にはほとんど追従せず、入力原音声の途切れ部分においてのみこれに沿って急速に最低値、即ち暗騒音レベルまで低下する。つまり、B(t)は常に暗騒音のレベルに維持され、音素分割の域値として利用することができる。   On the other hand, the square root of the signal smoothed by the time constant circuit 20 for background noise is taken by the square root circuit 24 for background noise. This square root becomes the background noise envelope signal B (t). FIG. 4D shows the waveform of the background noise envelope signal B (t) output from the background noise square root circuit 24. As shown in FIG. 4 (d), the background noise envelope signal B (t) hardly follows the input original voice, and rapidly reaches the minimum value, that is, darkness only along the interrupted portion of the input original voice. Reduces to noise level. That is, B (t) is always maintained at the background noise level, and can be used as a phoneme division threshold.

暗騒音用平方根回路24から出力された暗騒音包絡線信号B(t)は、バッファアンプ26でm倍に増幅された後、加算器28でオフセット値hが加算され、閾値信号B’(t)=mB(t)+hとされる。図4(d)には、暗騒音包絡線信号B(t)に加えて、閾値信号B’(t)の波形が図示されている。   The background noise envelope signal B (t) output from the background noise square root circuit 24 is amplified m times by the buffer amplifier 26, and then the offset value h is added by the adder 28, whereby the threshold signal B '(t) ) = MB (t) + h. FIG. 4D shows a waveform of the threshold signal B ′ (t) in addition to the background noise envelope signal B (t).

図4(c)は、音声包絡線信号A(t)に加えて、閾値信号B’(t)=mB(t)+hを図示している。すなわち、図4(c)には、比較器30で比較される2つの信号が図示されている。図4(c)に示すように、音声包絡線信号A(t)と閾値信号B’(t)との交点が得られる。図4(e)は、比較器30の出力信号を示す。比較器30は、音声包絡線信号A(t)と閾値信号B’(t)との交点に有効に挟まれる区間のうち、A(t)≧B’(t)となる区間でハイレベルを出力し、A(t)<B’(t)となる区間でローレベルを出力する。   FIG. 4C illustrates the threshold signal B ′ (t) = mB (t) + h in addition to the voice envelope signal A (t). That is, in FIG. 4C, two signals to be compared by the comparator 30 are shown. As shown in FIG. 4C, the intersection of the voice envelope signal A (t) and the threshold signal B '(t) is obtained. FIG. 4E shows the output signal of the comparator 30. The comparator 30 sets the high level in the section where A (t) ≧ B ′ (t) among the sections effectively sandwiched between the intersections of the voice envelope signal A (t) and the threshold signal B ′ (t). And outputs a low level in a section where A (t) <B ′ (t).

図4(f)は、ゲート回路32の出力信号を示す。ゲート回路32は、比較器30からハイレベルを受けたときだけ音号X(t)を通過させ、比較器30からローレベルを受けたときには音号X(t)を非通過とする。これにより、図4(f)に示すように音素と暗騒音が明確に区画され、3つの音素が分割・抽出されている。   FIG. 4F shows the output signal of the gate circuit 32. The gate circuit 32 passes the note X (t) only when it receives a high level from the comparator 30, and does not pass the note X (t) when it receives a low level from the comparator 30. As a result, as shown in FIG. 4 (f), phonemes and background noise are clearly divided, and three phonemes are divided and extracted.

以上、本実施形態に係る音素分割装置10について説明した。この音素分割装置10によれば、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。   The phoneme dividing device 10 according to the present embodiment has been described above. According to this phoneme dividing apparatus 10, since the background noise level is automatically detected, the threshold for dividing and extracting phonemes is always maintained at an optimum value even if the background noise changes with time. As a result, phoneme division can be performed with higher accuracy than in the past.

本実施形態の音素分割装置10によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。   According to the phoneme dividing apparatus 10 of the present embodiment, the work of manually adjusting the threshold value T in accordance with the fluctuation in the level of background noise is not required, so that significant rationalization and labor saving can be achieved.

図5は、変形例に係る音素分割装置50を説明するための図である。図5に示す音素分割装置50は、バンドパスフィルタ15が第1分岐部13と自乗回路16との間に設けられている点が図3に示す音素分割装置10と異なる。   FIG. 5 is a diagram for explaining a phoneme dividing apparatus 50 according to a modification. The phoneme division apparatus 50 shown in FIG. 5 is different from the phoneme division apparatus 10 shown in FIG. 3 in that the bandpass filter 15 is provided between the first branching unit 13 and the square circuit 16.

本変形例に係る音素分割装置50では、第1分岐部13と自乗回路16の間にバンドパスフィルタ15が設けられていることにより、ゲート回路32にはバンドバスフィルタを通っていない音信号が入力される。従って、音素分割装置50では原音声信号により近い音素信号が得られるため、図3に示す音素分割装置10と比べて音質を向上することができる。なお、音素分割装置50においては自乗回路16に入る音信号はバンドパスフィルタ15を通っているため、音素の分割・抽出精度は図3に示す音素分割装置と同等である。   In the phoneme division device 50 according to the present modification, the bandpass filter 15 is provided between the first branch unit 13 and the square circuit 16, so that a sound signal that does not pass through the bandpass filter is received in the gate circuit 32. Entered. Therefore, since the phoneme division device 50 can obtain a phoneme signal closer to the original speech signal, the sound quality can be improved as compared with the phoneme division device 10 shown in FIG. Note that in the phoneme dividing device 50, the sound signal entering the square circuit 16 passes through the bandpass filter 15, and therefore the phoneme dividing / extracting accuracy is equivalent to that of the phoneme dividing device shown in FIG.

図6は、本発明の別の実施形態に係る音素分割装置60を説明するための図である。図6に示す音素分割装置60は、自乗回路に代えて絶対値回路62を備える点が図3に示す音素分割装置10と異なる。   FIG. 6 is a diagram for explaining a phoneme division device 60 according to another embodiment of the present invention. The phoneme dividing device 60 shown in FIG. 6 is different from the phoneme dividing device 10 shown in FIG. 3 in that an absolute value circuit 62 is provided instead of the square circuit.

図6に示すように、音素分割装置60は、マイクアンプ14と、絶対値回路62と、音声用時定数回路18と、暗騒音用時定数回路20と、バッファアンプ26と、加算器28と、可変抵抗器29と、比較器30と、ゲート回路32とを備える。   As shown in FIG. 6, the phoneme division device 60 includes a microphone amplifier 14, an absolute value circuit 62, a sound time constant circuit 18, a background noise time constant circuit 20, a buffer amplifier 26, an adder 28, and the like. The variable resistor 29, the comparator 30, and the gate circuit 32 are provided.

マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、音声信号x(t)に暗騒音信号n(t)が重畳されたものである。   The microphone amplifier 14 is connected to the microphone 12. The microphone 12 collects original voice (masky) such as conversation and converts it into a sound signal. The microphone amplifier 14 amplifies the sound signal from the microphone 12. The sound signal X (t) amplified by the microphone 12 is obtained by superimposing the background noise signal n (t) on the audio signal x (t).

マイクアンプ14から出力された音信号X(t)は、第1分岐部13で2つに分岐される。第1分岐部13で分岐された一方の音信号X(t)は絶対値回路62に入力され、他方の音信号X(t)はゲート回路32に入力される。図3に示す音素分割装置10と同様に、第1分岐部13の前段にバンドパスフィルタが設けられてもよい。あるいは、図5に示す音素分割装置50と同様に、第1分岐部13と絶対値回路62の間にバンドパスフィルタが設けられてもよい。また、第1分岐部13と第2分岐部17との間には絶対値回路62が設けられている。   The sound signal X (t) output from the microphone amplifier 14 is branched into two by the first branching unit 13. One sound signal X (t) branched by the first branching unit 13 is input to the absolute value circuit 62, and the other sound signal X (t) is input to the gate circuit 32. Similarly to the phoneme dividing apparatus 10 shown in FIG. 3, a bandpass filter may be provided in the preceding stage of the first branching unit 13. Alternatively, a band pass filter may be provided between the first branching unit 13 and the absolute value circuit 62 as in the phoneme dividing device 50 shown in FIG. An absolute value circuit 62 is provided between the first branch unit 13 and the second branch unit 17.

絶対値回路62は、第1分岐部13で分岐された一方の音信号X(t)の絶対値|X(t)|を出力する。自乗回路を用いた実施形態と同様に、絶対値回路62で音信号X(t)の絶対値をとることで、正の値のみを処理すればよいため、信号処理を容易にすることができる。絶対値回路62から出力された絶対値信号|X(t)|は、第2分岐部17で2つに分岐される。第2分岐部17で分岐された一方の絶対値信号|X(t)|は音声用時定数回路18に入力され、他方の絶対値信号|X(t)|は暗騒音用時定数回路20に入力される。   The absolute value circuit 62 outputs an absolute value | X (t) | of one sound signal X (t) branched by the first branching unit 13. As in the embodiment using the square circuit, the absolute value circuit 62 takes the absolute value of the sound signal X (t), and only a positive value needs to be processed, thereby facilitating signal processing. . The absolute value signal | X (t) | output from the absolute value circuit 62 is branched into two by the second branching unit 17. One absolute value signal | X (t) | branched by the second branching unit 17 is input to the audio time constant circuit 18, and the other absolute value signal | X (t) | Is input.

音声用時定数回路18は、抵抗値Rの第1抵抗器34と、容量値Cの第2コンデンサ36とから構成される一次のローパスフィルタである。音声用時定数回路18は、絶対値信号|X(t)|を数10〜数100msの音声用時定数τで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrmsと見なすことができる。以下、A(t)を「音声包絡線信号」と呼ぶ。 The audio time constant circuit 18 is a primary low-pass filter including a first resistor 34 having a resistance value R and a second capacitor 36 having a capacitance value C. The audio time constant circuit 18 smoothes (averages) the absolute value signal | X (t) | with an audio time constant τ v of several tens to several hundreds of ms. The signal A (t) output from the audio time constant circuit 18 can be regarded as an envelope of the audio signal x (t), that is, an effective value x rms of the audio signal x (t). Hereinafter, A (t) is referred to as a “voice envelope signal”.

暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ=RCのローパスフィルタで平滑化が行われる。 The background noise time constant circuit 20 is a primary low-pass filter configured to have different time constants at the rise and fall of the input signal. In the background noise time constant circuit 20, the rising of the input signal is smoothed by a low-pass filter having a rising time constant τ u = R′C. On the other hand, the falling of the input signal is smoothed by a low-pass filter having a falling time constant τ d = RC.

本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。一方、立ち下がり用時定数τは、音声用時定数回路18の音声用時定数τと略同じ値に設定される。本実施形態では、立ち下がり用時定数τは音声用時定数に等しい(すなわち、τ=τ=RC)。 In the background noise time constant circuit 20 according to the present embodiment, the rising time constant τ u is set to a value that is much larger than the falling time constant τ d . Specifically, the rising time constant τ u is set to be at least 10 times, more preferably 100 times to 1000 times larger than the falling time constant τ d . For example, τ u = R′C ≧ 300τ d to 3000τ d may be set. On the other hand, the falling time constant τ d is set to substantially the same value as the audio time constant τ v of the audio time constant circuit 18. In the present embodiment, the falling time constant τ d is equal to the audio time constant (ie, τ d = τ v = RC).

暗騒音用時定数回路20で平滑化された信号B(t)は、音声信号x(t)のレベル変化にはほとんど不感で、暗騒音レベル付近に維持される。信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrmsと見なすことができる。以下、B(t)を「暗騒音包絡線信号」と呼ぶ。 The signal B (t) smoothed by the background noise time constant circuit 20 is almost insensitive to the level change of the audio signal x (t) and is maintained near the background noise level. The signal B (t) can be regarded as an envelope of the background noise signal n (t), that is, an effective value n rms of the background noise signal n (t). Hereinafter, B (t) is referred to as a “background noise envelope signal”.

比較器30は、音声用時定数回路18から出力された音声包絡線信号A(t)と暗騒音用時定数回路20から出力された暗騒音包絡線信号B(t)とを比較する。ここで、本実施形態では、比較器30に入力する前に、暗騒音包絡線信号B(t)をバッファアンプ26を用いて所定の増幅率mで増幅し、さらに加算器28を用いて所定のオフセット値hを加算している。すなわち、本実施形態では、音声包絡線信号A(t)とB’(t)=mB(t)+hとが比較器30で比較される。以下、B’(t)=mB(t)+hを「閾値信号」と呼ぶ。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。変形例では、音声包絡線信号A(t)と暗騒音包絡線信号B(t)とが直接比較されてもよい。   The comparator 30 compares the voice envelope signal A (t) output from the voice time constant circuit 18 with the background noise envelope signal B (t) output from the background noise time constant circuit 20. Here, in this embodiment, before inputting to the comparator 30, the background noise envelope signal B (t) is amplified with a predetermined amplification factor m using the buffer amplifier 26 and further added with the adder 28. The offset value h is added. That is, in the present embodiment, the speech envelope signal A (t) and B ′ (t) = mB (t) + h are compared by the comparator 30. Hereinafter, B ′ (t) = mB (t) + h is referred to as “threshold signal”. The amplification factor m may be selected in the range of m = 1 to 3, for example. The offset value h may be selected from a range of h = 0 to [about 10 times the maximum value assumed for B (t)], for example. In the modification, the voice envelope signal A (t) and the background noise envelope signal B (t) may be directly compared.

比較器30は、音声包絡線信号A(t)が閾値信号B’(t)以上(すなわち、A(t)≧B’(t))となる区間でゲート回路32にハイレベルを出力し、音声包絡線信号A(t)が閾値信号B’(t)未満(すなわち、A(t)<B’(t))となる区間でゲート回路32にローレベルを出力する。   The comparator 30 outputs a high level to the gate circuit 32 in a section where the voice envelope signal A (t) is equal to or greater than the threshold signal B ′ (t) (that is, A (t) ≧ B ′ (t)), A low level is output to the gate circuit 32 in a section where the voice envelope signal A (t) is less than the threshold signal B ′ (t) (that is, A (t) <B ′ (t)).

ゲート回路32は、比較器30の比較結果に応じて、第1分岐部13で分岐された他方の音信号X(t)の通過/非通過を制御する。すなわち、ゲート回路32は、比較器30からハイレベルを受けたときは開状態となって音号X(t)を通過させ、比較器30からローレベルを受けたときには閉状態となって音号X(t)を非通過とする。このような動作により、ゲート回路32から音素信号が出力される。   The gate circuit 32 controls passage / non-passage of the other sound signal X (t) branched by the first branching unit 13 according to the comparison result of the comparator 30. That is, the gate circuit 32 is opened when the high level is received from the comparator 30 and passes the sound signal X (t), and is closed when the low level is received from the comparator 30. Let X (t) not pass. With such an operation, a phoneme signal is output from the gate circuit 32.

以上、本実施形態に係る音素分割装置60について説明した。この音素分割装置60においても、暗騒音のレベルが自動で検知されるので、時間帯によって暗騒音が変化しても音素を分割・抽出するための閾値は常に最適な値に維持される。その結果、従来よりも高い精度で音素分割を行うことができる。   The phoneme dividing device 60 according to the present embodiment has been described above. Also in this phoneme dividing device 60, since the level of background noise is automatically detected, the threshold for dividing and extracting phonemes is always maintained at an optimum value even if the background noise changes with time. As a result, phoneme division can be performed with higher accuracy than in the past.

また、本実施形態の音素分割装置60においても、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。   In the phoneme dividing apparatus 60 according to the present embodiment as well, it is not necessary to manually adjust the threshold value T in accordance with the fluctuation in the level of background noise, so that significant rationalization and labor saving can be achieved.

図7は、本発明のさらに別の実施形態に係る音素分割装置70を説明するための図である。図3,5,6に示す実施形態では、音素分割処理をアナログ回路で実現したが、図7に示す本実施形態では、音素分割処理をソフトウェアによって実現している。   FIG. 7 is a diagram for explaining a phoneme dividing device 70 according to still another embodiment of the present invention. In the embodiment shown in FIGS. 3, 5, and 6, the phoneme division process is realized by an analog circuit, but in the present embodiment shown in FIG. 7, the phoneme division process is realized by software.

音素分割装置70は、マイクアンプ14と、DSP(Digital Signal Processor)ボード71とを備える。DSPボード71には、入力アンプ72と、A/D変換器73と、DSP74と、D/A変換器75と、出力アンプ76と、ROM77と、SD−RAM78と、入力ポート79と、出力ポート80とが実装されている。   The phoneme dividing device 70 includes a microphone amplifier 14 and a DSP (Digital Signal Processor) board 71. The DSP board 71 includes an input amplifier 72, an A / D converter 73, a DSP 74, a D / A converter 75, an output amplifier 76, a ROM 77, an SD-RAM 78, an input port 79, and an output port. 80 is implemented.

マイクアンプ14は、マイクロホン12に接続される。マイクロホン12は、会話などの原音声(マスキー)を集音し、音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。マイクロホン12で増幅された音信号X(t)は、DSPボード71の入力ポート79に入力される。音信号X(t)は、アナログ信号であり、音声信号に暗騒音信号が重畳されたものである。入力ポート79から入力された音信号X(t)は、入力アンプ72で増幅された後、A/D変換器73でデジタル信号に変換される。A/D変換器73から出力された音信号X(t)のデジタル信号は、DSP74に入力される。   The microphone amplifier 14 is connected to the microphone 12. The microphone 12 collects original voice (masky) such as conversation and converts it into a sound signal. The microphone amplifier 14 amplifies the sound signal from the microphone 12. The sound signal X (t) amplified by the microphone 12 is input to the input port 79 of the DSP board 71. The sound signal X (t) is an analog signal, and a background noise signal is superimposed on a sound signal. The sound signal X (t) input from the input port 79 is amplified by the input amplifier 72 and then converted to a digital signal by the A / D converter 73. The digital signal of the sound signal X (t) output from the A / D converter 73 is input to the DSP 74.

DSP74は、音素分割処理を行うためのプログラムを格納するROM77と、DSP74で処理中のデータを格納するSD−RAM78と接続されている。DSP74は、ROM77から音素分割プログラムを読み込み、音素分割処理を行う。   The DSP 74 is connected to a ROM 77 that stores a program for performing phoneme division processing and an SD-RAM 78 that stores data being processed by the DSP 74. The DSP 74 reads a phoneme division program from the ROM 77 and performs phoneme division processing.

ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)を自乗する自乗ステップと、自乗信号X(t)を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の自乗信号X(t)を数10〜数100msの音声用時定数τで平滑化する第1平滑化ステップと、第1平滑化ステップで平滑化された信号の平方根を演算する第1平方根演算ステップと、第2分岐ステップで分岐された他方の自乗信号X(t)の立ち上がりに対しては音声用時定数τより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τで平滑化するとともに、他方の自乗信号X(t)の立ち下がりに対しては音声用時定数τと略同じ立ち下がり用時定数τで平滑化する第2平滑化ステップと、第2平滑化ステップで平滑化された信号の平方根を演算する第2平方根演算ステップと、第1平方根演算ステップで演算された音声包絡線信号A(t)と、第2平方根演算ステップで演算された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってよい。このプログラムの比較ステップでは、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。 The phoneme division program stored in the ROM 77 squares the DSP 74 with the first branch step for branching the sound signal X (t) into two and the one sound signal X (t) branched at the first branch step. and square step, a second branching step of branching squared signal X 2 (t) into two, when a voice of one squared signal X 2 (t) several tens to several hundreds of 100ms to branched by the second branching step a first smoothing step for smoothing constant tau v, a first square root operation step of calculating the square root of the smoothed signal by the first smoothing step, the other squared signals X branched by the second branching step 2 (t) rising to at least 10 times more than the time constant tau v for voice, more preferably with smoothing in time constant tau u for greater rise above 100 to 1000 times, the other squared signals X 2 a second smoothing step for smoothing a time constant tau d for falling substantially the same standing as the time constant tau v audio for the fall of t), the square root of the smoothed signal by the second smoothing step The second square root calculation step to be calculated is compared with the voice envelope signal A (t) calculated in the first square root calculation step and the background noise envelope signal B (t) calculated in the second square root calculation step. It may be a program for executing a comparison step and a passage control step for controlling passage / non-passage of the other sound signal branched in the first branch step according to the comparison result of the comparison step. In the comparison step of this program, the voice envelope signal A (t) may be compared with the threshold signal B ′ (t) = mB (t) + h. The amplification factor m may be selected in the range of m = 1 to 3, for example. The offset value h may be selected from a range of h = 0 to [about 10 times the maximum value assumed for B (t)], for example.

あるいは、ROM77に格納された音素分割プログラムは、DSP74に、音信号X(t)を2つに分岐する第1分岐ステップと、第1分岐ステップで分岐された一方の音信号X(t)の絶対値|X(t)|を演算する絶対値演算ステップと、絶対値演算ステップからの絶対値信号|X(t)|を2つに分岐する第2分岐ステップと、第2分岐ステップで分岐された一方の絶対値信号|X(t)|を数10〜数100msの音声用時定数τで平滑化する第1平滑化ステップと、第2分岐ステップで分岐された他方の絶対値信号|X(t)|の立ち上がりに対しては音声用時定数τより少なくとも10倍以上、より好適には100〜1000倍以上大きい立ち上がり用時定数τで平滑化するとともに、他方の絶対値信号|X(t)|の立ち下がりに対しては音声用時定数τと略同じ立ち下がり用時定数τで平滑化する第2平滑化ステップと、第1平滑化ステップで平滑化された音声包絡線信号A(t)と、第2平滑化ステップで平滑化された暗騒音包絡線信号B(t)とを比較する比較ステップと、比較ステップの比較結果に応じて、第1分岐ステップで分岐された他方の音信号X(t)の通過/非通過を制御する通過制御ステップと、を実行させるためのプログラムであってもよい。このプログラムの比較ステップにおいても、音声包絡線信号A(t)と、閾値信号B’(t)=mB(t)+hとが比較されてもよい。増幅率mは、例えばm=1〜3の範囲で選択されてよい。また、オフセット値hは、例えばh=0〜[B(t)に想定される最大値の10倍程度]の範囲から選択されてよい。 Alternatively, the phoneme division program stored in the ROM 77 can be obtained by feeding the DSP 74 the first branch step for branching the sound signal X (t) into two and one of the sound signals X (t) branched in the first branch step. An absolute value calculation step for calculating the absolute value | X (t) |, a second branch step for branching the absolute value signal | X (t) | from the absolute value calculation step into two, and a branch at the second branch step First absolute value signal | X (t) | smoothed with a time constant τ v for speech of several tens to several hundreds of ms, and the other absolute value signal branched in the second branch step The rise of | X (t) | is smoothed with a rise time constant τ u that is at least 10 times, more preferably 100 to 1000 times greater than the audio time constant τ v , and the other absolute value Signal | X (t) | A second smoothing step for smoothing a time constant tau d for falling substantially the same standing as the time constant tau v audio for falling, first smoothing step smoothing speech envelope signal A (t) And the background noise signal B (t) smoothed in the second smoothing step, and the other sound signal branched in the first branching step according to the comparison result of the comparison step And a passage control step for controlling passage / non-passage of X (t). Also in the comparison step of this program, the voice envelope signal A (t) may be compared with the threshold signal B ′ (t) = mB (t) + h. The amplification factor m may be selected in the range of m = 1 to 3, for example. The offset value h may be selected from a range of h = 0 to [about 10 times the maximum value assumed for B (t)], for example.

DSP74からの出力された音素のデジタル信号は、D/A変換器75でアナログ信号に変換された後、出力アンプ76で増幅され、出力ポート80から出力される。   The phoneme digital signal output from the DSP 74 is converted into an analog signal by the D / A converter 75, amplified by the output amplifier 76, and output from the output port 80.

図8(a)〜(c)は、図7に示す音素分割装置70による音素分割処理を説明するための図である。図8(a)〜(c)の縦軸は信号レベルを任意の単位で表し、横軸は時間を任意の単位で表す。   8A to 8C are diagrams for explaining phoneme division processing by the phoneme division device 70 shown in FIG. 8A to 8C, the vertical axis represents signal level in arbitrary units, and the horizontal axis represents time in arbitrary units.

図8(a)は、音声包絡線信号A(t)の波形を示す。図8(b)は、暗騒音包絡線信号B(t)の波形を示す。図8(c)は、音声包絡線信号A(t)と閾値信号B’(t)=mB(t)+hを比較した波形(すなわち、A(t)−B’(t))を示す。ここでは、増幅率m=1、オフセット値h=200に設定されている。図8(a)および(b)に示すように、音素分割処理をソフトウェアで行った場合も、音信号から適切に音声包絡線信号A(t)と暗騒音包絡線信号B(t)とを分離することができる。暗騒音のレベルが自動で検知されるため、図8(c)に示すように音声包絡線信号A(t)と閾値信号B’(t)との比較により高い精度で音素の分割・抽出を行うことができる。また、本実施形態の音素分割装置70によれば、暗騒音のレベル変動に合わせて閾値Tを手作業で調整する作業が不要となるため、大きな合理化・省力化が可能となる。   FIG. 8A shows the waveform of the voice envelope signal A (t). FIG. 8B shows the waveform of the background noise envelope signal B (t). FIG. 8C shows a waveform (ie, A (t) −B ′ (t)) comparing the voice envelope signal A (t) and the threshold signal B ′ (t) = mB (t) + h. Here, the amplification factor m = 1 and the offset value h = 200 are set. As shown in FIGS. 8A and 8B, when the phoneme division process is performed by software, the sound envelope signal A (t) and the background noise envelope signal B (t) are appropriately obtained from the sound signal. Can be separated. Since the background noise level is automatically detected, as shown in FIG. 8C, the phoneme segmentation / extraction is performed with high accuracy by comparing the voice envelope signal A (t) and the threshold signal B ′ (t). It can be carried out. Further, according to the phoneme dividing apparatus 70 of the present embodiment, the work of manually adjusting the threshold value T in accordance with the background noise level fluctuation is not required, so that significant rationalization and labor saving can be achieved.

図9は、本発明のさらに別の実施形態に係る音声処理システム90を説明するための図である。この音声処理システム90は、上述の音素分割装置を利用して入力された音声に所定の処理を施し、空間に出力するものである。   FIG. 9 is a diagram for explaining an audio processing system 90 according to still another embodiment of the present invention. The speech processing system 90 performs predetermined processing on speech input using the above-described phoneme splitting device and outputs it to a space.

図9に示すように、音声処理システム90は、集音装置としてのマイクロホン12と、マイクアンプ14と、音素分割装置92と、音素処理装置94と、アンプ95と、出力装置としてのスピーカ96とを備える。マイクロホン12は、原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。音素分割装置92は、マイクアンプ14からの増幅音信号を受信して、音声信号を音素に分割する。音素分割装置92としては、上述の音素分割装置10,50,60,70を好適に利用することができる。音素処理装置94は、音素処理装置94から得られる音素信号に所定の処理を施す。この所定の処理の例については後述する。アンプ95は、音素処理装置94によって処理された音素信号を増幅する。スピーカ96は、増幅された音素信号を音として空間に出力する。   As shown in FIG. 9, the sound processing system 90 includes a microphone 12 as a sound collecting device, a microphone amplifier 14, a phoneme dividing device 92, a phoneme processing device 94, an amplifier 95, and a speaker 96 as an output device. Is provided. The microphone 12 collects the original sound and outputs a sound signal in which a background noise signal is superimposed on the sound signal. The microphone amplifier 14 amplifies the sound signal from the microphone 12. The phoneme dividing device 92 receives the amplified sound signal from the microphone amplifier 14 and divides the audio signal into phonemes. As the phoneme dividing device 92, the above-described phoneme dividing devices 10, 50, 60, and 70 can be preferably used. The phoneme processing device 94 performs predetermined processing on the phoneme signal obtained from the phoneme processing device 94. An example of this predetermined process will be described later. The amplifier 95 amplifies the phoneme signal processed by the phoneme processing device 94. The speaker 96 outputs the amplified phoneme signal as a sound to the space.

音声処理システム90は、例えばスピーチプライバシーシステム(音声情報秘話装置)であってよい。スピーチプライバシーシステムは、信号処理により音声信号の構造自体を略実時間で変更・処理することにより、音声信号のスペクトラムやエネルギー包絡線など統計的な性質を大きく変更することなく、その音声の内容のみを隠蔽/遮断し、受聴者に会話の中身を理解不能とするものである.このスピーチプライバシーシステムは、従来の音声マスキングシステムと異なり、原音声の発生時(発声時)以外には音が出ないので、室内の騒音レベルや受聴者の不快感を増長させることなく、音声の内容のみを有効に隠蔽することができる。スピーチプライバシーシステムの詳細については、例えば上記の特許文献1を参照されたい。   The voice processing system 90 may be, for example, a speech privacy system (voice information secret talk device). The speech privacy system changes and processes the structure of the audio signal in real time through signal processing, so that only the content of the audio is obtained without greatly changing the statistical properties such as the spectrum of the audio signal and the energy envelope. It hides / blocks and makes the contents of the conversation unintelligible to the listener. Unlike conventional voice masking systems, this speech privacy system produces no sound except when the original voice is generated (during utterance), thus increasing the noise level of the room and increasing the listener's discomfort. Only the contents can be effectively concealed. For details of the speech privacy system, see, for example, Patent Document 1 described above.

スピーチプライバシーシステムにおいては、音素処理装置94は、音素分割装置92で分割・抽出された音素(mora)を再配置、例えば音素の順番を入れ替えたりする。そしてこの再配置された音素信号がスピーカ96から音として空間に出力される。このスピーカ96からの音により原音声がマスキングされるため、原音声の内容を受聴者に理解不能とすることができる。   In the speech privacy system, the phoneme processing device 94 rearranges the phonemes (mora) divided and extracted by the phoneme dividing device 92, for example, rearranges the order of the phonemes. The rearranged phoneme signals are output from the speaker 96 as sound to the space. Since the original voice is masked by the sound from the speaker 96, the contents of the original voice can be made unintelligible to the listener.

あるいは、音声処理システム90は、携帯電話、無線機、トランシーバなどの通信システムであってもよい。例えば工事現場やガード下、或いは鉄道のホームなどで携帯電話を使う場合、受信側では暗騒音が受信音声に重畳し、会話内容の理解を妨げる。すなわち、聞き取りや文章了解度が低下する。そこで、音素処理装置94は、音素分割装置92で分割・抽出された音素間(すなわち、会話の途切れ部分)の出力をゼロ(無音)にする。このように処理された音素信号をスピーカ96から出力することで騒音低減・通話品質の向上を図ることができる。このような通信システムにおいて、音素分割装置92の暗騒音用時定数回路における立ち上がり用時定数τ=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。なお、音声部分には暗騒音が依然として重畳しているが、聴覚の補完作用により音声のあるこの部分の暗騒音はほとんど認識されず、聴感的には騒音がほとんど除去されたように認識されるため、聞き取りは大きく改善される。 Alternatively, the voice processing system 90 may be a communication system such as a mobile phone, a radio, or a transceiver. For example, when a mobile phone is used at a construction site, under a guard, or at a railway platform, background noise is superimposed on the received voice on the receiving side, which hinders understanding of the conversation content. That is, listening and sentence comprehension are reduced. Therefore, the phoneme processing device 94 sets the output between the phonemes divided and extracted by the phoneme dividing device 92 (that is, the discontinuous part of the conversation) to zero (silence). By outputting the phoneme signal thus processed from the speaker 96, it is possible to reduce noise and improve call quality. In such a communication system, it is preferable that the rising time constant τ u = R′C in the background noise time constant circuit of the phoneme dividing device 92 is set smaller than that used in the speech privacy system. Note that background noise is still superimposed on the audio part, but the background noise is hardly recognized due to auditory complementation, and perceived as if the noise was almost eliminated. Therefore, listening is greatly improved.

あるいは、上述の実施形態に係る音素分割装置は、音声認識機能を内包した車載ナビゲーションシステムに用いられてもよい。上述の音素分割装置から出力される音素信号を音声認識に利用することで、刻々変化する走行騒音の影響を受けることなく音声の認識率を向上させることができる。この場合、音素分割装置の暗騒音用時定数回路における立ち上がり用時定数τ=R’Cは、スピーチプライバシーシステムに用いる場合より小さく設定されることが好ましい。 Or the phoneme division | segmentation apparatus which concerns on the above-mentioned embodiment may be used for the vehicle-mounted navigation system which included the speech recognition function. By using the phoneme signal output from the above phoneme splitting device for speech recognition, the speech recognition rate can be improved without being affected by the constantly changing traveling noise. In this case, the rise time constant τ u = R′C in the background noise time constant circuit of the phoneme division apparatus is preferably set smaller than that used in the speech privacy system.

あるいは、上述の実施形態に係る音素分割装置は、半二重通信のVOX(Voice Operating tX; tx=Transmitter)機能に利用されてもよい。音素分割装置から出力される音素信号に基づいて発話の発生を的確に把握することで、確実に送信・受信を切り替えることが可能となる。   Alternatively, the phoneme division device according to the above-described embodiment may be used for a VOX (Voice Operating tX; tx = Transmitter) function of half-duplex communication. By accurately grasping the occurrence of an utterance based on the phoneme signal output from the phoneme dividing device, it is possible to switch between transmission and reception with certainty.

図10は、本発明のさらに別の実施形態に係る騒音測定装置120を説明するための図である。図10に示す騒音測定装置120は、周囲音に含まれる暗騒音のレベルを測定することができる。騒音測定装置120は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、暗騒音用時定数回路20と、暗騒音用平方根回路24とを備える。   FIG. 10 is a diagram for explaining a noise measurement device 120 according to still another embodiment of the present invention. The noise measurement device 120 shown in FIG. 10 can measure the level of background noise included in the ambient sound. The noise measuring device 120 includes a microphone 12, a microphone amplifier 14, a bandpass filter 15, a square circuit 16, a background constant circuit 20 for background noise, and a square root circuit 24 for background noise.

マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。   The microphone 12 collects ambient sounds and converts them into sound signals. The microphone amplifier 14 amplifies the sound signal from the microphone 12. The band-pass filter 15 passes a signal component in a predetermined pass band in the amplified sound signal from the microphone amplifier 14. The sound signal X (t) output from the bandpass filter 15 is obtained by superimposing the background noise signal n (t) of the room (space) on the sound signal x (t).

自乗回路16は、音信号X(t)の自乗信号X(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、暗騒音用平方根回路24は不要となる。 The square circuit 16 outputs a square signal X 2 (t) of the sound signal X (t). The sound signal X (t) includes positive and negative values. Since the squaring circuit 16 squares the sound signal X (t), only a positive value needs to be processed, so that signal processing can be facilitated. The square circuit 16 may be replaced with an absolute value circuit. In this case, the background noise square root circuit 24 is not necessary.

暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ=RCのローパスフィルタで平滑化が行われる。 The background noise time constant circuit 20 is a primary low-pass filter configured to have different time constants at the rise and fall of the input signal. In the background noise time constant circuit 20, the rising of the input signal is smoothed by a low-pass filter having a rising time constant τ u = R′C. On the other hand, the falling of the input signal is smoothed by a low-pass filter having a falling time constant τ d = RC.

本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。具体的には、立ち下がり用時定数τは、数10ms〜数100ms(例えば125ms)の比較的小さい値に設定される。一方、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。 In the background noise time constant circuit 20 according to the present embodiment, the rising time constant τ u is set to a value that is much larger than the falling time constant τ d . Specifically, the falling time constant τ d is set to a relatively small value of several tens of ms to several hundreds of ms (for example, 125 ms). On the other hand, the rising time constant τ u is set at least 10 times, more preferably 100 times to 1000 times larger than the falling time constant τ d . For example, τ u = R′C ≧ 300τ d to 3000τ d may be set.

暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。 The background noise square root circuit 24 provided at the subsequent stage of the background noise time constant circuit 20 calculates the square root B (t) of the signal input from the background noise time constant circuit 20. As described above, the signal B (t) can be regarded as an envelope of the background noise signal n (t), that is, an effective value n rms (that is, background noise level) of the background noise signal n (t).

このように、本実施形態に係る騒音測定装置120によれば、周囲音に含まれる暗騒音のレベルを測定することができる。本実施形態に係る騒音測定装置120は、会話や特定の変動騒音(有意味騒音)がある空間での暗騒音測定に特に有効である。騒音測定装置120は、暗騒音用平方根回路24から出力される信号を表示する表示部を備えてもよい。この場合、暗騒音を視覚的に認識することができる。   Thus, according to the noise measurement apparatus 120 according to the present embodiment, the level of background noise included in the ambient sound can be measured. The noise measuring device 120 according to the present embodiment is particularly effective for measuring background noise in a space where there is conversation or specific variable noise (significant noise). The noise measurement device 120 may include a display unit that displays a signal output from the background noise square root circuit 24. In this case, background noise can be visually recognized.

騒音測定装置120は、例えばテレビジョンシステム、車載テレビジョンシステム、カーステレオシステム等の音響システムに用いることができる。騒音測定装置120で測定される暗騒音のレベルは、在室者間の会話音声や短時間の間歇的騒音の影響を受けない。従って、この暗騒音のレベルを参照することで、例えば、暗騒音レベルが高い場合にはスピーカーの音量を上げ、暗騒音レベルが低い場合にはスピーカーの音量を下げるといったように、スピーカーの音量を最適に制御することができる。   The noise measuring device 120 can be used for an acoustic system such as a television system, an in-vehicle television system, a car stereo system, and the like. The level of background noise measured by the noise measuring device 120 is not affected by conversational voices between the occupants and intermittent noise for a short time. Therefore, referring to this background noise level, for example, the speaker volume is increased when the background noise level is high, and the speaker volume is decreased when the background noise level is low. It can be controlled optimally.

図11は、本発明のさらに別の実施形態に係る騒音測定装置130を説明するための図である。図11に示す騒音測定装置130は、周囲音に含まれる騒音のレベルを測定することができる。騒音測定装置130は、マイクロホン12と、マイクアンプ14と、バンドパスフィルタ15と、自乗回路16と、音声用時定数回路18と、暗騒音用時定数回路20と、音声用平方根回路22と、暗騒音用平方根回路24と、表示部134とを備える。   FIG. 11 is a diagram for explaining a noise measurement device 130 according to still another embodiment of the present invention. The noise measuring device 130 shown in FIG. 11 can measure the level of noise included in the ambient sound. The noise measurement device 130 includes a microphone 12, a microphone amplifier 14, a bandpass filter 15, a square circuit 16, a sound time constant circuit 18, a background noise time constant circuit 20, a sound square root circuit 22, The background noise square root circuit 24 and a display unit 134 are provided.

マイクロホン12は、周囲音を集音して音信号に変換する。マイクアンプ14は、マイクロホン12からの音信号を増幅する。バンドパスフィルタ15は、マイクアンプ14からの増幅音信号のうち、所定の通過帯域の信号成分を通過させる。バンドパスフィルタ15から出力される音信号X(t)は、音声信号x(t)に室(空間)の暗騒音信号n(t)が重畳されたものである。   The microphone 12 collects ambient sounds and converts them into sound signals. The microphone amplifier 14 amplifies the sound signal from the microphone 12. The band-pass filter 15 passes a signal component in a predetermined pass band in the amplified sound signal from the microphone amplifier 14. The sound signal X (t) output from the bandpass filter 15 is obtained by superimposing the background noise signal n (t) of the room (space) on the sound signal x (t).

自乗回路16は、音信号X(t)の自乗信号X(t)を出力する。音信号X(t)には、正負の値が含まれる。自乗回路16で音信号X(t)を自乗することで、正の値のみを処理すればよいため、信号処理を容易にすることができる。自乗回路16は、絶対値回路に置き換えられてもよい。この場合、音声用平方根回路22および暗騒音用平方根回路24は不要となる。 The square circuit 16 outputs a square signal X 2 (t) of the sound signal X (t). The sound signal X (t) includes positive and negative values. Since the squaring circuit 16 squares the sound signal X (t), only a positive value needs to be processed, so that signal processing can be facilitated. The square circuit 16 may be replaced with an absolute value circuit. In this case, the voice square root circuit 22 and the background noise square root circuit 24 are not required.

自乗回路16から出力された自乗信号X(t)は、分岐部132で2つの分岐される。分岐部132で分岐された一方の自乗信号X(t)は音声用時定数回路18に入力され、他方の自乗信号X(t)は暗騒音用時定数回路20に入力される。 The square signal X 2 (t) output from the square circuit 16 is branched into two by the branch unit 132. One square signal X 2 (t) branched by the branch unit 132 is input to the audio time constant circuit 18, and the other square signal X 2 (t) is input to the background noise time constant circuit 20.

音声用時定数回路18は、数10〜数100msの音声用時定数τを有する一次のローパスフィルタである。音声用時定数回路18は、入力信号を音声用時定数τで平滑化(平均化)する。音声用時定数回路18から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。 The audio time constant circuit 18 is a first-order low-pass filter having an audio time constant τ v of several tens to several hundreds of ms. The audio time constant circuit 18 smoothes (averages) the input signal with the audio time constant τ v . The signal A (t) output from the audio time constant circuit 18 may be regarded as an envelope of the audio signal x (t), that is, an effective value x rms (that is, an audio signal level) of the audio signal x (t). it can.

暗騒音用時定数回路20は、入力信号の立ち上がりと立ち下がりにおいて時定数が異なるように構成された一次のローパスフィルタである。暗騒音用時定数回路20においては、入力信号の立ち上がりに対しては、立ち上がり用時定数τ=R’Cのローパスフィルタで平滑化が行われる。一方、入力信号の立ち下がりに対しては、立ち下がり用時定数τ=RCのローパスフィルタで平滑化が行われる。音声用時定数回路18による平滑化処理(平均化処理)により、自乗信号X(t)から音声用時定数τよりも速い成分が取り除かれ、自乗信号X(t)の包絡線信号が得られる。 The background noise time constant circuit 20 is a primary low-pass filter configured to have different time constants at the rise and fall of the input signal. In the background noise time constant circuit 20, the rising of the input signal is smoothed by a low-pass filter having a rising time constant τ u = R′C. On the other hand, the falling of the input signal is smoothed by a low-pass filter having a falling time constant τ d = RC. The smoothing by the audio time constant circuit 18 processes (averaging process), squared signal X 2 (t) at the time for sound from the constant tau v fast component than is removed, the envelope signal of the squared signal X 2 (t) Is obtained.

音声用時定数回路18の後段に設けられた音声用平方根回路22は、音声用時定数回路18から入力された信号の平方根を演算する。この音声用平方根回路22から出力される信号A(t)は、音声信号x(t)の包絡線、すなわち音声信号x(t)の実効値xrms(すなわち音声信号のレベル)と見なすことができる。 The audio square root circuit 22 provided at the subsequent stage of the audio time constant circuit 18 calculates the square root of the signal input from the audio time constant circuit 18. The signal A (t) output from the audio square root circuit 22 can be regarded as an envelope of the audio signal x (t), that is, an effective value x rms (that is, an audio signal level) of the audio signal x (t). it can.

本実施形態に係る暗騒音用時定数回路20において、立ち上がり用時定数τは、立ち下がり用時定数τよりも非常に大きな値に設定される。具体的には、立ち上がり用時定数τは、立ち下がり用時定数τより少なくとも10倍以上、より好適には100倍〜1000倍以上大きく設定される。例えば、τ=R’C≧300τ〜3000τのように設定されてよい。一方、立ち下がり用時定数τは、音声用時定数回路18の音声用時定数τと略同じ値に設定される。本実施形態では、立ち下がり用時定数τは音声用時定数に等しい(すなわち、τ=τ=RC)。 In the background noise time constant circuit 20 according to the present embodiment, the rising time constant τ u is set to a value that is much larger than the falling time constant τ d . Specifically, the rising time constant τ u is set to be at least 10 times, more preferably 100 times to 1000 times larger than the falling time constant τ d . For example, τ u = R′C ≧ 300τ d to 3000τ d may be set. On the other hand, the falling time constant τ d is set to substantially the same value as the audio time constant τ v of the audio time constant circuit 18. In the present embodiment, the falling time constant τ d is equal to the audio time constant (ie, τ d = τ v = RC).

暗騒音用時定数回路20の後段に設けられた暗騒音用平方根回路24は、暗騒音用時定数回路20から入力された信号の平方根B(t)を演算する。上述したように、この信号B(t)は、暗騒音信号n(t)の包絡線、すなわち暗騒音信号n(t)の実効値nrms(すなわち暗騒音のレベル)と見なすことができる。 The background noise square root circuit 24 provided at the subsequent stage of the background noise time constant circuit 20 calculates the square root B (t) of the signal input from the background noise time constant circuit 20. As described above, the signal B (t) can be regarded as an envelope of the background noise signal n (t), that is, an effective value n rms (that is, background noise level) of the background noise signal n (t).

表示部134は、音声用平方根回路22からの信号A(t)と、暗騒音用平方根回路24からの信号B(t)とを表示する。例えば、表示部134は、信号A(t)と、信号B(t)の両者を区別して二元表示してもよい。信号A(t)は、短時間に変化する会話音声や建設現場の間歇騒音のレベルを表し、信号B(t)は、暗騒音のレベルを表す。信号A(t)については、A(t)が暗騒音が含まれる。そこで、表示部134は、信号A(t)に代えてまたは加えて、以下の数式に従って得られる「暗騒音補正された信号A’(t)」を「正味騒音レベル」として表示させることもできる。

Figure 0006435133
The display unit 134 displays the signal A (t) from the audio square root circuit 22 and the signal B (t) from the background noise square root circuit 24. For example, the display unit 134 may distinguish and display the signal A (t) and the signal B (t) in a binary manner. The signal A (t) represents a conversational voice that changes in a short time or an intermittent noise level of the construction site, and a signal B (t) represents a background noise level. For the signal A (t), A (t) includes background noise. In view of this, the display unit 134 can display “the background noise corrected signal A ′ (t)” obtained according to the following formula as the “net noise level” instead of or in addition to the signal A (t). .
Figure 0006435133

図12は、表示部134による騒音レベル表示の一例を示す。図12に示す騒音レベル表示例では、音声用平方根回路22からの信号A(t)が「全騒音」として表示され、暗騒音用平方根回路24からの信号B(t)が「暗騒音」として表示され、暗騒音補正された信号A’(t)が「正味騒音」として表示されている。図12に示すように全騒音、暗騒音、正味騒音のレベルを可視化することで、ユーザは瞬時に各騒音レベルを把握することができる。   FIG. 12 shows an example of noise level display by the display unit 134. In the noise level display example shown in FIG. 12, the signal A (t) from the voice square root circuit 22 is displayed as “total noise”, and the signal B (t) from the background noise square root circuit 24 is displayed as “background noise”. The signal A ′ (t) displayed and corrected for background noise is displayed as “net noise”. As shown in FIG. 12, by visualizing the levels of total noise, background noise, and net noise, the user can grasp each noise level instantaneously.

以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。   Although the present invention has been described based on the embodiments, the embodiments merely show the principle and application of the present invention, and the embodiments are defined in the claims. Needless to say, many modifications and arrangements can be made without departing from the spirit of the present invention.

入力信号に対する包絡線取得、すなわち包絡線検波は、上述の実施形態で説明した自乗平均値の平方根を取る方法や絶対値を平滑化する方法のみならず、ウェーブレット変換やヒルベルト変換、あるいは簡略的にはダイオードなどにより半波整流した結果を平滑化する方法などその他の類似の方法によってなされてもよい。   Envelope acquisition for the input signal, that is, envelope detection is not only the method of taking the square root of the mean square value described in the above embodiment and the method of smoothing the absolute value, but also the wavelet transform, the Hilbert transform, or simply May be performed by other similar methods such as a method of smoothing the result of half-wave rectification by a diode or the like.

10,50,60,70,92 音素分割装置、 12 マイクロホン、 13 第1分岐部、 14 マイクアンプ、 15 バンドパスフィルタ、 16 自乗回路、 17 第2分岐部、 18 音声用時定数回路、 20 暗騒音用時定数回路、 22 音声用平方根回路、 24 暗騒音用平方根回路、 26 バッファアンプ、 28 加算器、 30 比較器、 32 ゲート回路、 62 絶対値回路、 71 DSPボード、 74 DSP、 76 出力アンプ、 77 ROM、 90 音声処理システム、 94 音素処理装置、 96 スピーカ、 120,130 騒音測定装置、 134 表示部。   10, 50, 60, 70, 92 Phoneme splitting device, 12 microphone, 13 first branching unit, 14 microphone amplifier, 15 bandpass filter, 16 square circuit, 17 second branching unit, 18 time constant circuit for voice, 20 dark Time constant circuit for noise, 22 Square root circuit for sound, 24 Square root circuit for background noise, 26 Buffer amplifier, 28 Adder, 30 Comparator, 32 Gate circuit, 62 Absolute value circuit, 71 DSP board, 74 DSP, 76 Output amplifier 77 ROM, 90 voice processing system, 94 phoneme processing device, 96 speaker, 120, 130 noise measuring device, 134 display unit.

Claims (10)

音声信号に暗騒音信号が重畳された音信号を、該音信号に基づく包絡線信号の略一山である音素に分割する音素分割装置であって、
信号を2つに分岐する第1分岐部と、
前記第1分岐部で分岐された一方の音信号をさらに2つに分岐する第2分岐部と、
前記第2分岐部で分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する音声用時定数部と、
前記第2分岐部で分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する暗騒音用時定数部と、
前記音声用時定数部からの信号と、前記暗騒音用時定数部からの信号とを比較する比較部と、
前記比較部の比較結果に応じて、前記第1分岐部で分岐された他方の音信号の通過/非通過を制御するゲート部と、
を備えることを特徴とする音素分割装置。
A phoneme dividing device that divides a sound signal in which a background noise signal is superimposed on a sound signal into phonemes that are substantially a single envelope signal based on the sound signal,
A first branching section for branching the sound signal into two;
A second branching section for branching the one sound signal branched at the first branching section into two further;
A sound time constant part for smoothing one sound signal branched by the second branch part with a sound time constant of several tens to several hundreds of milliseconds;
The rising edge of the other sound signal branched by the second branching unit is smoothed with a rising time constant that is at least 10 times larger than the sound time constant, and the rising edge of the other sound signal is A background time constant portion for smoothing with a time constant for falling substantially the same as the time constant for sound,
A comparison unit that compares the signal from the time constant unit for sound and the signal from the time constant unit for background noise;
A gate unit for controlling passage / non-passage of the other sound signal branched by the first branch unit according to a comparison result of the comparison unit;
A phoneme segmentation device comprising:
前記立ち上がり用時定数は、前記音声用時定数よりも100〜1000倍以上大きいことを特徴とする請求項1に記載の音素分割装置。   2. The phoneme division apparatus according to claim 1, wherein the rising time constant is 100 to 1000 times larger than the voice time constant. 前記暗騒音用時定数部からの信号を所定の増幅率で増幅するアンプと、
前記アンプからの出力に所定のオフセット値を加える加算器と、をさらに備え、
前記比較部は、前記音声用時定数部からの信号と、前記加算器からの信号とを比較することを特徴とする請求項1または2に記載の音素分割装置。
An amplifier that amplifies the signal from the time constant portion for background noise at a predetermined amplification rate;
An adder for adding a predetermined offset value to the output from the amplifier, and
The phoneme division apparatus according to claim 1, wherein the comparison unit compares a signal from the time constant unit for speech with a signal from the adder.
前記第1分岐部の前段に設けられた、音声の平均スペクトルに対応する通過帯域を有するバンドスフィルタをさらに備えることを特徴とする請求項1から3のいずれかに記載の音素分割装置。 The first is provided in front of the branching portion, the phoneme splitting apparatus according to any one of claims 1 to 3, further comprising a band-path filter having a pass band corresponding to the average spectrum of speech. 前記第1分岐部と前記第2分岐部との間に設けられた、音声の平均スペクトルに対応する通過帯域を有するバンドスフィルタをさらに備えることを特徴とする請求項1から3のいずれかに記載の音素分割装置。 Either it provided from claim 1, further comprising a band-path filter having a pass band corresponding to the average spectrum of the speech 3 between the second branch portion and the first branch portion A phoneme division device according to claim 1. 前記第1分岐部の後段に前記第2分岐部との間に設けられた、前記第1分岐部で分岐された一方の音信号を自乗する自乗部と、
前記音声用時定数部の後段に設けられた、前記音声用時定数部からの信号の平方根を演算する音声用平方根演算部と、
前記暗騒音用時定数部の後段に設けられた、前記暗騒音用時定数部からの信号の平方根を演算する暗騒音用平方根演算部と、
をさらに備えることを特徴とする請求項1から5のいずれかに記載の音素分割装置。
A square section that squares one of the sound signals branched by the first branch section, provided between the second branch section and the second branch section after the first branch section;
A voice square root calculation unit for calculating a square root of a signal from the voice time constant unit, provided at a subsequent stage of the voice time constant unit;
A background noise square root calculation unit for calculating a square root of the signal from the background noise time constant unit, which is provided at a subsequent stage of the background noise time constant unit,
The phoneme dividing apparatus according to claim 1, further comprising:
前記第1分岐部と前記第2分岐部との間に設けられた、前記第1分岐部で分岐された一方の音信号の絶対値を出力する絶対値演算部をさらに備えることを特徴とする請求項1から5のいずれかに記載の音素分割装置。   An absolute value calculation unit that is provided between the first branching unit and the second branching unit and outputs an absolute value of one of the sound signals branched by the first branching unit is further provided. The phoneme division device according to any one of claims 1 to 5. 原音声を集音して、音声信号に暗騒音信号が重畳された音信号を出力する集音装置と、
前記集音装置からの前記音信号を受信して、前記音信号を音素に分割する請求項1から7のいずれかに記載の音素分割装置と、
前記音素分割装置から得られる音素信号に所定の処理を施す音素処理装置と、
前記音素処理装置によって処理された音素信号を音として空間に出力する出力装置と、
を備えることを特徴とする音声処理システム。
A sound collector that collects the original sound and outputs a sound signal in which a background noise signal is superimposed on the sound signal;
Wherein receiving the sound signal from the sound collecting device, the phoneme splitting device according to any one of 7 to claim 1 for dividing the sound signal into phonemes,
A phoneme processing device that performs predetermined processing on a phoneme signal obtained from the phoneme splitting device;
An output device that outputs the phoneme signal processed by the phoneme processing device as a sound to a space;
A speech processing system comprising:
音声信号に暗騒音信号が重畳された音信号を、該音信号に基づく包絡線信号の略一山である音素に分割する音素分割方法であって、
信号を2つに分岐する第1分岐ステップと、
前記第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、
前記第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、
前記第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、
前記第1平滑化ステップで演算された信号と、前記第2平滑化ステップで演算された信号とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、
を備えることを特徴とする音素分割方法。
A phoneme division method that divides a sound signal in which a background noise signal is superimposed on an audio signal into phonemes that are substantially a mountain of envelope signals based on the sound signal,
A first branching step for branching the sound signal into two;
A second branching step for branching one of the sound signals branched in the first branching step into two;
A first smoothing step of smoothing one of the sound signals branched in the second branching step with an audio time constant of several tens to several hundreds of ms;
The rising edge of the other sound signal branched in the second branching step is smoothed with a rising time constant that is at least 10 times larger than the sound time constant, and the rising edge of the other sound signal is A second smoothing step of smoothing with a falling time constant substantially the same as the sound time constant;
A comparison step for comparing the signal calculated in the first smoothing step with the signal calculated in the second smoothing step;
A passage control step for controlling passage / non-passage of the other sound signal branched in the first branch step according to a comparison result of the comparison step;
A phoneme segmentation method comprising:
音声信号に暗騒音信号が重畳された音信号を、該音信号に基づく包絡線信号の略一山である音素に分割する音素分割プログラムであって、
コンピュータに、
信号を2つに分岐する第1分岐ステップと、
前記第1分岐ステップで分岐された一方の音信号を2つに分岐する第2分岐ステップと、
前記第2分岐ステップで分岐された一方の音信号を数10〜数100msの音声用時定数で平滑化する第1平滑化ステップと、
前記第2分岐ステップで分岐された他方の音信号の立ち上がりに対しては前記音声用時定数より少なくとも10倍以上大きい立ち上がり用時定数で平滑化するとともに、前記他方の音信号の立ち下がりに対しては前記音声用時定数と略同じ立ち下がり用時定数で平滑化する第2平滑化ステップと、
前記第1平滑化ステップで演算された信号と、前記第2平滑化ステップで演算された信号とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記第1分岐ステップで分岐された他方の音信号の通過/非通過を制御する通過制御ステップと、
を実行させるための音素分割プログラム。
A phoneme division program that divides a sound signal in which a background noise signal is superimposed on an audio signal into phonemes that are substantially a single envelope signal based on the sound signal,
On the computer,
A first branching step for branching the sound signal into two;
A second branching step for branching one of the sound signals branched in the first branching step into two;
A first smoothing step of smoothing one of the sound signals branched in the second branching step with an audio time constant of several tens to several hundreds of ms;
The rising edge of the other sound signal branched in the second branching step is smoothed with a rising time constant that is at least 10 times larger than the sound time constant, and the rising edge of the other sound signal is A second smoothing step of smoothing with a falling time constant substantially the same as the sound time constant;
A comparison step for comparing the signal calculated in the first smoothing step with the signal calculated in the second smoothing step;
A passage control step for controlling passage / non-passage of the other sound signal branched in the first branch step according to a comparison result of the comparison step;
Phoneme segmentation program to execute.
JP2014163880A 2014-08-11 2014-08-11 Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program Expired - Fee Related JP6435133B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014163880A JP6435133B2 (en) 2014-08-11 2014-08-11 Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014163880A JP6435133B2 (en) 2014-08-11 2014-08-11 Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program

Publications (2)

Publication Number Publication Date
JP2016038552A JP2016038552A (en) 2016-03-22
JP6435133B2 true JP6435133B2 (en) 2018-12-05

Family

ID=55529642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014163880A Expired - Fee Related JP6435133B2 (en) 2014-08-11 2014-08-11 Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program

Country Status (1)

Country Link
JP (1) JP6435133B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841821B (en) * 2022-11-15 2026-04-03 浙江大学杭州国际科创中心 A method for designing speech interference noise based on human speech structure

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0315897A (en) * 1989-06-14 1991-01-24 Fujitsu Ltd Decision threshold value setting control system
JPH06332491A (en) * 1993-05-21 1994-12-02 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho Voiced section detecting device and noise suppressing device
JP2929525B2 (en) * 1996-08-12 1999-08-03 西松建設株式会社 Noise and vibration measurement method
JP3843742B2 (en) * 2001-03-09 2006-11-08 独立行政法人科学技術振興機構 Robot audio-visual system
JP4798601B2 (en) * 2004-12-28 2011-10-19 株式会社国際電気通信基礎技術研究所 Voice segment detection device and voice segment detection program
JP2008015481A (en) * 2006-06-08 2008-01-24 Audio Technica Corp Audio conferencing equipment
JP2012008393A (en) * 2010-06-25 2012-01-12 Nippon Sheet Glass Environment Amenity Co Ltd Device and method for changing voice, and confidential communication system for voice information

Also Published As

Publication number Publication date
JP2016038552A (en) 2016-03-22

Similar Documents

Publication Publication Date Title
Goehring et al. Using recurrent neural networks to improve the perception of speech in non-stationary noise by people with cochlear implants
EP3689002B1 (en) Howl detection in conference systems
CN114390390B (en) Noise reduction method and device for earphone, electronic equipment and storage medium
Koning et al. The potential of onset enhancement for increased speech intelligibility in auditory prostheses
CN108235181B (en) Method for noise reduction in an audio processing apparatus
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
US12148432B2 (en) Signal processing device, signal processing method, and signal processing system
US9119007B2 (en) Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener
JP5115818B2 (en) Speech signal enhancement device
WO2010092914A1 (en) Method for processing multichannel acoustic signal, system thereof, and program
KR101961998B1 (en) Reducing instantaneous wind noise
US20130120124A1 (en) Methods and systems to support auditory signal detection
CN111477246B (en) Voice processing method and device and intelligent terminal
JP6435133B2 (en) Phoneme segmentation apparatus, speech processing system, phoneme segmentation method, and phoneme segmentation program
JP6296219B2 (en) Hearing aid
US20110208516A1 (en) Information processing apparatus and operation method thereof
US12542147B2 (en) Mapping sound sources in a user interface
VH et al. A study on speech recognition technology
KR20160000680A (en) Apparatus for enhancing intelligibility of speech, voice output apparatus with the apparatus
JP2011170113A (en) Conversation protection degree evaluation system and conversation protection degree evaluation method
Kupryjanow et al. Improved method for real-time speech stretching
CN109994121A (en) Eliminate system, method and the computer storage medium of audio crosstalk
Paul et al. A dynamic automatic noisy speech recognition (DANSR) system for a single-channel hybrid noisy industrial environment
HK40035084B (en) Howl detection in conference systems
HK40035084A (en) Howl detection in conference systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181112

R150 Certificate of patent or registration of utility model

Ref document number: 6435133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees