JPH0795238B2 - Voiced determination device and voiced determination method - Google Patents
Voiced determination device and voiced determination methodInfo
- Publication number
- JPH0795238B2 JPH0795238B2 JP63501560A JP50156088A JPH0795238B2 JP H0795238 B2 JPH0795238 B2 JP H0795238B2 JP 63501560 A JP63501560 A JP 63501560A JP 50156088 A JP50156088 A JP 50156088A JP H0795238 B2 JPH0795238 B2 JP H0795238B2
- Authority
- JP
- Japan
- Prior art keywords
- voiced
- value
- frame
- frames
- unvoiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Radar Systems Or Details Thereof (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
【発明の詳細な説明】 [技術分野] 本発明は音声が基本周波数の存在を有するか否かの判定
に関する。これは音声判別とも呼ばれる。さらにとくに
は本発明は、音声判別を行うために音声サンプルを同時
に処理する複数の有声音検出器の1つの選択であって、
距離尺度計算に基づいて行われる選択に関する。Description: TECHNICAL FIELD The present invention relates to determining whether speech has the presence of a fundamental frequency. This is also called voice discrimination. More particularly, the present invention relates to a selection of voiced sound detectors for simultaneously processing speech samples to make speech discrimination,
Relates to selections made based on distance measure calculations.
[背景技術および問題点] 低ビット速度音声コーダにおいてはしばしば、不正確な
音声判別のために音声品質の低下が生ずる。これらの音
声判別を正確に行う際の困難な点は、単一の音声パラメ
ータすなわち類別子(classifier)では有声音音声と無
声音音声との識別に信頼性がないという事実にある。音
声が有声音であるかまたは無声音であるかの判定のため
に多重有声音検出器を使用することおよびこれらの検出
器の1つを選択することは、シー・ピー・キャンベル
(C.P.Cambell)他の論文「音声の有声音/無声音類別
の米国政府LPC-10Eアルゴリズムへの適用」IEEE音響・
音声および信号処理国際会議資料、1986年、東京、第9.
11.4巻、473-476ページ(“Voiced/Unvoiced Classific
ation of Speech with Application to the U.S.Govern
ment LPC-10E Algorithm"、IEEE International Confer
ence on Acoustics,Speech and Signal Processing、19
86、Tokyo、Vol.9.11.4,pp.473-476)に開示されてい
る。この論文は、各音声フレームに対し同じ音声類別子
を処理するために各々異なる重みとしきい値とを利用す
る多重線形識別有声音検出器の使用を開示している。各
検出器に対する重みおよびしきい値は学習データを使用
することにより決定される。各検出器に対し、学習デー
タに異なるレベルの白色雑音が加えられる。実際の音声
の処理中にSN比(信号対雑音比、SNR)を調べることに
より音声判別を行うべき検出器が決定される。SN比がも
つことができる可能値の範囲(レンジ)は、各々が検出
器の1つに割当てられる副範囲(サブレンジ)に分割さ
れる。各フレームに対しSN比が計算され、副範囲が決定
され、音声判別を行うためにこの副範囲に付属する検出
器が選択される。BACKGROUND AND PROBLEMS In low bit rate voice coders, voice quality degradation often occurs due to inaccurate voice discrimination. The difficulty in making these speech discriminations accurately lies in the fact that a single speech parameter, a classifier, is not reliable in distinguishing between voiced and unvoiced speech. The use of multiple voiced sound detectors and the selection of one of these detectors for determining whether the voice is voiced or unvoiced is described by CPCambell et al. Paper "Application of voiced / unvoiced speech to US Government LPC-10E algorithm" IEEE Acoustics
International Conference on Speech and Signal Processing, 1986, Tokyo, No. 9.
Volume 11.4, pp. 473-476 ("Voiced / Unvoiced Classific
ation of Speech with Application to the USGovern
ment LPC-10E Algorithm ", IEEE International Confer
ence on Acoustics, Speech and Signal Processing, 19
86, Tokyo, Vol.9.11.4, pp.473-476). This paper discloses the use of a multi-linear discriminant voiced sound detector that utilizes different weights and thresholds to process the same speech classifier for each speech frame. The weights and thresholds for each detector are determined by using the training data. Different levels of white noise are added to the training data for each detector. During actual speech processing, the SN ratio (Signal-to-Noise Ratio, SNR) is examined to determine the detector for speech discrimination. The range of possible values that the SNR can have is divided into sub-ranges, each assigned to one of the detectors. For each frame, the signal-to-noise ratio is calculated, the subrange is determined, and the detector attached to this subrange is selected for speech discrimination.
この方法に伴う問題点は、音声の特徴自身が変えられて
しまうような音声環境に関してはそれは良好に実行しな
いことである。さらにキャンベルにより用いられた方法
は白色雑音にのみ適応され色雑音には調節が可能ではな
い。したがって、変化する音声環境において検出を可能
とする複数の有声音検出器間の選択方法に対する需要が
存在してくる。The problem with this method is that it does not perform well in speech environments where the speech features themselves are altered. Furthermore, the method used by Campbell is only applicable to white noise and not adjustable to color noise. Therefore, there is a need for a selection method among multiple voiced sound detectors that enables detection in a changing voice environment.
[解決法] 上記の問題点は、有声音検出器の各々により発生された
分離値またはメリット値を比較して複数の有声音検出器
の中から選択される有声音検出装置により解決されかる
技術的進歩が達成される。分離値はまた距離尺度とも呼
ばれる。[Solution] The above problem can be solved by a voiced sound detection device selected from a plurality of voiced sound detectors by comparing separation values or merit values generated by each voiced sound detector. Progress is achieved. Separation values are also called distance measures.
この装置は各々が分離値を発生する識別検出器または統
計的検出器のような異なる形式の有声音検出器を含む。
この装置内の比較器は、音声が有声音であるかまたは無
声音であるかを判別するために、最大分離値を発生して
いる有声音検出器を選択する。分離値は統計的一般化距
離であることが好ましい。The device includes different types of voiced detectors, such as a discriminant detector or a statistical detector, each of which produces a separate value.
The comparator in this device selects the voiced sound detector producing the maximum separation value in order to determine whether the voice is voiced or unvoiced. The separation value is preferably a statistical generalized distance.
すべての有声音検出器はフレームが有声音であるかまた
は無声音であるかを指示し、各検出器はまず現在および
以前のフレームの各々に対する識別変数を決定する。変
数を決定した後、各検出器は以前および現在のフレーム
の有声音および無声音の両方のものに対する平均値を決
定する。各検出器は以前および現在のフレーム有声音お
よび無声音のものに対する分散値を決定する。平均およ
び分散を計算した後に、各検出器は有声音フレームに対
する平均値および分散値と無声音フレームに対する平均
値および分散値とから分離値を決定する。All voiced sound detectors indicate whether the frame is voiced or unvoiced, and each detector first determines the discriminant variable for each of the current and previous frames. After determining the variables, each detector determines an average value for both voiced and unvoiced ones of the previous and current frames. Each detector determines the variance value for the previous and current frame voiced and unvoiced ones. After calculating the mean and variance, each detector determines a separation value from the mean and variance values for voiced frames and the unvoiced frames.
分離値の決定は各検出器において分散値を重みつき和内
に組合せることにより行われるのが好ましい。各無声音
フレームの平均値が各有声音フレームの平均値から差引
かれる。各フレームに対してこの差引かれた値が二乗さ
れ、分散値の重みつき和が、求められた二乗された差引
値で割られる。重みつき和を形成する前に、各検出器は
有声音フレームに対する分散値に有声音フレームの発生
確率を乗じ、無声音フレームに対する分散値に無声音フ
レームの発生確率を乗ずることが好ましい。さらに二乗
された差引値を重みつき和で割る前に、二乗された差引
値に有声音フレームの発生確率および無声音フレームの
発生確率が掛けられる。The determination of the separation values is preferably made by combining the variance values in each detector in a weighted sum. The average value of each unvoiced frame is subtracted from the average value of each voiced frame. This subtracted value is squared for each frame and the weighted sum of the variances is divided by the determined squared subtracted value. Before forming the weighted sum, each detector preferably multiplies the variance for voiced frames by the probability of occurrence of voiced frames and the variance for unvoiced frames by the probability of occurrence of unvoiced frames. Further, the squared subtraction value is multiplied by the probability of voiced frame occurrence and the probability of unvoiced frame occurrence before dividing the squared subtraction value by the weighted sum.
この方法は、識別検出器により有声音および無声音フレ
ーム間の分離を定義する第1のメリット値を計算するス
テップ、前記統計的有声音検出器により有声音および無
声音フレーム間の分離を定義する第2のメリット値を計
算するステップ、およびフレームが有声音であるかまた
は無声音であるかを指示するために最良メリット値を計
算した検出器を選択するステップ、とを含む。The method comprises calculating a first merit value defining a separation between voiced and unvoiced frames by a discriminative detector, and second defining a separation between voiced and unvoiced frames by the statistical voiced detector. Calculating a merit value of, and selecting the detector for which the best merit value has been calculated to indicate whether the frame is voiced or unvoiced.
[図面の簡単な説明] 本発明は図面を参照にしながら以下の詳細な説明を読め
ば容易に理解されよう。ここで: 第1図は本発明を用いた装置のブロック図; 第2図は本発明をブロック図の形で表わした図; 第3図および第4図は第2図の統計的有声音検出器103
により実行される機能をさらに詳細に表わした図; 第5図は第4図のブロック340で実行される機能をさら
に詳細に表わした図である。BRIEF DESCRIPTION OF THE DRAWINGS The present invention will be readily understood by reading the following detailed description with reference to the drawings. Here: Fig. 1 is a block diagram of an apparatus using the present invention; Fig. 2 is a diagram showing the present invention in the form of a block diagram; Figs. 3 and 4 are statistical voiced voice detections of Fig. 2. Bowl 103
FIG. 5 is a more detailed view of the functions performed by block 340 of FIG. 4;
[詳細な説明] 第1図は2つの有声音検出器の間で1つを選択すること
により無声音/有声音判別動作を実行するための装置を
示す。第1図において2つより多い有声音検出器を使用
することは当業者にとって明らかであろう。検出器102
および103の間の選択は、各検出器により発生されて距
離比較器104に伝送される距離尺度に基づいて行われ
る。発生される各距離尺度は発生検出器の音声判別の正
確さを指示するメリット値を表わす。距離比較器104は
2つの距離尺度値を比較し、無声音/有声音判別を行う
ために最大距離尺度値を発声する検出器が選択されるよ
うにマルチプレクサ105を制御する。しかしながら、他
の尺度タイプに対しては、最小メリット値が検出器に最
も正確な音声判別を行うように指示するであろう。距離
尺度はマハラノビス距離であることが好ましい。検出器
102は識別検出器であり、検出器103は統計的検出器であ
ることが好ましい。しかしながら、検出器はすべて同じ
タイプであってもよく、また系内に2つを超える検出器
が存在してもよいことは当業者には明らかであろう。Detailed Description FIG. 1 shows an apparatus for performing an unvoiced / voiced sound discrimination operation by selecting one between two voiced sound detectors. It will be apparent to those skilled in the art to use more than two voiced sound detectors in FIG. Detector 102
The selection between and 103 is based on the distance measure generated by each detector and transmitted to the distance comparator 104. Each distance measure generated represents a merit value which indicates the accuracy of the speech discrimination of the generation detector. The distance comparator 104 compares the two distance measure values and controls the multiplexer 105 so that the detector that produces the maximum distance measure value is selected to make the unvoiced / voiced sound discrimination. However, for other scale types, the minimum merit value will dictate the detector to make the most accurate speech discrimination. The distance measure is preferably Mahalanobis distance. Detector
Preferably 102 is a discriminating detector and detector 103 is a statistical detector. However, it will be apparent to those skilled in the art that the detectors may all be of the same type and there may be more than two detectors in the system.
ここで第1図に示す装置の全体的動作を考えてみる。類
別子発生器101は各音声フレームに応答して、音声エネ
ルギーの対数(log)、LPC(線形予測分析)ゲインの対
数、第1反射係数の対数面積比、および1ピッチ周期だ
けオフセットされている1フレーム長の2つの音声セグ
メントの二乗相関係数であることが好ましい類別子(cl
assifier)を発生する。これらの類別子の計算は、アナ
ログ音声をディジタルにサンプリングすること、ディジ
タルサンプルのフレームを形成すること、およびこれら
のフレームを処理すること、とを含み、これは当業者に
は周知である。発生器101は通路106を介して類別子を検
出器102および103に伝送する。Consider now the overall operation of the apparatus shown in FIG. The classifier generator 101 is offset in response to each speech frame by the log of the speech energy, the log of the LPC (linear predictive analysis) gain, the log area ratio of the first reflection coefficient, and one pitch period. A classifier (cl that is preferably the square correlation coefficient of two speech segments of one frame length)
assifier) is generated. Calculations of these classifiers include digitally sampling analog speech, forming frames of digital samples, and processing these frames, which are well known to those skilled in the art. The generator 101 transmits the classifier to the detectors 102 and 103 via the passage 106.
検出器102および103は通路106を介して受取られた類別
子に応答して無声音/有声音判別を行い、通路107およ
び110の各々を介してこれらの判別をマルチプレクサ105
に伝達する。さらにこれらの検出器は有声音フレームと
無声音フレームとの間の距離尺度を決定し、通路108お
よび109を介してこれらの距離を比較器104に伝送する。
これらの距離はマハラノビス(Maharanobis)距離また
は他の一般化距離であることが好ましい。比較器104は
通路108および109を介して受取られた距離に応答してマ
ルチプレクサ105を制御し、この結果後者のマルチプレ
クサは最大距離を発生している検出器出力を選別する。Detectors 102 and 103 make unvoiced / voiced sound discriminations in response to classifiers received via passages 106 and multiplexes these discriminations via passages 107 and 110, respectively.
Communicate to. In addition, these detectors determine the distance measure between voiced and unvoiced frames and transmit these distances to comparator 104 via paths 108 and 109.
These distances are preferably Maharanobis distances or other generalized distances. Comparator 104 controls multiplexer 105 in response to the distance received via paths 108 and 109 so that the latter multiplexer selects the detector output producing the maximum distance.
第2図は統計的有声音検出器103をさらに詳細に示す。
各音声フレームに対して、通路106を介して類別子発生
器101から類別子のベクトルとも呼ばれる1組の類別子
が受取られる。沈黙検出器201はこれらの類別子に応答
してこのフレーム内に音声が存在するか否かを判別す
る。もし音声が存在すれば、検出器201は通路201を介し
て信号を伝送する。もしフレーム内に音声が存在しなけ
れば(沈黙)、このときのみ減算器207およびU/V(無声
音/有声音)判別器205がその特定のフレームのために
作動する。音声が存在するか否かに関しては、判別器20
5により各フレームごとに無声音/有声音判別が行われ
る。FIG. 2 shows the statistical voiced sound detector 103 in more detail.
For each speech frame, a set of classifiers, also referred to as classifier vectors, is received from the classifier generator 101 via passage 106. Silence detector 201 is responsive to these classifiers to determine if there is speech in this frame. If speech is present, the detector 201 will transmit a signal via the path 201. If no speech is present in the frame (silence), then only then is the subtractor 207 and U / V (unvoiced / voiced) discriminator 205 activated for that particular frame. The discriminator 20 determines whether or not voice is present.
5, unvoiced sound / voiced sound discrimination is performed for each frame.
類別子平均器202は検出器201からの信号に応答して、現
フレームに対する類別子内でそれ以前のフレームに対す
る類別子と平均することにより、通路106を介して受取
られた個々の類別子の平均を維持する。フレーム内にも
し音声(沈黙でない)が存在すれば、沈黙検出器201は
通路210を介して統計的計算器203、発生器206、および
平均器202とに信号を送る。The classifier averager 202 responds to the signal from the detector 201 by averaging the classifiers for the previous frame within the classifier for the current frame to determine the individual classifiers received via the passageway 106. Maintain average. If speech (not silence) is present in the frame, silence detector 201 signals via path 210 to statistical calculator 203, generator 206, and averager 202.
統計的計算器203は有声音フレームおよび無声音フレー
ムに対する統計的分布を計算する。とくに計算器203は
通路210を介して受取られた信号に応答して、あるフレ
ームが無声音である総合確率およびあるフレームが有声
音である確率とを計算する。さらに統計的計算器203
は、そのフレームが無声音であった場合に各類別子が有
するであろう統計値およびそのフレームが有声音であっ
た場合に各類別子が有するであろう統計値とを計算す
る。さらに計算器203は類別子の共分散マトリックスを
計算する。この統計値は平均値であることが好ましい。
計算器203により行われる計算は、現フレームに基づく
のみでなくそれ以前のフレームにも基づいている。統計
的計算器203は、これらの計算を、通路106を介して受取
られる現フレームに対する類別子および通路211を介し
て受取られる類別子の平均に基づくのみでなく、各類別
子のための重みおよびフレームが無声音であるかまたは
有声音であるかを判別するところの、通路213を介して
重み計算器204から受取られたしきい値とに基づいてい
る。Statistical calculator 203 calculates the statistical distribution for voiced and unvoiced frames. In particular, calculator 203 is responsive to the signal received via path 210 to calculate the overall probability that a frame is unvoiced and the probability that a frame is voiced. Further statistical calculator 203
Computes the statistics that each classifier would have if the frame was unvoiced and the statistics that each classifier would have if the frame was voiced. Furthermore, the calculator 203 calculates the covariance matrix of the classifier. This statistical value is preferably an average value.
The calculations performed by calculator 203 are based not only on the current frame, but also on previous frames. Statistical calculator 203 not only bases these calculations on the averages of the classifiers for the current frame received over path 106 and the classifiers received over path 211, as well as the weighting for each classifier. Based on the threshold received from the weight calculator 204 via passage 213 in determining whether the frame is unvoiced or voiced.
重み計算器204は、計算器203により発生された通路212
を介して受取られた現フレームに対する類別子の確率、
共分散マトリックス、および統計値に応答して、各類別
子に対する重みベクトルa、および現フレームに対する
しきい値b、とを再計算する。次にこれらの新しいaお
よびbの値は通路213を介して統計的計算器203に逆伝送
される。The weight calculator 204 includes a path 212 generated by the calculator 203.
The probability of a classifier for the current frame received via
Re-compute the weight vector a for each classifier and the threshold b for the current frame in response to the covariance matrix and the statistics. These new a and b values are then transmitted back to the statistical calculator 203 via path 213.
重み計算器204はまた無声音と有声音との両方の領域内
における類別子のための重みおよび統計値を通路214を
介して判別器205に伝送しかつ通路208を介して発生器20
6に伝送する。後者の発生器はこの情報に応答して距離
尺度を計算し、この距離尺度は次に第1図に示すように
通路109を介して比較器104に伝送される。Weight calculator 204 also transmits weights and statistics for classifiers in both unvoiced and voiced regions to discriminator 205 via path 214 and to generator 20 via path 208.
Transmit to 6. The latter generator is responsive to this information to calculate a distance measure which is then transmitted to the comparator 104 via path 109 as shown in FIG.
U/V(無声音/有声音)判別器205は通路214および215を
介して伝送された情報に応答してこのフレームが無声音
であるかまたは有声音であるかを判別し、この判別器11
0を介して第1図のマルチプレクサ105に伝送する。U / V (unvoiced / voiced sound) discriminator 205 discriminates whether this frame is unvoiced or voiced in response to the information transmitted via passages 214 and 215, and this discriminator 11
It is transmitted to the multiplexer 105 of FIG. 1 via 0.
ここで第2図に示し、ここではベクトルおよびマトリッ
クス数学で与えられる各ブロックの動作をさらに詳細に
説明する。平均器202、統計的計算器203、および重み計
算器204とは、エヌ・イー・ディ(N.E.Dey)著の「混合
正規分布の成分の推定」(“Estimating the Component
s of a Mixture of Normal Distribution"、ビオメトリ
カ[Biometrika]誌、第56巻、第3号、463-474ペー
ジ、1969)という題名の論文に記載されたものに類似の
改良EMアルゴリズムを実行する。くずし平均(decaying
average)の概念を用いて、類別子平均器202は次式
1、2および3を計算することにより、現フレームおよ
びそれ以前のフレームに対する類別子の平均を計算す
る。Shown in FIG. 2 herein, the operation of each block given in vector and matrix mathematics will be described in more detail. The averager 202, the statistical calculator 203, and the weight calculator 204 are referred to as “Estimating the Component” by NEDey.
s of a Mixture of Normal Distribution ", Biometrika, Vol. 56, No. 3, pp. 463-474, 1969). Average (decaying
Using the concept of (average), the classifier averager 202 calculates the average of the classifier for the current frame and the previous frames by calculating the following equations 1, 2 and 3:
n=n+1 ifn<2000 (1) z=1/n (2) Xn=(1−z)Xn-1+zxn (3) xnは現フレームのための類別子を示すベクトルであり、
nは2000までの処理フレーム数である。zはくずし平均
係数を示し、Xn現フレームおよび過去のフレームの全部
の類別子の平均を示す。統計的計算器203はz、xnおよ
びXn情報の受領に応答して、次のようにまず二乗および
積の和のマトリックスQnを計算することにより共分散マ
トリックスTを計算する。n = n + 1 ifn <2000 (1) z = 1 / n (2) X n = (1-z) X n-1 + zx n (3) x n is a vector indicating a classification element for the current frame,
n is the number of processing frames up to 2000. z indicates the average coefficient of the breaks, X n indicates the average of all classifiers of the current frame and the past frame. Statistical calculator 203, in response to receipt of z, x n and X n information, computes covariance matrix T by first computing a square and sum of product matrix Q n as follows.
Qn=(1−z)Qn-1+zxnx′n. (4) Qnが計算されると、次のようにTが計算される。 Q n = (1-z) Q n-1 + zx n x 'n. (4) When Q n is calculated, T is calculated as follows.
T=Qn−XnX′n. (5) 類別子から次のように平均値が差引かれる。 T = Q n -X n X ' n. (5) The average value is subtracted from the classifier as follows.
xn=xn−Xn (6) 次に計算器203は以下に示すように式(7)を解くこと
により、現ベクトルxnにより表わされるフレームが無声
音である確率を決定するが、ここでベクトルaの成分
は、音声エネルギーの対数に対応する成分は、0.391860
6に、LPCゲインの対数に対応する成分は−0.0520902
に、第1反射係数の対数面積比に対応する成分は0.5637
082に、および二乗相関係数に対応する成分は1.361249
に等しく初期化し、またbは最初−8.36454に等しく初
期化することが好ましい。x n = x n −X n (6) Next, the calculator 203 determines the probability that the frame represented by the current vector x n is unvoiced by solving equation (7) as shown below. And the component of vector a is 0.391860, which corresponds to the logarithm of speech energy.
The component corresponding to the logarithm of LPC gain is −0.0520902.
And the component corresponding to the log area ratio of the first reflection coefficient is 0.5637.
The component corresponding to 082 and the square correlation coefficient is 1.361249
Preferably, b is initially equal to-8.36454.
(7)式を解いた後に計算器203は次式を解くことによ
り、類別子が有声音フレームを表わす確率を決定する。 After solving equation (7), the calculator 203 determines the probability that the classifier represents a voiced frame by solving the following equation.
P(v|xn)=1−P(u|xn) (8) 次に計算器203はpnを求める式(9)を解くことによ
り、あるフレームが無声音であろう総合確率を決定す
る。P (v | xn ) = 1-P (u | xn ) (8) Next, the calculator 203 determines the total probability that a frame will be unvoiced by solving the equation (9) for obtaining pn. To do.
pn=(1−z)pn-1+zP(u|xn) (9) フレームが無声音であろうという確率を決定した後に、
次に計算器203は無声音型および有声音型の両方のフレ
ームに対する各類別子の平均値を与える2つのベクトル
uおよびvを決定する。ベクトルuおよびvはそれぞれ
無声音フレームおよび有声音フレームに対する統計的平
均である。統計的平均無声音ベクトルであるベクトルu
は、もしフレームが無声音であるならば各類別子の平均
値を含み;また統計的平均有声音ベクトルであるベクト
ルvは、もしフレームが有声音であるならば各類別子に
対する平均値を与える。以下に示すように、現フレーム
に対するベクトルuは式(10)を計算することにより解
かれ、現フレームに対するベクトルvは式(11)を計算
することにより決定される。 pn = (1-z) pn-1 + zP (u | xn ) (9) After determining the probability that the frame will be unvoiced,
The calculator 203 then determines two vectors u and v which give the average value of each classifier for both unvoiced and voiced frames. Vectors u and v are the statistical averages for unvoiced and voiced frames, respectively. Vector u which is the statistical average unvoiced vector
Contains the mean value of each classifier if the frame is unvoiced; and the vector v, which is the statistical average voiced sound vector, gives the mean value for each classifier if the frame is voiced. As shown below, the vector u for the current frame is solved by calculating equation (10) and the vector v for the current frame is determined by calculating equation (11).
un=(1−z)un-1+zxnP(u|xn)/pn−zxn (10) vn=(1−z)vn-1+zxnP(v|xn)/(1−pn)−zxn
(11) ここで計算器203は、通路212を介してベクトルuおよび
v、マトリックスT、および確率pを重み計算器204に
伝送する。u n = (1-z) u n-1 + zx n P (u | x n ) / pn −zx n (10) v n = (1-z) v n-1 + zx n P (v | x n ) / (1-p n ) −zx n
(11) Here, the calculator 203 transmits the vectors u and v, the matrix T, and the probability p to the weight calculator 204 via the path 212.
重み計算器204はこの情報に応答してベクトルaおよび
スカラーbに対する新しい値を計算する。次にこれらの
新しい値は通路213を介して統計的計算器203に逆伝送さ
れる。これにより検出器103は変化する環境に迅速に適
応可能である。ベクトルaおよびスカラーbに対する新
しい値が統計的計算器203に逆伝送されなくても、ベク
トルvおよびuが最新の値とされているので検出器103
は変化する環境に適応し続けるであろう。明らかなよう
に、判別器205はベクトルuおよびvならびにベクトル
aおよびスカラーbを用いて音声判別を行う。nが好ま
しくは99より大きくなると、ベクトルaおよびスカラー
bは次式のように計算される。ベクトルaは次式を解く
ことにより決定される。Weight calculator 204 is responsive to this information to calculate new values for vector a and scalar b. These new values are then transmitted back to the statistical calculator 203 via path 213. This allows the detector 103 to quickly adapt to changing environments. Even if the new values for the vector a and the scalar b are not transmitted back to the statistical calculator 203, since the vectors v and u have the latest values, the detector 103
Will continue to adapt to the changing environment. As is apparent, the discriminator 205 makes speech discrimination using the vectors u and v, and the vector a and the scalar b. When n is preferably greater than 99, vector a and scalar b are calculated as: The vector a is determined by solving the following equation.
スカラーbは次式を解くことにより決定される。 The scalar b is determined by solving the following equation.
式(12)および(13)を計算した後に、重み計算器204
は通路214を介してベクトルa、u、およびvをu/v判別
器205に伝送する。もしフレームが沈黙を含んだ場合は
式(6)のみが計算される。 After calculating equations (12) and (13), the weight calculator 204
Transmits the vectors a, u, and v to the u / v discriminator 205 via the path 214. If the frame contains silence, only equation (6) is calculated.
判別器205はこの伝送された情報に応答して現フレーム
が有声音であるかまたは無声音であるかを判別する。も
し出力に対応するベクトル(vn−un)の成分が正であれ
ば、このときは、もし次式が真であるならばフレームは
有声音であると宣言される。The discriminator 205 determines whether the current frame is voiced or unvoiced in response to the transmitted information. If the component of the vector (v n −u n ) corresponding to the output is positive, then the frame is declared to be voiced if the following is true:
axn−a(un+vn)/2>0 (14) またもし出力に対応するベクトル(vn−un)の成分が負
であれば、このときは、もし次式が真であるならばフレ
ームは有声音であると宣言される。ax n −a (u n + v n ) / 2> 0 (14) If the component of the vector (v n −u n ) corresponding to the output is negative, then the following expression is true. Then the frame is declared to be voiced.
axn−a(un+vn)/2<0 (15) 式(14)はまた次式のようにも書替えられる。ax n −a (u n + v n ) / 2 <0 (15) Equation (14) can also be rewritten as the following equation.
a′xn+b−log[(1−pn)/pn]>0 式(15)はまた次式のようにも書き替えられる。 a'x n + b-log [( 1-p n) / p n]> 0 formula (15) can also be rewritten to the following equation.
a′xn+b−log[(1−pn)/pn]<0 もし前記の条件が満たされないならば、判別器205は、
フレームが無声音であると宣言する。式(14)および
(15)は音声判別を行うための判別領域を表わす。式
(14)および(15)の書替え形式のlogの項は性能を少
し変えれば省略可能である。本実施例においては、出力
に対応する成分は音声エネルギーのlogであるのが好ま
しい。If a'x n + b-log [( 1-p n) / p n] <0 If the above conditions are not met, discriminator 205,
Declare the frame to be unvoiced. Expressions (14) and (15) represent a discrimination area for performing voice discrimination. The rewritten log terms in Eqs. (14) and (15) can be omitted if the performance is changed slightly. In this embodiment, the component corresponding to the output is preferably the log of the sound energy.
発生器206は通路214を介して計算器204から受取られた
情報に応答して次のように距離尺度Aを計算する。まず
最初に、次のよう式(16)により識別変数dが計算され
る。The generator 206 is responsive to the information received from the calculator 204 via the path 214 to calculate the distance measure A as follows. First, the discriminant variable d is calculated by the following equation (16).
d=a′xn+b−log[(1−pn)/pn] (16) 次の諸式で用いるためのdに類似の値を発生するため
に、種々のタイプの音声検出器を用いることは好まし
く、これは当業者には明らかであろう。このような検出
器の1つが自己相関検出器であろう。もしフレームが有
声音であれば、式(17)ないし(20)は次のように解か
れる。d = a'x n + b-log in [(1-p n) / p n] (16) for generating the similar values to d for use in the next Shoshiki, various types of speech detector It is preferred to use and this will be clear to the skilled person. One such detector would be an autocorrelation detector. If the frame is voiced, then equations (17) through (20) are solved as follows.
m1=(1−z)m1+zd, (17) s1=(1−z)s1+zd2, (18) k1=s1−▲m2 1▼ (19) ここでm1は有声音フレームに対する平均であり、k1は有
声音フレームに対する分散である。m 1 = (1-z) m 1 + zd, (17) s 1 = (1-z) s 1 + zd 2, (18) k 1 = s 1 − ▲ m 2 1 ▼ (19) where m 1 is It is the average for voiced frames and k 1 is the variance for voiced frames.
フレームが無声音であると判別器205が宣言するであろ
う確率Pdは次式で計算される。The probability P d that the discriminator 205 will declare the frame to be unvoiced is calculated by:
Pd=(1−z)Pd. (20) Pdは最初0.5に設定されるのが好ましい。P d = (1-z) P d . (20) P d is preferably initially set to 0.5.
もしフレームが無声音ならば、式(21)ないし(24)は
次のように解かれる。If the frame is unvoiced, equations (21) through (24) are solved as follows.
m0=(1−z)m0+zd (21) s0=(1−z)s0+zd2, (22) k0=s0−▲m2 0▼・ (23) フレームが無声音であると判別器205が宣言するであろ
う確率Pdは次式で計算される。 m 0 = (1-z) m 0 + zd (21) s 0 = (1-z) s 0 + zd 2, (22) k 0 = s 0 - ▲ m 2 0 ▼ · (23) frames is unvoiced The probability P d that the discriminator 205 will declare is calculated by the following equation.
Pd=(1−z)Pd+z. (24) 式(16)ないし(22)を計算した後に距離尺度すなわち
メリット値が次のように計算される。 Pd = (1-z) Pd + z. (24) After calculating the equations (16) to (22), the distance measure, that is, the merit value is calculated as follows.
式(25)はホテリング(Hotelling)の2サンプルT2統
計を用いて距離尺度を計算する。式(25)に対して、メ
リット値が大きくなればなるほど分離は大きくなる。し
かしながら他のメリット値は、メリット値が小さくなれ
ばなるほど分離が大きくなるところに存在する。好まし
くは距離尺度は次式で与えられるマハラノビス距離であ
ってよい。 Equation (25) calculates the distance measure using the Hotelling 2-sample T 2 statistic. For equation (25), the greater the merit value, the greater the separation. However, other merit values exist where the smaller the merit value, the greater the separation. Preferably, the distance measure may be the Mahalanobis distance given by
好ましくは第3の方法は次式で与えられる。 Preferably the third method is given by:
好ましくは距離尺度を計算するための第4の方法は次式
で示される。 A fourth method for calculating the distance measure is preferably given by:
A2=a′(vn−un) (28) 識別検出器102は、もしa′X+b>0ならば有声音フ
レームを指示する情報を通路107を介してマルチプレク
サ105に伝送することにより無声音/有声音判別を行
う。もしこの条件が真でなければ、このときは検出器10
2は無声音フレームを指示する。検出器102により使用さ
れるベクトルaおよびスカラーbに対する値は好ましい
ことに統計的有声音検出器103に対するaおよびbの初
期値と同一である。A 2 = a ′ (v n −u n ) (28) The identification detector 102 transmits the unvoiced sound by transmitting the information indicating the voiced frame to the multiplexer 105 via the path 107 if a′X + b> 0. / Perform voiced sound discrimination. If this condition is not true then the detector 10
2 indicates unvoiced sound frame. The values for vector a and scalar b used by detector 102 are preferably the same as the initial values of a and b for statistical voiced sound detector 103.
検出器102は、式(16)ないし(28)に与えられるもの
と類似の計算を実行することにより発生器206に類似の
方法で距離尺度を決定する。Detector 102 determines the distance measure in a manner similar to generator 206 by performing calculations similar to those given in equations (16)-(28).
第3図および第4図は第2図の統計的有声音検出器103
により実施される操作を流れ図の形式でさらに詳細に示
す。ブロック302および300はそれぞれ第2図のブロック
202および201を実行する。ブロック304ないし318は統計
的計算器203を実行する。ブロック320および322は重み
計算器204を実行し、ブロック326ないし338は第2図の
ブロック205を実行する。第2図の発生器206はブロック
340により実行される。減算器207はブロック308または
ブロック324により実行される。3 and 4 show the statistical voiced sound detector 103 of FIG.
The operations performed by are illustrated in more detail in flow chart form. Blocks 302 and 300 are the blocks of FIG. 2, respectively
Perform 202 and 201. Blocks 304-318 implement the statistical calculator 203. Blocks 320 and 322 implement weight calculator 204 and blocks 326-338 implement block 205 of FIG. The generator 206 in FIG. 2 is a block
Performed by the 340. Subtractor 207 is implemented by block 308 or block 324.
ブロック302は現フレームとそれ以前の全てのフレーム
とに対する類別子の平均を示すベクトルを計算する。ブ
ロック300は現フレーム内には音声が存在するか否かま
たは沈黙が存在するかを判別する。そしてもし現フレー
ム内に沈黙が存在すれば、制御が判別ブロック326に引
渡される前にブロック324により各類別子から各類別子
に対する平均が差引かれる。しかしながらもし現フレー
ム内に音声が存在すれば、このときはブロック304ない
し322により統計的計算および重み計算が実行される。
まず第1番目にブロック302において平均ベクトルが求
められる。第2番目にブロック304において二乗および
積の和のマトリックスが計算される。次にブロック306
において、現フレームおよび過去のフレームに対する類
別子の平均を示すベクトルXと共に後者のマトリックス
が使用されて共分散マトリックスTを計算する。次にブ
ロック308において類別子ベクトルxnからXが差引かれ
る。Block 302 computes a vector indicating the average classifier for the current frame and all previous frames. Block 300 determines if there is speech or silence in the current frame. And if there is silence in the current frame, block 324 subtracts the average for each classifier from each classifier before control is passed to decision block 326. However, if speech is present in the current frame, then blocks 304-322 perform statistical and weight calculations.
First, in block 302, the average vector is determined. Second, at block 304, a matrix of sums of squares and products is calculated. Then block 306
In, the latter matrix is used with a vector X that indicates the mean of the classifiers for the current and past frames to compute the covariance matrix T. Next, at block 308, X is subtracted from the classifier vector x n .
次にブロック310は、現在の重みベクトルa、現在のし
きい値bおよび現フレームに対する類別子ベクトルxnと
を利用することにより、現フレームが無声音である確率
を計算する。現フレームが無声音であるという確率を計
算した後に、ブロック312により現フレームが有声音で
ある確率が計算される。次にブロック314によりあるフ
レームが無声音であろうという総合確率pnが計算され
る。Next, block 310, the current weight vector a, by utilizing the Ruibetsuko vector x n for the current thresholds b and the current frame, the current frame is to calculate the probability of unvoiced. After calculating the probability that the current frame is unvoiced, block 312 calculates the probability that the current frame is voiced. Next, block 314 calculates the overall probability p n that a frame will be unvoiced.
ブロック316及び318は2つのベクトルu及びvを計算す
る。ベクトルuの中に含まれる値は、もしそのフレーム
が無声音であったならば各類別子がもつであろう統計的
平均値を表わす。一方ベクトルvは、もしそのフレーム
が有声音であったならば各類別子がもつであろう統計的
平均値を表わす値を含む。現フレームおよびそれ以前の
フレームに対する類別子の実際の値はベクトルuまたは
ベクトルvのまわりにクラスタ(集団化)される。もし
これらのフレームが無声音であることがわかると、それ
以前のフレームおよび現フレームに対する類別子を表わ
すベクトルはベクトルuのまわりにクラスタされ;そう
でなければそれ以前の類別子ベクトルはベクトルvの回
りにクラスタされる。Blocks 316 and 318 compute two vectors u and v. The value contained in the vector u represents the statistical mean value that each classifier would have if the frame were unvoiced. The vector v, on the other hand, contains a value that represents the statistical mean that each classifier would have if the frame were voiced. The actual values of the classifier for the current frame and previous frames are clustered around vector u or vector v. If these frames are found to be unvoiced, the vectors representing the classifiers for the previous frame and the current frame are clustered around the vector u; otherwise the previous classifier vector is rotated around the vector v. Clustered in.
ブロック316および318を実施した後に制御は判別ブロッ
ク320に引渡される。もしNが99より大であれば制御は
ブロック322に引渡され;そうでなければ制御はブロッ
ク326に引渡される。制御を受取ると、ブロック322は次
に新しい重みベクトルaおよび新しいしきい値bを計算
する。ベクトルaおよび値bは次に続くフレーム内で第
3図内のそれに先行するブロックにより使用される。好
ましくは、もしNが無限大より大であることが要求され
るならば、ベクトルaおよびスカラーbは決して変えら
れないで、検出器103はブロック326ないし338内に示す
ようにベクトルvおよびuにのみ応答して適応するであ
ろう。After performing blocks 316 and 318, control passes to decision block 320. If N is greater than 99 then control is passed to block 322; otherwise control is passed to block 326. Upon receiving control, block 322 then calculates a new weight vector a and a new threshold b. Vector a and value b are used by the block preceding it in FIG. 3 in the subsequent frame. Preferably, if N is required to be greater than infinity, vector a and scalar b are never changed, and detector 103 sets vectors v and u as shown in blocks 326-338. Only would respond and adapt.
ブロック326ないし338は第2図のu/v判別器205を実行す
る。ブロック326は現フレームのベクトルvのパワー項
(power term)がベクトルuのパワー項以上か否かを判
別する。もしこの条件が真であれば、このときは判別ブ
ロック328が実行される。後者の判別ブロックは、テス
トにより有声音かまたは無声音かを判別する。もしブロ
ック328の判別においてフレームが有声音であることが
わかると、このときフレームはブロック330により有声
音として表示され、そうでなければフレームはブロック
332により無声音として表示される。もしベクトルvの
パワー項が現フレームに対するベクトルuの出力項より
小であるならば、ブロック334ないし338の機能が実行さ
れ同様に機能する。最後にブロック340が距離尺度を計
算する。Blocks 326 to 338 implement the u / v discriminator 205 of FIG. Block 326 determines whether the power term of vector v in the current frame is greater than or equal to the power term of vector u. If this condition is true, then decision block 328 is executed. The latter discriminating block discriminates whether voiced or unvoiced by a test. If it is determined in block 328 that the frame is voiced, then the frame is displayed as voiced by block 330, otherwise the frame is blocked.
Displayed as unvoiced by 332. If the power term of vector v is less than the output term of vector u for the current frame, the functions of blocks 334-338 are performed and function similarly. Finally, block 340 calculates the distance measure.
第5図は第4図のブロック340により実行される動作を
流れ図の形でさらに詳細に示す。判別ブロック501は、
ブロック330、332、336または338の結果を調べることに
よりフレームが無声音と指示されたかまたは有声音と指
示されたかを判別する。もしフレームが有声音と指定さ
れたならば通路507が選択される。ブロック510は確率Pd
を計算し、ブロック502は有声音フレームに対する平均m
1を再計算し、およびブロック503は有声音フレームに対
する分散k1を再計算する。もしフレームが無声音と判別
されたならば判別ブロック501は通路508を選択する。ブ
ロック509は確率Pdを再計算し、およびブロック504は無
声音フレームに対する平均m0を再計算し、およびブロッ
ク505は無声音フレームに対する分散k0を再計算する。
最後にブロック506は指示された計算を実行することに
より距離尺度を計算する。FIG. 5 illustrates, in flowchart form, the operations performed by block 340 of FIG. 4 in further detail. The determination block 501 is
The result of blocks 330, 332, 336 or 338 is examined to determine if the frame was designated as unvoiced or voiced. If the frame is designated as voiced, passage 507 is selected. Block 510 has probability P d
And block 502 averages m for voiced frames.
1 recalculates the, and block 503 recalculates the variance k 1 for voiced frames. If the frame is determined to be unvoiced, decision block 501 selects path 508. Block 509 recalculates the probability P d , block 504 recalculates the mean m 0 for unvoiced frames, and block 505 recalculates the variance k 0 for unvoiced frames.
Finally, block 506 calculates the distance measure by performing the indicated calculations.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−48898(JP,A) 特開 昭60−200300(JP,A) 特開 昭60−114900(JP,A) IEEE Transactions on Acoustics,Speec h,and Signal Proces sing Vol.ASSP−24,No. 3,June 1976,P.201−212 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP 61-48898 (JP, A) JP 60-200300 (JP, A) JP 60-114900 (JP, A) IEEE Transactions on Acoustics, Speed, and Signal Procedures Vol. ASSP-24, No. 3, June 1976, p. 201-212
Claims (23)
ある非トレーニングセット音声フレームの有声判別を実
行し表示する複数の検出手段を有する有声判定装置にお
いて、 各検出手段が、現在および過去のフレームの有声判別領
域と無声判別領域との間の分離を定義するメリット値を
計算する計算手段を有し、 前記装置は、最良のメリット値を計算した検出手段(以
下「最良検出手段」という。)を選択し、現在のフレー
ムの有声判別を表示する手段をさらに有することを特徴
とする有声判定装置。1. A voiced decision device having a plurality of detection means for executing and displaying a voiced decision of a non-training set speech frame which is either voiced, unvoiced or unvoiced, wherein each of the detection means is present or past. The apparatus has a calculation unit that calculates a merit value that defines the separation between the voiced discrimination region and the unvoiced discrimination region of the frame, and the apparatus has a detection unit that calculates the best merit value (hereinafter referred to as “best detection unit”). ) Is selected, and a voiced discrimination device for displaying the voiced discrimination of the current frame is further provided.
決定するために統計的計算を実行することを特徴とする
請求項1の装置。2. Apparatus according to claim 1, characterized in that the calculating means of each detecting means perform a statistical calculation to determine the merit value.
とを特徴とする請求項2の装置。3. The apparatus of claim 2, wherein the statistical calculation is a distance measure calculation.
と、 現在および過去の有声フレームの平均値を決定する手段
と、 現在および過去の有声フレームの分散値を決定する手段
と、 現在および過去の無声フレームの平均値を決定する手段
と、 現在および過去の無声フレームの分散値を決定する手段
と、 決定された有声フレームの平均値および分散値ならびに
決定された無声フレームの平均値および分散値からメリ
ット値を決定するメリット値決定手段とを有することを
特徴とする請求項2の装置。4. The calculation means determines means for identifying variables of current and past frames, means for determining an average value of current and past voiced frames, and variance values of current and past voiced frames. A means for determining, a means for determining the average value of the current and past unvoiced frames, a means for determining the variance value of the current and past unvoiced frames, and a determined average and variance value of the voiced frames and the determined 3. The apparatus according to claim 2, further comprising merit value determining means for determining a merit value from an average value and a variance value of unvoiced frames.
と、 前記有声フレームの平均値から前記無声フレームの平均
値を差引く手段と、 差引かれた値を二乗する手段と、 前記重みつき和を前記二乗された値で除し、この除算結
果から前記メリット値を発生する除算手段とからなるこ
とを特徴とする請求項4の装置。5. The merit value determining means, means for obtaining a sum of the variance values, weighted sum calculating means for calculating a weighted sum of the variance values, and an average value of the voiced frames for the unvoiced frames. It is characterized by comprising means for subtracting the average value, means for squaring the subtracted value, and division means for dividing the weighted sum by the squared value and generating the merit value from the division result. The device according to claim 4.
ると表示する第1の確率を計算する手段と、 前記最良検出手段が現在のフレームが無声フレームであ
ると表示する第2の確率を計算する手段と、 前記現在および過去の有声フレームの分散値に前記第1
確率を乗じ、前記現在および過去の無声フレームの分散
値に前記第2確率を乗ずる手段と、 この乗算の結果から前記重みつき和を形成する手段とか
らなることを特徴とする請求項5の装置。6. The weighted sum calculation means calculates a first probability that the best detection means indicates that the current frame is a voiced frame, and the best detection means causes the current frame to be an unvoiced frame. Means for calculating a second probability of indicating that the first and the variance values of the current and past voiced frames are
6. The apparatus of claim 5, comprising means for multiplying a probability and multiplying the variances of the current and past unvoiced frames by the second probability, and means for forming the weighted sum from the result of this multiplication. .
るために、前記除算結果に前記第1および第2の確率を
乗ずる手段を有することを特徴とする請求項6の装置。7. The apparatus according to claim 6, wherein said division means has means for multiplying said division result by said first and second probabilities to generate said merit value.
トに応答して統計的パラメータのセットを計算する統計
的パラメータセット計算手段と、 計算されたパラメータのセットに応答して前記類別子の
それぞれに対応する重みを計算する重みセット計算手段
と、 計算された重みおよび類別子のセットならびに前記パラ
メータのセットに応答して前記現在のフレームの有声判
別を実行する手段とをさらに有することを特徴とする請
求項7の装置。8. A statistical parameter set calculation means for calculating a set of statistical parameters in response to a set of classifiers defining speech attributes of the current frame, and the set of calculated parameters. Weight set calculation means for calculating weights corresponding to each of the classifiers in response to, and performing voiced discrimination of the current frame in response to the calculated set of weights and classifiers and the set of parameters. 8. The apparatus of claim 7, further comprising means.
手段と、 前記重みのセットおよび前記しきい値を前記統計的パラ
メータセット計算手段に通知する手段とからなり、 前記統計的パラメータセット計算手段は、通知された重
みのセットおよび前記現在のフレームとは異なるフレー
ムの音声属性を定義する類別子のセットにも応答するこ
とを特徴とする請求項8の装置。9. The weight set calculation means calculates a threshold value in response to the set of parameters, and means for notifying the statistical parameter set calculation means of the set of weights and the threshold value. 9. The statistical parameter set calculation means is also responsive to a set of weights reported and a set of classifiers defining speech attributes of a frame different from the current frame. Equipment.
である非トレーニングセット音声フレームに対して、 現在および過去のフレームに対する有声判別領域と無声
判別領域との間の分離の程度を表す第1の一般化距離値
を計算し、現在のフレームが有声フレームであることを
表示する第1の信号を発生する第1の手段と、 現在および過去のフレームに対する有声判別領域と無声
判別領域との間の分離の程度を表す第2の一般化距離値
を計算し、現在のフレームが有声フレームであることを
表示する第2の信号を発生する第2の手段と、 前記第1一般化距離値が前記第2一般化距離値より良い
ときに前記第1信号を選択し、前記第2一般化距離値が
前記第1一般化距離値より良いときに前記第2信号を選
択する手段とからなることを特徴とする有声判定装置。10. For a non-training set speech frame that is either voiced, unvoiced or unvoiced, a first representation of the degree of separation between the voiced and unvoiced discriminant regions for the current and past frames. Between a voiced discrimination region and a voiced discrimination region for the current and past frames, the first means for calculating a generalized distance value of the first frame and generating a first signal indicating that the current frame is a voiced frame. Second means for calculating a second generalized distance value representative of the degree of separation of the first frame and generating a second signal indicating that the current frame is a voiced frame; Means for selecting the first signal when it is better than the second generalized distance value, and selecting the second signal when the second generalized distance value is better than the first generalized distance value. Featuring Voiced determination device that.
であることを特徴とする請求項10の装置。11. The apparatus of claim 10, wherein the generalized distance value is a Mahalanobis distance value.
て統計的パラメータのセットを計算する手段と、 計算されたパラメータのセットに応答して前記類別子の
それぞれに対応する重みを計算する手段と、 計算された重みおよび類別子のセットならびに前記パラ
メータのセットに応答して前記現在のフレームが有声フ
レームであると判定する手段とをさらに有することを特
徴とする請求項11の装置。12. The means for calculating a set of statistical parameters in response to a set of classifiers defining speech attributes of a frame, and the classifier in response to the set of calculated parameters. Further comprising means for calculating weights corresponding to each of the, and means for determining the current frame to be a voiced frame in response to the calculated set of weights and classifiers and the set of parameters. The apparatus of claim 11, wherein:
ータのセットおよび前記計算された重みのセットに応答
して前記第1一般化距離値を決定する手段を有すること
を特徴とする請求項12の装置。13. The first means comprises means for determining the first generalized distance value in response to the set of calculated parameters and the set of calculated weights. 12 devices.
ことを特徴とする請求項13の装置。14. The apparatus of claim 13 wherein said second means is a discriminant voiced sound detector.
と、 現在および過去の有声フレームの分散値を決定する手段
と、 現在および過去の無声フレームの平均値を決定する手段
と、 現在および過去の無声フレームの分散値を決定する手段
と、 決定された有声フレームの平均値および分散値ならびに
決定された無声フレームの平均値および分散値から前記
第2一般化距離値を決定する第2一般化距離値決定手段
とを有することを特徴とする請求項14の装置。15. The second means determines a mean value of current and past voiced frames, a means to determine a variance value of current and past voiced frames, and a mean value of current and past unvoiced frames. Determining the variance value of the current and past unvoiced frames, and the second generalization from the determined average value and variance value of the voiced frame and the determined average value and variance value of the unvoiced frame. 15. The apparatus of claim 14, further comprising second generalized distance value determining means for determining a distance value.
値を差引く手段と、 差引かれた値を二乗する手段と、 前記分散値の重みつき和を前記二乗された値で除し、こ
れにより前記第2一般化距離値を発生する手段とからな
ることを特徴とする請求項15の装置。16. The second generalized distance value determining means, means for calculating a weighted sum of the variance values, means for subtracting the average value of the unvoiced frames from the average value of the voiced frames, 16. The method according to claim 15, further comprising: means for squaring an averaged value and means for dividing the weighted sum of the variance values by the squared value to generate the second generalized distance value. apparatus.
声判別を実行し表示する第1および第2の有声音検出器
を使用する有声判定方法において、 現在および過去のフレームの有声判別領域と無声判別領
域との間の分離を定義する第1のメリット値を前記第1
有声音検出器により計算するステップと、 現在および過去のフレームの有声判別領域と無声判別領
域との間の分離を定義する第2のメリット値を前記第2
有声音検出器により計算するステップと、 前記第1メリット値が前記第2メリット値より良いとき
有声判別を表示するために前記第1有声音検出器を選択
し、前記第2メリット値が前記第1メリット値より良い
とき有声判別を表示するために第2有声音検出器を選択
するステップとからなることを特徴とする有声判別方
法。17. A voiced discrimination method using first and second voiced sound detectors for executing and displaying voiced discrimination of an untrained set speech frame, comprising a voiced discrimination area and an unvoiced discrimination area of a current frame and a past frame. The first merit value defining the separation between
The step of calculating with a voiced sound detector and a second merit value defining the separation between voiced and unvoiced discriminant regions of the current and past frames
Calculating with a voiced sound detector, selecting the first voiced sound detector to display a voiced discrimination when the first merit value is better than the second merit value, and the second merit value is the second merit value. A voiced discrimination method comprising the step of selecting a second voiced sound detector to display the voiced discrimination when it is better than one merit value.
するステップがそれぞれ前記第1および第2のメリット
値をそれぞれ決定するために統計的計算を実行するステ
ップを有することを特徴とする請求項17の方法。18. The step of calculating the first and second merit values comprises the step of performing a statistical calculation to determine the first and second merit values, respectively. The method of paragraph 17.
ことを特徴とする請求項18の方法。19. The method of claim 18, wherein the statistical calculation is a distance measure calculation.
が、 現在および過去の各フレームの識別変数を決定するステ
ップと、 現在および過去の有声フレームの平均値を決定するステ
ップと、 現在および過去の有声フレームの分散値を決定するステ
ップと、 現在および過去の無声フレームの平均値を決定するステ
ップと、 現在および過去の無声フレームの分散値を決定するステ
ップと、 決定された有声フレームの平均値および分散値ならびに
決定された無声フレームの平均値および分散値から前記
第1メリット値を決定するステップとからなることを特
徴とする請求項18の方法。20. The step of calculating the first merit value comprises the steps of determining an identification variable for each of the current and past frames, determining an average value of the current and past voiced frames, and presenting the current and past frames. Determining the variance of the voiced frames, determining the average of the current and past unvoiced frames, determining the variance of the current and past unvoiced frames, and determining the average of the determined voiced frames and 19. The method of claim 18, comprising determining the first merit value from a variance value and the average and variance values of the determined unvoiced frames.
が、 前記分散値の和を求めるステップと、 前記分散値の重みつき和を計算するステップと、 前記有声フレームの平均値から前記無声フレームの平均
値を差引くステップと、 差引かれた値を二乗するステップと、 前記分散値の重みつき和を前記二乗された値で除し、こ
の除算結果から前記第1メリット値を発生する除算ステ
ップとを有することを特徴とする請求項20の方法。21. The step of determining the first merit value, the step of obtaining the sum of the variance values, the step of calculating a weighted sum of the variance values, and the step of calculating the weighted sum of the variance values of the unvoiced frame from the average value of the voiced frames. A step of subtracting an average value, a step of squaring the subtracted value, a step of dividing the weighted sum of the variance values by the squared value, and a step of generating the first merit value from the division result. 21. The method of claim 20, comprising:
であると表示する第1の確率を計算するステップと、 前記第1有声音検出器が現在のフレームが無声フレーム
であると表示する第2の確率を計算するステップと、 前記現在および過去の有声フレームの分散値に前記第1
確率を乗じ、前記現在および過去の無声フレームの分散
値に前記第2確率を乗ずるステップと、 この乗算の結果から前記重みつき和を形成するステップ
とからなることを特徴とする請求項21の方法。22. The step of calculating the weighted sum calculates the first probability that the first voiced sound detector indicates that the current frame is a voiced frame, and the first voiced sound detection. Calculating a second probability that the instrument indicates that the current frame is an unvoiced frame, the variance value of the current and past voiced frames being the first
22. The method of claim 21, comprising multiplying a probability and multiplying the variances of the current and past unvoiced frames by the second probability, and forming the weighted sum from the results of this multiplication. .
値を発生するために、前記除算結果に前記第1および第
2の確率を乗ずるステップを有することを特徴とする請
求項22の方法。23. The method of claim 22, wherein the dividing step comprises multiplying the division result by the first and second probabilities to produce the first merit value.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US3429787A | 1987-04-03 | 1987-04-03 | |
| US34,297 | 1987-04-03 | ||
| PCT/US1988/000123 WO1988007740A1 (en) | 1987-04-03 | 1988-01-11 | Distance measurement control of a multiple detector system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH01502853A JPH01502853A (en) | 1989-09-28 |
| JPH0795238B2 true JPH0795238B2 (en) | 1995-10-11 |
Family
ID=21875527
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63501560A Expired - Fee Related JPH0795238B2 (en) | 1987-04-03 | 1988-01-11 | Voiced determination device and voiced determination method |
Country Status (8)
| Country | Link |
|---|---|
| EP (1) | EP0310636B1 (en) |
| JP (1) | JPH0795238B2 (en) |
| AT (1) | ATE80488T1 (en) |
| CA (1) | CA1336212C (en) |
| DE (1) | DE3874471T2 (en) |
| HK (1) | HK108993A (en) |
| SG (1) | SG59693G (en) |
| WO (1) | WO1988007740A1 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
| JP3670217B2 (en) | 2000-09-06 | 2005-07-13 | 国立大学法人名古屋大学 | Noise encoding device, noise decoding device, noise encoding method, and noise decoding method |
| JP4517045B2 (en) * | 2005-04-01 | 2010-08-04 | 独立行政法人産業技術総合研究所 | Pitch estimation method and apparatus, and pitch estimation program |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60114900A (en) * | 1983-11-25 | 1985-06-21 | 松下電器産業株式会社 | Voice/voiceless discrimination |
| JPS60200300A (en) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | Voice head/end detector |
| JPS6148898A (en) * | 1984-08-16 | 1986-03-10 | 松下電器産業株式会社 | Voiced/unvoiced determination device |
-
1988
- 1988-01-11 EP EP88901684A patent/EP0310636B1/en not_active Expired - Lifetime
- 1988-01-11 AT AT88901684T patent/ATE80488T1/en active
- 1988-01-11 WO PCT/US1988/000123 patent/WO1988007740A1/en not_active Ceased
- 1988-01-11 DE DE8888901684T patent/DE3874471T2/en not_active Expired - Fee Related
- 1988-01-11 JP JP63501560A patent/JPH0795238B2/en not_active Expired - Fee Related
- 1988-03-29 CA CA000562766A patent/CA1336212C/en not_active Expired - Fee Related
-
1993
- 1993-05-07 SG SG596/93A patent/SG59693G/en unknown
- 1993-10-14 HK HK1089/93A patent/HK108993A/en not_active IP Right Cessation
Non-Patent Citations (1)
| Title |
|---|
| IEEETransactionsonAcoustics,Speech,andSignalProcessingVol.ASSP−24,No.3,June1976,P.201−212 |
Also Published As
| Publication number | Publication date |
|---|---|
| DE3874471T2 (en) | 1993-02-25 |
| JPH01502853A (en) | 1989-09-28 |
| DE3874471D1 (en) | 1992-10-15 |
| AU602957B2 (en) | 1990-11-01 |
| EP0310636B1 (en) | 1992-09-09 |
| HK108993A (en) | 1993-10-22 |
| CA1336212C (en) | 1995-07-04 |
| AU1242988A (en) | 1988-11-02 |
| EP0310636A1 (en) | 1989-04-12 |
| WO1988007740A1 (en) | 1988-10-06 |
| ATE80488T1 (en) | 1992-09-15 |
| SG59693G (en) | 1993-07-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1083542B1 (en) | A method and apparatus for speech detection | |
| US8428945B2 (en) | Acoustic signal classification system | |
| EP0691022B1 (en) | Speech recognition with pause detection | |
| EP0335521B1 (en) | Voice activity detection | |
| US5046100A (en) | Adaptive multivariate estimating apparatus | |
| US5007093A (en) | Adaptive threshold voiced detector | |
| US4972490A (en) | Distance measurement control of a multiple detector system | |
| JPH0795238B2 (en) | Voiced determination device and voiced determination method | |
| Silsbee | Sensory integration in audiovisual automatic speech recognition | |
| CA1337708C (en) | Adaptive multivariate estimating apparatus | |
| JP2797861B2 (en) | Voice detection method and voice detection device | |
| US7292981B2 (en) | Signal variation feature based confidence measure | |
| EP0309561B1 (en) | An adaptive threshold voiced detector | |
| AU612737B2 (en) | A phoneme recognition system | |
| CN121596351B (en) | Unmanned aerial vehicle detection method and system based on voiceprint recognition and microphone array | |
| KR100349656B1 (en) | Apparatus and method for speech detection using multiple sub-detection system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |