JPH0448239B2 - - Google Patents
Info
- Publication number
- JPH0448239B2 JPH0448239B2 JP59177679A JP17767984A JPH0448239B2 JP H0448239 B2 JPH0448239 B2 JP H0448239B2 JP 59177679 A JP59177679 A JP 59177679A JP 17767984 A JP17767984 A JP 17767984A JP H0448239 B2 JPH0448239 B2 JP H0448239B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- residual
- frame
- pitch period
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
- Cyclones (AREA)
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明はピツチ抽出処理方式、特に音声の有声
区間を複数のフレームに分割し、該分割した各フ
レームについて夫々求めた自己相関係数等を用い
てピツチ周期を算出する際に、当該分割した複数
のフレームを一体とした形で連続性を保持しつつ
前記算出した自己相関係数の累積値が最大となる
経路に対応する形でピツチ周期を高精度かつ簡単
に算出するよう構成したピツチ抽出処理方式に関
するものである。[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a pitch extraction processing method, in particular, a method for dividing a voiced section of speech into a plurality of frames, and calculating an autocorrelation coefficient etc. obtained for each of the divided frames. When calculating the pitch period using the above method, the pitch period is calculated in a form corresponding to the path where the cumulative value of the calculated autocorrelation coefficient is maximum while maintaining the continuity of the plurality of divided frames as a whole. This invention relates to a pitch extraction processing method configured to calculate easily and with high accuracy.
従来、音声の有声区間の残差波形等からピツチ
周期(基本周波数の周期)を算出する場合、当該
残差波形を所定時間間隔毎にフレームの形に分割
し、各フレーム毎に算出した自己相関係数の一番
大きな値が得られた位置からピツチ周期を夫々フ
レーム毎に独立に算出していた。このように、該
算出方式では各フレーム毎に独立にピツチ周期を
算出しているため、本来のピツチ周期の2倍、3
倍…等の周期でピツチ周波数が検出される場合が
あつたり、また何等かの原因によつて相関係数の
値が大きくなつた位置に対応する形でピツチ周期
が算出される場合があつたため、ピツチ周期の精
度高く算出することが困難となつてしまうという
問題点があつた。
Conventionally, when calculating the pitch period (period of the fundamental frequency) from the residual waveform of a voiced section of speech, the residual waveform is divided into frames at predetermined time intervals, and the self-phase calculated for each frame is calculated. The pitch period was calculated independently for each frame from the position where the largest value of the relationship coefficient was obtained. In this way, in this calculation method, the pitch period is calculated independently for each frame, so the pitch period is twice or three times the original pitch period.
There were cases where the pitch frequency was detected at a period such as double..., and there were cases where the pitch period was calculated in a form corresponding to the position where the value of the correlation coefficient became large for some reason. , there was a problem that it became difficult to calculate the pitch period with high accuracy.
本発明は、前記問題点を解決するために、音声
の有声区間を複数のフレームに分割し、該分割し
た各フレームについて夫々求めた自己相関係数を
用いてピツチ周期を算出する際に、当該分割した
複数のフレームを一体とした形で連続性を保持し
つつ前記算出した自己相関係数の累積値が最大と
なる経路に対応する形でピツチ周期を算出するこ
とにより、高精度かつ簡単な構成によつてピツチ
周期を算出している。そのため、本発明のピツチ
抽出処理方式は、音声の有声区間を抽出し、該抽
出した有声区間の音声信号に関する相関性を用い
てピツチ周期を抽出するピツチ抽出処理方式にお
いて、
前記抽出した有声区間を複数のフレームに分割
し、該分割したフレーム毎に夫々音声の時間的な
相関性を抽出する相関性抽出部と、
該相関性抽出部によつて抽出された各フレーム
内の音声の時間的な相関性が相隣接するフレーム
間で所定範囲内にあるような経路上で、当該相関
性の累積値を前記分割した全ての複数のフレーム
について順次計算する累積値計算部と、
該累積値計算部によつて計算された累積値が最
大となる経路を判定し、当該最大となる経路に該
当するピツチ周期を前記各フレーム毎に順次抽出
するピツチ抽出部と
を備える
ことを特徴としている。
In order to solve the above-mentioned problems, the present invention divides a voiced section of speech into a plurality of frames, and calculates the pitch period using the autocorrelation coefficient obtained for each of the divided frames. By calculating the pitch period in a form that corresponds to the path that maximizes the cumulative value of the calculated autocorrelation coefficient while maintaining continuity in the form of integrating multiple divided frames, a highly accurate and simple method can be used. The pitch period is calculated depending on the configuration. Therefore, the pitch extraction processing method of the present invention extracts the voiced section of speech and extracts the pitch period using the correlation regarding the audio signal of the extracted voiced section. a correlation extraction unit that divides the audio into a plurality of frames and extracts the temporal correlation of audio for each divided frame; and a cumulative value calculation unit that sequentially calculates the cumulative value of the correlation for all the divided frames on a path where the correlation is within a predetermined range between adjacent frames; and the cumulative value calculation unit The present invention is characterized by comprising a pitch extraction unit that determines a route with a maximum cumulative value calculated by , and sequentially extracts pitch periods corresponding to the maximum route for each frame.
以下図面を参照しつつ本発明の1実施例を詳細
に説明する。
An embodiment of the present invention will be described in detail below with reference to the drawings.
第1図は本発明の1実施例構成図、第2図ない
し第4図は第1図図示本発明の1実施例構成の動
作を説明する動作説明図、第5図は本発明の他の
実施例構成を説明する説明図を示す。 FIG. 1 is a configuration diagram of one embodiment of the present invention, FIGS. 2 to 4 are operation explanatory diagrams explaining the operation of the configuration of one embodiment of the present invention shown in FIG. 1, and FIG. 5 is an illustration of another embodiment of the present invention. An explanatory diagram illustrating the configuration of the embodiment is shown.
図中、1はスペクトル分析器(LPC)、2は逆
フイルタ(INV)、3はローパス・フイルタ
(LPF)、4は残差相関計算器(Φ)、5は累積値
計算部(gij)、6はピツチ抽出部(Pi)、7は有
声/無声判定器(VUV)、8は主制御部
(CPU)、9,10はバツフア・メモリ(BF)、
11はスイツチを表す。 In the figure, 1 is a spectrum analyzer (LPC), 2 is an inverse filter (INV), 3 is a low-pass filter (LPF), 4 is a residual correlation calculator (Φ), and 5 is a cumulative value calculation unit (g ij ) , 6 is a pitch extraction unit (P i ), 7 is a voiced/unvoiced determiner (VUV), 8 is a main control unit (CPU), 9 and 10 are buffer memories (BF),
11 represents a switch.
第1図は左端図示音声信号から右端図示ピツチ
周期を算出するための1実施例構成図を示す。 FIG. 1 shows a block diagram of an embodiment for calculating the right end indicated pitch period from the left end indicated audio signal.
図中スペクトル分析器(LPC)1は図示音声
信号から既知の方法でスペクトル情報を抽出する
ためのもの、例えば線形予測法によつてスペクト
ル・パラメータを抽出するためのものである。該
算出されたスペクトル情報は逆フイルタ(INV)
2に通知され、該逆フイルタ2は前記スペクト
ル・パラメータと標本化された音声信号とから残
差波形信号を生成する。該生成された残差波形信
号はローパス・フイルタ(LPF)3によつて高
域成分を除去して残差相関計算器(Φ)4に供給
される。該残差相関計算器4は供給された残差波
形信号から予め定めたフレーム周期毎に自己相関
係数を算出し、有声/無声判定器(VUV)7に
通知する。該算出した自己相関係数の通知を受け
た有声/無声判定器7は前記スペクトル分析器1
から通知されたスペクトル・パラメータと残差相
関計算器4から通知された残差自己相関係数の最
大値とから現在の当該フレームが有声であるか、
無声であるかを判定し、主制御部(CPU)8に
通知する。主制御部8は判別結果が有声である旨
の通知があつた場合、残差相関計算器4とバツフ
ア・メモリ9との間に設けたスイツチ11をオン
にして当該残差相関計算器4から出力された残差
自己相関係数の値を順次バツフア・メモリ(BF)
9に記憶させる。一方、主制御部8は判別結果が
無声である旨の通知があつた場合、当該スイツチ
11をオフにして残差相関計算器4から出力され
た残差自己相関係数の値がバツフア・メモリ9に
記憶されないようにする。 A spectrum analyzer (LPC) 1 in the figure is for extracting spectral information from the illustrated audio signal by a known method, for example for extracting spectral parameters by a linear prediction method. The calculated spectrum information is passed through an inverse filter (INV)
2, the inverse filter 2 generates a residual waveform signal from the spectral parameters and the sampled audio signal. The generated residual waveform signal is supplied to a residual correlation calculator (Φ) 4 after removing high-frequency components by a low-pass filter (LPF) 3. The residual correlation calculator 4 calculates an autocorrelation coefficient for each predetermined frame period from the supplied residual waveform signal, and notifies the voiced/unvoiced determiner (VUV) 7 of the calculated autocorrelation coefficient. The voiced/unvoiced determiner 7 that received the notification of the calculated autocorrelation coefficient is the spectrum analyzer 1.
Based on the spectral parameters notified from the spectral parameters and the maximum value of the residual autocorrelation coefficient notified from the residual correlation calculator 4, it is determined whether the current frame is voiced or not.
It is determined whether there is no voice or not, and the main control unit (CPU) 8 is notified. When the main control unit 8 receives a notification that the discrimination result is voiced, it turns on a switch 11 provided between the residual correlation calculator 4 and the buffer memory 9, so that the residual correlation calculator 4 The output residual autocorrelation coefficient values are sequentially stored in buffer memory (BF).
9 to memorize it. On the other hand, when the main control unit 8 is notified that the discrimination result is silent, it turns off the switch 11 and stores the value of the residual autocorrelation coefficient output from the residual correlation calculator 4 in the buffer memory. 9 will not be stored.
更に、主制御部8は累積値計算部(gij)5に命
令を発して後述する式(2)、(4)および(6)等を計算し
ていわゆる累積値“gij”を算出する。該算出され
た累積値“gij”は順次バツフア・メモリ(BF)
10に格納される。そして、主制御部8はピツチ
抽出部(Pi)6に対してバツフア・メモリ10に
格納された内容等に基づいて後述する式(5)等を計
算してピツチ周期を算出するよう制御する。以上
の如く構成を採用することにより、複数に分割さ
れたフレームについて夫々算出した残差自己相関
係数に基づいて総合的に各フレームに対するピツ
チ周期が算出されるため、極めて高精度にピツチ
周期を算出することができる。以下第2図ないし
第4図を用いて更に本実施例の構成および動作を
詳細に説明する。 Furthermore, the main control unit 8 issues a command to the cumulative value calculation unit (g ij ) 5 to calculate equations (2), (4), (6), etc., which will be described later, to calculate the so-called cumulative value “g ij ”. . The calculated cumulative value “g ij ” is sequentially stored in buffer memory (BF).
10. The main control section 8 then controls the pitch extraction section (P i ) 6 to calculate the pitch period by calculating equation (5), etc., which will be described later, based on the contents stored in the buffer memory 10. . By adopting the above configuration, the pitch period for each frame is comprehensively calculated based on the residual autocorrelation coefficient calculated for each frame divided into multiple frames, so the pitch period can be calculated with extremely high accuracy. It can be calculated. The configuration and operation of this embodiment will be further explained in detail below with reference to FIGS. 2 to 4.
第2図イは第1図図示逆フイルタ2によつて生
成された残差波形信号を示し、第2図ロは第1図
図示残差相関計算器4によつて算出された各残差
自己相関係数を示す。 2A shows the residual waveform signal generated by the inverse filter 2 shown in FIG. 1, and FIG. 2B shows each residual waveform signal generated by the residual correlation calculator 4 shown in FIG. Indicates the correlation coefficient.
第2図イ図中第1フレームないし第Mフレーム
は有声/無声判定器7によつて判別された有声区
間に対応する図示残差波形信号を複数のフレーム
に分割したものである。該各フレームは図示の如
く複数のピツチ周期が含まるように分割されると
共に、必要に応じて一部重複する形で分割する。
該分割された第1フレームないし第Mフレームに
対応してピツチ周期を抽出する際に、後述する如
く当該第1フレームないし第Mフレームを一体と
した形でピツチ周期を算出する処理を実行するた
め、高精度にピツチ周期を抽出することが可能と
なる。 The first to Mth frames in FIG. 2A are obtained by dividing the illustrated residual waveform signal corresponding to the voiced section determined by the voiced/unvoiced determiner 7 into a plurality of frames. Each frame is divided so as to include a plurality of pitch periods as shown in the figure, and is also divided into parts that overlap, if necessary.
When extracting the pitch period corresponding to the divided first frame to Mth frame, as will be described later, to execute a process of calculating the pitch period in the form of integrating the first frame to Mth frame. , it becomes possible to extract the pitch period with high accuracy.
第2図ロ図中例えば“φij”は添字の値で特定
される残差自己相関係数を示す。添字の第2項
“j”は第2図ロ図示左端に示す「時間遅れ」の
値を示し、第1項“i”は第1図図示第iフレー
ムを示す。詳細に言えば時間遅れ“0…N1…j
…N2”は第2図イ図示残差波形信号をサンプリ
ングしたサンプリング間隔の整数倍に対応する時
間遅れを夫々示し、図示“1、2…i…M”は第
2図イ図示第1フレーム、第2フレーム…第iフ
レーム…第Mフレームに対応するものを夫々示
す。また、図中“φ10、φ20…φi0…φM0”は零次の
残差自己相関係数を示す。図中“ピツチ存在範
囲”は音声のピツチ周期(基本周波数の周期)が
存在するであろう範囲を示したものであり、該範
囲内で後述するピツチ周期を抽出するようにす
る。そして、第2図ロは、例えば第iフレームの
信号について時間遅れN1…、j…N2に対応する
残差自己相関係数φiN1…φij…φiN2を残挙して示し
ている。 For example, "φ ij " in FIG. 2B indicates the residual autocorrelation coefficient specified by the value of the subscript. The second term "j" of the subscript indicates the value of the "time delay" shown at the left end of FIG. 2B, and the first term "i" indicates the i-th frame shown in FIG. In detail, the time delay “0…N 1 …j
...N 2 "indicates the time delay corresponding to an integer multiple of the sampling interval at which the residual waveform signal is sampled, and "1, 2...i...M" indicates the first frame in FIG. , second frame...i-th frame...corresponding to M-th frame, respectively. In the figure, "φ 10 , φ 20 ... φ i0 ... φ M0 " indicate zero-order residual autocorrelation coefficients. In the figure, the "pitch existence range" indicates the range in which the pitch period (period of the fundamental frequency) of the voice is expected to exist, and the pitch period described later is extracted within this range. FIG. 2B shows, for example, the residual autocorrelation coefficients φ iN1 ...φ ij ...φ iN2 corresponding to the time delays N1 . . . , j .
第2図ロ図示残差自己相関係数は下式の如き式
で与えられる。 The residual autocorrelation coefficient shown in FIG. 2B is given by the following equation.
φij=1/NN-1-j
〓n=0
e(o)・e(o+j) ……(1)
ここで、e(o)は残差信号を表し、e(o+j)は残差自
己相関係数を求めるための時間遅れ“j”をもつ
残差信号を示し、Nはフレーム長を表す。このよ
うにして第2図ロ図示残差自己相関係数を夫々求
められる。 φ ij =1/N N-1-j 〓 n=0 e (o)・e (o+j) ...(1) Here, e (o) represents the residual signal, and e (o+j ) indicates a residual signal with a time delay "j" for determining the residual autocorrelation coefficient, and N indicates the frame length. In this way, the residual autocorrelation coefficients shown in FIG. 2B can be obtained.
第3図は前記時間遅れ“j”を示す。該時間遅
れ“j”は、図示残差信号e(o)の元となる音声を
サンプリングした周期の整数倍となる図示“1、
2、3、4、…”のいずれかに対応する値を持
ち、前記式(1)が最大となる“j”を求めることに
より、当該フレーム内に於ける繰り返し周期であ
るピツチ周期を算出することが可能となる。 FIG. 3 shows said time delay "j". The time delay "j" is "1," which is an integer multiple of the sampling period of the audio that is the source of the illustrated residual signal e (o) .
The pitch period, which is the repetition period within the frame, is calculated by finding “j” that has a value corresponding to one of “2, 3, 4, …” and that maximizes the formula (1) above. becomes possible.
第4図は本発明に係わる累積値“gij”およびピ
ツチ周期“pi”を算出するための動作を説明する
動作説明図を示す。以下ピツチ周期“pi”を算出
するための式を記述した後、該式を用いてピツチ
周期を算出する手順を順次説明する。 FIG. 4 shows an operation explanatory diagram for explaining the operation for calculating the cumulative value "g ij " and the pitch period "p i " according to the present invention. An equation for calculating the pitch period "p i " will be described below, and then a procedure for calculating the pitch period using this equation will be sequentially explained.
まず、ピツチ周期“pi”は下記の如く式を用い
て算出される。 First, the pitch period "p i " is calculated using the following formula.
前記累積値“gij”は下式によつて与えられる。 The cumulative value "g ij " is given by the following formula.
() N1<=j<=N2の場合
gij=max〔wj・gi-1、k〕+φij ……(2)
但し、k=N1、N1+1、…N2−1、N2
gpj=0
wjkは後述する如く連続制限に関するウ
エイトとする。() When N 1 <= j <= N 2 g ij = max [w j・g i-1 , k ] + φ ij ...(2) However, k=N 1 , N 1 +1,...N 2 − 1, N 2 g pj =0 w jk is the weight related to the continuity limit as described later.
() j<N1orj>N2の場合
gij=−∞ ……(3)
また、()
Vi=K ……(4)
と定義する。ここでKはmax〔wjk・gi-1、k〕を
与える“k”とする。() In the case of j<N 1 orj>N 2 , g ij =−∞ ...(3) In addition, () V i =K ...(4) is defined. Here, K is "k" which gives max [w jk ·g i-1 , k ].
従つて、i=M、M−1、…1に対応するピツ
チ周期Piは下式で与えられる。 Therefore, the pitch period P i corresponding to i=M, M-1, . . . 1 is given by the following formula.
Pi-1=Vi ……(5) 但し、PMは最大のgMjを与えるjとする。 P i-1 = V i ...(5) However, P M is j that gives the maximum g Mj .
また、前述したウエイトwjkは下式で与えられ
る。なお、下記n1はn2は時間範囲を与える値であ
る。 Further, the weight w jk mentioned above is given by the following formula. Note that n 1 and n 2 below are values that give a time range.
() j−n1<=k<=j+n2の場合
wjk=1 ……(6)
() k<j−n1ork>j+n2の場合
wjk=−∞ ……(7)
次に、前述した式を用いてピツチ周期Piが算出
される様子を第4図を用いて説明する。() If j−n 1 <=k<=j+n 2 then w jk =1 …(6) () If k<j−n 1 ork>j+n 2 then w jk =−∞ …(7) Next , how the pitch period P i is calculated using the above-mentioned formula will be explained with reference to FIG. 4.
第1に式(1)を用いて第1図図示バツフア・メモ
リ9に格納されている残差信号波形を用いて第4
図図示ピツチ存在範囲内の全ての残差自己相関係
数を順次求め、第1図図示バツフア・メモリ10
に格納する。 First, by using equation (1) and using the residual signal waveform stored in the buffer memory 9 shown in FIG.
All the residual autocorrelation coefficients within the pitch existence range shown in the figure are sequentially obtained, and the buffer memory 10 shown in FIG.
Store in.
第2に当該バツフア・メモリ10に格納した第
4図図示各残差自己相関係数を順次読み出し、式
(2)、(4)および(6)を用いて累積値“gij”を算出す
る。即ち、
() i=1の場合(第1フレームの場合)
g1j=max〔wik・g0、k〕+φ1j=φ1j
ここで、式中のg0、k=0である(式(2)の但し
書き)。これは、第4図図示に示す当該第1フ
レーム中の最大の残差自己相関係数の値を与える
時間遅れがjであるとしていることを示してい
る。 Second, each residual autocorrelation coefficient shown in FIG. 4 stored in the buffer memory 10 is sequentially read out, and the equation
The cumulative value "g ij " is calculated using (2), (4), and (6). That is, () When i=1 (for the first frame) g 1j = max[w ik・g 0 , k ]+φ 1j =φ 1j Here, g 0 and k in the formula are 0 (the formula (2) proviso). This indicates that the time delay that provides the maximum value of the residual autocorrelation coefficient in the first frame shown in FIG. 4 is assumed to be j.
() i=2の場合
g2j=max〔wjk・g1、k〕+φ2j=φ1k+φ2j
ここで、wjkはウエイトを示し、第4図図中第
1フレーム中の最大の残差自己相関係数である図
示φ1jを中心に上方向(jの値が小さくなる方向)
に図示n1、下方向(jの値が大きくなる方向)に
図示n2の範囲内に第2フレーム内の最大となる残
差自己相関係数が位置する場合、例えば図示と
して示すφ2(j-3)が最大の残差自己相関係数であつ
た場合には、式(6)に示すように重み“1”が乗算
され、前述の値を得ている。() When i=2, g 2j = max [w jk・g 1 , k ] + φ 2j = φ 1k + φ 2j where w jk indicates the weight, and is the maximum residual value in the first frame in Fig. 4. Upward (direction where the value of j decreases) centered on the indicated φ 1j , which is the differential autocorrelation coefficient.
If the maximum residual autocorrelation coefficient in the second frame is located within the range n 1 shown in the figure and n 2 shown downward (in the direction in which the value of j increases), for example, φ 2 ( shown in the figure) If j-3) is the largest residual autocorrelation coefficient, it is multiplied by a weight of "1" as shown in equation (6) to obtain the above-mentioned value.
一方、範囲外の場合、例えば図示として示す
φ2(j+3)が最大の残差自己関数である場合には、式
(7)に示すような重み“−∞”を乗算し、累積値
g2j=−∞となり、当該はピツチ周期を求める
上で対象外となり、上記範囲内で最大の残差自己
相関計数をもつ例えば図示のものが選ばれる。
このように、前のフレームで求めた所定の残差自
己相関係数を中心に式(7)で示される範囲のもの
は、ピツチ周期を算出する対象外とすることによ
り、高精度にピツチ周期を抽出するように構成さ
れている。 On the other hand, if it is outside the range, for example, if φ 2(j+3) shown in the diagram is the largest residual autofunction, then the formula
Multiply the weight “−∞” as shown in (7) to obtain the cumulative value
g 2j =−∞, which is excluded from the calculation of the pitch period, and the one shown in the figure, for example, which has the largest residual autocorrelation coefficient within the above range is selected.
In this way, by excluding the range shown by equation (7) around the predetermined residual autocorrelation coefficient obtained in the previous frame, the pitch period can be calculated with high precision. is configured to extract.
以下同様に有意な値が得られる式(6)で与えられ
るウエイトを用いて式(2)に示す累積値g3j、g4j…
gij…gMjを順次算出し、第1図図中バツフア・メ
モリ10に格納する。そして、式(5)で示すよう
に、各フレームについてのピツチ周期Piを算出す
る。例えば第4図よりP1=j、P2=j−3…Pi=
j−2…の形で算出する。以上説明したようにい
わばDP法(ダイナミツク・プログラム法)の手
法と同様な手法によつて、残差波形信号を複数の
フレームに分割した上で、該分割した複数のフレ
ームの残差自己相関係数の累積値gijを最大にする
ような経路に対応する形で残差自己相関係数を用
いてピツチ周期を抽出する構成を採用しているた
め、高精度にピツチ周期を抽出することが可能と
なる。 Similarly, the cumulative values g 3j , g 4j shown in equation (2) are calculated using the weights given by equation (6), which similarly yield significant values.
g ij ...g Mj are calculated in sequence and stored in the buffer memory 10 in FIG. Then, as shown in equation (5), the pitch period P i for each frame is calculated. For example, from Fig. 4, P 1 = j, P 2 = j-3...P i =
Calculate in the form of j-2... As explained above, the residual waveform signal is divided into multiple frames using a method similar to the DP method (dynamic programming method), and then the residual self-correlation of the multiple divided frames is calculated. The system uses a configuration that extracts the pitch period using the residual autocorrelation coefficient in a manner that corresponds to the path that maximizes the cumulative value g ij of the number, so it is possible to extract the pitch period with high accuracy. It becomes possible.
第5図イは長い有声区間を示し、第5図ロは第
5図イ図示長い有声区間の1つのMフレームとし
てピツチ周期を算出する場合を示し、第5図ハは
第5図イ図示長い有声区間を短い複数のLフレー
ム毎に分割してピツチ周期を算出する場合を示
す。 5A shows a long voiced section, FIG. A case is shown in which the pitch period is calculated by dividing a voiced section into a plurality of short L frames.
第1図ないし第4図を用いて説明したいわゆる
DP法(動的計画法)を利用した形でピツチ周期
の抽出を行う場合、入力音声の連続する有声区間
が終了した後でないと、各フレームのピツチ周期
を最終的に決定することができない。従つ、ピツ
チ周期の抽出の遅れは、連続する有声区間の長さ
に依存するため、例えば実時間分析を行う場合
に、迅速にピツチ周期を抽出し得ないこととな
る。そこで、本実施例では、一定のフレーム数
(ブロツク)単位で長い有声区間を分割し、該分
割した区間毎にピツチ周期を抽出することによ
り、所定時間以内にピツチ周期が検出できるよう
に構成してある。この際、当該連続するMフレー
ムを分割したLフレームの全体に渡つて、当該M
フレームの当初から連続した形で前述した累積値
gijを用いてピツチの抽出精度を高めるよう構成す
る。 The so-called
When extracting the pitch period using the DP method (dynamic programming), the pitch period of each frame cannot be finally determined until after the continuous voiced section of the input voice ends. Therefore, since the delay in extracting the pitch period depends on the length of consecutive voiced sections, it is not possible to quickly extract the pitch period when performing real-time analysis, for example. Therefore, in this embodiment, a long voiced section is divided into a fixed number of frames (blocks), and the pitch period is extracted for each divided section, so that the pitch period can be detected within a predetermined time. There is. At this time, the M frame is
The cumulative value described above in a continuous form from the beginning of the frame.
It is configured to use g ij to improve the accuracy of pitch extraction.
以上説明した如く、本発明によれば、音声の有
声区間を複数のフレームに分割し、該分割した各
フレームについて夫々求めた自己相関係数を用い
てピツチ周期を算出する際に、当該分割した複数
のフレームを一体とした形で連続性を保持しつつ
前記算出した自己相関係数の累積値を判定して当
該累積値が最大となる経路に対応する形で各フレ
ームのピツチ周期を算出しているため、簡単な構
成によつて高精度にピツチ周期を抽出することが
できる。
As explained above, according to the present invention, when a voiced section of speech is divided into a plurality of frames and a pitch period is calculated using the autocorrelation coefficient obtained for each of the divided frames, The pitch period of each frame is calculated by determining the cumulative value of the autocorrelation coefficients calculated above while maintaining the continuity of the plurality of frames as one, and corresponding to the path where the cumulative value is the maximum. Therefore, the pitch period can be extracted with high accuracy using a simple configuration.
第1図は本発明の1実施例構成図、第2図ない
し第4図は第1図図示本発明の1実施例構成の動
作を説明する動作説明図、第5図は本発明の他の
実施例構成を説明する説明図を示す。
図中、1はスペクトル分析器(LPC)、2は逆
フイルタ(INV)、3はローパス・フイルタ
(LPF)、4は残差相関計算器(Φ)、5は累積値
計算部(gij)、6はピツチ抽出部(Pi)、7は有
声/無声判定器(VUV)、8は主制御部
(CPU)、9,10はバツフア・メモリ(BF)、
11はスイツチを表す。
FIG. 1 is a configuration diagram of one embodiment of the present invention, FIGS. 2 to 4 are operation explanatory diagrams explaining the operation of the configuration of one embodiment of the present invention shown in FIG. 1, and FIG. 5 is an illustration of another embodiment of the present invention. An explanatory diagram illustrating the configuration of the embodiment is shown. In the figure, 1 is a spectrum analyzer (LPC), 2 is an inverse filter (INV), 3 is a low-pass filter (LPF), 4 is a residual correlation calculator (Φ), and 5 is a cumulative value calculation unit (g ij ) , 6 is a pitch extraction unit (P i ), 7 is a voiced/unvoiced determiner (VUV), 8 is a main control unit (CPU), 9 and 10 are buffer memories (BF),
11 represents a switch.
Claims (1)
間の音声信号に関する相関性を用いてピツチ周期
を抽出するピツチ抽出処理方式において、 前記抽出した有声区間を複数のフレームに分割
し、該分割したフレーム毎に夫々音声の時間的な
相関性を抽出する相関性抽出部と、 該相関性抽出部によつて抽出された各フレーム
内の音声の時間的な相関性が相隣接するフレーム
間で所定範囲内にあるような経路上で、当該相関
性の累積値を前記分割した全ての複数のフレーム
について順次計算する累積値計算部と、 該累積値計算部によつて計算された累積値が最
大となる経路を判定し、当該最大となる経路に該
当するピツチ周期を前記各フレーム毎に順次抽出
するピツチ抽出部と を備える ことを特徴とするピツチ抽出処理方式。 2 前記抽出した有声区間を所定の長さの区間毎
に分割し、累積値は有声区間の先頭からの値を使
用して、当該分割した各区間毎に夫々ピツチ抽出
処理を行うことを特徴とする特許請求の範囲第1
項記載のピツチ抽出処理方式。[Claims] 1. A pitch extraction processing method in which a voiced section of speech is extracted and a pitch period is extracted using a correlation regarding the audio signal of the extracted voiced section, comprising: dividing the extracted voiced section into a plurality of frames. a correlation extraction unit that extracts the temporal correlation of the audio in each divided frame; and a correlation extraction unit that extracts the temporal correlation of the audio in each divided frame; a cumulative value calculation unit that sequentially calculates the cumulative value of the correlation for all the divided frames on a path that is within a predetermined range between adjacent frames; 1. A pitch extraction processing method, comprising: a pitch extraction unit that determines a route with a maximum accumulated value, and sequentially extracts pitch periods corresponding to the maximum route for each frame. 2 The extracted voiced section is divided into sections of a predetermined length, and the cumulative value is the value from the beginning of the voiced section, and pitch extraction processing is performed for each of the divided sections. Claim 1
Pitch extraction processing method described in section.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59177679A JPS6155700A (en) | 1984-08-27 | 1984-08-27 | Pitch extraction processing system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59177679A JPS6155700A (en) | 1984-08-27 | 1984-08-27 | Pitch extraction processing system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6155700A JPS6155700A (en) | 1986-03-20 |
| JPH0448239B2 true JPH0448239B2 (en) | 1992-08-06 |
Family
ID=16035207
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59177679A Granted JPS6155700A (en) | 1984-08-27 | 1984-08-27 | Pitch extraction processing system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6155700A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2003042977A1 (en) * | 2001-11-13 | 2003-05-22 | Nec Corporation | Code conversion method, apparatus, program, and storage medium |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4935280B2 (en) * | 2006-09-29 | 2012-05-23 | カシオ計算機株式会社 | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56126895A (en) * | 1980-03-10 | 1981-10-05 | Nippon Electric Co | Voice analyzer |
-
1984
- 1984-08-27 JP JP59177679A patent/JPS6155700A/en active Granted
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2003042977A1 (en) * | 2001-11-13 | 2003-05-22 | Nec Corporation | Code conversion method, apparatus, program, and storage medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6155700A (en) | 1986-03-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR0134158B1 (en) | Voice recognition device | |
| JP3114975B2 (en) | Speech recognition circuit using phoneme estimation | |
| Bayya et al. | Spectro-temporal analysis of speech signals using zero-time windowing and group delay function | |
| JPH10171484A (en) | Voice synthesis method and apparatus | |
| JPS6051720B2 (en) | Fundamental period extraction device for speech | |
| JPH06161494A (en) | Automatic extracting method for pitch section of speech | |
| JPH0448239B2 (en) | ||
| JP2600384B2 (en) | Voice synthesis method | |
| JPH05265495A (en) | Speech encoding device and its analyzer and synthesizer | |
| US6590946B1 (en) | Method and apparatus for time-warping a digitized waveform to have an approximately fixed period | |
| JPH087597B2 (en) | Speech coder | |
| JP3252802B2 (en) | Voice recognition device | |
| EP0579812A1 (en) | Process for speech analysis | |
| JPH0122639B2 (en) | ||
| JP3398968B2 (en) | Speech analysis and synthesis method | |
| KR100359988B1 (en) | real-time speaking rate conversion system | |
| JPH0122638B2 (en) | ||
| JP3233543B2 (en) | Method and apparatus for extracting impulse drive point and pitch waveform | |
| JP2585214B2 (en) | Pitch extraction method | |
| JPS6220560B2 (en) | ||
| JPH0736119B2 (en) | Piecewise optimal function approximation method | |
| Sharma et al. | Faster prosody modification using time scaling of epochs | |
| JPS62194298A (en) | Pitch extraction system | |
| KR100211965B1 (en) | Pitch Synchronous Formant Estimation Method in Voiced Sound Section | |
| JP3263136B2 (en) | Signal pitch synchronous position extraction method and signal synthesis method |