JPS6131479B2 - - Google Patents
Info
- Publication number
- JPS6131479B2 JPS6131479B2 JP54158448A JP15844879A JPS6131479B2 JP S6131479 B2 JPS6131479 B2 JP S6131479B2 JP 54158448 A JP54158448 A JP 54158448A JP 15844879 A JP15844879 A JP 15844879A JP S6131479 B2 JPS6131479 B2 JP S6131479B2
- Authority
- JP
- Japan
- Prior art keywords
- coefficients
- speaker
- input
- cepstrum
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
本発明は、話者照合方法に関し、特に登録され
た話者のうちの特定の本人であるか否かを高精度
かつ高能率に自動判定する方式に関するものであ
る。
た話者のうちの特定の本人であるか否かを高精度
かつ高能率に自動判定する方式に関するものであ
る。
電話サービス方式の1つとして、登録された発
声者のうちの特定の人と自称する音声が、確かに
その発者のものか否かを判断してその結果を通知
するものがある。これによつて、電話による買
物、預金の出入れ、脅迫電話犯人の割出し、ある
いは電話による取引、会議等に利用することがで
きる。
声者のうちの特定の人と自称する音声が、確かに
その発者のものか否かを判断してその結果を通知
するものがある。これによつて、電話による買
物、預金の出入れ、脅迫電話犯人の割出し、ある
いは電話による取引、会議等に利用することがで
きる。
音声波は、声帯振動波(有声音源)および声道
の狭まりで発生する乱流による雑音波(無声音
源)を声道に与えたときに唇または鼻から放出さ
れる音波である。
の狭まりで発生する乱流による雑音波(無声音
源)を声道に与えたときに唇または鼻から放出さ
れる音波である。
第1図は、音声波を電気的にモデル化したブロ
ツク図である。
ツク図である。
声帯であるインパルス発生器21からの有声音
と乱流である白雑音発生器22からの無声音が、
スイツチ23により切換えられ、声道パイプを示
す電気回路24に結合されて、スピーカ25を鳴
らして音声波となる。なお、第1図において、鎖
線の左を音源、右を声道特性として区別する。
と乱流である白雑音発生器22からの無声音が、
スイツチ23により切換えられ、声道パイプを示
す電気回路24に結合されて、スピーカ25を鳴
らして音声波となる。なお、第1図において、鎖
線の左を音源、右を声道特性として区別する。
音声を分析する場合、ある有限(10〜30mS)
の瞬間ごとの音声波の持つ周波数スペクトル(声
道の伝達関数のもつスペクトル)と、声道を駆動
した音源の性質を数量的に明らかにすることであ
つて、前者がスペクトル分析、後者が音源分析と
いうことになる。
の瞬間ごとの音声波の持つ周波数スペクトル(声
道の伝達関数のもつスペクトル)と、声道を駆動
した音源の性質を数量的に明らかにすることであ
つて、前者がスペクトル分析、後者が音源分析と
いうことになる。
音源は、インパルス列駆動か、雑音駆動かの区
分信号(有/無区分)Vと、インパルス列であれ
ばその周期(ピツチ)Pと、インパルス列または
雑音の振幅Aとの3つの要素で表わされる。これ
らの3つの要素を数量的に抽出することが音源分
析であるが、これらの要素はかなり高速度で変化
するため、正しい分析はかなり困雑である。
分信号(有/無区分)Vと、インパルス列であれ
ばその周期(ピツチ)Pと、インパルス列または
雑音の振幅Aとの3つの要素で表わされる。これ
らの3つの要素を数量的に抽出することが音源分
析であるが、これらの要素はかなり高速度で変化
するため、正しい分析はかなり困雑である。
第2図は、音声分析モデルを示すブロツク図で
ある。
ある。
音声の音源分析を行うためには、音声をパーコ
ール分析器26に入力し、あらかじめスペクトル
分析を行い(K1,K2……Kp)、音声波をそのス
ペクトルの逆特性を有する逆スペクトル回路28
に通し、スペクトルの山谷を無くする。このと
き、得られるスペクトルは、ほぼ平坦となり、音
源のインパルス列または雑音が残差波Rとして現
われ、その残差波Rには、音波信号が含まれてい
る。
ール分析器26に入力し、あらかじめスペクトル
分析を行い(K1,K2……Kp)、音声波をそのス
ペクトルの逆特性を有する逆スペクトル回路28
に通し、スペクトルの山谷を無くする。このと
き、得られるスペクトルは、ほぼ平坦となり、音
源のインパルス列または雑音が残差波Rとして現
われ、その残差波Rには、音波信号が含まれてい
る。
そこで、音源分析回路29で残差波Rを分析し
て、音源信号V,P,Aを抽出する。
て、音源信号V,P,Aを抽出する。
ところで、話者照合方式に使用する装置として
は、判定に用いる入力音声の発声内容つまり言葉
をあらかじめ決めておいて、常に同一の言葉を発
声させ、登録されている各話者の音声波と比較し
てその話者による音声とみなすことができるか否
かを判定するものと、判定に用いる入力音声の発
声内容をあらかじめ決めておくことなく、任意に
発声した言葉を用いてその特徴部分のみを登録さ
れている各話者の音声波の特徴部分と比較して判
定するものとに分けることができる。
は、判定に用いる入力音声の発声内容つまり言葉
をあらかじめ決めておいて、常に同一の言葉を発
声させ、登録されている各話者の音声波と比較し
てその話者による音声とみなすことができるか否
かを判定するものと、判定に用いる入力音声の発
声内容をあらかじめ決めておくことなく、任意に
発声した言葉を用いてその特徴部分のみを登録さ
れている各話者の音声波の特徴部分と比較して判
定するものとに分けることができる。
後者の方法の方が一般に適用範囲が広いが、高
い精度で判定を行うのが難しい。一方前者の方法
は、やや用途が限られるが、実用的には極めて広
い応用範囲が期待され、後者の方法よりも高い精
度を得ることが可能である。
い精度で判定を行うのが難しい。一方前者の方法
は、やや用途が限られるが、実用的には極めて広
い応用範囲が期待され、後者の方法よりも高い精
度を得ることが可能である。
一般に、入力音声波と登録されている音声波を
直接比較するのは能率的でないので、周波数スペ
クトル、線形予測係数等のいわゆる特徴パラメー
タに変換してから比較を用うのが望ましい。従来
のこの種の装置の構成では、上記の他に、基本周
波数、音声エネルギー、ホルマント周波数、ケプ
ストラム係数、パーコール係数、対数断面積比、
零交差数等が用いられているが、安定に精度よく
パラメータを抽出するのが困難であつたり、パラ
メータの抽出に複雑な計算を要したり、発声者の
声の特徴を表現するパラメータとして不十分であ
つたり、電話系のような伝送路を通つたときに変
動して、判定の精度が大きく低下する等の欠点が
あつた。
直接比較するのは能率的でないので、周波数スペ
クトル、線形予測係数等のいわゆる特徴パラメー
タに変換してから比較を用うのが望ましい。従来
のこの種の装置の構成では、上記の他に、基本周
波数、音声エネルギー、ホルマント周波数、ケプ
ストラム係数、パーコール係数、対数断面積比、
零交差数等が用いられているが、安定に精度よく
パラメータを抽出するのが困難であつたり、パラ
メータの抽出に複雑な計算を要したり、発声者の
声の特徴を表現するパラメータとして不十分であ
つたり、電話系のような伝送路を通つたときに変
動して、判定の精度が大きく低下する等の欠点が
あつた。
本発明の目的は、このような欠点を除去するた
め、電話系等を通つた音声から伝送歪等の影響を
受けにくい音声の特徴を簡単に抽出し、高精度で
本人か否かの判定を行うことができる話者照合方
法を提供することにある。
め、電話系等を通つた音声から伝送歪等の影響を
受けにくい音声の特徴を簡単に抽出し、高精度で
本人か否かの判定を行うことができる話者照合方
法を提供することにある。
本発明の話者照合方法は、発声者の声の特徴を
表現するパラメータとして、きわめて有用で、か
つ比較的簡易な方法により抽出できる線形予測ケ
プストラム係数を用い、ケプストラム係数の時間
波形から伝送路の変動等の影響を受けにくい特徴
パラメータである多項式展開係数を抽出し、あら
かじめ登録されている各話者の特徴パラメータと
の非線形時間正規化マツチング(対応付け)によ
り本人による音声か否かを判定することを特徴と
する。
表現するパラメータとして、きわめて有用で、か
つ比較的簡易な方法により抽出できる線形予測ケ
プストラム係数を用い、ケプストラム係数の時間
波形から伝送路の変動等の影響を受けにくい特徴
パラメータである多項式展開係数を抽出し、あら
かじめ登録されている各話者の特徴パラメータと
の非線形時間正規化マツチング(対応付け)によ
り本人による音声か否かを判定することを特徴と
する。
以下、本発明の実施例を、第3図により説明す
る。
る。
第3図は、本発明の話者照合方法のブロツク構
成図である。
成図である。
本発明の方法は、第3図に示すように、音声入
力端子1から照合すべき音声を入力して、音声区
間検出回路3、線形予測分析回路4、ケプストラ
ム変換回路5、ケプストラム蓄積部6、ケプスト
ラム平均化回路7、減算回路8、特徴パラメータ
蓄積部9、ケプストラム・レジスタ10、および
多項式展開回路11を経由し、線形予測ケプスト
ラム係数の時間波形から多項式展開係数を抽出す
る。
力端子1から照合すべき音声を入力して、音声区
間検出回路3、線形予測分析回路4、ケプストラ
ム変換回路5、ケプストラム蓄積部6、ケプスト
ラム平均化回路7、減算回路8、特徴パラメータ
蓄積部9、ケプストラム・レジスタ10、および
多項式展開回路11を経由し、線形予測ケプスト
ラム係数の時間波形から多項式展開係数を抽出す
る。
一方、識別番号入力端子2から照合すべき話者
の番号を入力して、標準パターン蓄積部13の中
から対応するパターンを取出し、学習モードと照
合モードにスイツチ12で切換えて、照合すべき
音声の多項式展開係数を出力し、かつ重みレジス
タ16の内容を入力して、非線形時間正規化回路
15で類似性の度合いの計算を行い、しきい値と
比較回路17で比較し、その結果話者のものであ
るか否かの出力を出力端子18に与えるととも
に、特徴パラメータを標準パターン平均化回路1
4に入力し、また話者の判定に用いられたしきい
値をしきい値演算論理回路19に入力して更新す
る。
の番号を入力して、標準パターン蓄積部13の中
から対応するパターンを取出し、学習モードと照
合モードにスイツチ12で切換えて、照合すべき
音声の多項式展開係数を出力し、かつ重みレジス
タ16の内容を入力して、非線形時間正規化回路
15で類似性の度合いの計算を行い、しきい値と
比較回路17で比較し、その結果話者のものであ
るか否かの出力を出力端子18に与えるととも
に、特徴パラメータを標準パターン平均化回路1
4に入力し、また話者の判定に用いられたしきい
値をしきい値演算論理回路19に入力して更新す
る。
さらに詳しく動作を説明する。先ず音声入力端
子1から話者の判定に用いる音声波を入力すると
ともに、識別番号入力端子2から照合を行うべき
話者の番号を入力する。この番号の入力には、例
えば、押ボタン・ダイヤル電話機のダイヤル等を
用いることができる。入力された音声波には、通
常実際の音声の区間と無音(雑音)の区間とが含
まれているので、入力された音声波を音声区間検
出回路3に入力して音声区間の検出を行う。
子1から話者の判定に用いる音声波を入力すると
ともに、識別番号入力端子2から照合を行うべき
話者の番号を入力する。この番号の入力には、例
えば、押ボタン・ダイヤル電話機のダイヤル等を
用いることができる。入力された音声波には、通
常実際の音声の区間と無音(雑音)の区間とが含
まれているので、入力された音声波を音声区間検
出回路3に入力して音声区間の検出を行う。
この検出には、すでによく知られているいくつ
かの方法、例えば入力信号波の短区間エネルギ
ー、ある一定値以上のエネルギーが継続する時
間、波形の周期性の有無、等を用いることができ
る。検出された音声区間の信号波は線形予測分析
回路4に送られ、線形予測係数の時間波形に変換
される。この技術は、すでに公知であるので(例
えば、文献、板倉、斎藤:統計的手法による音声
スペクトル密度とホルマント周波数の推定、電子
通信学会論文誌、53−A、1、35、1970参照)、
詳細は省略するが、基本的にはまず低域通過フイ
ルタに通したのち標本化および電子化を行い、一
定時間ごとに短区間の波形を切り出してハミング
窓等を乗じ、積和の演算によつて相関係数を計算
する。ハミング窓の長さとしては、例えば30m
S、これを更新する周期としては、たとえば10m
Sのような値が用いられる。相関係数から、繰返
し演算処理によつて代数方程式を解くことによ
り、容易に線形予測係数が抽出される。相関係数
および線形予測係数は、たとえば第0次から第10
次までの値を計算する。抽出された線形予測係数
の時間波形は、ケプストラム変換回路5により、
いわゆる線形予測ケプストラム係数に変換され
る。線形予測ケプストラム係数は、対数パワー・
スペクトルのフーリエ変換によつて得られる従来
のケプストラム係数とはやや異なるが、それによ
つて表現されるスペクトル包絡は類似している。
線形予測ケプストラム係数は、発声者の声の特徴
を表現するパラメータとして優れた性質を有して
いることが知られている(文献、B.S.Atal:
Effectiveness of Linear Prediction
Characteristics of the Speech Wave for
Automatic Speaker Identification and
Verification、J.Acoust.Soc.Amer.、55、6、
p、1304、1974)。線形予測係数から線形予測ケ
プストラムへの変換は、次の演算により行うこと
ができる。
かの方法、例えば入力信号波の短区間エネルギ
ー、ある一定値以上のエネルギーが継続する時
間、波形の周期性の有無、等を用いることができ
る。検出された音声区間の信号波は線形予測分析
回路4に送られ、線形予測係数の時間波形に変換
される。この技術は、すでに公知であるので(例
えば、文献、板倉、斎藤:統計的手法による音声
スペクトル密度とホルマント周波数の推定、電子
通信学会論文誌、53−A、1、35、1970参照)、
詳細は省略するが、基本的にはまず低域通過フイ
ルタに通したのち標本化および電子化を行い、一
定時間ごとに短区間の波形を切り出してハミング
窓等を乗じ、積和の演算によつて相関係数を計算
する。ハミング窓の長さとしては、例えば30m
S、これを更新する周期としては、たとえば10m
Sのような値が用いられる。相関係数から、繰返
し演算処理によつて代数方程式を解くことによ
り、容易に線形予測係数が抽出される。相関係数
および線形予測係数は、たとえば第0次から第10
次までの値を計算する。抽出された線形予測係数
の時間波形は、ケプストラム変換回路5により、
いわゆる線形予測ケプストラム係数に変換され
る。線形予測ケプストラム係数は、対数パワー・
スペクトルのフーリエ変換によつて得られる従来
のケプストラム係数とはやや異なるが、それによ
つて表現されるスペクトル包絡は類似している。
線形予測ケプストラム係数は、発声者の声の特徴
を表現するパラメータとして優れた性質を有して
いることが知られている(文献、B.S.Atal:
Effectiveness of Linear Prediction
Characteristics of the Speech Wave for
Automatic Speaker Identification and
Verification、J.Acoust.Soc.Amer.、55、6、
p、1304、1974)。線形予測係数から線形予測ケ
プストラムへの変換は、次の演算により行うこと
ができる。
C1=a1 ……(1)
ここで、aoはn次の線形予測係数、coはn次
の線形予測ケプストラム、pは線形予測モデルの
次元数である。pとしては、前述のように10程度
の値が用いられる。
の線形予測ケプストラム、pは線形予測モデルの
次元数である。pとしては、前述のように10程度
の値が用いられる。
抽出された全音声区間の線形予測ケプストラム
係数(以下簡単のために単にケプストラム係数と
称する)の時間波形は、ケプストラム蓄積部6に
蓄えられる。同時に、そのうちの、後に話者の判
定に用いる特徴パラメータとしてあらかじめ定め
られている係数の波形は、ケプストラム平均化回
路7に入力される。ここで、各次数のケプストラ
ム係数ごとに全音声区間の平均値が計算される。
全ケプストラム係数のうち、どの係数を特徴パラ
メータとして用いるかは、予備実験や分散分析等
の統計的分析によつてあらかじめ定めておく。
係数(以下簡単のために単にケプストラム係数と
称する)の時間波形は、ケプストラム蓄積部6に
蓄えられる。同時に、そのうちの、後に話者の判
定に用いる特徴パラメータとしてあらかじめ定め
られている係数の波形は、ケプストラム平均化回
路7に入力される。ここで、各次数のケプストラ
ム係数ごとに全音声区間の平均値が計算される。
全ケプストラム係数のうち、どの係数を特徴パラ
メータとして用いるかは、予備実験や分散分析等
の統計的分析によつてあらかじめ定めておく。
次に、この平均値と、ケプストラム蓄積部6に
蓄えられているケプストラム係数の時間波形のう
ち特徴パラメータとして用いることが定められて
いる係数の波形を減算回路8に入力し、各ケプス
トラム係数の値から対応する次数の平均値を減ず
る。この出力は、特徴パラメータ蓄積部9に一旦
蓄えられる。
蓄えられているケプストラム係数の時間波形のう
ち特徴パラメータとして用いることが定められて
いる係数の波形を減算回路8に入力し、各ケプス
トラム係数の値から対応する次数の平均値を減ず
る。この出力は、特徴パラメータ蓄積部9に一旦
蓄えられる。
一方、ケプストラム蓄積部6に蓄えられている
ケプストラム係数のうち、あらかじめ定められて
いる複数の係数の時間波形はそれぞれ、一定間隔
ごとに一定の時間長の区間がケプストラム・レジ
スタ10に一旦蓄えられ、このレジスタ10の内
容は多項式展開回路11に送られて多項式展開係
数が演算される。このケプストラム・レジスタ1
0および多項式展開回路11に入力されるケプス
トラム係数の時間波形の長さとしては、たとえば
90mS、これを更新する周期としては、たとえば
10mSのような値を用いる。時間波形を多項式に
展開する方法としては、種々の方法を用いること
ができるが、ここでは、たとえば時間波形を次の
ような3種類の関数の線形結合で表現する方法を
用いる。
ケプストラム係数のうち、あらかじめ定められて
いる複数の係数の時間波形はそれぞれ、一定間隔
ごとに一定の時間長の区間がケプストラム・レジ
スタ10に一旦蓄えられ、このレジスタ10の内
容は多項式展開回路11に送られて多項式展開係
数が演算される。このケプストラム・レジスタ1
0および多項式展開回路11に入力されるケプス
トラム係数の時間波形の長さとしては、たとえば
90mS、これを更新する周期としては、たとえば
10mSのような値を用いる。時間波形を多項式に
展開する方法としては、種々の方法を用いること
ができるが、ここでは、たとえば時間波形を次の
ような3種類の関数の線形結合で表現する方法を
用いる。
P0j=1 ……(3)
P1j=j−5 ……(4)
P2j=j2−10j+55/3 ……(5)
このとき、ケプストラム係数の時間波形をxj
(j=1、2……、9)であらわすとすると、上
記の3種類の関数に対応する展開係数は、 の演算で求めることができる。a、b、cの係数
のうち、各次数のケプストラム係数に応じてのち
に特徴パラメータとして用いることがあらかじめ
定められている係数は10mSごとに更新される多
項式展開回路11の入力にじて計算され、特徴パ
ラメータ蓄積部9に送られて蓄えられる。このう
ち、aの係数すなわち0次の多項式展開係数は、
時間波形の短時間ごとの平均値に相当し、伝送路
等の変動の影響を受け易いので、特徴パラメータ
蓄積部9には蓄えず、以後特徴パラメータとして
は用いない。bとcの多項式展開係数は、それぞ
れ時間波形の傾斜と曲率を表現するものであり、
時間的にゆつくりした伝送路等の変動の影響はす
でに0次の展開係数として取り除かれているの
で、伝送路等の影響を受け難い特徴がある。特徴
パラメータ蓄積部9には、合計18ないし20個程度
の、あらかじめ定められている次数のケプストラ
ム係数および多項式展開係数の全音声区間におけ
る時間波形が蓄えられる。この18〜20個程度の時
間波形のうち、ケプストラム係数の時間波形から
は全音声区間の平均値がすでに減じられており、
多項式展開係数からは0次の係数が除去されてい
るので、ともに伝送路等の影響を受け難い特徴を
有している。一定間隔(上述のように例えば10m
S)ごとの該18〜20個の係数をまとめて、特徴パ
ラメータと呼ぶ。
(j=1、2……、9)であらわすとすると、上
記の3種類の関数に対応する展開係数は、 の演算で求めることができる。a、b、cの係数
のうち、各次数のケプストラム係数に応じてのち
に特徴パラメータとして用いることがあらかじめ
定められている係数は10mSごとに更新される多
項式展開回路11の入力にじて計算され、特徴パ
ラメータ蓄積部9に送られて蓄えられる。このう
ち、aの係数すなわち0次の多項式展開係数は、
時間波形の短時間ごとの平均値に相当し、伝送路
等の変動の影響を受け易いので、特徴パラメータ
蓄積部9には蓄えず、以後特徴パラメータとして
は用いない。bとcの多項式展開係数は、それぞ
れ時間波形の傾斜と曲率を表現するものであり、
時間的にゆつくりした伝送路等の変動の影響はす
でに0次の展開係数として取り除かれているの
で、伝送路等の影響を受け難い特徴がある。特徴
パラメータ蓄積部9には、合計18ないし20個程度
の、あらかじめ定められている次数のケプストラ
ム係数および多項式展開係数の全音声区間におけ
る時間波形が蓄えられる。この18〜20個程度の時
間波形のうち、ケプストラム係数の時間波形から
は全音声区間の平均値がすでに減じられており、
多項式展開係数からは0次の係数が除去されてい
るので、ともに伝送路等の影響を受け難い特徴を
有している。一定間隔(上述のように例えば10m
S)ごとの該18〜20個の係数をまとめて、特徴パ
ラメータと呼ぶ。
スイツチ12は、学習モードと照合モードを選
択するスイツチであつて、いずれの話者に関して
も、最初の1回の発声に対してはスイツチ12を
端子12aに接続しておいて、特徴パラメータ蓄
積部9の内容を標準パターン蓄積部13に入力
し、その話者の標準パターンとして蓄える。その
後の話者の異同を判定すべき音声に対しては、ま
ずスイツチ12を端子12cに接続しておいて、
特徴パラメータ蓄積部9の内容を非線形時間正規
化回路15に入力する。同時に、識別番号入力端
子2から入力された話者の番号に対応した標準パ
ターンを標準パターン蓄積部13から読出し、非
線形時間正規化回路15に入力する。非線形時間
正規化回路15では、標準パターンと入力音声の
特徴パラメータの類似性の度合いを計算する。音
声の発声速度は、同じ話者が同じ言葉を繰返し発
声してもその度ごとに部分的および全体的に変化
するので、両者を比較するには、共通の音(音
韻)が対応するように、一方の時間軸を適当に非
線形に伸縮して他方の時間軸にあわせ、対応する
時点の特徴パラメータどうしを比較する必要があ
る。
択するスイツチであつて、いずれの話者に関して
も、最初の1回の発声に対してはスイツチ12を
端子12aに接続しておいて、特徴パラメータ蓄
積部9の内容を標準パターン蓄積部13に入力
し、その話者の標準パターンとして蓄える。その
後の話者の異同を判定すべき音声に対しては、ま
ずスイツチ12を端子12cに接続しておいて、
特徴パラメータ蓄積部9の内容を非線形時間正規
化回路15に入力する。同時に、識別番号入力端
子2から入力された話者の番号に対応した標準パ
ターンを標準パターン蓄積部13から読出し、非
線形時間正規化回路15に入力する。非線形時間
正規化回路15では、標準パターンと入力音声の
特徴パラメータの類似性の度合いを計算する。音
声の発声速度は、同じ話者が同じ言葉を繰返し発
声してもその度ごとに部分的および全体的に変化
するので、両者を比較するには、共通の音(音
韻)が対応するように、一方の時間軸を適当に非
線形に伸縮して他方の時間軸にあわせ、対応する
時点の特徴パラメータどうしを比較する必要があ
る。
一方基準にして、両者が最もよく合うように
(両者の類似度が最も大きくなるように)他方の
時間軸を非線形に伸縮する技術としては、動的計
画法による最適化の手法を使用できることが知ら
れている(文献:迫江、千葉:動的計画法を利用
した音声の時間正規化に基づく連続単語認識、日
本音響学会誌、27、9、P.438、1971)。
(両者の類似度が最も大きくなるように)他方の
時間軸を非線形に伸縮する技術としては、動的計
画法による最適化の手法を使用できることが知ら
れている(文献:迫江、千葉:動的計画法を利用
した音声の時間正規化に基づく連続単語認識、日
本音響学会誌、27、9、P.438、1971)。
本発明の方式においても、非線形時間正規化回
路15では、動的計画法の演算を行う。標準パタ
ーンのある時点kにおける特徴パラメータをrki
(1iN)、入力音声のある時点lにおける特
徴パラメータをzli(1iN)であらわす
と、ここでは両者の距離(小さくなるほど類似度
が大きいことを示す数値)として、次のような値
を用いる。
路15では、動的計画法の演算を行う。標準パタ
ーンのある時点kにおける特徴パラメータをrki
(1iN)、入力音声のある時点lにおける特
徴パラメータをzli(1iN)であらわす
と、ここでは両者の距離(小さくなるほど類似度
が大きいことを示す数値)として、次のような値
を用いる。
あるいは、
ここで、Nはケプストラム係数と多項式展開係
数をあわせた特徴パラメータの次元数で、前述の
ように18ないし20程度の値を用いる。すなわち、
zliとrkiはいずれも、ケプストラム係数と多項式
展開係数を要素として持つている。wiは各特徴
パラメータに対してあらかじめ定められている重
みを示す数値で、この値は多数話者がそれぞれの
複数回発声した音声を用いて、そのパラメータの
変動性の度合いを調べた結果にもとづいて定め、
重みレジスタ16に蓄えておく。動的計画法の演
算によつて標準パターンと入力音声の一致度が最
もよくなるように時間軸を対応づけたときの、対
応する時点どうしの標準パターンと入力音声の特
徴パラメータの距離を全音声区間について平均し
た値を計算する。この値を、入力音声と標準パタ
ーンとの総合的距離と呼ぶことにする。
数をあわせた特徴パラメータの次元数で、前述の
ように18ないし20程度の値を用いる。すなわち、
zliとrkiはいずれも、ケプストラム係数と多項式
展開係数を要素として持つている。wiは各特徴
パラメータに対してあらかじめ定められている重
みを示す数値で、この値は多数話者がそれぞれの
複数回発声した音声を用いて、そのパラメータの
変動性の度合いを調べた結果にもとづいて定め、
重みレジスタ16に蓄えておく。動的計画法の演
算によつて標準パターンと入力音声の一致度が最
もよくなるように時間軸を対応づけたときの、対
応する時点どうしの標準パターンと入力音声の特
徴パラメータの距離を全音声区間について平均し
た値を計算する。この値を、入力音声と標準パタ
ーンとの総合的距離と呼ぶことにする。
次に、この総合的距離と、標準パターン蓄積部
13にあらかじめ蓄えられている一定のしきい値
を比較回路17に入力し、論理回路により両者の
大小関係を判定する。標準パターン蓄積部13に
は、各登録話者毎に、それまでの標準パターンと
その話者の入力話者との距離の履歴や、その話者
の標準パターンと他の話者の入力音声との距離の
分布等にもとづいてあらかじめ決めておいたしき
い値を蓄えておき、識別番号入力端子2から入力
された識別番号を用いて、該当する話者のしきい
値を読み出し、比較回路17に入力する入力され
た音声と標準パターンとの総合的距離がしきい値
より大きい場合は、その入力音声はその話者のも
のではないと判定する信号を出力端子18から出
力し、総合的距離がしきい値よりも小さい場合
は、その入力音声はその話者のものであると判定
する信号を出力端子18から出力する。
13にあらかじめ蓄えられている一定のしきい値
を比較回路17に入力し、論理回路により両者の
大小関係を判定する。標準パターン蓄積部13に
は、各登録話者毎に、それまでの標準パターンと
その話者の入力話者との距離の履歴や、その話者
の標準パターンと他の話者の入力音声との距離の
分布等にもとづいてあらかじめ決めておいたしき
い値を蓄えておき、識別番号入力端子2から入力
された識別番号を用いて、該当する話者のしきい
値を読み出し、比較回路17に入力する入力され
た音声と標準パターンとの総合的距離がしきい値
より大きい場合は、その入力音声はその話者のも
のではないと判定する信号を出力端子18から出
力し、総合的距離がしきい値よりも小さい場合
は、その入力音声はその話者のものであると判定
する信号を出力端子18から出力する。
入力音声が、その話者のものであると判定され
た場合は、スイツチ12を端子12bに接続し、
特徴パラメータ蓄積部9に蓄えられている特徴パ
ラメータを標準パターン平均化回路14に入力す
る。同時に、その話者の標準パターンの特徴パラ
メータを標準パターン蓄積部13から読み出し、
非線形時間正規化回路15で演算された標準パタ
ーンと入力音声の時間軸の対応関係、すなわち一
方の時間軸の各時点が他方の時間軸のどの時点に
対応するかを示す数値列とともに標準パターン平
均化回路14に入力する。標準パターン平均化回
路14では、これらの入力に応じて、各特徴パラ
メータごとに、標準パターンと入力音声の重みつ
き平均値を、標準パターンの各時点について計算
する。この重みは、各話者の標準パターンを作成
するために、これまでに用いられたその話者の入
力音声の数に応じて決める。こうして計算された
特徴パラメータの重みつき平均値を、新しい標準
パターンとして標準パターン蓄積部13に転送
し、蓄える。さらに、非線形時間正規化回路15
で計算された総合的距離と、話者の判定に用いら
れたしきい値演算論理回路19に入力し、しきい
値を更新する。しきい値の初期値としては、経験
的に決められた値を標準パターン蓄積部13に蓄
えておいて用い、その後は、しきい値演算論理回
路19に各話者の過去2回程度の総合的距離を蓄
えておいて、新しく計算された総合的距離を含め
た最大値を選択し、この値に一定値を加えた値と
現在のしきい値の平均値を計算する。この値を、
標準パターン蓄積部13に転送して、新しいしき
い値として蓄える。
た場合は、スイツチ12を端子12bに接続し、
特徴パラメータ蓄積部9に蓄えられている特徴パ
ラメータを標準パターン平均化回路14に入力す
る。同時に、その話者の標準パターンの特徴パラ
メータを標準パターン蓄積部13から読み出し、
非線形時間正規化回路15で演算された標準パタ
ーンと入力音声の時間軸の対応関係、すなわち一
方の時間軸の各時点が他方の時間軸のどの時点に
対応するかを示す数値列とともに標準パターン平
均化回路14に入力する。標準パターン平均化回
路14では、これらの入力に応じて、各特徴パラ
メータごとに、標準パターンと入力音声の重みつ
き平均値を、標準パターンの各時点について計算
する。この重みは、各話者の標準パターンを作成
するために、これまでに用いられたその話者の入
力音声の数に応じて決める。こうして計算された
特徴パラメータの重みつき平均値を、新しい標準
パターンとして標準パターン蓄積部13に転送
し、蓄える。さらに、非線形時間正規化回路15
で計算された総合的距離と、話者の判定に用いら
れたしきい値演算論理回路19に入力し、しきい
値を更新する。しきい値の初期値としては、経験
的に決められた値を標準パターン蓄積部13に蓄
えておいて用い、その後は、しきい値演算論理回
路19に各話者の過去2回程度の総合的距離を蓄
えておいて、新しく計算された総合的距離を含め
た最大値を選択し、この値に一定値を加えた値と
現在のしきい値の平均値を計算する。この値を、
標準パターン蓄積部13に転送して、新しいしき
い値として蓄える。
このような構造になつているからその結果とし
て、高品質のマイクロホンだけでなく、電話系を
通つた音声、雑音や伝送歪の影響を受けた音声等
に対しても高い精度を示す話者照合システムを実
現することができる。これまでの実験によれば、
実際の炭素送話器を含む電話機と交換器を通つた
音声に対して、本発明による方式を適用すること
により、99%以上の精度で話者照合の判定を行う
ことができることが示されている。
て、高品質のマイクロホンだけでなく、電話系を
通つた音声、雑音や伝送歪の影響を受けた音声等
に対しても高い精度を示す話者照合システムを実
現することができる。これまでの実験によれば、
実際の炭素送話器を含む電話機と交換器を通つた
音声に対して、本発明による方式を適用すること
により、99%以上の精度で話者照合の判定を行う
ことができることが示されている。
以上説明したように、本発明によれば、電話系
等を通つた音声から伝送歪等の影響を受けにくい
声の特徴をとり出して用いることにより、高い精
度で本人か否かの判定が行えるため、電話の声等
を本人か否かの鍵として用いるバンキング・サー
ビス等の種々のサービスに広く応用することがで
きる。
等を通つた音声から伝送歪等の影響を受けにくい
声の特徴をとり出して用いることにより、高い精
度で本人か否かの判定が行えるため、電話の声等
を本人か否かの鍵として用いるバンキング・サー
ビス等の種々のサービスに広く応用することがで
きる。
第1図は音声波を電気的にモデル化したブロツ
ク図、第2図は音声分析モデルを示すブロツク
図、第3図は本発明の実施例を示す話者照合方式
のブロツク図である。 1:音声入力端子、2:識別番号入力端子、
3:音声区間検出回路、4:線形予測分析回路、
5:ケプストラム変換回路、6:ケプストラム蓄
積部、7:ケプストラム平均化回路、8:減算回
路、9:特徴パラメータ蓄積部、10:ケプスト
ラム・レジスタ、11:多項式展開回路、12:
スイツチ、13:標準パターン蓄積部、14:標
準パターン平均化回路、15:非線形時間正規化
回路、16:重みレジスタ、17:比較回路、1
8:出力端子、19:しきい値演算論理回路。
ク図、第2図は音声分析モデルを示すブロツク
図、第3図は本発明の実施例を示す話者照合方式
のブロツク図である。 1:音声入力端子、2:識別番号入力端子、
3:音声区間検出回路、4:線形予測分析回路、
5:ケプストラム変換回路、6:ケプストラム蓄
積部、7:ケプストラム平均化回路、8:減算回
路、9:特徴パラメータ蓄積部、10:ケプスト
ラム・レジスタ、11:多項式展開回路、12:
スイツチ、13:標準パターン蓄積部、14:標
準パターン平均化回路、15:非線形時間正規化
回路、16:重みレジスタ、17:比較回路、1
8:出力端子、19:しきい値演算論理回路。
Claims (1)
- 1 照合すべき音声波入力の線形予測係数の時間
波形を算出し、該線形予測係数をケプストラム係
数に変換して蓄積する手段と、全音声区間におけ
るケプストラム係数の平均値を求め、該平均値と
ケプストラム係数の時間波形を減算してケプスト
ラム係数を正規化する手段と、ケプストラム係数
の時間波形から多項式展開係数を算出する手段
と、登録話者ごとの標準パターンを蓄積する手段
と、非線形時間正規化手段と、比較手段とを有
し、上記正規化ケプストラム係数の時間波形と、
多項式展開係数と、照合すべき話者の番号より抽
出された標準パターンとを、上記非線形時間正規
化手段に入力して両者の類似性の度合いを算出
し、該算出値と話者の番号により抽出された値と
を上記比較手段に入力して大小を比較し、入力音
声波が番号に該当する話者のものか否かを判定す
ることを特徴とする話者照合方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15844879A JPS5680100A (en) | 1979-12-06 | 1979-12-06 | Talker collation system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15844879A JPS5680100A (en) | 1979-12-06 | 1979-12-06 | Talker collation system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5680100A JPS5680100A (en) | 1981-07-01 |
| JPS6131479B2 true JPS6131479B2 (ja) | 1986-07-21 |
Family
ID=15671972
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP15844879A Granted JPS5680100A (en) | 1979-12-06 | 1979-12-06 | Talker collation system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5680100A (ja) |
-
1979
- 1979-12-06 JP JP15844879A patent/JPS5680100A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5680100A (en) | 1981-07-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Muda et al. | Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques | |
| CN103236260B (zh) | 语音识别系统 | |
| CA2098629C (en) | Speech recognition method using time-frequency masking mechanism | |
| JPS62231997A (ja) | 音声認識システム及びその方法 | |
| CN106935248A (zh) | 一种语音相似度检测方法及装置 | |
| CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
| JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
| Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
| Sharma et al. | Study of robust feature extraction techniques for speech recognition system | |
| Ibrahim et al. | Quranic verse recitation feature extraction using Mel-frequency cepstral coefficients (MFCC) | |
| Dash et al. | Speaker identification using mel frequency cepstralcoefficient and bpnn | |
| Naithani et al. | English language speech recognition using mfcc and hmm | |
| Zolnay et al. | Robust speech recognition using a voiced-unvoiced feature | |
| CN110634473A (zh) | 一种基于mfcc的语音数字识别方法 | |
| WO2001029822A1 (en) | Method and apparatus for determining pitch synchronous frames | |
| Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
| Omar et al. | Feature fusion techniques based training MLP for speaker identification system | |
| CN116229988A (zh) | 一种电力调度系统人员声纹识别鉴权方法、系统及装置 | |
| CN116469405A (zh) | 一种降噪通话方法、介质和电子设备 | |
| JPS6131479B2 (ja) | ||
| Pattanayak et al. | Significance of single frequency filter for the development of children's KWS system. | |
| JPH0426479B2 (ja) | ||
| Saha et al. | Modified mel-frequency cepstral coefficient | |
| Chakraborty et al. | An automatic speaker recognition system | |
| Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach |