JPH0632007B2

JPH0632007B2 - 話者照合方式

Info

Publication number: JPH0632007B2
Application number: JP2081757A
Authority: JP
Inventors: 章司三木; 逸子西川
Original assignee: Glory Ltd
Current assignee: Glory Ltd
Priority date: 1990-03-29
Filing date: 1990-03-29
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPH03280099A

Description

【発明の詳細な説明】発明の目的；（産業上の利用分野）この発明は、予め登録しておいた音声特徴パターンと入
力された音声特徴パターンとを比較することによって話
者を確実に照合するための話者照合方式に関する。

（従来の技術）話者照合の研究は古くから行なわれており、様々な方式
が提案されている。代表的な方式としてはBPF(Band Pas
s Filter)分析による音声パターンのパターン間の類似
度をDPマッチング等の処理によって求め、この類似度に
基づいて判定を行なうものがある。BPF分析は音声を通
過周波数帯域の異なる複数個のBPFに並列に通し、各出
力を全波整流後にLPFによって平滑化し、ある時間間隔
でA/D変換することによってそのパターンを得る。DPマ
ッチングは２つのパターン間の距離ができるだけ小さく
なるように、非線形にパターン長を合わせるための効率
的な方法である。BPF分析，DPマッチングについては、
例えば新美康永著共立出版発行の「音声認識」に詳しく
説明されている。

（発明が解決しようとする課題）上述の方式では、特徴としてBPF分析パターンそのもの
を用いているため、データ量が非常に多くなる欠点があ
る。たとえばBPF数１５個、A/D周期10msで１秒長の音声
を分析すると、そのデータ量は1000/10×15＝1500個に
もなってしまう。

この発明は上述のような事情より成されたものであり、
この発明の目的は、５母音との距離パターンに関する特
徴量から有効性を考慮して選択したものを利用すること
によって全体のデータ量を少なくしており、少ないデー
タ量でも話者を確実に照合するための話者照合方式を提
供することにある。

発明の構成（課題を解決するための手段）この発明は話者照合方式に関するもので、この発明の上
記目的は、話者に予め５母音を発声させて５母音パター
ンを一旦作成すると共に、前記５母音以外の言葉を発声
させて前記５母音パターンとの距離を求め、特徴量の中
から有効なものを選択し、前記選択された特徴量を前記
話者の標準パターンとして登録しておき、照合時には前
記登録時と同一の５母音以外の言葉を発声させて、前記
登録された標準パターンとの類似度により話者を照合す
るようにすることによって達成される。

（作用）この発明は、より少ないデータで高い話者照合能力を得
るために開発されたもので、より個人性を持つ特徴量を
選択して使用することにより、従来方式に比べ1/10以下
のデータ量で照合可能となっている。この発明では、特
に特定の話者に予め５母音と５母音以外の言葉を発声さ
せて特徴量を計算し、有効性を考慮した上で特徴量を選
択し、それを標準パターンとして登録しておき、照合時
に５母音以外の言葉を発声させて特徴量を計算し、この
特徴量から得られるパターンと標準パターンとを比較し
て話者照合を行なうようにしている。

（実施例）第１図はこの発明の動作例を示しており、最
初に登録モードか照合モードかを判断するが（ステップ
S1）、先ず登録モードについて説明する。

先ず５母音の音声を入力する回数を数えるパラメータｍ
を“０”とし（ステップS2）、その後に話者が５母音
“ａ”〜“ｏ”を弧立発声し（ステップS3）、発声され
た５母音の音声について各母音毎に音響分析を行なう
（ステップS4）。この音響分析は音声信号をA/D変換し
た音声データをLPC(Linear Planning Coefifcient)分析
するものであり、LPC分析に関しては中田和男著総合
電子出版発行の「音声の合成と認識」に詳細に説明され
ており、この手法を用いるものである。

すなわち、第２図に示すように音声波形を適当なサンプ
リング時間でA/D変換し、音声区間を切り出し、たとえ
ばフレームシフト10ms，フレーム長30msでフレーム単位
に分割し、各フレーム内データに対してハミング窓をか
け合せてフレーム両端の部分の周波数の歪をなくし、そ
の後に適応１次多段逆フィルタ（演算して求めたもの）
を通して音源特性によるものを除去し、声道特性のみと
した後にLPC分析を行なう。

データパターンは第３図のような形となる。但し、ここ
では、a_ijは第ｉフレーム，第ｊ次LPC係数を、ｎは分析
次数をそれぞれ示す。第４図(A)はハミング窓をかけ合
せた後の特性を示し、同図(B)は同図(A)を逆フィルタを
通した後の特性を示している。逆フィルタすることによ
りスペクトルが平坦化される。さらに、定常時（初めと
終りの部分を除いた部分）のLPC時系列を第３図に示す
如く平均し、先ず“ａ”の母音パターンを作成する。
“ｉ”〜“ｏ”についても同様にLPC分析を行ない、５
母音のパターンを作成する。

この音響分析の後、パラメータｍが所定数Ｍになってい
るか否かを判断し（ステップS5）、ｍ＝Ｍとなるまでパ
ラメータｍをカウントアップして（ステップS6）、上記
ステップS3にリターンして上記動作を繰り返す。そし
て、ｍ＝Ｍとなった場合にはＭ回のパターンを平均し、
５母音パターンとしてメモリに記憶し（ステップS7）、
音声入力の回数を数えるためのパラメータｌを“０”と
し（ステップS8）、所定の文章，単語等を発声する（ス
テップS10。なお、後述する平均ピッチ，平均逆フィル
タ係数は５母音パターンとしてはメモリに記憶しない。

この発声された音声に対して、先ず上述したと同様な音
響分析を行ない（ステップS11、逆フィルタ係数を求
め、その逆フィルタを通した後にLPC分析の時係列を求
め、更にピッチの時係列を求める。ピッチ（声の高さ）
は元のデータそのものから直接求めるよりも、LPCで予
測したものと実際のデータとの差を一旦求め、この残差
からピッチの時系列を求めた方が簡単である。そして、
音響分析のデータを基に特徴量の計算を行なう（ステッ
プS12）。この特徴量の計算は、平均ピッチ（声の高
さ），平均LPC係数（声道の平均的な特性），平均逆フ
ィルタ係数（音源の平均的な特性）及びLPCパターンで
の５母音との距離に関する各種特徴量を求めるものであ
る。LPC係数，ピッチ及び逆フィルタ係数のフレーム毎
の値と、平均LPC係数，平均ピッチ及び平均逆フィルタ
係数との関係は第５図に示されており、また、LPCパタ
ーンでの５母音との距離は第６図で示されるようなマト
リクスデータとなる。母音“ｉ”との距離はブロックSC
1で表わされるが、例えば母音“ａ”との距離パターン
ｄ_ａｊは下式で計算される。

α_ｊｋ：第ｊフレーム第ｋ次のLPC係数 α▲^a _k▼：母音“ａ”の第ｋ次LPC係数ｄ_ａｊ：第ｊフレーム母音“ａ”とのパターン距離また、５母音との距離に関する特徴量の項目内容は第７
図に示されており、次に第７図の上段（各母音毎）につ
いては母音“ａ”について、下段（各母音間）について
は母音“ａ”及び“ｉ”の場合について、その計算式を
以下に示す。各母音毎の音声区間全体の分散値buntは、ｄ_ａｉ：第ｉフレームの“ａ”との距離の平均ｎ：フレーム数である。また、各母音間の音声区間全体の相関係数ｒ
は、：ｄ_ａｉとｄ_ｉｉの共分散ｄ_ａｉの分散ｓ_ｉｉ：ｄ_ｉｉの分散である。そして、距離和distは、である。更に、第ｊセグメントについて各母音毎の分散
値bunsj，平均値avesj，各母音間の距離の分散値dis-bu
nj，距離の平均値dis-avejは次のように計算する。

（第ｊセグメントに第ｍ〜第ｍ′フレームが含まれる場
合） co-disj＝(d_ai-d_ii)²:d_aiとd_aiの距離第８図は“namae”を発声した場合について、LPCパター
ンでの５母音パターンとの距離を示している。特性DS1
は母音“ａ”との距離を、特性DSDは母音“ｉ”との距
離を、特性DS3は母音“ｕ”との距離を、特性DS4は母音
“ｅ”との距離を、特性DS5は母音“ｏ”との距離をそ
れぞれ示しており、母音部で該当母音との距離が小さく
５本がバラバラの場合は発声が明瞭であり、５本とも比
較的大きく同じような値を有する場合には発声が不明瞭
であると言える。

第７図の各特徴について関係を示したのが第９図(A)，
(B)であり、同図(A)は第８図の中から２本の特性を取り
出したものである。また、第９図(A)，(B)の縦の実線は
セグメントの境界を示している。フレーム（時間）に対
して母音“ａ”との距離は第９図(A)の特性Ａで示さ
れ、母音“ｉ”との距離は特性Ｂで示されるとすると、
母音“ａ”と母音“ｉ”との母音間の距離和(dist)は斜
線部Ｃで示される。距離Ｂの起伏は距離Ａのそれより急
峻であるため、音声区間全体での分散値(bunt)が大きく
なる。図中×印は各母音毎の音声区間全体での最小値(m
int)を、・印はセグメントでの最小値(mins)を、横線は
セグメントでの平均値(aves)をそれぞれ示している。そ
して、母音“ａ”との距離及び母音“ｉ”との距離の間
の距離は第９図(B)のように表わされ、各セグメントで
の平均値(dis-ave)は横線のように、最小値(dis-min)は
＊印となる。

但し、セグメントは母音定常部とその間及び始端，終端
とし、５母音との距離パターンを利用し、発声内容を考
慮してトップダウンで行なう。たとえば“namae”を発
声した場合、最初の“ａ”のセグメントを見付けるに
は、先ず存在候補区間（“namae”の場合は全長の1/3よ
り前）で“ａ”との距離の最小値を見付け、しきい値を
その最小値×定数とし、しきい値以下の区間の長さがセ
グメント長の範囲内（発声する言葉により予め決められ
ている範囲、たとえば10〜20フレーム）になるように定
数の値を調整してセグメントを求める。

このような特徴量の計算を行なった後、パラメータｌが
所定数Ｌとなるまで上記ステップS10にリターンして同
様な動作を繰返し（ステップS13，S14）、ｌ＝Ｌとなっ
た時に特徴量の選択を行なう（ステップS15）。すなわ
ち、話者、発声音毎に第７図の中から有効なものを10個
選択する。有効性の評価は、次式で示されるＦ比の大小
で判断する。

但し、μ_ｉ：話者ｉの分布の中心 μ：全体の中心ｘ_ｉｊ：話者ｉの第ｊ番目のデータＩ：話者数Ｌ：データ数本人分布の広がりが小さく各話者分布が離れているほど
分離状態が良く、話者間分散が大きく話者内分散が小さ
いほどＦ比は大きくて有効となる。さらに、話者発声音
によらない共通のものとして、平均ピッチ，平均LPC係
数（３〜８次），平均逆フィルタ係数（１〜３次）の計
10個を採用する。すなわち、照合のための特徴量の数は
本実施例では20個である。なお、第７図に示すような５
母音パターンとの距離に関する各種特徴量の中からＦ比
の大きいものから少なくとも10個とれば、話者照合に非
常に有効となることが実験により確かめられたので10個
選択しているが、照合演算処理時間によってはもう少し
選択数を増加させても良い。

このような特徴量の選択の後に選択した特徴量のＬ個平
均をとり、標準パターンとしてメモリに登録する（ステ
ップS16）。ただし、上述したＦ比の計算には本人以外
のデータが必要であるため、この登録の前には、比較す
べき登録者以外のデータをある程度収集する必要があ
る。

上述のような登録モードの後に、話者の照合を行なう場
合は次のように行なう。すなわち、先ず登録時に用いた
所定の文章を言葉で発声し（ステップS20）、この入力
された音声に対して上述したような音響分析（ステップ
S21）及び登録時に選択した特徴量の計算（ステップS2
2）を行ない、その後に平均ピッチによる判定を行なう
（ステップS23）。平均ピッチによる判定は、標準パタ
ーンでの平均ピッチに対してある範囲内にあるかどうか
で判定する。すなわち、この判定で f_oref×（１−α）≦f_oin≦f_oref×（１＋α）……(10) f_oref：標準パターンの平均ピッチ f_oin：入力音声の平均ピッチの場合にはOKとなる。平均ピッチによる判定の後に、重
み付き距離による判定を行なう（ステップS24）。この
重み付き距離による判定は、平均ピッチ以外の19種の特
徴量の有効性に応じた重み付き距離と、しきい値との大
小比較を下式に従って行なう。

ｗ_ｉ：第ｉ特徴の重み（＝Ｆ比）ａ_ｉ：標準パターンの第ｉ特徴の値ｂ_ｉ：入力パターンの第ｉ特徴の値ｄ_ｉｓ≦ｄ_ｉｓｏOK ｄ_ｉｓ＞ｄ_ｉｓｏNG 上述のような平均ピッチによる判定がOKであり、重み付
き距離による判定がOKの場合には、話者が登録者と同一
であるとしてアクセプトし（ステップS25）、いずれか
がNGの場合にはリジェクトとなる（ステップS26）。

発明の効果；以上のようにこの発明の話者照合方式によれば、５母音
パターンとの距離パターンに関する特徴量から有効なも
のを選択して使用しているため、少ないデータ量でしか
も話者の照合を確実に行なうことが可能となる。

【図面の簡単な説明】

第１図はこの発明の動作例を示すフローチャート、第２
図及び第３図はLPC分析を説明するための図、第４図
(A)，(B)は逆フィルタの関係を説明するための図、第５
図は特徴量の内容を示す図、第６図及び第８図は５母音
との距離パターンを示す図、第７図は特徴量の内容を示
す図、第９図(A)，(B)は特徴量を説明するための図であ
る。

Claims

【特許請求の範囲】

【請求項１】話者に予め５母音を発声させて５母音パタ
ーンを一旦作成すると共に、前記５母音以外の言葉を発
声させて前記５母音パターンとの距離を求め、特徴量の
中から有効なものを選択し、前記選択された特徴量を前
記話者の標準パターンとして登録しておき、照合時には
前記登録時と同一の５母音以外の言葉を発声させ、前記
登録された標準パターンとの類似度により話者を照合す
るようにしたことを特徴とする話者照合方式。