Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH0632007B2 - 話者照合方式 - Google Patents
[go: Go Back, main page]

JPH0632007B2 - 話者照合方式 - Google Patents

話者照合方式

Info

Publication number
JPH0632007B2
JPH0632007B2 JP2081757A JP8175790A JPH0632007B2 JP H0632007 B2 JPH0632007 B2 JP H0632007B2 JP 2081757 A JP2081757 A JP 2081757A JP 8175790 A JP8175790 A JP 8175790A JP H0632007 B2 JPH0632007 B2 JP H0632007B2
Authority
JP
Japan
Prior art keywords
vowel
distance
pattern
speaker
vowels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2081757A
Other languages
English (en)
Other versions
JPH03280099A (ja
Inventor
章司 三木
逸子 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2081757A priority Critical patent/JPH0632007B2/ja
Publication of JPH03280099A publication Critical patent/JPH03280099A/ja
Publication of JPH0632007B2 publication Critical patent/JPH0632007B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 発明の目的; (産業上の利用分野) この発明は、予め登録しておいた音声特徴パターンと入
力された音声特徴パターンとを比較することによって話
者を確実に照合するための話者照合方式に関する。
(従来の技術) 話者照合の研究は古くから行なわれており、様々な方式
が提案されている。代表的な方式としてはBPF(Band Pas
s Filter)分析による音声パターンのパターン間の類似
度をDPマッチング等の処理によって求め、この類似度に
基づいて判定を行なうものがある。BPF分析は音声を通
過周波数帯域の異なる複数個のBPFに並列に通し、各出
力を全波整流後にLPFによって平滑化し、ある時間間隔
でA/D変換することによってそのパターンを得る。DPマ
ッチングは2つのパターン間の距離ができるだけ小さく
なるように、非線形にパターン長を合わせるための効率
的な方法である。BPF分析,DPマッチングについては、
例えば新美康永著共立出版発行の「音声認識」に詳しく
説明されている。
(発明が解決しようとする課題) 上述の方式では、特徴としてBPF分析パターンそのもの
を用いているため、データ量が非常に多くなる欠点があ
る。たとえばBPF数15個、A/D周期10msで1秒長の音声
を分析すると、そのデータ量は1000/10×15=1500個に
もなってしまう。
この発明は上述のような事情より成されたものであり、
この発明の目的は、5母音との距離パターンに関する特
徴量から有効性を考慮して選択したものを利用すること
によって全体のデータ量を少なくしており、少ないデー
タ量でも話者を確実に照合するための話者照合方式を提
供することにある。
発明の構成 (課題を解決するための手段) この発明は話者照合方式に関するもので、この発明の上
記目的は、話者に予め5母音を発声させて5母音パター
ンを一旦作成すると共に、前記5母音以外の言葉を発声
させて前記5母音パターンとの距離を求め、特徴量の中
から有効なものを選択し、前記選択された特徴量を前記
話者の標準パターンとして登録しておき、照合時には前
記登録時と同一の5母音以外の言葉を発声させて、前記
登録された標準パターンとの類似度により話者を照合す
るようにすることによって達成される。
(作用) この発明は、より少ないデータで高い話者照合能力を得
るために開発されたもので、より個人性を持つ特徴量を
選択して使用することにより、従来方式に比べ1/10以下
のデータ量で照合可能となっている。この発明では、特
に特定の話者に予め5母音と5母音以外の言葉を発声さ
せて特徴量を計算し、有効性を考慮した上で特徴量を選
択し、それを標準パターンとして登録しておき、照合時
に5母音以外の言葉を発声させて特徴量を計算し、この
特徴量から得られるパターンと標準パターンとを比較し
て話者照合を行なうようにしている。
(実施例)第1図はこの発明の動作例を示しており、最
初に登録モードか照合モードかを判断するが(ステップ
S1)、先ず登録モードについて説明する。
先ず5母音の音声を入力する回数を数えるパラメータm
を“0”とし(ステップS2)、その後に話者が5母音
“a”〜“o”を弧立発声し(ステップS3)、発声され
た5母音の音声について各母音毎に音響分析を行なう
(ステップS4)。この音響分析は音声信号をA/D変換し
た音声データをLPC(Linear Planning Coefifcient)分析
するものであり、LPC分析に関しては中田和男著 総合
電子出版発行の「音声の合成と認識」に詳細に説明され
ており、この手法を用いるものである。
すなわち、第2図に示すように音声波形を適当なサンプ
リング時間でA/D変換し、音声区間を切り出し、たとえ
ばフレームシフト10ms,フレーム長30msでフレーム単位
に分割し、各フレーム内データに対してハミング窓をか
け合せてフレーム両端の部分の周波数の歪をなくし、そ
の後に適応1次多段逆フィルタ(演算して求めたもの)
を通して音源特性によるものを除去し、声道特性のみと
した後にLPC分析を行なう。
データパターンは第3図のような形となる。但し、ここ
では、aijは第iフレーム,第j次LPC係数を、nは分析
次数をそれぞれ示す。第4図(A)はハミング窓をかけ合
せた後の特性を示し、同図(B)は同図(A)を逆フィルタを
通した後の特性を示している。逆フィルタすることによ
りスペクトルが平坦化される。さらに、定常時(初めと
終りの部分を除いた部分)のLPC時系列を第3図に示す
如く平均し、先ず“a”の母音パターンを作成する。
“i”〜“o”についても同様にLPC分析を行ない、5
母音のパターンを作成する。
この音響分析の後、パラメータmが所定数Mになってい
るか否かを判断し(ステップS5)、m=Mとなるまでパ
ラメータmをカウントアップして(ステップS6)、上記
ステップS3にリターンして上記動作を繰り返す。そし
て、m=Mとなった場合にはM回のパターンを平均し、
5母音パターンとしてメモリに記憶し(ステップS7)、
音声入力の回数を数えるためのパラメータlを“0”と
し(ステップS8)、所定の文章,単語等を発声する(ス
テップS10。なお、後述する平均ピッチ,平均逆フィル
タ係数は5母音パターンとしてはメモリに記憶しない。
この発声された音声に対して、先ず上述したと同様な音
響分析を行ない(ステップS11、逆フィルタ係数を求
め、その逆フィルタを通した後にLPC分析の時係列を求
め、更にピッチの時係列を求める。ピッチ(声の高さ)
は元のデータそのものから直接求めるよりも、LPCで予
測したものと実際のデータとの差を一旦求め、この残差
からピッチの時系列を求めた方が簡単である。そして、
音響分析のデータを基に特徴量の計算を行なう(ステッ
プS12)。この特徴量の計算は、平均ピッチ(声の高
さ),平均LPC係数(声道の平均的な特性),平均逆フ
ィルタ係数(音源の平均的な特性)及びLPCパターンで
の5母音との距離に関する各種特徴量を求めるものであ
る。LPC係数,ピッチ及び逆フィルタ係数のフレーム毎
の値と、平均LPC係数,平均ピッチ及び平均逆フィルタ
係数との関係は第5図に示されており、また、LPCパタ
ーンでの5母音との距離は第6図で示されるようなマト
リクスデータとなる。母音“i”との距離はブロックSC
1で表わされるが、例えば母音“a”との距離パターン
ajは下式で計算される。
αjk:第jフレーム第k次のLPC係数 α▲a k▼:母音“a”の第k次LPC係数 daj:第jフレーム母音“a”とのパターン距離 また、5母音との距離に関する特徴量の項目内容は第7
図に示されており、次に第7図の上段(各母音毎)につ
いては母音“a”について、下段(各母音間)について
は母音“a”及び“i”の場合について、その計算式を
以下に示す。各母音毎の音声区間全体の分散値buntは、 ai:第iフレームの“a”との距離 の平均 n:フレーム数 である。また、各母音間の音声区間全体の相関係数r
は、 :daiとdiiの共分散 aiの分散 sii:diiの分散 である。そして、距離和distは、 である。更に、第jセグメントについて各母音毎の分散
値bunsj,平均値avesj,各母音間の距離の分散値dis-bu
nj,距離の平均値dis-avejは次のように計算する。
(第jセグメントに第m〜第m′フレームが含まれる場
合) co-disj=(dai-dii)2:daiとdaiの距離 第8図は“namae”を発声した場合について、LPCパター
ンでの5母音パターンとの距離を示している。特性DS1
は母音“a”との距離を、特性DSDは母音“i”との距
離を、特性DS3は母音“u”との距離を、特性DS4は母音
“e”との距離を、特性DS5は母音“o”との距離をそ
れぞれ示しており、母音部で該当母音との距離が小さく
5本がバラバラの場合は発声が明瞭であり、5本とも比
較的大きく同じような値を有する場合には発声が不明瞭
であると言える。
第7図の各特徴について関係を示したのが第9図(A),
(B)であり、同図(A)は第8図の中から2本の特性を取り
出したものである。また、第9図(A),(B)の縦の実線は
セグメントの境界を示している。フレーム(時間)に対
して母音“a”との距離は第9図(A)の特性Aで示さ
れ、母音“i”との距離は特性Bで示されるとすると、
母音“a”と母音“i”との母音間の距離和(dist)は斜
線部Cで示される。距離Bの起伏は距離Aのそれより急
峻であるため、音声区間全体での分散値(bunt)が大きく
なる。図中×印は各母音毎の音声区間全体での最小値(m
int)を、・印はセグメントでの最小値(mins)を、横線は
セグメントでの平均値(aves)をそれぞれ示している。そ
して、母音“a”との距離及び母音“i”との距離の間
の距離は第9図(B)のように表わされ、各セグメントで
の平均値(dis-ave)は横線のように、最小値(dis-min)は
*印となる。
但し、セグメントは母音定常部とその間及び始端,終端
とし、5母音との距離パターンを利用し、発声内容を考
慮してトップダウンで行なう。たとえば“namae”を発
声した場合、最初の“a”のセグメントを見付けるに
は、先ず存在候補区間(“namae”の場合は全長の1/3よ
り前)で“a”との距離の最小値を見付け、しきい値を
その最小値×定数とし、しきい値以下の区間の長さがセ
グメント長の範囲内(発声する言葉により予め決められ
ている範囲、たとえば10〜20フレーム)になるように定
数の値を調整してセグメントを求める。
このような特徴量の計算を行なった後、パラメータlが
所定数Lとなるまで上記ステップS10にリターンして同
様な動作を繰返し(ステップS13,S14)、l=Lとなっ
た時に特徴量の選択を行なう(ステップS15)。すなわ
ち、話者、発声音毎に第7図の中から有効なものを10個
選択する。有効性の評価は、次式で示されるF比の大小
で判断する。
但し、μ:話者iの分布の中心 μ:全体の中心 ij:話者iの第j番目のデータ I:話者数 L:データ数 本人分布の広がりが小さく各話者分布が離れているほど
分離状態が良く、話者間分散が大きく話者内分散が小さ
いほどF比は大きくて有効となる。さらに、話者発声音
によらない共通のものとして、平均ピッチ,平均LPC係
数(3〜8次),平均逆フィルタ係数(1〜3次)の計
10個を採用する。すなわち、照合のための特徴量の数は
本実施例では20個である。なお、第7図に示すような5
母音パターンとの距離に関する各種特徴量の中からF比
の大きいものから少なくとも10個とれば、話者照合に非
常に有効となることが実験により確かめられたので10個
選択しているが、照合演算処理時間によってはもう少し
選択数を増加させても良い。
このような特徴量の選択の後に選択した特徴量のL個平
均をとり、標準パターンとしてメモリに登録する(ステ
ップS16)。ただし、上述したF比の計算には本人以外
のデータが必要であるため、この登録の前には、比較す
べき登録者以外のデータをある程度収集する必要があ
る。
上述のような登録モードの後に、話者の照合を行なう場
合は次のように行なう。すなわち、先ず登録時に用いた
所定の文章を言葉で発声し(ステップS20)、この入力
された音声に対して上述したような音響分析(ステップ
S21)及び登録時に選択した特徴量の計算(ステップS2
2)を行ない、その後に平均ピッチによる判定を行なう
(ステップS23)。平均ピッチによる判定は、標準パタ
ーンでの平均ピッチに対してある範囲内にあるかどうか
で判定する。すなわち、この判定で foref×(1−α)≦foin≦foref×(1+α)……(10) foref:標準パターンの平均ピッチ foin:入力音声の平均ピッチ の場合にはOKとなる。平均ピッチによる判定の後に、重
み付き距離による判定を行なう(ステップS24)。この
重み付き距離による判定は、平均ピッチ以外の19種の特
徴量の有効性に応じた重み付き距離と、しきい値との大
小比較を下式に従って行なう。
:第i特徴の重み(=F比) a:標準パターンの第i特徴の値 b:入力パターンの第i特徴の値 dis≦disoOK dis>disoNG 上述のような平均ピッチによる判定がOKであり、重み付
き距離による判定がOKの場合には、話者が登録者と同一
であるとしてアクセプトし(ステップS25)、いずれか
がNGの場合にはリジェクトとなる(ステップS26)。
発明の効果; 以上のようにこの発明の話者照合方式によれば、5母音
パターンとの距離パターンに関する特徴量から有効なも
のを選択して使用しているため、少ないデータ量でしか
も話者の照合を確実に行なうことが可能となる。
【図面の簡単な説明】
第1図はこの発明の動作例を示すフローチャート、第2
図及び第3図はLPC分析を説明するための図、第4図
(A),(B)は逆フィルタの関係を説明するための図、第5
図は特徴量の内容を示す図、第6図及び第8図は5母音
との距離パターンを示す図、第7図は特徴量の内容を示
す図、第9図(A),(B)は特徴量を説明するための図であ
る。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】話者に予め5母音を発声させて5母音パタ
    ーンを一旦作成すると共に、前記5母音以外の言葉を発
    声させて前記5母音パターンとの距離を求め、特徴量の
    中から有効なものを選択し、前記選択された特徴量を前
    記話者の標準パターンとして登録しておき、照合時には
    前記登録時と同一の5母音以外の言葉を発声させ、前記
    登録された標準パターンとの類似度により話者を照合す
    るようにしたことを特徴とする話者照合方式。
JP2081757A 1990-03-29 1990-03-29 話者照合方式 Expired - Lifetime JPH0632007B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2081757A JPH0632007B2 (ja) 1990-03-29 1990-03-29 話者照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2081757A JPH0632007B2 (ja) 1990-03-29 1990-03-29 話者照合方式

Publications (2)

Publication Number Publication Date
JPH03280099A JPH03280099A (ja) 1991-12-11
JPH0632007B2 true JPH0632007B2 (ja) 1994-04-27

Family

ID=13755318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2081757A Expired - Lifetime JPH0632007B2 (ja) 1990-03-29 1990-03-29 話者照合方式

Country Status (1)

Country Link
JP (1) JPH0632007B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4330603B2 (ja) 2006-07-18 2009-09-16 株式会社オートネットワーク技術研究所 絶縁電線およびワイヤーハーネス
JP5221937B2 (ja) 2007-11-16 2013-06-26 株式会社オートネットワーク技術研究所 酸無水物導入高分子および高分子組成物ならびに被覆電線およびワイヤーハーネス
JP5560541B2 (ja) 2008-06-27 2014-07-30 株式会社オートネットワーク技術研究所 難燃性組成物ならびに被覆電線およびワイヤーハーネス

Also Published As

Publication number Publication date
JPH03280099A (ja) 1991-12-11

Similar Documents

Publication Publication Date Title
US5522012A (en) Speaker identification and verification system
US5440662A (en) Keyword/non-keyword classification in isolated word speech recognition
Murthy et al. Robust text-independent speaker identification over telephone channels
US6009391A (en) Line spectral frequencies and energy features in a robust signal recognition system
US6253175B1 (en) Wavelet-based energy binning cepstal features for automatic speech recognition
US5097509A (en) Rejection method for speech recognition
US5465318A (en) Method for generating a speech recognition model for a non-vocabulary utterance
US5459815A (en) Speech recognition method using time-frequency masking mechanism
NZ331431A (en) Speech processing via voice recognition
WO1998038632A1 (en) Method and system for establishing handset-dependent normalizing models for speaker recognition
JP2745535B2 (ja) 音声認識装置
Badran et al. Speaker recognition using artificial neural networks based on vowel phonemes
JPH0632007B2 (ja) 話者照合方式
US20050240397A1 (en) Method of determining variable-length frame for speech signal preprocessing and speech signal preprocessing method and device using the same
JPS60114900A (ja) 有音・無音判定法
KR100319237B1 (ko) 유성음/무성음/묵음 정보를 이용한 동적 시간정합고립단어 인식 시스템
Beaufays et al. Using speech/non-speech detection to bias recognition search on noisy data
JPH07271392A (ja) 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置
Wilpon et al. Connected digit recognition based on improved acoustic resolution
JPH07210197A (ja) 話者識別方法
Higgins et al. A multi-spectral data-fusion approach to speaker recognition
JP2815667B2 (ja) 話者認識方法
JP2658426B2 (ja) 音声認識方法
Hmich et al. Discriminating coding applied to the Automatic Speaker Identification
Mut et al. Improved Weighted Matching for Speaker Recognition.