JP3166708B2 - Speech recognition device and method - Google Patents
Speech recognition device and methodInfo
- Publication number
- JP3166708B2 JP3166708B2 JP15702398A JP15702398A JP3166708B2 JP 3166708 B2 JP3166708 B2 JP 3166708B2 JP 15702398 A JP15702398 A JP 15702398A JP 15702398 A JP15702398 A JP 15702398A JP 3166708 B2 JP3166708 B2 JP 3166708B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- speaker
- tree
- unit
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000006978 adaptation Effects 0.000 claims description 22
- 230000001186 cumulative effect Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001415395 Spea Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声認識装置に関
し、特にその話者適応化機能を改良した音声認識装置及
び方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus, and more particularly, to a speech recognition apparatus and method having improved speaker adaptation functions.
【0002】[0002]
【従来の技術】音声認識装置の従来の話者適応化方式と
して、例えば電子情報通信学会誌DII(J78−D−
II巻、1号、第1〜9ページ、1995年1月)の
「木構造話者クラスタリングを用いた話者適応」と題す
る論文に記載された方式が知られている。2. Description of the Related Art As a conventional speaker adaptation system of a speech recognition apparatus, for example, the Institute of Electronics, Information and Communication Engineers magazine DII (J78-D-
A method described in a paper entitled "Speaker Adaptation Using Tree-structured Speaker Clustering" in Vol. II, No. 1, pp. 1-9, January 1995) is known.
【0003】この従来の方式では、あらかじめ多数の話
者を木構造にクラスタリングする(これを「話者ツリ
ー」という)。話者ツリーの根(ルート)ノードは、全
ての話者を集めた集合(この話者の集合を「話者クラス
タ」という)に対応し、末端(リーフ)ノードは個別の
話者に対応する。ルートとリーフ間の途中のノードは、
音響的に類似した話者の集合(話者クラスタ)に対応す
る。In this conventional method, a large number of speakers are clustered in a tree structure in advance (this is called a "speaker tree"). The root (root) node of the speaker tree corresponds to a set of all speakers (this set of speakers is referred to as a “speaker cluster”), and the terminal (leaf) nodes correspond to individual speakers. . The node on the way between the root and the leaf is
It corresponds to a set of acoustically similar speakers (speaker cluster).
【0004】各ノードには、対応した話者集合の音声デ
ータを用いて作成(学習)された標準パターン(隠れマ
ルコフモデル、Hidden Markov Model;「HMM」と
略記される)が関連付けられている。この標準パターン
とは、認識単位として、「あ」、「い」、…のような音
節を用いた場合、全音節のHMM全体の集合である。[0004] Each node is associated with a standard pattern (Hidden Markov Model; abbreviated as "HMM") created (learned) using speech data of a corresponding set of speakers. The standard pattern is a set of all HMMs of all syllables when syllables such as “A”, “I”,.
【0005】新話者の少数の発声を用いて、話者ツリー
中のノードを選択し、そのノードに結びついている標準
パターンを用いて、以後の音声認識を行う。[0005] A node in the speaker tree is selected using a small number of utterances of a new speaker, and subsequent speech recognition is performed using a standard pattern connected to the node.
【0006】[0006]
【発明が解決しようとする課題】しかしながら、上述し
た従来の話者適応化方式においては、次のような問題点
を有している。However, the above-mentioned conventional speaker adaptation method has the following problems.
【0007】すなわち、話者ツリーの各ノードは、対応
する話者クラスタに対する、全ての認識単位のHMM全
体に対応している。このため、例えば新しい話者の音声
が、一部分(例えば「あ」の音)は、ある話者クラスタ
に類似しているが、別の部分(例えば「く」の音)は別
の話者クラスタに類似しているような場合を扱うことが
できない。That is, each node of the speaker tree corresponds to the entire HMM of all recognition units for the corresponding speaker cluster. Thus, for example, the voice of a new speaker may have a portion (eg, the sound of “a”) similar to one speaker cluster, but another portion (eg, the sound of “ku”) may have another speaker cluster. It cannot handle cases that are similar to
【0008】上記従来の方式では、代わりに、新しい話
者の少量の音声全体が平均的に最も類似している話者ク
ラスタ(ノード)を選んで、そのクラスタの標準パター
ン(全認識単位のHMM)を、全ての認識単位に対し
て、使用しなければならない。In the above conventional method, instead, a speaker cluster (node) in which a small amount of speech of a new speaker is the most similar on average is selected, and a standard pattern of the cluster (HMM of all recognition units) is selected. ) Must be used for all recognition units.
【0009】したがって本発明は、上記問題点に鑑みて
なされたものであって、その目的は、新しい話者への話
者適応化として、認識単位毎、あるいは、さらに細かく
HMMの状態毎に、最適な話者クラスタと、そのクラス
タを表すHMM、あるいは確率分布を、選択可能とした
音声認識装置を提供することにある。[0009] Accordingly, the present invention has been made in view of the above problems, and has as its object the purpose of speaker adaptation to a new speaker, for each recognition unit, or more finely, for each HMM state. It is an object of the present invention to provide a speech recognition device that enables selection of an optimum speaker cluster and an HMM or a probability distribution representing the cluster.
【0010】[0010]
【課題を解決するための手段】前記目的を達成する本発
明の音声認識装置は、隠れマルコフモデルに基づく音声
認識装置において、話者クラスタに対する確率分布をノ
ードとする話者ツリーを複数記憶する話者ツリー記憶部
と、新話者の発話を用いて前記話者ツリー中の最適なノ
ードを選択する既知ノード選択手段と、前記選択された
ノードを親ノードとする部分ツリーの末端ノードにおけ
る頻度情報を計数する話者頻度算出手段と、前記末端ノ
ードの頻度情報を用いて前記話者ツリー中の最適なノー
ドを選択する未知ノード選択手段と、前記既知ノード選
択手段と前記未知ノード選択手段で選択されたノードの
確率分布を用いて標準パターンを適応化する標準パター
ン更新部と、を含む。According to the present invention, there is provided a speech recognition apparatus based on a Hidden Markov Model, wherein a plurality of speaker trees each having a probability distribution for a speaker cluster as a node are stored. Node tree storage unit, known node selecting means for selecting an optimal node in the speaker tree using a new speaker's utterance, and frequency information at a terminal node of a partial tree having the selected node as a parent node Speaker frequency calculating means for counting the number of unknown nodes, an unknown node selecting means for selecting an optimal node in the speaker tree using the frequency information of the terminal node, and a selection by the known node selecting means and the unknown node selecting means. A standard pattern updating unit that adapts the standard pattern using the probability distribution of the selected node.
【0011】[0011]
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明の音声認識装置は、その好ましい実
施の形態において、図1を参照すると、話者適応化機能
を提供する部分に、話者ツリー記憶部(7)と、既知ノ
ード選択部(4)と、話者頻度算出部(5)と、未知ノ
ード選択部(6)と、標準パターン更新部(8)と、を
備えたものである。Embodiments of the present invention will be described below. In a preferred embodiment of the speech recognition apparatus of the present invention, referring to FIG. 1, a speaker tree storage unit (7), a known node selection unit (4), , A speaker frequency calculating unit (5), an unknown node selecting unit (6), and a standard pattern updating unit (8).
【0012】この話者ツリー記憶部(7)は、認識単位
毎、あるいはそのHMMの状態毎に、構成された話者ツ
リーを記憶する。The speaker tree storage unit (7) stores the configured speaker tree for each recognition unit or for each state of the HMM.
【0013】既知ノード選択部(4)は、新話者の発話
を用いて、その発話に出現した認識単位(あるいはその
HMM状態)について、話者ツリー記憶部(7)の対応
する話者ツリーから最適なノードを選択する。The known node selecting section (4) uses the utterance of the new speaker and, for the recognition unit (or its HMM state) appearing in the utterance, stores the corresponding speaker tree in the speaker tree storage section (7). Select the optimal node from.
【0014】話者頻度算出部(5)は、話者ツリー記憶
部(7)に記憶された話者ツリーにおいて、選択された
最適ノードを親ノードとする部分ツリーの末端ノードが
対応する話者(クラスタ)の累積使用頻度を計数する。The speaker frequency calculating section (5) is a speaker tree stored in the speaker tree storage section (7). The terminal node of the partial tree having the selected optimum node as a parent node corresponds to the speaker node corresponding to the selected optimum node. The cumulative usage frequency of (cluster) is counted.
【0015】未知ノード選択部(6)は、話者頻度算出
部(5)で計数された話者(クラスタ)毎の使用頻度情
報を利用して、新話者の発話に出現しなかった認識単位
(あるいはそのHMM状態)に対する話者ツリーから、
最適なノード(話者クラスタ)を選択する。The unknown node selection unit (6) uses the usage frequency information for each speaker (cluster) counted by the speaker frequency calculation unit (5) to recognize that it did not appear in the utterance of the new speaker. From the speaker tree for a unit (or its HMM state):
Select the optimal node (speaker cluster).
【0016】標準パターン更新部(8)は、既知ノード
選択部(4)と、未知ノード選択部(6)で選択された
ノードに対応するHMM(あるいはその状態)を用い
て、新話者に対応した標準パターンを標準パターン記憶
部(3)に作成する。The standard pattern updating section (8) uses the known node selecting section (4) and the HMM (or its state) corresponding to the node selected by the unknown node selecting section (6) to notify the new speaker. A corresponding standard pattern is created in the standard pattern storage unit (3).
【0017】このように、本発明の実施の形態によれ
ば、話者適応化として、認識単位毎、あるいは、そのH
MMの状態毎に、最適な話者クラスタを選択して、新話
者向けの、より精度の高い標準パターンを用意すること
ができる。As described above, according to the embodiment of the present invention, as speaker adaptation, each recognition unit or its H
An optimum speaker cluster can be selected for each MM state, and a more accurate standard pattern for a new speaker can be prepared.
【0018】[0018]
【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明の実施例について図面を参照
して詳細に説明する。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of the present invention;
【0019】図1は、本発明の音声認識装置の一実施例
の構成を示す図である。図1を参照すると、分析部1
と、認識照合部2と、標準パターン記憶部3と、既知ノ
ード選択部4と、話者頻度算出部5と、未知ノード選択
部6と、話者ツリー記憶部7と、標準パターン更新部8
と、を備えて構成されている。FIG. 1 is a diagram showing the configuration of an embodiment of the speech recognition apparatus of the present invention. Referring to FIG.
, A recognition / matching unit 2, a standard pattern storage unit 3, a known node selection unit 4, a speaker frequency calculation unit 5, an unknown node selection unit 6, a speaker tree storage unit 7, and a standard pattern update unit 8.
And is provided.
【0020】分析部1は、入力された音声波形から特徴
抽出(メルケプストラム分析など)を行い、特徴ベクト
ルの時系列を出力する。The analysis unit 1 performs feature extraction (mel cepstrum analysis, etc.) from the input speech waveform, and outputs a time series of feature vectors.
【0021】標準パターン記憶部3は、全ての認識単位
の隠れマルコフモデル(HMM)を記憶している。The standard pattern storage unit 3 stores hidden Markov models (HMMs) of all recognition units.
【0022】認識照合部2は、標準パターン記憶部3に
記憶されているHMMを読み出して、分析部1から送ら
れてきた特徴ベクトルの時系列データと照合して、認識
結果を出力する。なお、本発明の一実施例において、こ
れらの分析部1、認識照合部2、標準パターン記憶部3
については、いずれも、当業者によく知られた公知技術
をそのまま適用することができ、また、その詳細は、本
発明の主題とは、直接関係しないので、構成の詳細の説
明は省略する。The recognition / collation unit 2 reads out the HMM stored in the standard pattern storage unit 3, compares the HMM with the time-series data of the feature vector sent from the analysis unit 1, and outputs a recognition result. In one embodiment of the present invention, the analysis unit 1, the recognition / collation unit 2, and the standard pattern storage unit 3
For any of the above, well-known techniques well known to those skilled in the art can be applied as they are, and the details thereof are not directly related to the subject of the present invention, and therefore, detailed description of the configuration is omitted.
【0023】話者ツリー記憶部7は、各認識単位毎(あ
るいは、後述するように、そのHMMの状態毎)に用意
された話者ツリーを記憶する。The speaker tree storage unit 7 stores a speaker tree prepared for each recognition unit (or for each HMM state, as described later).
【0024】以下では、各認識単位毎に、話者ツリーを
用意する場合について説明する。また認識単位として
は、音節(「あ」、「い」、…、「か」、…)を用いる
場合を考える。Hereinafter, a case where a speaker tree is prepared for each recognition unit will be described. Assume that syllables (“a”, “i”,..., “Ka”,...) Are used as recognition units.
【0025】音節の総種類数をN個とする。各音節毎に
話者ツリーを用意すると、合計N個の話者ツリーが、話
者ツリー記憶部7に記憶される。It is assumed that the total number of syllable types is N. When a speaker tree is prepared for each syllable, a total of N speaker trees are stored in the speaker tree storage unit 7.
【0026】図2に示した木構造が、音節「あ」の話者
ツリーである場合について説明する。この場合は、最上
位の根(ルート)ノードには、全ての話者(男女混合)
の「あ」の音声データを集めて、作成もしくは学習され
た認識単位「あ」のHMMが対応している。The case where the tree structure shown in FIG. 2 is a speaker tree of the syllable "A" will be described. In this case, the top root node is all speakers (mixed gender)
The HMM of the recognition unit "a" which is created or learned by collecting the voice data of "a" corresponds to the HMM.
【0027】次位のノード(ルートの一つ下位のノー
ド)は、全ての男性話者の「あ」の音声データから作成
したHMMが対応するノードと、全ての女性話者の
「あ」の音声データから作成したHMMが対応するノー
ドとに分岐している。The next node (one node below the root) is a node corresponding to the HMM created from the voice data of “a” of all male speakers, and a node of “a” of all female speakers. The HMM created from the voice data branches to the corresponding node.
【0028】話者ツリーの最下位の末端(リーフ)ノー
ドは、個別の話者(話者A、話者B、C、…)のそれぞ
れの「あ」の音声データから作成された、各話者の
「あ」のHMMが対応する。The lowest-level (leaf) node of the speaker tree is composed of the individual speakers (speaker A, speaker B, C,...), Each of which is created from the voice data of "a". The HMM of the person "a" corresponds.
【0029】再び図1を参照すると、既知ノード選択部
4は、新話者の話者適応化用発話を用いて、その発話に
出現した認識単位、あるいは、そのHMM状態につい
て、話者ツリー記憶部7の対応する話者ツリーから、最
適なノードを選択する。Referring to FIG. 1 again, the known node selecting section 4 uses the speaker adaptation utterance of the new speaker to store the recognition unit appearing in the utterance or the HMM state thereof in the speaker tree storage. An optimum node is selected from the corresponding speaker tree of the unit 7.
【0030】より具体的に説明するために、新話者の音
節「あ」の音声データを用いて、音節「あ」の話者ツリ
ーから最適なノードを選択する手順について図4の流れ
図も参照して以下に説明する。図4は、本発明の一実施
例の話者頻度算出部の処理の要部を示す流れ図である。For a more specific description, also refer to the flowchart of FIG. 4 for a procedure for selecting an optimum node from the speaker tree of the syllable "A" using the voice data of the syllable "A" of the new speaker. This will be described below. FIG. 4 is a flowchart showing a main part of the processing of the speaker frequency calculation unit according to one embodiment of the present invention.
【0031】ステップA1:変数「現在のノード」を、
音節「あ」の話者ツリーの最上位の根(ルート)ノード
とする。Step A1: The variable “current node” is
Let it be the highest root node of the speaker tree of syllable "a".
【0032】ステップA2:「現在のノード」が話者ツ
リーの末端ノード(リーフ)である場合は、ステップA
7へ移る。Step A2: If the "current node" is the terminal node (leaf) of the speaker tree, step A
Move to 7.
【0033】ステップA3:「現在のノード」のHMM
を用いて、新話者の音節「あ」の音声データの尤度P0
を算出する。Step A3: HMM of "current node"
, The likelihood P0 of the voice data of the syllable “a” of the new speaker
Is calculated.
【0034】ステップA4:「現在のノード」の直下の
全てのノードのHMMを用いて、新話者の音節「あ」の
音声データの尤度Q1〜QMを算出する。ただし、Mは直
下のノードの数である。Step A4: Using the HMMs of all nodes immediately below the "current node", the likelihoods Q1 to QM of the voice data of the syllable "a" of the new speaker are calculated. Here, M is the number of nodes immediately below.
【0035】ステップA5:尤度Q1〜QMの最大値をQ
0とする。また最大値を与えたノードを変数「次のノー
ド」として記憶する。Step A5: The maximum value of the likelihoods Q1 to QM is set to Q
Set to 0. Also, the node giving the maximum value is stored as a variable “next node”.
【0036】ステップA6:尤度の最大値Q0が、P0+
θ(θはあらかじめ定めておいた閾値)より大きい場合
は、「次のノード」を「現在のノード」に代入して、ス
テップA2へ戻る。Step A6: The maximum likelihood Q0 is P0 +
If it is larger than θ (θ is a predetermined threshold), “next node” is substituted for “current node”, and the process returns to step A2.
【0037】ステップA7:「現在のノード」を最適な
ノードとして選択する。Step A7: Select the "current node" as the optimal node.
【0038】話者頻度算出部5は、選択された最適ノー
ドを親ノードとする部分ツリーの末端ノードが対応する
話者(クラスタ)の累積使用頻度を計数する。The speaker frequency calculation unit 5 counts the cumulative use frequency of the speaker (cluster) corresponding to the terminal node of the partial tree having the selected optimum node as a parent node.
【0039】具体例として、新話者が話者適応化用に
「あお」と発声した場合について説明する。As a specific example, a case where a new speaker utters “Ao” for speaker adaptation will be described.
【0040】既知ノード選択部4は、その発声を用い
て、音節「あ」の話者ツリーと音節「お」の話者ツリー
中の、それぞれ最適なノードを選択する。The known node selection unit 4 uses the utterances to select the optimum nodes in the speaker tree of the syllable “A” and the speaker tree of the syllable “O”.
【0041】図3において、記号二重丸「◎」で示すノ
ードが選択されたノードである。In FIG. 3, a node indicated by a double circle “◎” is a selected node.
【0042】話者頻度算出部5では、最適ノードを親ノ
ードにする部分ツリーの末端ノードに対応する話者の累
積使用頻度を「1」だけ増加させる。The speaker frequency calculating unit 5 increases the cumulative use frequency of the speaker corresponding to the terminal node of the partial tree having the optimum node as the parent node by "1".
【0043】図3の場合は、音節「あ」の話者ツリーか
らは、話者Cと話者Dの累積使用頻度がそれぞれ「1」
だけ増加させられる。In the case of FIG. 3, from the speaker tree of the syllable "a", the cumulative use frequencies of the speakers C and D are each "1".
Only increased.
【0044】音節「お」の話者ツリーからは、話者Cと
話者Gの累積使用頻度がそれぞれ「1」だけ増加させら
れる。From the speaker tree of the syllable "O", the cumulative use frequencies of the speakers C and G are each increased by "1".
【0045】結局、これらの総計として、話者Cの累積
使用頻度が「2」、話者Dと話者Gが累積使用頻度が
「1」、その他の話者の累積使用頻度は「0」となる。As a result, the cumulative use frequency of the speaker C is “2”, the cumulative use frequency of the speakers D and G is “1”, and the cumulative use frequency of the other speakers is “0”. Becomes
【0046】未知ノード選択部6は、話者頻度算出部5
で計数された話者毎の累積使用頻度を利用して、新話者
の発話に出現しなかった認識単位あるいはそのHMM状
態に対する話者ツリーから、最適なノード(話者クラス
タ)を選択する。The unknown node selecting section 6 includes a speaker frequency calculating section 5
Using the cumulative usage frequency of each speaker counted in the above, an optimum node (speaker cluster) is selected from a recognition unit that did not appear in the utterance of the new speaker or the speaker tree for the HMM state.
【0047】図3に示した例について、具体的に説明す
る。前述したとおり、新話者は話者適応化用に「あお」
と発声しており、音節「い」の発声データはない。この
ために、既知ノード選択部4では、音節「い」の話者ツ
リー中の最適ノードは定めることができない。The example shown in FIG. 3 will be specifically described. As mentioned above, new speakers use "Ao" for speaker adaptation.
And there is no utterance data for the syllable "i". For this reason, the known node selection unit 4 cannot determine the optimal node in the speaker tree of the syllable “i”.
【0048】そこで、本発明の一実施例では、以下の手
順によって、音節「い」の話者ツリーの最適ノードを選
択する。以下、本発明の一実施例の未知ノード・算出部
の処理の要部を流す図5も参照して説明する。Therefore, in one embodiment of the present invention, the optimum node of the speaker tree of the syllable "i" is selected by the following procedure. Hereinafter, a description will be given with reference to FIG. 5 which shows a main part of the processing of the unknown node / calculation unit according to one embodiment of the present invention.
【0049】ステップB1:話者頻度算出部5で算出さ
れた各話者の累積使用頻度を、音節「い」の話者ツリー
の末端ノード(各話者に対応)に与える。Step B1: The cumulative usage frequency of each speaker calculated by the speaker frequency calculation unit 5 is given to the terminal node (corresponding to each speaker) of the speaker tree of the syllable “I”.
【0050】ステップB2:各ノードの累積使用頻度
は、そのノードに直接つながっている直下(下位)のノ
ードの累積使用頻度の和で与える。これにより、末端ノ
ードから順番に上位のノードの累積使用頻度を算出す
る。Step B2: The cumulative use frequency of each node is given by the sum of the cumulative use frequencies of the immediately lower (lower) nodes directly connected to the node. Thereby, the cumulative use frequency of the upper node is calculated in order from the terminal node.
【0051】ステップB3:変数「現在のノード」を、
話者ツリーの最上位の根(ルート)ノードとする。Step B3: The variable “current node” is
Let it be the highest root node of the speaker tree.
【0052】ステップB4:「現在のノード」の直下の
全てのノードの累積使用頻度の最大値をR回とする。ま
た最大値を与えたノードを変数「次のノード」として記
憶する。ただし、最大値を与えるノードが複数存在する
場合は、ステップB7へ移る。Step B4: The maximum value of the cumulative use frequency of all the nodes immediately below the "current node" is set to R times. Also, the node giving the maximum value is stored as a variable “next node”. However, if there are a plurality of nodes giving the maximum value, the process proceeds to step B7.
【0053】ステップB5:「次のノード」の累積使用
頻度が、あらかじめ定めておいた最低使用頻度(たとえ
ば2回とする)以下の場合は、ステップB7へ移る。Step B5: If the cumulative use frequency of the "next node" is equal to or less than the predetermined minimum use frequency (for example, twice), the process proceeds to step B7.
【0054】ステップB6:「次のノード」を「現在の
ノード」に代入して、ステップB4へ戻る。Step B6: Substitute "next node" for "current node" and return to step B4.
【0055】ステップB7:「現在のノード」を最適な
ノードとして選択する。Step B7: Select the "current node" as the optimal node.
【0056】このようにして、新話者の適応化用発声に
含まれない認識単位の話者ツリーについても、最適なノ
ードを選択することができる。In this way, the optimum node can be selected for the speaker tree of the recognition unit that is not included in the adaptation utterance of the new speaker.
【0057】標準パターン更新部8は、既知ノード選択
部4と、未知ノード選択部6で選択されたノードに対応
するHMM(あるいはその状態)を集めて、新話者に対
応した標準パターンとして、標準パターン記憶部8に格
納する。The standard pattern updating unit 8 collects the HMMs (or their states) corresponding to the nodes selected by the known node selecting unit 4 and the unknown node selecting unit 6, and generates a standard pattern corresponding to a new speaker. It is stored in the standard pattern storage unit 8.
【0058】以上のようにして、各認識単位毎に最適な
ノード(話者クラスタ)と、そのノード(クラスタ)を
表すHMMを選択することができる。特に、新話者の適
応化用発声に含まれている認識単位だけでなく、含まれ
ていない認識単位についても、最適なノードを選択する
ことができる。As described above, an optimum node (speaker cluster) and an HMM representing the node (cluster) can be selected for each recognition unit. In particular, it is possible to select an optimum node not only for the recognition unit included in the adaptation utterance of the new speaker, but also for the recognition unit not included.
【0059】なお、各認識単位のHMMの各状態毎に、
別々の独立した話者ツリーを用意する場合には、認識単
位毎に、話者ツリーを用意する代わりに、認識単位のH
MMの状態毎に、話者ツリーを用意すれば、上記実施例
で説明した手順と全く同様の手順で、最適なノードを選
択することができる。Incidentally, for each state of the HMM of each recognition unit,
When preparing separate and independent speaker trees, instead of preparing a speaker tree for each recognition unit, H
If a speaker tree is prepared for each MM state, an optimum node can be selected in exactly the same procedure as that described in the above embodiment.
【0060】[0060]
【発明の効果】以上説明したように、本発明によれば、
各認識単位毎、あるいはさらに細かくHMMの状態毎
に、最適な話者クラスタと、そのクラスタを表すHM
M、あるいは確率分布を選択することができる、という
効果を奏する。As described above, according to the present invention,
For each recognition unit or more finely for each state of the HMM, the optimal speaker cluster and the HM representing the cluster
There is an effect that M or a probability distribution can be selected.
【0061】その理由は、本発明においては、各認識単
位毎、あるいはさらに細かく、HMMの状態毎に別々の
独立した話者ツリーを用意し、新話者の少量の話者適応
化用発声を用いて、全ての話者ツリーについて、最適ノ
ードを選択し、それらに対応するHMMを新話者用に適
応化した標準パターンとすることができるためである。The reason is that, in the present invention, a separate independent speaker tree is prepared for each recognition unit or, more specifically, for each state of the HMM, and a small amount of speaker adaptation utterances of a new speaker are prepared. This is because the optimum nodes can be selected for all speaker trees, and the corresponding HMMs can be used as standard patterns adapted for new speakers.
【図1】本発明の一実施例の構成を示すブロック図であ
る。FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention.
【図2】本発明の一実施例を説明するための図であり、
話者ツリーを説明するための図である。FIG. 2 is a diagram for explaining one embodiment of the present invention;
It is a figure for explaining a speaker tree.
【図3】本発明の一実施例における話者頻度算出部と未
知ノード算出部の動作を説明するための図である。FIG. 3 is a diagram for explaining operations of a speaker frequency calculation unit and an unknown node calculation unit according to one embodiment of the present invention.
【図4】本発明の一実施例の話者頻度算出部の処理フロ
ーを示す流れ図である。FIG. 4 is a flowchart showing a processing flow of a speaker frequency calculation unit according to one embodiment of the present invention.
【図5】本発明の一実施例の未知ノード算出部の処理フ
ローを示す流れ図である。FIG. 5 is a flowchart showing a processing flow of an unknown node calculating unit according to one embodiment of the present invention.
1 分析部 2 認識照合部 3 標準パターン記憶部 4 既知ノード選択部 5 話者頻度算出部 6 未知ノード選択部 7 話者ツリー記憶部 8 標準パターン更新部 DESCRIPTION OF SYMBOLS 1 Analysis part 2 Recognition collation part 3 Standard pattern storage part 4 Known node selection part 5 Speaker frequency calculation part 6 Unknown node selection part 7 Speaker tree storage part 8 Standard pattern update part
フロントページの続き (56)参考文献 日本音響学会平成9年度秋季研究発表 会講演論文集▲I▼,1−1−14,阿部 俊朗外「音素毎の話者クラスに基づく話 者適応」,p.27−28(平成9年9月17 日発行) 電子情報通信学会論文誌,Vol.J 82−D−▲II▼ No.6,June 1999,鈴木基之外「音素ごとの木構造 話者クラスタリングによる話者適応」, p.981−989,(平成11年6月25日発 行) 電子情報通信学会論文誌,Vol.J 78−D−▲II▼ No.1,Janu ary 1995,小坂哲夫外「木構造話者 クラスタリングを用いた話者適応」, p.1−9,(平成7年1月25日発行) Proceedings of Fo urth International Conference on Spo ken Language Proce ssing,ICSLP 96,Vol. 2,J.Ishii et al,”S peaker Adapatation Using Tree Struct ured Shared−State HMMs”,p.1149−1152,Octo ber 3−6,1996,Philade lphia,U.S.A. Proceedings of 1995 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,T.Watanabe et al,”High Speed Speech Recognitio n Using Tree−Struc tured Probability Density Function" p.556−559 Proceedings of 1994 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,T.Kosaka e t al,”Tree−Structu red Speaker Cluste ring for Fast Spea ker Adaptation”,p. I−245〜I−248 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG) IEEE/IEE Electroni c Library OnlineContinuation of the front page (56) References The Acoustical Society of Japan Fall Meeting, 1997, I-14, 1-1-14, Toshio Abe, "Speaker Adaptation Based on Speaker Class for Each Phoneme," p. . 27-28 (published September 17, 1997) IEICE Transactions, Vol. J 82-D- ▲ II No. 6, June 1999, Motoyuki Suzuki, "Tree Structure for Each Phoneme, Speaker Adaptation by Speaker Clustering," p. 981-989, (issued June 25, 1999) Transactions of the Institute of Electronics, Information and Communication Engineers, Vol. J 78-D- ▲ II ▼ No. 1, January 1995, Tetsuo Kosaka et al. "Speaker adaptation using tree-structured speaker clustering", p. 1-9, (issued January 25, 1995) Proceedings of Fourth International Conference on Spoken Language Processing, ICSLP 96, Vol. Ishii et al, "Speaker Adaptation Using Tree Structured Shared-State HMMs", p. 1149-1152, Octo bar 3-6, 1996, Philadelphia, U.S.A. S. A. Proceedings of 1995 IEEE International Conference on Acoustics, Speech and Signal Processing, Vol. 1, T. Watanabe et al, "High Speed Speech Recognition Using Tree-Structured Probability Density Function" p. 556-559 Proceedings of 1994 IEEE International Conference on Acoustics, Speech and Signal Processing, Vol. 1, T. Kosaka e t al, "Tree- Structu red Speaker Cluste ring for Fast Spea ker Adaptation", p. I-245~I-248 (58) investigated the field (Int.Cl. 7, DB name) G10L 15/14 INSPEC (DIALOG) JICST file (JOIS) WPI (DIALOG) IEEE / IEEE Electronic Library Online
Claims (9)
において、認識単位 の隠れマルコフモデル毎に、話者クラスタに対
する確率分布をノードとする話者ツリーを複数記憶する
話者ツリー記憶部と、 新話者の発話を用いて前記話者ツリー中の最適なノード
を選択する既知ノード選択手段と、 前記選択されたノードを親ノードとする部分ツリーの末
端ノードにおける頻度情報を計数する話者頻度算出手段
と、 前記末端ノードの頻度情報を用いて前記話者ツリー中の
最適なノードを選択する未知ノード選択手段と、 前記既知ノード選択手段と前記未知ノード選択手段で選
択されたノードの確率分布を用いて標準パターンを適応
化する標準パターン更新手段と、 を含むことを特徴とする音声認識装置。1. A speech recognition apparatus based on a hidden Markov model, a speaker tree storage unit for storing a plurality of speaker trees each having a probability distribution for a speaker cluster as a node, for each hidden Markov model of a recognition unit , Node selecting means for selecting an optimum node in the speaker tree using the utterance of a speaker, and speaker frequency calculating means for counting frequency information at a terminal node of a partial tree having the selected node as a parent node An unknown node selecting unit that selects an optimum node in the speaker tree using the frequency information of the terminal node; and a probability distribution of the nodes selected by the known node selecting unit and the unknown node selecting unit. And a standard pattern updating means for adapting the standard pattern.
位の隠れマルコフモデルの状態毎に話者ツリーを前記話
者ツリー記憶部に格納する、ことを特徴とする音声認識
装置。2. The speech recognition apparatus according to claim 1, wherein a speaker tree is stored in the speaker tree storage unit for each state of a hidden Markov model of a recognition unit.
う装置において、 入力された音声波形から特徴抽出を行い特徴ベクトルの
時系列を出力する分析手段と、 認識単位の隠れマルコフモデル(「HMM」という)ま
たはHMMの状態を記憶する標準パターン記憶部と、 前記標準パターン記憶部に記憶されているHMMまたは
HMMの状態を読み出し前記分析手段から送られてきた
特徴ベクトルの時系列データと照合して認識結果を出力
する認識照合手段と、 認識単位の、HMMまたはHMMの状態毎に、話者ツリ
ーを、複数記憶した話者ツリー記憶部と、 新話者の発話を用いて前記話者ツリー中の最適なノード
を選択する既知ノード選択手段と、 前記選択されたノードを親ノードとする部分ツリーの末
端ノードにおける頻度情報を計数する話者頻度算出手段
と、 前記話者ツリーの前記末端ノードの頻度情報を用いて上
位ノードの頻度情報を算出することで、前記新話者の適
応化用発声に含まれない認識単位の話者ツリーについて
も話者ツリー中で最適なノードを選択する未知ノード選
択手段と、 前記既知ノード選択手段と前記未知ノード選択手段で選
択されたノードに対応するHMMまたはHMMの状態を
集めて前記新話者に対応した標準パターンとして前記標
準パターン記憶部に記憶する標準パターン更新手段と、 を含むことを特徴とする音声認識装置。3. An apparatus for performing speech recognition based on a Hidden Markov Model, comprising: analysis means for extracting a feature from an input speech waveform and outputting a time series of feature vectors; and a Hidden Markov Model (HMM) of a recognition unit. Or a standard pattern storage unit that stores the state of the HMM, and reads out the state of the HMM or the HMM stored in the standard pattern storage unit and recognizes it by comparing it with the time-series data of the feature vector sent from the analysis unit. A recognition / matching unit that outputs a result; a speaker tree storage unit that stores a plurality of speaker trees for each of the HMMs or HMM states of the recognition unit; A known node selecting means for selecting an optimal node; and counting frequency information at a terminal node of a partial tree having the selected node as a parent node Speaker frequency calculating means, and calculating the frequency information of the upper node using the frequency information of the terminal node of the speaker tree, whereby the speech of the recognition unit not included in the adaptation utterance of the new speaker is obtained. An unknown node selecting means for selecting an optimum node in the speaker tree, an HMM corresponding to the node selected by the known node selecting means and the node selected by the unknown node selecting means, and a state of the HMM corresponding to the selected node. A standard pattern updating unit that stores the standard pattern corresponding to the speaker in the standard pattern storage unit.
う装置の話者適応化方法において、話者クラスタに対す
る確率分布をノードとする話者ツリーを認識単位別に複
数記憶する話者ツリー記憶部を備え、 (a)新話者の発話を用いて前記話者ツリー中の最適な
ノードを選択する既知ノード選択する既知ノード選択処
理、 (b)前記選択されたノードを親ノードとする部分ツリ
ーの末端ノードにおける頻度情報を計数する話者頻度算
出処理、 (c)前記末端ノードの頻度情報を用いて、前記新話者
の適応化用発声に含まれない認識単位の話者ツリーにつ
いても話者ツリー中で最適なノードを選択する未知ノー
ド選択処理、 (d)前記既知ノード選択処理と前記未知ノード選択処
理で選択されたノードの確率分布を用いて前記新話者に
対応した標準パターンに適応化する標準パターン更新処
理、 を含むことを特徴とする音声認識装置の話者適応化方
法。4. A speaker adaptation method for an apparatus for performing speech recognition based on a Hidden Markov Model, comprising a speaker tree storage unit for storing a plurality of speaker trees each having a probability distribution for a speaker cluster as a node for each recognition unit. (A) known node selection processing for selecting a known node in the speaker tree using the utterance of a new speaker, and (b) end of a partial tree having the selected node as a parent node (C) using the frequency information of the terminal node, the speaker tree of the recognition unit not included in the adaptation utterance of the new speaker; An unknown node selection process for selecting an optimal node among the nodes, (d) corresponding to the new speaker using the known node selection process and the probability distribution of the nodes selected in the unknown node selection process. A standard pattern updating process for adapting to a standard pattern, the speaker adapting method for a speech recognition device.
ツリーを、前記話者ツリー記憶部に格納する、ことを特
徴とする請求項4記載の音声認識装置の話者適応化方
法。5. The method according to claim 4, wherein a speaker tree is stored in the speaker tree storage unit for each hidden Markov model of a recognition unit.
に、話者ツリーを、前記話者ツリー記憶部に格納する、
ことを特徴とする請求項4記載の音声認識装置の話者適
応化方法。6. A speaker tree is stored in the speaker tree storage unit for each state of a hidden Markov model of a recognition unit.
The speaker adaptation method for a speech recognition device according to claim 4, characterized in that:
話者ツリーの根ノードを現在ノードとするステップ、 (b)現在ノードが前記話者ツリーがリーフであるか判
定し、リーフのときはステップ(f)へ移行するステッ
プ、 (c)前記現在のノードのHMMを用いて新話者の前記
音節の音声データの尤度P0を算出するステップ、 (d)前記現在のノードの直下の各ノードのHMMを用
いて前記新話者の音節の音声データの尤度を算出し、前
記尤度の最大値Q0を与えるノードを次のノードとして
記憶するステップ、 (e)前記最大値Q0が、前記P0よりも所定値分大き
い場合には、前記次のノードを現在のノードとしてし
て、前記ステップ(b)へ移行するステップ、及び、 (f)前記現在のノードを最適なノードとして選択する
ステップ、 を含むことを特徴とする請求項4記載の音声認識装置の
話者適応化方法。7. The known node selection processing includes the steps of: (a) setting a root node of a syllable speaker tree as a recognition unit of the utterance of the new speaker as a current node; Determining whether the speaker tree is a leaf, and if it is a leaf, moving to step (f); (c) using the HMM of the current node to determine the likelihood P0 of the speech data of the syllable of the new speaker (D) calculating the likelihood of the speech data of the syllable of the new speaker using the HMM of each node immediately below the current node, and determining the node giving the maximum value Q0 of the likelihood as follows: (E) when the maximum value Q0 is larger than the P0 by a predetermined value, setting the next node as a current node and moving to the step (b); (F) the present 5. The method according to claim 4, further comprising the step of: selecting the node as an optimal node.
使用頻度を、前記新話者の発話に出現しなかった、認識
単位としての、音節の話者ツリーの末端ノードに与え、
前記話者ツリーの各ノードの累積使用頻度は該ノードに
直接つながっている下位のノードの累積使用頻度の和で
与えることで前記末端ノードから順番に上位のノードの
累積使用頻度を算出するステップ、 (b)現在のノードを前記話者ツリーの最上位の根ノー
ドとするステップ、 (c)現在のノードの直下の全てのノードの累積使用頻
度の最大値を求め、最大値を与えたノードを次のノード
として記憶し、その際、最大値を与えるノードが複数存
在する場合、ステップ(f)へ移るステップ、 (d)次のノードの累積使用頻度が、あらかじめ定めら
れた所定値以下の場合は処理(f)へ移るステップ、 (e)次のノードを現在のノードとして前記ステップ
(c)へ戻るステップ、及び、 (f)前記現在のノードを最適なノードとして選択する
ステップ、 を含むを特徴とする請求項4記載の音声認識装置。8. The unknown node selection processing includes the steps of: (a) using the cumulative use frequency of each speaker calculated by the speaker frequency calculation means as a recognition unit which did not appear in the utterance of the new speaker; , Given to the terminal node of the syllable speaker tree,
Calculating the cumulative use frequency of the upper nodes in order from the terminal node by giving the cumulative use frequency of each node of the speaker tree as the sum of the cumulative use frequencies of the lower nodes directly connected to the node; (B) making the current node the topmost root node of the speaker tree; and (c) finding the maximum value of the cumulative use frequency of all the nodes immediately below the current node, and assigning the node giving the maximum value. Storing as the next node, and when there are a plurality of nodes giving the maximum value, moving to step (f); (d) when the cumulative use frequency of the next node is equal to or less than a predetermined value Goes to step (f), (e) takes the next node as the current node, returns to step (c), and (f) selects the current node as the optimal node That step, the speech recognition apparatus according to claim 4, wherein the containing.
を実行する装置において、 話者クラスタに対する確率分布をノードとする話者ツリ
ーを認識単位別に複数記憶する話者ツリー記憶部を備
え、 (a)新話者の発話を用いて前記話者ツリー中の最適な
ノードを選択する既知ノード選択する既知ノード選択処
理 (b)前記選択されたノードを親ノードとする部分ツリ
ーの末端ノードにおける頻度情報を計数する話者頻度算
出処理、 (c)前記末端ノードの頻度情報を用いて上位ノードの
頻度情報を算出することで、前記新話者の適応化用発声
に含まれない認識単位の話者ツリーについても話者ツリ
ー中で最適なノードを選択する未知ノード選択処理、及
び、 (d)前記既知ノード選択処理と前記未知ノード選択処
理で選択されたノードの確率分布を用いて標準パターン
を適応化する標準パターン更新処理、 の上記(a)〜(d)の各処理を前記装置を構成するコ
ンピュータで実行するためのプログラムを記録した記録
媒体。9. A speech recognition process based on a hidden Markov model.
An apparatus for executing includes a speaker tree storage unit for storing a plurality of speakers tree to node a probability distribution for the speaker cluster by the recognition unit, the speaker tree in using speech (a) new speaker (B) a speaker frequency calculation process for counting frequency information at a terminal node of a partial tree having the selected node as a parent node; (c) the terminal node By calculating the frequency information of the upper node using the frequency information of the node, the optimum node in the speaker tree is also selected for the speaker tree of the recognition unit not included in the utterance for adaptation of the new speaker. Unknown node selection processing, and (d) a standard pattern for adapting a standard pattern using the known node selection processing and the probability distribution of the nodes selected in the unknown node selection processing. Updating process, the (a) ~ a recording medium each processing recording a program for executing on a computer that constitutes the device (d).
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15702398A JP3166708B2 (en) | 1998-06-05 | 1998-06-05 | Speech recognition device and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15702398A JP3166708B2 (en) | 1998-06-05 | 1998-06-05 | Speech recognition device and method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11352983A JPH11352983A (en) | 1999-12-24 |
| JP3166708B2 true JP3166708B2 (en) | 2001-05-14 |
Family
ID=15640504
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP15702398A Expired - Fee Related JP3166708B2 (en) | 1998-06-05 | 1998-06-05 | Speech recognition device and method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3166708B2 (en) |
-
1998
- 1998-06-05 JP JP15702398A patent/JP3166708B2/en not_active Expired - Fee Related
Non-Patent Citations (6)
| Title |
|---|
| Proceedings of 1994 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,T.Kosaka et al,"Tree−Structured Speaker Clustering for Fast Speaker Adaptation",p.I−245〜I−248 |
| Proceedings of 1995 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,T.Watanabe et al,"High Speed Speech Recognition Using Tree−Structured Probability Density Function"p.556−559 |
| Proceedings of Fourth International Conference on Spoken Language Processing,ICSLP 96,Vol.2,J.Ishii et al,"Speaker Adapatation Using Tree Structured Shared−State HMMs",p.1149−1152,October 3−6,1996,Philadelphia,U.S.A. |
| 日本音響学会平成9年度秋季研究発表会講演論文集▲I▼,1−1−14,阿部俊朗外「音素毎の話者クラスに基づく話者適応」,p.27−28(平成9年9月17日発行) |
| 電子情報通信学会論文誌,Vol.J78−D−▲II▼ No.1,January 1995,小坂哲夫外「木構造話者クラスタリングを用いた話者適応」,p.1−9,(平成7年1月25日発行) |
| 電子情報通信学会論文誌,Vol.J82−D−▲II▼ No.6,June 1999,鈴木基之外「音素ごとの木構造話者クラスタリングによる話者適応」,p.981−989,(平成11年6月25日発行) |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH11352983A (en) | 1999-12-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2965537B2 (en) | Speaker clustering processing device and speech recognition device | |
| US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
| JP3948747B2 (en) | Pattern recognition method and system based on tree configuration probability density | |
| JP4913204B2 (en) | Dynamically configurable acoustic model for speech recognition systems | |
| Sukkar et al. | Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition | |
| EP0398574B1 (en) | Speech recognition employing key word modeling and non-key word modeling | |
| US6442519B1 (en) | Speaker model adaptation via network of similar users | |
| US9318103B2 (en) | System and method for recognizing a user voice command in noisy environment | |
| US4903305A (en) | Method for representing word models for use in speech recognition | |
| JP4141495B2 (en) | Method and apparatus for speech recognition using optimized partial probability mixture sharing | |
| US6493667B1 (en) | Enhanced likelihood computation using regression in a speech recognition system | |
| US6327565B1 (en) | Speaker and environment adaptation based on eigenvoices | |
| US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
| JP3130524B2 (en) | Speech signal recognition method and apparatus for implementing the method | |
| Bocchieri et al. | Discriminative feature selection for speech recognition | |
| Steinbiss et al. | The Philips research system for continuous-speech recognition | |
| JP3176210B2 (en) | Voice recognition method and voice recognition device | |
| JP2001083986A (en) | Statistical model creation method | |
| JP2852210B2 (en) | Unspecified speaker model creation device and speech recognition device | |
| JP3536471B2 (en) | Identification device and identification method, and speech recognition device and speech recognition method | |
| JP3166708B2 (en) | Speech recognition device and method | |
| JP2974621B2 (en) | Speech recognition word dictionary creation device and continuous speech recognition device | |
| JP3216565B2 (en) | Speaker model adaptation method for speech model, speech recognition method using the method, and recording medium recording the method | |
| JP2973805B2 (en) | Standard pattern creation device | |
| JP3029803B2 (en) | Word model generation device for speech recognition and speech recognition device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20000829 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20010206 |
|
| LAPS | Cancellation because of no payment of annual fees |