Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3671636B2 - Voice recognition device - Google Patents
[go: Go Back, main page]

JP3671636B2 - Voice recognition device - Google Patents

Voice recognition device Download PDF

Info

Publication number
JP3671636B2
JP3671636B2 JP33844897A JP33844897A JP3671636B2 JP 3671636 B2 JP3671636 B2 JP 3671636B2 JP 33844897 A JP33844897 A JP 33844897A JP 33844897 A JP33844897 A JP 33844897A JP 3671636 B2 JP3671636 B2 JP 3671636B2
Authority
JP
Japan
Prior art keywords
input
recognition
speech
name
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33844897A
Other languages
Japanese (ja)
Other versions
JPH11175094A (en
Inventor
信夫 畑岡
浩明 小窪
康成 大淵
明雄 天野
信弥 大場
和夫 近藤
新路 脇坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP33844897A priority Critical patent/JP3671636B2/en
Publication of JPH11175094A publication Critical patent/JPH11175094A/en
Application granted granted Critical
Publication of JP3671636B2 publication Critical patent/JP3671636B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置に係り、入力したい語彙や文章が誤認識で入力できない場合、上記語彙等を効率良く入力することができる音声認識装置に関する。
【0002】
【従来の技術】
図1は、従来の音声認識システムにおける音声入力フローの概念を示す図である。本図では、地名入力のタスクにおける音声入力の手順を、ユーザの入力とシステムからの応答の形態で表現している。ユーザからの入力が「東仙台(ひがしせんだい)」であり、認識結果のシステムの応答が「東千住」と誤認識であった場合を想定している。従来の方法では、誤認識の場合は、ユーザの「いいえ」等の応答に対応して、例えば第2位の認識結果を出力したり(対応1)、再度入力を促し、再度音声認識を実行して、正解を求め直す(対応2)などの手順が実行されていた。
【0003】
【発明が解決しようとする課題】
しかし、本願発明者が従来の音声認識システムを検討したところ、入力したい語彙や文章が誤認識で入力できない場合、上記語彙等を効率良く入力することが困難な場合があることを発見した。
【0004】
そこで、本願発明の目的は、入力したい語彙や文章が誤認識で入力できない場合、上記語彙等を効率良く入力することができる音声認識装置を提供することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本願発明では、入力したい語彙や文章が誤認識で入力できない場合は、入力したい語彙や文章の上位概念や、それを補足説明する語彙や文章を入力、あるいは付加して入力する手段を設ける。例えば、地名入力等で誤認識のために入力できない場合は、その地名の上位概念である都道府県名を入力、あるいは付加して入力する手段を設け、人名入力では、姓の入力ができないときには、名前も付加して入力する手段を設ける。入力したい語彙や文章の上位概念や、それを補足説明する語彙や文章を入力、あるいは付加して入力する手段を設けることにより、入力したい語彙の上位概念や補足説明を付加することで、入力すべき内容の候補を絞り込み、認識率の向上を図ることができる。
【0006】
また、本願の他の発明では、複合語の入力では、構成している単語などを個別に順次音声入力する手段を設ける。構成している単語などを個別に順次音声入力する手段を設けることにより、認識候補を絞り込み、又は複合語を構成しているサブセットの単語等に分解して入力することで、複合語を構成している単語間のリエゾン(発音上の結合)をなくし、認識率の向上を図ることができる。
【0007】
【発明の実施の形態】
以下、本願発明の実施例を詳細に説明する。
【0008】
図2は、本発明の音声認識システムの音声入力フローの概念を示す図である。例1は地名入力をタスクにした場合であって、誤認識を起こしたときには、従来ように再度同じ内容の発声をするのではなく、例えば、「仙台市東仙台」のように東仙台の上位概念である仙台市を付加して入力すること(方式1)や、「東」「仙台」のように入力内容が複合語から構成されている場合は、複合語を構成している単語等を区切って発声すること(方式2)、または「仙台市」あるいは「仙台市の」と発声してから「東仙台」と再度入力すること(方式3)などが考えられる。この結果、方式1では、仙台市の中に属している地名や駅名へと認識候補を絞り込むことが可能となり、等価的に認識率を向上させることになる。方式2では、複合語を構成しているサブセットの単語等に分解して入力することで、複合語を構成している単語間のリエゾン(発音上の結合)をなくし、認識率を向上させることになる。次に、例2として、人名入力のタスクを考える。ユーザからの入力発声が「長島(ながしま)」であって、認識結果のシステムからの出力が「中島」であったと想定している。この場合、本発明では、「長島茂雄」のように姓と名を連結して入力すること(方式1)や、「巨人(の)長島」のように所属名や居住地名を付加して入力すること(方式2)、または「巨人(の)」と発声してから「長島」と区切って発声すること(方式3)などを提案している。
【0009】
尚、入力したい語彙等の音声と該入力したい語彙の上位概念や補足説明等の音声とを識別するボタンを設け、該識別ボタンを一時的に、又は継続的に押しながら、該入力したい語彙の上位概念や補足説明等の音声を入力することも考えられる。該識別ボタンを設けることにより、入力したい語彙等のみを入力する場合と、該入力したい語彙の上位概念や補足説明等を付加して入力する場合とを選択することが可能となり、音声認識システムに柔軟性を持たせることが可能となる。
【0010】
また、本実施例では、誤認識を起こしたときには、従来ように再度同じ内容の発声をするのではなく、例えば、「仙台市東仙台」のように東仙台の上位概念である仙台市を付加して入力すること(方式1)や、「東」「仙台」のように入力内容が複合語から構成されている場合は、複合語を構成している単語等を区切って発声すること(方式2)、または「仙台市」あるいは「仙台市の」と発声してから「東仙台」と再度入力すること(方式3)等を取り上げたが、最初の入力から、上記方式1乃至方式3の方式で音声入力を行っても、上述と同様の効果を得ることができる。以下の実施例においても同様である。
【0011】
図3は、本発明が創生されるに至った、地名の階層的な関係を示す図である。図で示すように、一般的には「都道府県名」があって、その下位の概念として「市区町村名」があり、さらにその下位の概念として「地区名」がある。具体的には、「宮城県」「仙台市」「東仙台」のような階層的な関係がある。従って、地名の場合は、「地区名」の上位概念は、「市区町村名」であり、さらに「市区町村名」の上位概念は「都道府県名」となっている。
【0012】
図4は、同様に本発明が創生されるに至った、人名の階層的な構成を示す図である。一般的には「所属」があって、その下位の概念として「苗字名」があり、さらにその下位の概念として「名前」がある。具体的には、「巨人軍」「長島」「茂雄」のような階層的な関係がある。従って、人名の場合は、「名前」の上位概念は、「苗字名」であり、さらに「苗字名」の上位概念は「所属」となっている。所属としては、「どこそこの誰さん」のように、地名等になる場合も考えられる。
【0013】
図5は、本発明の音声認識システムの構成の一実施例を詳細に示すブロック図である。使用者100によって発声された音声信号10を入力として、音声認識部200にて音声認識が実行される。音声認識部200の具体的な構成の一実施例としては、音声入力部210にてアナログの音声情報がデジタルの音声波形情報へと変換される。その後、音声分析部220にて、音声の特徴パラメータが抽出される。音声パラメータに関しては、文献「音声情報処理の基礎」(斉藤収三、中田和男共著、オーム社)に示されているように、例えば線形予測分析により求まるLPCケプストラムなどがある。その後、照合・判定部230にて、入力音声の照合が実行され、認識結果30が出力される。出力結果30は、例えば表示応答部300にて、使用者(ユーザ)に提示され、認識結果の良否が使用者から音声やキーボードなどにより入力される。表示応答部300は、例えば通常のモニターやスピーカなどである。使用者からの良否の応答は350にて入力され、応答判定部400にて、本発明で提案する上位概念を付加した入力発声等の手順が実行される,その結果、450にて再度使用者100に提示され、本発明の手順にて、正解が得られるまで発声と認識実行が行われ、認識結果999を得ることになる。
【0014】
図6は、音声入力部210の一実施例を詳細に示すブロック図である。入力音声10はLPF(Low Pass Filter)2101とA/Dコンバータ2102にて、例えば12kHz、16bitでサンプリングされて、音声のアナログ信号10が、デジタル信号20へと変換される。LPFは、サンプリングでの折り返し雑音が入るのを防ぐために用いられ、通常はサンプリング周波数の半分以下のカットオフ周波数を持つ。例えば、12kHzサンプリングの場合は、LPFのカットオフ周波数は6kHz以下となる。
【0015】
図7は、音声分析部220の一実施例を詳細に示すブロック図である。音声のデジタル信号20を入力として、まず相関関数算出部2210にて、LPC分析の入力情報である音声信号の自己相関関数が算出される。この際、LPC分析の次数nであれば、少なくとも相関関数の次数は n 以上が必要となる。 n は、音声信号サンプルの n 点の違いである。音声信号をxt ( t サンプル点)とすれば、i 次の自己相関関数 Ri は、次のように求められる。
【0016】
【数1】

Figure 0003671636
【0017】
次にLPC分析部2220にて、文献「音声情報処理の基礎」(斉藤収三、中田和男共著、オーム社)に詳細に記述されているように、音声のスペクトラム情報を表現するLPCパラメータであるLPC係数(αパラメータ)が求められる。さらに、ケプストラム係数変換部2230にて、音声認識のパラメータとして優れているLPCケプストラムがαパラメータから変換して求められる。さらに、音声認識では、ケプストラムの差分情報である回帰係数が回帰係数算出部2240にて算出され、音声認識に使う音声パラメータ30が出力される。従って、音声パラメータ30の実施例としては、例えば、次のようになっている。また、パワー情報とパワー情報の回帰係数も音声パラメータとして使用されることもある。
【0018】
【数2】
Figure 0003671636
【0019】
図8は、音声照合・判定部230の一実施例を詳細に示すブロック図である。本発明では、音声照合方式の例としては、連続型隠れマルコフモデル(HMMs: Hidden Markov Models)を使用した場合を考える。連続型隠れマルコフモデルに関しては、文献「確率モデルによる音声認識」(中川聖一著、(社)電子情報通信学会編)に詳細に説明されている。図4にて詳細に説明したように、入力音声信号をサンプリングし、音声分析にて得られた音声パラメータを時間軸に並べて表現した音声の特徴パターンを入力として、音響モデル2340を参照しながら、確率分布計算部2310にて、入力音声の短時間分析の結果の特徴パターンに対して音響モデルの分布確率が計算される。更に、確率累積部2320にて、単語辞書2350に記述された単語の系列に対応した音響モデルの確率分布が累積されて、単語辞書の各エントリィの累積確率が求まる。その後、判定部2330にて、確率がもっとも高い単語エントリィが第1次の認識結果40として出力される。本発明では、単語認識を例にして説明したが、例えば文節認識や文章認識も、単語辞書を文節や文章の文字系列とすることで、単語認識と同様にして容易に実現される。
【0020】
図9は、本発明を具体的に実現する場合の辞書構成の一実施例の詳細を示す図である。本実施例では、地名を表現する辞書の構成に関してであり、都道府県名と市区町村名とともに、地区名が単語番号の順に記述されている。本発明を用いた音声認識実行にあたっては、まず地区名だけの単語辞書による認識が実行され、誤認識された場合は、システムからの指示により市区町村名や都道府県名を付加した形での音声入力がなされ、システムではまず都道府県名や市区町村名の認識が実行され、その認識結果の都道府県名や市区町村名に属している地区名だけでの認識が実行される。図9での例では、宮城県と仙台市が特定されれば、単語辞書番号が11ではじまる地区名だけでの認識が実行されることになる。この結果、最初の認識での対象である全地区名の一部が認識対象として絞り込まれ、結果として認識率の向上に寄与することになる。例えば、関東地方の1都6県の例では、7都道府県には約650市区町村名があり、各市区町村名に平均として50の地区名があるとすれば、地区名だけの総数は約3万となり、3万語彙の認識システムが必要となる。しかし、本発明の結果、都道府県名と市区町村名が入力されれば、まず7語の認識、その後、その都道府県名に属している約100語以下の市区町村名の認識、最終として認識された市区町村名に属する約50地区名の認識で済むことになり、結果としては100語の認識システムで地区名の認識が可能となる。また、本発明のように、最初はトータルの3万語の認識から始まって、単語を最終的に約50語に絞り込まれることが可能となり、認識率の向上が図られる。
【0021】
図10は、本発明をカーナビゲーションへ応用した時のインタフェースの一概念図を示す図である。カーナビゲーション装置500は、表示部510、スピーカ520、イァフォンジャク530、セレクタ540、及びマイクロフォン550で少なくとも構成されている。マイクロフォン550から入力された音声は認識実行され、結果が表示部510や、スピーカ520にて出力される。この結果、誤認識の場合は、本発明の応答手順を経て、正解認識が得られるように進行される。スピーカ520とイァフォンジャク530は、システムからの応答音声を出力する装置として働く。
【0022】
図11は、本発明の音声入力機能を持ったカーナビゲーションの構成の一実施例を示す図である。少なくとも、カーナビゲーションシステムおいては、自車位置検出部500、画面情報描画・表示部600、音声処理・出力部700にて構成される。自車位置検出部500はGPS(Geographic Positioning System)信号50を入力として、GPS受信部510にてGPS信号が受信され、さらに位置補正がGPS位置補正部520にて行われる。また、タイヤ回転情報60から、タイヤ回転算出部530、走行距離算出部540にて、タイヤ回転と走行距離都の関係が算出され、位置変換部550にて、走行距離から換算した位置情報が求められる。さらに、ジャイロ情報70から、ジャイロ情報受信部560、ジャイロ位置変換部570を経て、自車位置が求められる。以上の位置情報が位置補正・統合部580にて統合され、最終的に精度の高い自車位置が求められる。その結果、画面情報描画・表示部600において、自車位置が画面上の地図の中に対応した形で表示される。この際、地図画面などの画面を作成する画面作成部610、画面描画部620にて、画面が描画される。一方、音声処理・出力部700では、音声信号10を入力として、音声入力制御部710、音声認識部720、結果出力部730にて、入力された音声の認識が実行され、認識結果90が出力される。音声人認識部720は、図5の音声認識部200と同等である。また、認識結果の確認や、交通情報の読み上げなどの合成音声は、制御信号15をもとに、音声出力制御部740、音声合成部750、合成音出力部760にて、音声信号95が生成されて出力される。
【0023】
図12は、本発明の音声入力機能を持ったメールの宛名入力システムのインタフェースの一概念を示す図である。本実施例では、音声機能としては、メールの読み上げと、メール送信時の宛名を音声で入力する機能を持っている。本発明は後者の音声による宛名入力に関してであり、宛名名を辞書として登録する宛名選択と、送信時に宛名を音声で入力するメールアドレス入力の2つが機能的にはある。宛名選択の処理のフローは、アドレス帳の検索、宛名指定、認識用単語辞書書式への変換、単語辞書とメールアドレス対応表の作成となっている。この結果、認識時に使用する単語辞書が構成される。メールアドレス入力の処理のフローは、認識処理そのものであり、まずA/D変換により入力音声をデジタル音声に変換し、その後音声分析、連続HMMによる照合、判定、最後に認識結果の表示となっている。その際、音響モデルコードブックと音響モデルパラメータとが用いられる。認識結果は、本実施例では、5候補出力され、1位の場合は指示なしで、2位以下の場合は正解の指示をもって、送信すべき相手のメールアドレスが入力される。
【0024】
図13は、本発明の音声入力機能を持ったメールの宛名入力システムの構成の一実施例を示すブロック図である。まず、全体の構成として、PC/WSとソフト800で構成されている。具体的には、ソフトウェアから使用者側に存在するアプリケーションAP810、その下のPC/WSのハード側に存在するソフトウェアとして、例えばGraphics820、電話とのインタフェースTel I/F830、音声認識部840、音声合成部850、Audio I/F860、さらに、これらのソフトウェアを実行するマルチメディア対応OS870、そしてマルチメディア対応ハードウェア880で構成されている。音声認識ブロック840は、音声20を入力として、例えばPCに標準的に装備されているSoundBoard8410で音声がA/D変換され、PCソフトウェアにてSoundBoardの品質の違いを補正するAudio CalibrationとNoise Canceller8420、音声認識のエンジンである音声認識部8430、そして音響モデルとご単語辞書が格納されているメモリ8450にて構成されている。この結果、認識結果90が出力される。
【0025】
図14は、本発明を用いた方式の効果を示す認識率評価の一結果を示す概念図である。認識単語の語彙数を2000まで想定し、従来の方式と本発明による認識率の改善を示している。例えば、関東地方の1都6県に存在する約650市町村名を認識語彙とした場合、市町村名だけで入力すると、認識語彙数が計650単語の認識となり、現状では、約92%の認識率となる。しかし、東京都や県名を付加して入力した場合は、1都6県計7単語認識のあとに付随する地名の語彙数約100語認識となる。この結果、認識率は約99%となり、約7%の認識率の向上が見込まれる。
【0026】
【発明の効果】
本発明により、入力したい語彙や文章が誤認識で入力できない場合、上記語彙等を効率良く入力することができる音声認識装置を提供することができる。従来の音声認識システムでは、音声入力だけでは入力完了ができなかったような場合でも、音声入力の機能だけで入力したい内容を入力できるので、効率の良い音声認識利用のシステム及び装置の提供が可能となる。
【図面の簡単な説明】
【図1】従来の音声認識システムにおける音声入力フローの概念を示す図。
【図2】本発明のユーザインタフェース方法、及び装置を持ったシステムの音声入力フローの概念を示す図。
【図3】地名の階層的な構成を示す図。
【図4】人名の階層的な構成を示す図。
【図5】本発明を持った音声認識システムの構成の一実施例を詳細に示すブロック図。
【図6】音声入力部210の一実施例を詳細に示すブロック図。
【図7】音声分析部220の一実施例を詳細に示すブロック図。
【図8】音響照合・判定部230の一実施例を詳細示すブロック図。
【図9】本発明を使った辞書構成の一実施例を詳細に示す図。
【図10】本発明の機能を持ったカーナビゲのインタフェースの一概念図を示す図。
【図11】カーナビゲーションの構成の一実施例を示すブロック図。
【図12】本発明の機能を持ったメール宛名入力システムのインタフェースの一概念 を示す図。
【図13】メール宛名入力システムの構成の一実施例を示すブロック図。
【図14】本発明の効果を示す一認識率評価を示す図。
【符号の説明】
入力音声10、使用者(ユーザ)100、音声認識部200、音声入力部210、LPF2110、A/D2120、音声信号(デジタル)20、音声分析部220、相関関数算出部2210、LPC分析部2220、ケプストラム係数変換部2230、回帰係数算出部2240、音声パラメータ30、照合・判定部230、確率分布計算部2310、確率累積部2320、判定部2330、音響モデル2340、単語辞書2350、認識候補40、表示応答部300、良否入力部350、応答判定部400、定時部450、認識結果90、カーナビゲーション装置5000、表示部5100、スピーカ5200、イアホンジャック5300、セレクタ540、マイクロホン5500、さらにカーナビゲーションにおけるGPS信号50、GPS受信部510、GPS位置補正部520、タイヤ回転情報60、タイヤ回転算出部530、走行距離算出部540、位置変換部550、ジャイロ情報70、ジャイロ情報受信部560、ジャイロ位置変換部570、位置補正・統合部580、画面情報描画・表示部600、画面作成部610、画面描画部620、音声処理・出力部700、音声入力制御部710、音声認識部720、結果出力部730、制御信号15、音声出力制御部740、音声合成部750、做静穏出力部760、音声信号95、最後にメール宛名入力システムにおける、PC/WSとソフト800、アプリケーションAP810、Graphics820、電話インタフェース(Tel I/F)830、音声認識部840、音声合成部850、Audio I/F860、マルチメディア対応OS870、マルチメディア対応ハードウェア880、音声認識ブロック840、SoundBoard8410、PCソフトウェア内のAudio Calibration、Noise Cancellaer8420、音声認識エンジン8430、メモリ8440。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition apparatus, and more particularly to a speech recognition apparatus that can efficiently input the vocabulary or the like when a vocabulary or sentence to be input cannot be input due to erroneous recognition.
[0002]
[Prior art]
FIG. 1 is a diagram showing a concept of a voice input flow in a conventional voice recognition system. In this figure, the voice input procedure in the place name input task is expressed in the form of a user input and a response from the system. It is assumed that the input from the user is “Higashi Sendai” and the system response of the recognition result is “Higashisenju”. In the conventional method, in the case of misrecognition, in response to the user's response such as “No”, for example, the second-ranked recognition result is output (correspondence 1), input is prompted again, and voice recognition is performed again Then, procedures such as re-obtaining the correct answer (Action 2) have been executed.
[0003]
[Problems to be solved by the invention]
However, as a result of studying the conventional speech recognition system, the inventor of the present application has found that it is sometimes difficult to efficiently input the vocabulary or the like when the vocabulary or sentence to be input cannot be input due to misrecognition.
[0004]
Accordingly, an object of the present invention is to provide a speech recognition apparatus that can efficiently input the vocabulary or the like when the vocabulary or sentence to be input cannot be input due to erroneous recognition.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, in the present invention, if the vocabulary or sentence to be input cannot be input due to misrecognition, the vocabulary or sentence that supplements the vocabulary or sentence that supplements the vocabulary or sentence to be input is input or added. Means for input. For example, if you cannot enter due to misrecognition in place name input etc., provide a means to enter or add a prefecture name that is a superordinate concept of the place name. Provide a means to add the name and input. By adding or adding a vocabulary concept or supplementary explanation of the vocabulary you want to enter, you can enter or add a vocabulary or sentence that supplements the vocabulary or sentence that you want to enter. It is possible to narrow down candidates for the content to be improved and improve the recognition rate.
[0006]
In another invention of the present application, in inputting a compound word, means for sequentially inputting a constituent word individually by voice is provided. By providing means to input the constituent words individually and sequentially, narrow down the recognition candidates, or decompose and input into a subset of words constituting the compound word, etc. This eliminates liaison (pronunciation coupling) between words and improves the recognition rate.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
Examples of the present invention will be described in detail below.
[0008]
FIG. 2 is a diagram showing a concept of a voice input flow of the voice recognition system of the present invention. Example 1 is a case where the place name entered in the task, when caused the erroneous recognition, rather than utterance of a conventional way the same content again, for example, the preamble of Higashi Sendai as "Sendai Higashi Sendai" by adding the Sendai City that you enter (type 1) and is, if the input contents such as "East", "Sendai" is composed of compound words, words, etc. that make up the compound word It may be possible to divide and speak (Method 2), or “Sendai City” or “Sendai City” and then input “Higashi Sendai” again (Method 3). As a result, in Method 1, it becomes possible to narrow down recognition candidates to place names and station names belonging to Sendai City, and the recognition rate is equivalently improved. Method 2 eliminates liaisons (pronunciations) between words constituting a compound word and improves recognition rate by decomposing and inputting into a subset of words constituting the compound word. become. Next, as Example 2, a task of inputting a person name is considered. It is assumed that the input utterance from the user is “Nagashima” and the output of the recognition result system is “Nakashima”. In this case, in the present invention, the concatenated name and family name are input, such as “Shigeo Nagashima” (Method 1), or the name of the affiliation and the place of residence are added and input, such as “Giant (no) Nagashima”. It is proposed to utter (scheme 2) or utter “giant (no)” and then utter as “Nagashima” (scheme 3).
[0009]
It should be noted that a button for identifying the speech of the vocabulary or the like to be input and the speech of the superordinate concept or supplementary explanation of the vocabulary to be input is provided. It is also conceivable to input voices such as superordinate concepts and supplementary explanations. By providing the identification button, it is possible to select a case where only the vocabulary or the like to be input is input and a case where the vocabulary to be input is input with a superordinate concept or a supplementary explanation added thereto. It becomes possible to give flexibility.
[0010]
Also, in this embodiment, when a misrecognition occurs, the same content is not spoken again as in the past , but for example, Sendai City, which is a superordinate concept of Higashi Sendai, such as “Sendai City Higashi Sendai” is added. be entered Te and (method 1), "East" If the input contents such as "Sendai" is composed of a compound word, be uttered to separate the words, etc. that make up the compound word (method 2) Or, say “Sendai City” or “Sendai City” and then input “Higashi Sendai” again (method 3 ) . From the first input, methods 1 to 3 above Even if voice input is performed, the same effect as described above can be obtained. The same applies to the following embodiments.
[0011]
FIG. 3 is a diagram showing the hierarchical relationship of place names that led to the creation of the present invention. As shown in the figure, there is generally “prefecture name”, “city name” as a subordinate concept, and “district name” as a subordinate concept. Specifically, there is a hierarchical relationship such as “Miyagi Prefecture” “Sendai City” “Higashi Sendai”. Therefore, in the case of a place name, the superordinate concept of “district name” is “city name”, and the superordinate concept of “city name” is “prefecture name”.
[0012]
FIG. 4 is a diagram showing a hierarchical structure of personal names that similarly led to the creation of the present invention. In general, there is “affiliation”, the subordinate concept is “name of last name”, and the subordinate concept is “name”. Specifically, there are hierarchical relationships such as “Giant Army”, “Nagashima”, and “Shigeo”. Therefore, in the case of a person name, the superordinate concept of “name” is “surname name”, and the superordinate concept of “surname name” is “affiliation”. As the affiliation, it may be possible to use a place name such as “who is there”.
[0013]
FIG. 5 is a block diagram showing in detail an embodiment of the configuration of the speech recognition system of the present invention. The voice recognition unit 200 executes voice recognition using the voice signal 10 uttered by the user 100 as an input. As an example of a specific configuration of the speech recognition unit 200, analog speech information is converted into digital speech waveform information by the speech input unit 210. Thereafter, the voice analysis unit 220 extracts voice feature parameters. As for speech parameters, there is, for example, an LPC cepstrum obtained by linear prediction analysis, as shown in the document “Basics of Speech Information Processing” (Shinzo Saito, Kazuo Nakata, Ohmsha). Thereafter, the collation / determination unit 230 collates the input voice and outputs the recognition result 30. The output result 30 is presented to the user (user) by the display response unit 300, for example, and the quality of the recognition result is input from the user by voice or a keyboard. The display response unit 300 is, for example, a normal monitor or a speaker. A good / bad response from the user is input at 350, and the response determination unit 400 executes a procedure such as input utterance to which the superordinate concept proposed in the present invention is added. As a result, the user is again input at 450. 100, and according to the procedure of the present invention , speech and recognition are performed until a correct answer is obtained, and a recognition result 999 is obtained.
[0014]
FIG. 6 is a block diagram showing in detail an embodiment of the voice input unit 210. Input speech 10 in LPF (Low Pass Filter) 2101 and A / D converter 2102, for example 12 kHz, is sampled in 16bit, analog signal 10 of the speech, is converted to a digital signal 20. The LPF is used to prevent aliasing noise during sampling, and usually has a cut-off frequency that is half or less of the sampling frequency. For example, in the case of 12 kHz sampling, the LPF cutoff frequency is 6 kHz or less.
[0015]
FIG. 7 is a block diagram showing in detail an embodiment of the voice analysis unit 220. With the audio digital signal 20 as an input, the correlation function calculator 2210 first calculates the autocorrelation function of the audio signal, which is input information for LPC analysis. At this time, if the order of the LPC analysis is n, at least the order of the correlation function needs to be n or more. n is the difference of n points of the audio signal sample. If the speech signal is xt (t sample points), the i-th order autocorrelation function Ri can be obtained as follows.
[0016]
[Expression 1]
Figure 0003671636
[0017]
Next, as described in detail in the document “Basics of Speech Information Processing” (co-authored by Shuzo Saito and Kazuo Nakata, Ohmsha), the LPC analysis unit 2220 is an LPC parameter that represents the spectrum information of speech. An LPC coefficient (α parameter) is obtained. Further, the cepstrum coefficient conversion unit 2230 obtains an LPC cepstrum excellent as a speech recognition parameter by converting it from the α parameter. Furthermore, in speech recognition, a regression coefficient, which is cepstrum difference information, is calculated by a regression coefficient calculation unit 2240, and speech parameters 30 used for speech recognition are output. Therefore, as an example of the voice parameter 30, for example, it is as follows. Also, power information and a regression coefficient of the power information may be used as voice parameters.
[0018]
[Expression 2]
Figure 0003671636
[0019]
FIG. 8 is a block diagram showing in detail an embodiment of the voice collation / determination unit 230. In the present invention, a case where continuous hidden Markov models (HMMs: Hidden Markov Models) are used is considered as an example of the speech matching method. The continuous hidden Markov model is described in detail in the document "Speech recognition using a probabilistic model" (Seiichi Nakagawa, edited by the Institute of Electronics, Information and Communication Engineers). As described in detail with reference to FIG. 4, the input audio signal is sampled, and an audio feature pattern in which audio parameters obtained by audio analysis are arranged on the time axis is input as an input while referring to the acoustic model 2340. The probability distribution calculation unit 2310 calculates the distribution probability of the acoustic model for the feature pattern resulting from the short-term analysis of the input speech. Further, the probability accumulation unit 2320 accumulates the probability distribution of the acoustic model corresponding to the word sequence described in the word dictionary 2350, and obtains the accumulated probability of each entry in the word dictionary. Thereafter, the determination unit 2330 outputs the word entry having the highest probability as the first recognition result 40. In the present invention, the word recognition has been described as an example. For example, the phrase recognition and the sentence recognition can be easily realized in the same manner as the word recognition by using the word dictionary as a phrase or a character string of the sentence.
[0020]
FIG. 9 is a diagram showing details of an embodiment of the dictionary configuration when the present invention is specifically implemented. This embodiment relates to the structure of a dictionary that expresses place names, and district names are described in order of word numbers together with prefecture names and city names. In performing speech recognition using the present invention, first, recognition using a word dictionary of only the district name is performed, and in the case of misrecognition, in the form of adding a city name or prefecture name according to instructions from the system Voice input is made, and the system first recognizes the prefecture name and city name, and recognizes only the district name belonging to the prefecture name and city name of the recognition result. In the example in FIG. 9, if Miyagi Prefecture and Sendai City are specified, recognition is performed only with the district name whose word dictionary number begins with 11. As a result, a part of the names of all districts that are targets in the first recognition are narrowed down as recognition targets, and as a result, the recognition rate is improved. For example, in the case of one prefecture and six prefectures in the Kanto region, if there are about 650 municipalities in seven prefectures, and each municipality has an average of 50 district names, the total number of districts alone is It becomes about 30,000, and a recognition system for 30,000 vocabulary is required. However, as a result of the present invention, if a prefecture name and a city name are input, first, 7 words are recognized, and then a city name of about 100 words or less belonging to the name of the prefecture is recognized. As a result, the name of the district can be recognized by a recognition system of 100 words. In addition, as in the present invention, it is possible to start by recognizing a total of 30,000 words at first, and finally narrow down the words to about 50 words, thereby improving the recognition rate.
[0021]
FIG. 10 is a diagram showing a conceptual diagram of an interface when the present invention is applied to car navigation. The car navigation apparatus 500 includes at least a display unit 510, a speaker 520, an earphone jack 530, a selector 540, and a microphone 550. The voice input from the microphone 550 is recognized and executed, and the result is output from the display unit 510 or the speaker 520. As a result, in the case of erroneous recognition, the process proceeds so that correct recognition is obtained through the response procedure of the present invention. The speaker 520 and the earphone jack 530 function as devices that output response sound from the system.
[0022]
FIG. 11 is a diagram showing an embodiment of the configuration of a car navigation system having a voice input function according to the present invention. At least, Oite the car navigation system, the vehicle position detecting unit 500, a screen information drawing and display unit 600, configured at the audio processing and output unit 700. The own vehicle position detection unit 500 receives a GPS (Geographic Positioning System) signal 50, receives a GPS signal by the GPS reception unit 510, and further performs position correction by the GPS position correction unit 520. Further, from the tire rotation information 60, the tire rotation calculation unit 530 and the travel distance calculation unit 540 calculate the relationship between the tire rotation and the travel distance city, and the position conversion unit 550 obtains position information converted from the travel distance. It is done. Further, the vehicle position is obtained from the gyro information 70 via the gyro information receiving unit 560 and the gyro position converting unit 570. The above position information is integrated by the position correction / integration unit 580, and the vehicle position with high accuracy is finally obtained. As a result, in the screen information drawing / display unit 600, the vehicle position is displayed in a form corresponding to the map on the screen. At this time, a screen is drawn by a screen creation unit 610 and a screen drawing unit 620 that create a screen such as a map screen. On the other hand, in the voice processing / output unit 700, the voice signal 10 is input, the voice input control unit 710, the voice recognition unit 720, and the result output unit 730 recognize the input voice and output the recognition result 90. Is done. The voice person recognition unit 720 is equivalent to the voice recognition unit 200 of FIG. Also, synthesized speech such as confirmation of recognition results and reading of traffic information is generated by the speech output control unit 740, speech synthesis unit 750, and synthesized sound output unit 760 based on the control signal 15. Is output.
[0023]
FIG. 12 is a diagram showing a concept of an interface of a mail address input system having a voice input function according to the present invention. In this embodiment, the voice function has a function of reading out a mail and inputting a mail address at the time of mail transmission. The present invention relates to the latter address input by voice, and there are two functions: address selection for registering the address name as a dictionary and mail address input for inputting the address by voice during transmission. The address selection processing flow includes address book search, address designation, conversion to a recognition word dictionary format, and creation of a word dictionary and mail address correspondence table. As a result, a word dictionary used for recognition is constructed. The mail address input process flow is the recognition process itself. First, the input voice is converted to digital voice by A / D conversion, then voice analysis, verification and determination by continuous HMM, and finally the recognition result is displayed. Yes. At that time, an acoustic model codebook and acoustic model parameters are used. In this embodiment, the recognition result is output with 5 candidates, and if it is 1st, there is no instruction, and if it is 2nd or less, the mail address of the other party to be transmitted is input with the correct instruction.
[0024]
FIG. 13 is a block diagram showing an embodiment of the configuration of a mail address input system having a voice input function according to the present invention. First, the overall configuration includes PC / WS and software 800. Specifically, the application AP 810 existing on the user side from the software, and the software existing on the hardware side of the PC / WS below, for example, Graphics 820, telephone interface Tel I / F 830, speech recognition unit 840, speech synthesis Section 850, Audio I / F 860, multimedia-compatible OS 870 that executes these software, and multimedia-compatible hardware 880. The voice recognition block 840 receives the voice 20 as an input, and for example, the voice is A / D-converted by a SoundBoard 8410 that is standardly installed in the PC, and the Audio Calibration and Noise Canceller 8420 for correcting the difference in the quality of the SoundBoard by the PC software. A speech recognition unit 8430 that is a speech recognition engine and a memory 8450 in which an acoustic model and a word dictionary are stored. As a result, a recognition result 90 is output.
[0025]
FIG. 14 is a conceptual diagram showing a result of recognition rate evaluation showing the effect of the method using the present invention. The recognition rate is improved by the conventional method and the present invention assuming the number of vocabulary of the recognition word is 2000. For example, if the name of about 650 municipalities existing in 1 prefecture and 6 prefectures in the Kanto region is used as the recognition vocabulary, if only the name of the municipality is entered, the total number of recognition vocabulary will be 650 words, and currently the recognition rate is about 92%. It becomes. However, when Tokyo Metropolitan area or prefecture name is added and input, it is recognized about 100 words of the place name vocabulary that accompanies 7 words in 6 prefectures in total. As a result, the recognition rate is about 99%, and an improvement of about 7% is expected.
[0026]
【The invention's effect】
According to the present invention, it is possible to provide a speech recognition apparatus that can efficiently input the vocabulary or the like when the vocabulary or sentence to be input cannot be input due to erroneous recognition. Even in the case where input cannot be completed with only voice input in the conventional voice recognition system, it is possible to input the contents to be input only with the voice input function, so it is possible to provide an efficient voice recognition utilization system and apparatus. It becomes.
[Brief description of the drawings]
FIG. 1 is a diagram showing a concept of a voice input flow in a conventional voice recognition system.
FIG. 2 is a diagram showing a concept of a voice input flow of a system having the user interface method and apparatus of the present invention.
FIG. 3 is a diagram showing a hierarchical configuration of place names.
FIG. 4 is a diagram showing a hierarchical configuration of person names.
FIG. 5 is a block diagram showing in detail an embodiment of the configuration of a speech recognition system having the present invention.
6 is a block diagram showing in detail an embodiment of the voice input unit 210. FIG.
FIG. 7 is a block diagram showing in detail an embodiment of the voice analysis unit 220;
FIG. 8 is a block diagram showing in detail an embodiment of an acoustic collation / determination unit 230;
FIG. 9 is a diagram showing in detail an embodiment of a dictionary configuration using the present invention.
FIG. 10 is a diagram showing a conceptual diagram of an interface of a car navigation system having the function of the present invention.
FIG. 11 is a block diagram showing an example of the configuration of car navigation.
FIG. 12 is a diagram showing a concept of an interface of a mail address input system having the function of the present invention.
FIG. 13 is a block diagram showing an example of the configuration of a mail address input system.
FIG. 14 is a diagram showing one recognition rate evaluation showing the effect of the present invention.
[Explanation of symbols]
Input speech 10, user (user) 100, speech recognition unit 200, speech input unit 210, LPF 2110, A / D 2120, speech signal (digital) 20, speech analysis unit 220, correlation function calculation unit 2210, LPC analysis unit 2220, Cepstrum coefficient conversion unit 2230, regression coefficient calculation unit 2240, speech parameter 30, verification / determination unit 230, probability distribution calculation unit 2310, probability accumulation unit 2320, determination unit 2330, acoustic model 2340, word dictionary 2350, recognition candidate 40, display Response unit 300, pass / fail input unit 350, response determination unit 400, timed unit 450, recognition result 90, car navigation device 5000, display unit 5100, speaker 5200, earphone jack 5300, selector 540, microphone 5500, and GPS signal in car navigation 50, G S receiving section 510, GPS position correcting section 520, tire rotation information 60, tire rotation calculating section 530, travel distance calculating section 540, position converting section 550, gyro information 70, gyro information receiving section 560, gyro position converting section 570, position Correction / integration unit 580, screen information drawing / display unit 600, screen creation unit 610, screen drawing unit 620, voice processing / output unit 700, voice input control unit 710, voice recognition unit 720, result output unit 730, control signal 15 , Voice output controller 740, voice synthesizer 750, calm silence output unit 760, voice signal 95, and finally PC / WS and software 800, application AP 810, Graphics 820, telephone interface (Tel I / F) in the mail address input system 830, voice recognition unit 840, voice synthesis unit 850, Audio I / F 860, multimedia-compatible OS 87 0, multimedia compatible hardware 880, voice recognition block 840, SoundBoard 8410, Audio Calibration in PC software, Noise Cancellaer 8420, voice recognition engine 8430, memory 8440.

Claims (4)

認識対象の音声を入力する音声入力部と、入力された音声を分析する音声分析部と、分析された音声を判定し認識結果を出力する照合・判定部を有する音声認識装置において、
上記照合・判定部は、
上記認識対象の認識結果に対して否との入力を受けた場合に、上記音声入力部から再入力される上記認識対象に上位概念を付加した音声を、上記認識対象の上位概念の単語辞書と、該上位概念の単語辞書を用いた認識結果に対応づけられた辞書とを用いて再度上記再入力された認識対象の認識を行うこと特徴とする音声認識装置。
In a speech recognition apparatus having a speech input unit that inputs speech to be recognized, a speech analysis unit that analyzes input speech, and a collation / determination unit that determines the analyzed speech and outputs a recognition result.
The verification / determination unit
When a negative input is received with respect to the recognition result of the recognition target, a speech in which a higher concept is added to the recognition target re-input from the voice input unit is converted into a word dictionary of the higher concept of the recognition target. A speech recognition apparatus characterized by re-recognizing the re-inputted recognition target using a dictionary associated with a recognition result using the high-level concept word dictionary.
上記認識対象の音声の内容が土地名または地名である場合に、上記上位概念の単語辞書は市町村名または都道府県名を含むことを特徴とする請求項1記載の音声認識装置。The speech recognition apparatus according to claim 1, wherein when the content of the speech to be recognized is a land name or a place name, the word dictionary of the upper concept includes a city name or a prefecture name. 上記認識対象の音声の内容が人名である場合に、上記上位概念の単語辞書は上記人名の所属部署または居住地名を含むことを特徴とする請求項1又は2に記載の音声認識装置。The speech recognition apparatus according to claim 1 or 2, wherein when the content of the speech to be recognized is a person name, the word dictionary of the higher concept includes a department or residence name of the person name. 上記認識結果に対して否との入力を受けた場合には、該認識結果の上位概念を含む音声の入力を行うようにユーザに提示する手段をさらに有することを特徴とする請求項1乃至3の何れかに記載の音声認識装置。4. The apparatus according to claim 1, further comprising means for presenting a user with a voice input including a superordinate concept of the recognition result when receiving an input of “No” with respect to the recognition result. The speech recognition device according to any one of the above.
JP33844897A 1997-12-09 1997-12-09 Voice recognition device Expired - Fee Related JP3671636B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33844897A JP3671636B2 (en) 1997-12-09 1997-12-09 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33844897A JP3671636B2 (en) 1997-12-09 1997-12-09 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH11175094A JPH11175094A (en) 1999-07-02
JP3671636B2 true JP3671636B2 (en) 2005-07-13

Family

ID=18318256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33844897A Expired - Fee Related JP3671636B2 (en) 1997-12-09 1997-12-09 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3671636B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10012572C2 (en) * 2000-03-15 2003-03-27 Bayerische Motoren Werke Ag Device and method for voice input of a destination using a defined input dialog in a route guidance system
JP2002108389A (en) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd Method and apparatus for searching and extracting personal names by voice and on-vehicle navigation device
JP4604377B2 (en) * 2001-03-27 2011-01-05 株式会社デンソー Voice recognition device
WO2019163011A1 (en) * 2018-02-21 2019-08-29 三菱電機株式会社 Display control device and display control method

Also Published As

Publication number Publication date
JPH11175094A (en) 1999-07-02

Similar Documents

Publication Publication Date Title
US8639508B2 (en) User-specific confidence thresholds for speech recognition
EP1936606B1 (en) Multi-stage speech recognition
JP4816409B2 (en) Recognition dictionary system and updating method thereof
US8560313B2 (en) Transient noise rejection for speech recognition
US20130080172A1 (en) Objective evaluation of synthesized speech attributes
US7826945B2 (en) Automobile speech-recognition interface
US8438028B2 (en) Nametag confusability determination
CN102097096B (en) Using pitch during speech recognition post-processing to improve recognition accuracy
JP3955880B2 (en) Voice recognition device
US8751145B2 (en) Method for voice recognition
US9911408B2 (en) Dynamic speech system tuning
US9997155B2 (en) Adapting a speech system to user pronunciation
US8756062B2 (en) Male acoustic model adaptation based on language-independent female speech data
US20120109649A1 (en) Speech dialect classification for automatic speech recognition
US20060100871A1 (en) Speech recognition method, apparatus and navigation system
JP4357867B2 (en) Voice recognition apparatus, voice recognition method, voice recognition program, and recording medium recording the same
US9473094B2 (en) Automatically controlling the loudness of voice prompts
KR19980070329A (en) Method and system for speaker independent recognition of user defined phrases
US7240008B2 (en) Speech recognition system, program and navigation system
CN115168563A (en) Airport service guiding method, system and device based on intention recognition
JP2004163541A (en) Voice response device
WO2000010160A1 (en) Speech recognizing device and method, navigation device, portable telephone, and information processor
US20120197643A1 (en) Mapping obstruent speech energy to lower frequencies
JP3671636B2 (en) Voice recognition device
US20070136060A1 (en) Recognizing entries in lexical lists

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees