JP4845955B2 - Speech recognition result correction apparatus and speech recognition result correction method - Google Patents
Speech recognition result correction apparatus and speech recognition result correction method Download PDFInfo
- Publication number
- JP4845955B2 JP4845955B2 JP2008315766A JP2008315766A JP4845955B2 JP 4845955 B2 JP4845955 B2 JP 4845955B2 JP 2008315766 A JP2008315766 A JP 2008315766A JP 2008315766 A JP2008315766 A JP 2008315766A JP 4845955 B2 JP4845955 B2 JP 4845955B2
- Authority
- JP
- Japan
- Prior art keywords
- correction
- recognition
- results
- recognition result
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声認識結果訂正装置および音声認識結果訂正方法に関する。 The present invention relates to a speech recognition result correction apparatus and a speech recognition result correction method.
携帯端末において入力された音声をサーバに出力し、当該サーバにおいて音声を認識して、このサーバが認識結果を携帯端末に送信することで、携帯端末において音声結果を取得することができる技術が、下記特許文献1に記載されている。
しかしながら、認識結果は一つしか得られないため、サーバでの認識の精度がよくない場合には、誤った認識結果を得ることになる。よって、この誤った認識結果に基づいて訂正処理を行おうとしても、適切な訂正結果を得ることができない。 However, since only one recognition result can be obtained, an incorrect recognition result is obtained when the accuracy of recognition at the server is not good. Therefore, even if correction processing is performed based on the erroneous recognition result, an appropriate correction result cannot be obtained.
そこで、本発明では、サーバでの認識の精度が良くない場合でも適切な訂正処理を行うことができる音声認識結果訂正装置および音声認識結果訂正方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a speech recognition result correction apparatus and a speech recognition result correction method capable of performing appropriate correction processing even when the accuracy of recognition at the server is not good.
上述の課題を解決するために、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声を音声認識サーバに認識させるための情報を、前記音声認識サーバに送信する送信手段と、前記送信手段により前記音声認識サーバに認識させるための情報に基づいて処理された音声に対する複数の認識結果を取得する取得手段と、前記入力手段により入力された音声に対する複数の認識結果を取得する取得手段と、前記取得手段により取得された複数の認識結果を、認識結果に付与されている未知語または既知語に対する認識方法の種別を示す識別子に従って振り分ける振分手段と、前記振分手段により振り分けられた認識結果に対して、前記識別子ごとに対応付けられた認識用辞書データを用いて訂正処理を実行する訂正手段と、前記訂正手段により訂正された訂正結果を、所定の順序に並び替えてユーザに提示する提示手段と、を備えている。 In order to solve the above-described problem, the speech recognition result correcting apparatus according to the present invention includes an input unit for inputting speech, and information for causing a speech recognition server to recognize the speech input by the input unit. A transmission means for transmitting to the server; an acquisition means for acquiring a plurality of recognition results for the voice processed based on information for causing the voice recognition server to recognize by the transmission means; and for the voice input by the input means. An acquisition unit that acquires a plurality of recognition results; and a distribution unit that distributes the plurality of recognition results acquired by the acquisition unit according to an identifier indicating an unknown word or a recognition method type for a known word given to the recognition result; , Correction processing using the recognition dictionary data associated with each identifier for the recognition result sorted by the sorting means And correction means for performing a correction result which is corrected by said correcting means, and a, and presenting means for presenting to the user are rearranged in a predetermined order.
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声を音声認識サーバに認識させるための情報を、前記音声認識サーバに送信する送信ステップと、前記送信ステップにより前記音声認識サーバに認識させるための情報に基づいて処理された音声に対する複数の認識結果を取得する取得ステップと、前記入力ステップにより入力された音声に対する複数の認識結果を取得する取得ステップと、前記取得ステップにより取得された複数の認識結果を、認識結果に付与されている未知語または既知語に対する認識方法の種別を示す識別子に従って振り分ける振分ステップと、前記振分ステップにより振り分けられた認識結果に対して、前記識別子ごとに対応付けられた認識用辞書データを用いて訂正処理を実行する訂正ステップと、前記訂正ステップにより訂正された訂正結果を、所定の順序に並び替えてユーザに提示する提示ステップと、を備えている。 The speech recognition result correction method of the present invention includes an input step of inputting speech, and a transmission step of transmitting information for causing the speech recognition server to recognize the speech input by the input step, to the speech recognition server; An acquisition step of acquiring a plurality of recognition results for the speech processed based on the information to be recognized by the speech recognition server in the transmission step, and a plurality of recognition results for the speech input by the input step An allocation step, an allocation step of distributing a plurality of recognition results acquired by the acquisition step according to an identifier indicating a type of recognition method for an unknown word or a known word given to the recognition result, and an allocation by the allocation step Recognition dictionary data associated with each identifier for the recognized recognition result. A correction step of performing correction processing using a correction result corrected by said correction step, and a, a presentation step of presenting to the user are rearranged in a predetermined order.
この発明によれば、入力された音声に対する複数の認識結果を取得し、複数の認識結果を、認識結果に付与されている識別子に従って振り分け、この認識結果に対して、前記識別子ごとに対応付けられた認識用辞書データを用いて訂正処理を実行することができ、サーバ装置側での認識処理の仕方に応じた訂正処理を可能にすることができる。例えば、サーバ装置において未知語として認識処理をした場合に、その旨を示す識別子を付与することで、音声認識結果訂正装置側では、その識別子に応じて未知語のための訂正処理を行うことができる。よって、より適切な訂正処理を可能にすることができる。 According to the present invention, a plurality of recognition results for the input speech are acquired, the plurality of recognition results are distributed according to the identifier given to the recognition result, and the recognition result is associated with each identifier. Correction processing can be executed using the recognized dictionary data, and correction processing according to the recognition processing method on the server device side can be made possible. For example, when recognition processing is performed as an unknown word in the server device, by adding an identifier indicating that fact, the speech recognition result correction device can perform correction processing for the unknown word according to the identifier. it can. Therefore, more appropriate correction processing can be made possible.
本発明の音声認識結果訂正装置において、前記訂正手段は、前記取得手段により取得された認識結果に含まれている認識区間に対応する認識結果に対する訂正処理を実行することが好ましい。 In the speech recognition result correction apparatus according to the present invention, it is preferable that the correction unit performs a correction process on a recognition result corresponding to a recognition section included in the recognition result acquired by the acquisition unit.
この発明によれば、認識結果に含まれている認識区間に対応する認識結果に対する訂正処理を実行することができ、適切に訂正処理を行うことができる。 According to the present invention, it is possible to execute the correction process for the recognition result corresponding to the recognition section included in the recognition result and appropriately perform the correction process.
本発明の音声認識結果訂正装置において、前記入力手段により入力された音声の特徴量データを記憶する記憶手段をさらに備え、前記訂正手段は、認識結果で示されている区間情報に基づいて定められ、前記記憶手段に記憶された特徴量データを用いて訂正処理を行うことが好ましい。 The speech recognition result correction apparatus according to the present invention further includes storage means for storing voice feature value data input by the input means, and the correction means is determined based on section information indicated by the recognition result. The correction processing is preferably performed using the feature data stored in the storage means .
この発明によれば、認識結果で示されている区間情報に基づいた特徴量データを用いて訂正処理を行うことができ、訂正処理を実現することができる。 According to the present invention, correction processing can be performed using feature amount data based on section information indicated by the recognition result , and correction processing can be realized.
本発明の音声認識結果訂正装置において、前記提示手段は、前記訂正手段により訂正処理される際に算出された類似度に従った順番で訂正結果を提示することが好ましい。 In the speech recognition result correction apparatus according to the present invention, it is preferable that the presenting means presents the correction results in an order according to the similarity calculated when the correction process is performed by the correcting means.
この発明によれば、訂正処理される際に算出された類似度に従った順番で訂正結果を提示することで、ユーザにとって選択しやくすることができる。 According to the present invention, the correction results can be presented to the user easily by presenting the correction results in the order according to the similarity calculated when the correction process is performed.
本発明によれば、サーバ装置側での音声認識の制度が悪い場合でも、音声認識結果に対する適切な訂正処理を行うことができる。 ADVANTAGE OF THE INVENTION According to this invention, even when the system | strain of the speech recognition by the server apparatus side is bad, the appropriate correction process with respect to a speech recognition result can be performed.
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 Embodiments of the present invention will be described with reference to the accompanying drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
図1は、本実施形態の音声認識訂正装置であるクライアント装置110およびクライアント装置110を含んだ通信システムのシステム構成図である。本実施形態におけるクライアント装置110は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、入力した音声を、無線通信を用いてネットワーク100を介してサーバ装置120に送信する。サーバ装置120では、このクライアント装置110から入力された音声の返信として、サーバ装置120において音声認識した結果である複数の認識結果をクライアント装置110に送信することができる。すなわち、このサーバ装置120は、音声認識部を備え、入力された音声を、音響モデルまたは言語モデルなどのデータベースを用いて音声認識を行い、その認識結果をクライアント装置110に返信することができる。なお、ここではサーバ装置120を例に説明するが、サーバ装置に限定するものではなく、任意の音声認識装置であればよい。
FIG. 1 is a system configuration diagram of a communication system including a
ここでサーバ装置120における音声認識について簡単に説明する。サーバ装置120において、認識用辞書データに登録されていない単語(未知語)を含む音声を認識しなければならない場合がある。この場合には、未知語を無理やり辞書にある単語に当てはめることにより認識結果を生成しようとすることが行われているが、認識用辞書データに無い単語であるため、正しく音声認識することができない。そこで、未知語については未知語用の音声認識を行う。例えばサブワードモデルを用いた音声認識処理を行う。しかし、実際は、既知語を未知語として認識する場合や、その逆で未知語を既知語と認識する場合がある。これは発音が不明瞭であったり、似たような発音の別の言葉であったりすることによる。本実施形態では未知語の可能性がある区間については、未知語として音声認識するとともに、既知語として音声認識することで、その両方の認識結果を生成することにより誤認識を低減しようとするものである。
Here, speech recognition in the
図2に、サーバ装置120における認識結果の例を示す。この図2では、入力音声、認識結果である候補1および候補2を対応付けて示している。入力音声としては、以下の通りである。
「お久しぶり!野比駅の近くでお酒でも一緒に飲みませんか?」
In FIG. 2, the example of the recognition result in the
"Long time no see! Would you like to drink with alcohol near Nobi Station?"
ここで、「野比駅」という単語は、固有名詞であり、サーバ装置120の認識用辞書データにはないものとしている。このとき、未知語として処理した結果である「ノビエキ」(候補2)と、既知語として処理した結果である「のんびり」(候補1)の二つの結果が生成される。一方、入力音声「お酒でも」の区間はサーバ装置120の認識用辞書データに登録されているものの、認識処理の過程において未知語の可能性があるとして、未知語として処理した結果である「オカモト」(候補2)と、既知語として処理した結果である「お酒でも」(候補1)の二つの結果が生成される。
Here, the word “Nobi Station” is a proper noun and is not included in the recognition dictionary data of the
これら認識結果を、サーバ装置120はクライアント装置110に送信するものである。ここでサーバ装置120は、これら認識結果に対して識別子を付与している。この識別子は、認識方法の種別を示すための情報であって、例えば、未知語のための認識処理をしたものか、既知語として認識処理をしたものかを示すための情報である。クライアント装置110では、この識別子に基づいて振分処理を行い、対応する訂正処理を実行することができるように構成されている。
The
また、サーバ装置120においては、この二つの区間を特定するための区間番号2と区間番号4をクライアント装置110に送信する。これによりクライアント装置110においては、当該区間を用いた訂正処理を行うことができる(後述する変形例を参照)。また、区間番号以外にほかの区間index、たとえば単語そのものまたは当該区間の時間を示す時間情報など、クライアント装置110側で特徴量データを保存していた場合(変形例参照)にどの特徴量データを抽出すべきか特定することができる情報であればよい。
Further, the
つぎに、このクライアント装置110の構成について説明する。図2は、クライアント装置110の機能を示すブロック図である。このクライアント装置110は、特徴量算出部210、特徴量圧縮部215、送信部216、受信部217、訂正処理部230(2301〜230n)、比較部240、および結果提示部250を含んで構成されている。以下、図2に示す機能ブロックに基づいて、各機能ブロックを説明する。
Next, the configuration of the
特徴量算出部210は、マイク(図示せず)から入力されたユーザの声を入力し、当該入力された声から音声認識スペクトルであって、音響特徴を示す特徴量データを算出する部分である。例えば、特徴量算出部210は、MFCC(Mel Frequency Cepstrum Coefficient)のような周波数で表される音響特徴を示す特徴量データを算出する。
The feature
特徴量圧縮部215は、特徴量算出部210において算出された特徴量データを圧縮する部分である。
The feature
送信部216は、特徴量圧縮部215において圧縮された圧縮特徴量データをサーバ装置120に送信する部分である。この送信部216は、HTTP(Hyper Text Transfer Protocol)、MRCP(Media Resource Control Protocol)、SIP(Session Initiation Protocol)などを用いて送信処理を行う。また、このサーバ装置120では、これらプロトコルを用いて受信処理を行い、また返信処理を行う。さらに、このサーバ装置120では、圧縮特徴量データを解凍することができ、特徴量データを用いて音声認識処理を行うことができる。この特徴量圧縮部215は、通信トラフィックを軽減するためにデータ圧縮するためのものであることから、この送信部216は、圧縮されることなくそのままの特徴量データを送信することも可能である。
The
受信部217は、サーバ装置120から返信された複数の認識結果を含む音声認識結果情報を受信する部分である。この各音声認識結果には、テキストデータ、時間情報、サーバ装置120における認識方法を示す識別子(既知語用であるか、未知語用であるか)および信頼度情報が含まれており、時間情報はテキストデータの一認識単位ごとの経過時間を示し、信頼度情報は、その認識結果における正当確度を示す情報である。
The receiving
複数候補振分部220は、受信部217により受信された複数の認識結果の夫々に含まれている識別子に従って、訂正処理部2301〜230nのいずれかに振り分ける部分である。すなわち、複数候補振分部220は、認識結果に含まれている識別子に予め対応付けされている訂正処理部230に、認識結果を出力する。
The multiple
訂正処理部230は、それぞれの訂正処理部に付随する辞書データベースDB−1〜DB−N(認識用辞書データ)に従って、複数候補振分部220により振り分けられた認識結果を訂正処理する部分であり、認識結果に含まれている識別子に対応付けされた、複数の訂正処理部2301〜230nから構成されている。例えば、訂正処理部2301は、既知語用の辞書データベースDB−1を備え、訂正処理部2302は、未知語用の辞書データベースDB−2を備えているものとする。なお、未知語用の辞書データベースDB−2は、ユーザが任意に入力した辞書データベースであったり、電話帳またはアドレス帳である。識別子に応じて振り分けられた認識結果は、訂正処理部2301、および訂正処理部2302により訂正処理がなされる。また、辞書データベースDB−1〜DB−Nは、サーバ装置120に備えられている辞書データベースとは異なるものであることが好ましい。これは、同じ辞書データベースを用いて認識処理を行ったとしても同じ結果を得ることになってしまい、訂正処理にならないためである。
The correction processing unit 230 is a part that corrects the recognition results distributed by the plurality of
比較部240は、訂正処理部230において訂正処理されて得られた訂正結果に基づいて類似度を算出し、その類似度を相互に比較することにより訂正結果の提示順を決定する部分である。この類似度は、例えば、サーバ装置120において「野比駅」を未知語として「ノヒエキ」と認識してしまい、一方で、ユーザにより作成された認識用辞書データには「野比駅(ノビエキ)」が登録されていた場合を想定する。この場合には、“ヒ”と“ビ”とが異なっているだけであることから、訂正処理部230は、「ノヒエキ」を「野比駅」と認識して訂正することができる。この際、類似度としては、4文字中一文字が異なっているだけで、ほか3文字は一致していることから、類似度は75%と算出することができる。なお、類似度の計算は、これに限定するものではなく、そのほか文脈から判断する方法など周知の技術を用いても良い。
The
結果提示部250は、比較部240により決定された提示順で訂正結果をユーザに提示する部分である。例えば、表示することによりユーザに訂正結果を提示することができる。
The
つぎに、このように構成されたクライアント装置110の処理について説明する。図4は、クライアント装置110における訂正処理を示すフローチャートである。
Next, processing of the
特徴量算出部210により音声の特徴量データが算出され、その後必要に応じて特徴量圧縮部215により圧縮処理が行われ(S310)、送信部216により特徴量データが、サーバ装置120に送信される(S320)。
The feature
サーバ装置120においては上述したとおり複数種類の音声認識処理が行われ、その音声認識結果がクライアント装置110に送信される。クライアント装置110では、複数の認識結果が受信され(S330)、複数候補振分部220により振分処理が行われる(S340)。
As described above, the
各訂正処理部230においては、振り分けられた認識結果が訂正され、訂正結果が生成される(S350)。そして、訂正処理部230において訂正処理された結果により算出された類似度に基づいてスコアが計算され(S360)、そのスコアに従って訂正結果の提示順が比較部240により決定される(S370)。そして、結果提示部250に、決定された提示順に従って訂正結果が表示される(S380)。
In each correction processing unit 230, the sorted recognition result is corrected, and a correction result is generated (S350). Then, a score is calculated based on the similarity calculated based on the correction processing result in the correction processing unit 230 (S360), and the presentation order of the correction results is determined by the
このようにして、クライアント装置110においては、複数の認識結果を適宜訂正することにより、より正確な認識結果を得ることができる。
In this way, the
つぎに、本実施形態の変形例について説明する。図5は、変形例におけるクライアント装置110aの機能を示すブロック図である。この変形例によると、クライアント装置110aは、特徴量算出部510(特徴量算出部210に相当)、特徴量圧縮部511(特徴量圧縮部215に相当)、送信部512(送信部216に相当)、特徴量保存部520、受信部513(受信部217に相当)、訂正処理部540(5401〜540n)、比較部550(比較部240に相当)、および結果提示部560(結果提示部250に相当)を含んで構成されている。この変形例においては、クライアント装置110aは、特徴量算出部510により算出された特徴量データを記憶する特徴量保存部520を備え、訂正処理部540は、この特徴量保存部520に記憶されている特徴量データを用いて訂正処理を行う点で、上述実施形態と相違している。以下、相違点を中心に、各構成要素について説明する。
Next, a modification of this embodiment will be described. FIG. 5 is a block diagram illustrating functions of the
特徴量保存部520は、特徴量算出部510において算出された特徴量データを一時的に記憶する部分である。
The feature quantity storage unit 520 is a part that temporarily stores the feature quantity data calculated by the feature
各訂正処理部540は、特徴量保存部520に記憶されている特徴量データのうち、複数候補振分部530において振り分けられた認識結果に含まれている区間情報に対応する特徴量データに対して再認識処理を行うことにより訂正処理を行う部分である。
Each correction processing unit 540 applies to the feature amount data corresponding to the section information included in the recognition result distributed in the plurality of
このように構成されたクライアント装置110aの処理について説明する。図6は、クライアント装置110aの訂正処理を示すフローチャートである。特徴量算出部510により音声の特徴量データが算出され(S610)、特徴量保存部520に記憶される(S620)。一方で、必要に応じて特徴量圧縮部511により圧縮処理が行われ、送信部512により特徴量データが、サーバ装置120に送信される(S630)。
Processing of the
サーバ装置120においては上述したとおり複数種類の音声認識処理が行われ、その音声認識結果がクライアント装置110aに送信される。クライアント装置110aでは、複数の認識結果が受信され(S640)、複数候補振分部530により振分処理が行われる(S650)。
As described above, the
各訂正処理部540においては、振り分けられた認識結果が訂正され、訂正結果が生成される(S660)。そして、訂正処理部540において訂正処理された結果により算出された類似度に基づいてスコアが計算され、そのスコアに従って訂正結果の提示順が比較部550により決定される(S670)。そして、結果提示部560に、決定された提示順に従って訂正結果が表示される(S680)。
In each correction processing unit 540, the sorted recognition result is corrected, and a correction result is generated (S660). Then, a score is calculated based on the similarity calculated based on the correction processing result in the correction processing unit 540, and the presentation order of the correction results is determined by the
つぎに、本実施形態のクライアント装置110の作用効果について説明する。本実施形態のクライアント装置110は、マイク等を介して入力された音声の特徴量データを特徴量算出部210が算出し、これをサーバ装置120に送信する。サーバ装置120においては、複数種類の音声認識処理を行い、その結果得られた複数の認識結果をクライアント装置110に送信する。この際、音声認識の種別(使用した認識用辞書データ)を示す識別子を認識結果に付与する。クライアント装置110では、複数候補振分部220が複数の認識結果を識別子ごとに振り分け、識別子に対応した訂正処理部230に出力する。各訂正処理部230は、それぞれ備えられている辞書データベースDB−1〜DB−Nを用いて再認識処理を行うことにより訂正処理を行う。そして、比較部240は、その結果を類似度に基づいて提示順を決定し、結果提示部250は、その提示順で認識結果を提示する。
Next, operational effects of the
これによりサーバ装置120側での認識処理の仕方に応じた訂正処理を可能にすることができる。例えば、サーバ装置において未知語として認識処理をした場合に、その旨を示す識別子を付与することで、音声認識結果訂正装置側では、その識別子に応じて未知語のための訂正処理を行うことができる。よって、より適切な訂正処理を可能にすることができる。
Thereby, the correction process according to the way of the recognition process on the
また、クライアント装置110においては、訂正処理部230が、認識結果に含まれている認識区間に対応する認識結果に対する訂正処理を実行することができ、適切に訂正処理を行うことができる。すなわち、各訂正処理部230は、認識区間(インデックス、時間情報等で示されているもの)に基づいて訂正処理を行うことができ、適切な訂正処理を実現することができる。
Further, in the
また、クライアント装置110においては、訂正処理部230は、認識結果で示されているテキストに対する訂正処理を行うことができる。また、クライアント装置110aにおいては、訂正処理部540が、認識結果で示されている区間情報に基づいて、特徴量保存部520に記憶されている特徴量データを抽出し、当該区間情報に対応する特徴量データに対して訂正処理を行うことができる。よって、区間ごとに訂正処理を実現することができ、適切な訂正処理を実現することができる。
In the
また、クライアント装置100においては、比較部240は、訂正処理される際に算出された類似度に従った提示順を決定し、結果提示部250は、その提示順で訂正結果を提示することで、ユーザにとって選択しやくすることができる。
In the
100…クライアント装置、110a…クライアント装置、120…サーバ装置、210…特徴量算出部、215…特徴量圧縮部、216…送信部、217…受信部、220…複数候補振分部、230…訂正処理部、240…比較部、250…結果提示部、510…特徴量算出部、511…特徴量圧縮部、512…送信部、513…受信部、520…特徴量保存部、530…複数候補振分部、540…訂正処理部、550…比較部、560…結果提示部。
DESCRIPTION OF
Claims (5)
前記入力手段により入力された音声を音声認識サーバに認識させるための情報を、前記音声認識サーバに送信する送信手段と、
前記送信手段により前記音声認識サーバに認識させるための情報に基づいて処理された音声に対する複数の認識結果を取得する取得手段と、
前記取得手段により取得された複数の認識結果を、認識結果に付与されている未知語または既知語に対する認識方法の種別を示す識別子に従って振り分ける振分手段と、
前記振分手段により振り分けられた認識結果に対して、前記識別子ごとに対応付けられた認識用辞書データを用いて訂正処理を実行する訂正手段と、
前記訂正手段により訂正された訂正結果を、所定の順序に並び替えてユーザに提示する提示手段と、を備える音声認識結果訂正装置。 An input means for inputting voice;
Transmitting means for transmitting to the voice recognition server information for causing the voice recognition server to recognize the voice input by the input means;
Obtaining means for obtaining a plurality of recognition results for speech processed based on information for causing the speech recognition server to recognize by the transmission means;
Sorting means for sorting a plurality of recognition results acquired by the acquisition means according to an identifier indicating a type of recognition method for unknown words or known words given to the recognition results;
Correction means for executing a correction process using the recognition dictionary data associated with each identifier for the recognition result distributed by the distribution means;
A speech recognition result correction apparatus comprising: a presentation unit that rearranges the correction results corrected by the correction unit in a predetermined order and presents the correction results to the user.
前記訂正手段は、認識結果で示されている区間情報に基づいて定められ、前記記憶手段に記憶された特徴量データを用いて訂正処理を行うことを特徴とする請求項1または2に記載の音声認識結果訂正装置。 And further comprising storage means for storing the feature data of the voice input by the input means,
3. The correction unit according to claim 1, wherein the correction unit performs correction processing using feature amount data that is determined based on section information indicated by a recognition result and stored in the storage unit. Speech recognition result correction device.
前記入力ステップにより入力された音声を音声認識サーバに認識させるための情報を、前記音声認識サーバに送信する送信ステップと、
前記送信ステップにより前記音声認識サーバに認識させるための情報に基づいて処理された音声に対する複数の認識結果を取得する取得ステップと、
前記取得ステップにより取得された複数の認識結果を、認識結果に付与されている未知語または既知語に対する認識方法の種別を示す識別子に従って振り分ける振分ステップと、
前記振分ステップにより振り分けられた認識結果に対して、前記識別子ごとに対応付けられた認識用辞書データを用いて訂正処理を実行する訂正ステップと、
前記訂正ステップにより訂正された訂正結果を、所定の順序に並び替えてユーザに提示する提示ステップと、を備える音声認識結果訂正方法。 An input step for inputting voice;
A transmission step of transmitting information for causing the voice recognition server to recognize the voice input in the input step, to the voice recognition server;
An acquisition step of acquiring a plurality of recognition results for the speech processed based on the information for causing the speech recognition server to recognize by the transmission step;
A sorting step of sorting a plurality of recognition results acquired by the acquisition step according to an identifier indicating a type of recognition method for unknown words or known words given to the recognition results;
A correction step for executing a correction process using the recognition dictionary data associated with each identifier for the recognition result distributed by the distribution step;
A speech recognition result correction method comprising: a presentation step of rearranging the correction results corrected by the correction step in a predetermined order and presenting the correction results to the user.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008315766A JP4845955B2 (en) | 2008-12-11 | 2008-12-11 | Speech recognition result correction apparatus and speech recognition result correction method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008315766A JP4845955B2 (en) | 2008-12-11 | 2008-12-11 | Speech recognition result correction apparatus and speech recognition result correction method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010139744A JP2010139744A (en) | 2010-06-24 |
| JP4845955B2 true JP4845955B2 (en) | 2011-12-28 |
Family
ID=42349946
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008315766A Expired - Fee Related JP4845955B2 (en) | 2008-12-11 | 2008-12-11 | Speech recognition result correction apparatus and speech recognition result correction method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4845955B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5480760B2 (en) * | 2010-09-15 | 2014-04-23 | 株式会社Nttドコモ | Terminal device, voice recognition method and voice recognition program |
| JP6150268B2 (en) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | Word registration apparatus and computer program therefor |
| JP5701327B2 (en) * | 2013-03-15 | 2015-04-15 | ヤフー株式会社 | Speech recognition apparatus, speech recognition method, and program |
| CN111883122B (en) * | 2020-07-22 | 2023-10-27 | 海尔优家智能科技(北京)有限公司 | Speech recognition method and device, storage medium, electronic equipment |
| CN112185391A (en) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | Automatic modification processing method for customer service record |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4600706B2 (en) * | 2000-02-28 | 2010-12-15 | ソニー株式会社 | Voice recognition apparatus, voice recognition method, and recording medium |
| JP2002014693A (en) * | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | Dictionary providing method for speech recognition system and speech recognition interface |
| JP2003302995A (en) * | 2002-04-12 | 2003-10-24 | Canon Inc | Speech recognition grammar updating method, information processing apparatus, and computer program |
| JP2005227510A (en) * | 2004-02-12 | 2005-08-25 | Ntt Docomo Inc | Speech recognition apparatus and speech recognition method |
| JP4736962B2 (en) * | 2006-06-01 | 2011-07-27 | 日産自動車株式会社 | Keyword selection method, speech recognition method, keyword selection system, and keyword selection device |
| JP4867622B2 (en) * | 2006-11-29 | 2012-02-01 | 日産自動車株式会社 | Speech recognition apparatus and speech recognition method |
-
2008
- 2008-12-11 JP JP2008315766A patent/JP4845955B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010139744A (en) | 2010-06-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101208166B1 (en) | Speech recognition client system, speech recognition server system and speech recognition method for processing speech recognition in online | |
| US10733986B2 (en) | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium | |
| JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
| CN105895103B (en) | A kind of speech recognition method and device | |
| US8515764B2 (en) | Question and answer database expansion based on speech recognition using a specialized and a general language model | |
| JP6084654B2 (en) | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model | |
| JP6024675B2 (en) | Voice recognition terminal device, voice recognition system, and voice recognition method | |
| KR20180064504A (en) | Personalized entity pronunciation learning | |
| WO2016092807A1 (en) | Speaker identification device and method for registering features of registered speech for identifying speaker | |
| JP4845955B2 (en) | Speech recognition result correction apparatus and speech recognition result correction method | |
| CN107808667A (en) | Voice recognition device and voice recognition method | |
| CN101996629A (en) | Method of recognizing speech | |
| JP6715943B2 (en) | Interactive device, interactive device control method, and control program | |
| CN112712793A (en) | ASR (error correction) method based on pre-training model under voice interaction and related equipment | |
| CN118486293B (en) | Speech synthesis method and device based on retrieval enhanced generation | |
| JP2018045001A (en) | Voice recognition system, information processing apparatus, program, and voice recognition method | |
| CN106713111B (en) | Processing method for adding friends, terminal and server | |
| WO2016136207A1 (en) | Voice interaction device, voice interaction system, control method of voice interaction device, and program | |
| CN110349567B (en) | Speech signal recognition method and device, storage medium and electronic device | |
| KR20250065693A (en) | Evaluation Metrics for Evaluation-Based Speaker Change Detection | |
| JP5238395B2 (en) | Language model creation apparatus and language model creation method | |
| JP2013178384A (en) | Dictionary registration system for voice recognition, voice recognition system, and voice recognition service system, method and program | |
| CN109035896B (en) | A kind of oral language training method and learning equipment | |
| JP2015143866A (en) | Voice recognition apparatus, voice recognition system, voice recognition method, and voice recognition program | |
| TW202205256A (en) | Pronunciation teaching method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100903 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101124 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110829 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110920 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111011 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |