JP3661874B2 - 分散音声認識システム - Google Patents
分散音声認識システム Download PDFInfo
- Publication number
- JP3661874B2 JP3661874B2 JP51760595A JP51760595A JP3661874B2 JP 3661874 B2 JP3661874 B2 JP 3661874B2 JP 51760595 A JP51760595 A JP 51760595A JP 51760595 A JP51760595 A JP 51760595A JP 3661874 B2 JP3661874 B2 JP 3661874B2
- Authority
- JP
- Japan
- Prior art keywords
- station
- acoustic
- speech
- word decoder
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Computer And Data Communications (AREA)
- Radar Systems Or Details Thereof (AREA)
- Selective Calling Equipment (AREA)
- Image Processing (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
Description
1.発明の分野
本発明は音声信号処理に関する。特に、本発明は標準音声認識システムの分散実行を実現する新規な方法及び装置に関する。
2.関連技術の説明
音声認識は、ユーザまたはユーザ発声コマンドを認識、かつ、機械とのヒューマンインターフェースを達成するために、シュミレートされた知性を有する機械を提供する最も重要な技術である。また、ヒューマン音声理解に対する中心技術である。音響音声信号からの言語メッセージを復元する技術を使用するシステムは、音声認識装置(VR)と呼ばれている。音声認識装置は、到来する生の音声から、VRに必要な一連の情報含有特徴(ベクトル)を抽出する音響プロセッサと、入力された音声に対する一連の言語ワードなどの、意味のある所望の出力フォーマットを得るために、前記一連の特徴(ベクトル)を復元するワード復号器とからなる。システムのパフォーマンスを増大させるために、システムに有効なパラメータを備えさせるトレーニングが必要である。すなわち、システムは最適に機能するようになるまで学習する必要がある。
音響プロセッサは音声認識装置におけるフロントエンド音声解析サブシステムを代表する。このシステムは入力音声信号に応答して時変音声信号を特徴付けるために、最適な表現を提供する。背景雑音、チャネルひずみ、話者特性や話し方などの無関係な情報は棄却される。効率のよい音響特徴は音声認識装置により高い音響識別能力を与える。最も有用な特性は短時間スペクトルエンベロープである。短時間スペクトルエンベロープを特徴付ける2つの最もよく用いられるスペクトル解析方法は、線形予測符号化(LPC)モデルとフィルタバンクに基づくスペクトル解析モデルである。しかしながら、(Rabiner,L.R.及びSchafer,R.W.著、音声信号のディジタル処理、Prentice Hall,1978)に示されるように、LPCは音声軌跡(tract)スペクトルエンベロープに対するよい近似を提供するだけでなく、すべてのディジタル実行においてフィルタバンクモデルよりも計算上より安価である。経験によれば、LPCに基づいた音声認識装置のパフォーマンスは、フィルタバンクに基づく認識装置と同等かあるいはそれ以上である(Rabiner,L.R.及びB.H.著、音声認識の基本、Prentice Hall,1993)。
図1に示す、LPCに基づく音響プロセッサにおいて、入力音声がマイクロホン(図示せず)に供給されてアナログ電気信号に変換される。この電気信号はその後、(図示せぬ)A/D変換器によってディジタル化される。このディジタル化された音声信号は、そのスペクトルを平らにして次の信号処理における有限プレシジョン効果(finite precision effects)を受けないようにすべく、プレエンファシスフィルタ2を通過される。プレエンファシスフィルタリングされた音声は区分要素(segmentation element)4に供給されて一時的に重複、または、重複しないブロックに区分、あるいはブロック化される。音声フレームデータは窓要素(windowing element)6に供給されてフレーム化されたDC成分が除去されるとともに、フレーム境界における不連続によるブロッキング効果を低減するために、各フレームに関してディジタル窓処理が行われる。LPC解析において最もよく使用される窓関数はハミング窓w(n)であり、以下のごとく定義される。
窓処理された音声はLPC解析要素8に供給される。LPC解析要素8では、自己相関関数が窓処理されたサンプルに基づいて計算され、対応するLPCパラメータが自己相関関数から直接得られる。
概して、ワード復号器は音響プロセッサによって生成された音響特徴シーケンスを話者の元ワード列に変換する。これは2つの工程、すなわち、音響パターンマッチングと言語モデリングにより達成される。言語モデリングは分離されたワード認識への応用では用いられない。LPC解析要素8からのLPCパラメータは音素、音節、ワードなどの可能な音響パターンを検出して分類する。候補パターンが言語モデリング要素12に供給されて、ワードのどのシーケンスが文法的によく形成されかつ意味をもつかを決定する、シンタクス上の拘束(syntactic constraints)の規則をモデル化する。音響情報自身があいまいである場合は、シンタクス情報は貴重な指針となる。言語モデリングに基づいて、VRは逐次音響特徴マッチング結果を解釈して推定ワード列を提供する。
ワード復号器における音響パターンマッチングと言語モデリングは、話者の音声学上の及び音響音声学上の変化を記載するために、確定または確率的な数学モデルを必要とする。音声認識システムのパフォーマンスはこれらの2つのモデリングの品質に直接関連する。音響パターンマッチングのための種々のクラスのモデルのうち、テンプレートに基づくダイナミックタイムワーピング(DTW)と確率的隠れマルコフモデル(HMM)とは最もよく用いられている2つの方法である。しかしながら、DTWに基づく方法はHMMに基づく方法の特別な場合であるとみなすことができ、パラメータを用いた二重に確率的な(parametricdoubly stochastic model)モデルである。HMMシステムは現在最も成功した音声認識アルゴリズムである。HMMにおける二重(doubly)特性は音響のみならず音声信号に関連した一時的変化を吸収するのにより大きな柔軟性を有している。これは改善された認識の正確さにつながる。言語モデルにおいて、kグラム言語モデルと呼ばれる確率モデルが実際的な大きな語彙の音声認識システムに適用された。この確率モデルはF.Jelink著、実験的離散デクテーション認識装置、Proc.IEEE,vol.73,pp.1616−1624に詳細に述べられている。一方、小さな語彙の場合は、確定的文法が、航空及び予約及び情報システムへの応用において、有限状態ネットワーク(FSN)として確立されている(Raviner,L.R.及びLevinson,S.Z.著、隠れマルコフモデル及びレベルビルディングに基づく話者独立、シンタクス重視の結合ワード認識システム、IASSP,Vol.33,No.3,June 1985)。
特に認識エラーの確率を最小にするために、音声認識問題は次のように公式化できる。音響証拠観察(acoustic evidence observation)Oでは、音声認識の操作は、W*=arg maxP(W|O) (1)
となるような最もありそうなワード列W*を見つけることである。ここで、最大化(maximization)による最大値はすべての可能なワード列W以上である。ベイズの規則によれば、上記の方程式における事後確率P(W|O)は以下のように書き換えられる。
ここで、P(O)は認識と無関係なので、ワード列の推定は以下の式で書ける。
W*=arg maxP(W)P(O|W) (3)
ここで、P(W)はワード列Wが発音される事前確率を表し、P(O|W)は、話者がワードシーケンスWを発音したときに、音響証拠Oが観察される確率である。P(O|W)は音響パターンマッチングによって決定され、事前確率P(W)は使用される言語モデルによって定義される。
結合されたワード認識において、語彙が小さい(100以下)ときは、言語におけるリーガルセンテンスを形成するために、どのワードが他のワードに論理的に続いているのかを厳密に把握するために確定的文法が使用される。確定的文法は可能性のあるワードの探索空間を暗に拘束して計算を大幅に減らすために、音響マッチングアルゴリズムに組み込むことが可能である。しかしながら、語彙のサイドが中ぐらい(100より大、かつ、1000より小さい)、あるいは、大きい(1000よりも大)場合、ワードシーケンスW=(w1,w2,…,wn)の確率は、確率的言語モデリングによって得られる。単純な確率理論により、事前確率P(W)は、
のように分解できる。ここで、P(wi|W1,w2,…,wi-1)は、ワードシーケンス(w1,w2,…,wi-1)が話された後でwiが話されたときの確率である。wiの選択は入力ワードの全体の過去の履歴に依存する。語彙のサイズがVのとき、P(wi|w1,W2,…,wi-1)を完全に特定するためにVi値が必要となる。このことは、語彙のサイズが中ぐらいであっても、言語モデルをトレーニングするために、莫大な数のサンプルを必要とする。トレーニングが不十分なことによるP(wi|w1,w2,…,wi-1)の不正確な推定は元の音響マッチングの結果を低下させてしまう。
上記の問題に対する実際的な解決は、wiが(k−1)の先行するワード、wi-1,wi-2,…,wi-k+1のみに依存すると仮定することである。確率的言語モデルはk−グラム言語モデルが引き出されるP(wi|w1,w2,…,wi-k+1)の条件で完全に記載することができる。k>3ならば、たいていのワード列は言語内で発生しないので、ユニグラム(k=1)、バイグラム(k=2)、トリグラム(k=3)が、文法を統計的に考慮する最も有効な確率的言語モデルである。言語モデリングはシンタクス(syntactic)及び意味(semantic)情報を含み認識上重要である。しかしながら、これらの確率は音声データの大規模な集積からトレーニングしなければならない。k−グラムがデータ内で発生しない場合など、利用可能なトレーニングデータが比較的制限されている場合は、P(wi|wi-2,wi-1)はバイグラム確率P(wi|wi-1)から直接推定することができる。この工程の詳細は、F.Jelink著、実験的離散ディクテーション認識装置の開発、Proc.IEEE,vol.73,pp.1616−1624,1985)に開示されている。結合されたワード認識では、すべてのワードモデルが基本的な音声ユニットとして用いられ、連続音声認識では、音素、音節、半音節が基本的な音声ユニットとして用いられる。ワード復号器は適宜変更される。
従来の音声認識システムは分離能力の制限と、(電力消費、メモリの利用度などの)応用システムの制限と、通信チャネル特性を考慮することなしに、音響プロセッサとワード復号器とを一体化している。このことは、これらの2つの要素が適宜分離された分散音声認識システムを発明することにつながる。
本発明の要約
本発明においては、(i)フロントエンド音響プロセッサがLPCまたはフィルタバンクに基づいており、(ii)ワード復号器における音響パターンマッチングが隠れマルコフモデル(HMM)、ダイナミックタイムワーピング(DTW)、あるいはニューラルネットワーク(NN)に基づいており、(iii)結合あるいは、連続的ワード認識のために、言語モデルが確定的あるいは確率的文法に基づいている改善された分散音声認識システムである。本発明は特徴抽出とワード復号の2つの要素を適宜分離することによって、システムのパフォーマンスを改善した点で、従来の音声認識装置とは異なっている。以下の例に示すように、ケプストラム係数などのLPCに基づく特徴が通信チャネルを介して送信される場合は、LPCとLSPとの間の変換は特徴シーケンスへのノイズの影響を低減するために使用される。
【図面の簡単な説明】
本発明の特徴、目的、利点は、添付の図面を参照して以下の詳細な説明によって明らかになる。
図1は従来の音声認識システムのブロック図であり、
図2はワイヤレス通信環境における本発明の実施形態のブロック図であり、
図3は本発明の一般的なブロック図であり、
図4は、本発明の変換要素及び逆変換要素の実施形態のブロック図であり、
図5はローカルワードプロセッサとリモートワード検出器とを具備する本発明の望ましい実施形態のブロック図である。
望ましい実施形態の詳細な説明
標準的な音声認識装置において、認識またはトレーニング時、ほとんどの計算上の複雑さは音声認識装置のワード復号サブシステムに集中する。分散システムアーキテクチャを備えた音声認識装置においては、ワード復号タスクを、計算上の負荷を適宜吸収できるサブシステムに任せることが望ましい。信号処理による量子化誤差及び/またはチャネル誘引誤差の影響を低減するために、音響プロセッサはできるだけ音声源の近くに設けることが望ましい。
本発明の実施形態は図2に示される。この実施形態では、実行環境は、ポータブルセルラ電話またはパーソナル通信装置40と、セル基地局42としての中央通信センタとを具備するワイヤレス通信システムである。この実施形態では分散されたVRシステムが用いられる。分散VRにおいては、音響プロセッサまたは特徴抽出要素22がパーソナル通信装置40に設けられるとともに、ワード復号器48が中央通信センタに設けられる。分散されたVRの代わりに、VRがポータブルセルラ電話内で単独で実行される場合は、中間サイズの語彙で、結合されたワード認識であっても、高い計算コストのために実行不可能となってしまう。一方、VRが単に基地局に設けられている場合は、音声コーデック及びチャネル効果に関連した音声の劣化によって、正確度が大きく低下してしまう。明らかに、提案された分散システム設計には3つの利点がある。第1は、電話40には配置されないワード復号ハードウエアによって、セルラ電話のコストの低減が図れることである。第2は、計算負荷の大きいワード復号動作をローカルで実行することによるポータブル電話40の(図示せぬ)電池の消耗が少なくなることである。第3は、分散システムの柔軟性及び延長性に加えて、認識の正確さが改善されることである。
音声がマイクロホン20に供給されて音声信号が電気信号に変換され、特徴抽出要素22に供給される。マイクロホン20からの信号はアナログまたはディジタルである。アナログの場合は、アナログからディジタルへの変換器(図示せぬ)がマイクロホン20と特徴抽出要素22との間に挿入される。音声信号は特徴抽出要素22に供給される。特徴抽出要素22は入力音声の言語解釈を復元するのに使用される入力音声の関連する特性を抽出する。音声を推定するのに用いられる1つの特性は、入力音声フレームの周波数特性である。これは入力音声フレームの線形予測符号化パラメータとしてしばしば提供される。音声の抽出された特徴はトランスミッタ24に供給して抽出特徴信号を符号化、変調、増幅した後、送受切り換え器26を介してアンテナ28に供給され、音声の特徴がセルラ基地局または中央通信センタ42に送信される。既知の種々のディジタル符号化、変調、送信方法が用いられる。
中央通信センタ42では、送信された特徴がアンテナ44で受信されてレシーバ46に供給される。レシーバ46は受信された特徴に対して復調、復号を施して復号器48に供給する。ワード復号器48は音声の特徴から、音声の言語推定を決定してトランスミッタ50にアクション信号を供給する。トランスミッタ50はこのアクション信号に対して増幅、変調、符号化を施して増幅された信号をアンテナ52に供給する。アンテナ52は推定されたワードまたはコマンド信号をポータブル電話40に送信する。トランスミッタ50は既知のディジタル符号化、変調、送信テクニックを実行する。
ポータブル電話40では、推定されたワードまたはコマンド信号はアンテナ28で受信される。アンテナ28は受信信号を送受切り換え器26を介してレシーバ30に供給し、レシーバ30はこの信号を復調、復号した後、コマンド信号または推定ワードを制御要素38に供給する。受信コマンド信号または推定ワードに応答して、制御要素38は意図する応答(例えば、電話番号をダイヤルする、ポータブル電話の表示スクリーンに情報を提供するなど)を提供する。
図2は示す同様のシステムは、中央通信センタ42からの情報が送信された音声の解釈である必要はなく、中央通信センタ42からの情報はポータブル電話によって送信された復号メッセージに対する応答である。中央通信センタ42に通信ネットワークを介して結合された(図示せぬ)リモート応答システムに関するメッセージについて尋ねるときがあるが、この場合、中央通信センタ42からポータブル電話40へ送信された信号は、この実行においては応答マシンからのメッセージである。
特徴抽出要素22を、中央通信センタ42ではなくポータブル電話40に設ける重要性は次の通りである。音響プロセッサが、分散VRに対向して、中央通信センタ42に設けられたとき、低帯域ディジタル無線チャネルは、量子化ひずみによる特徴ベクトルの解像度を制限する(第1のサブシステムにおける)ボコーダを必要とする。しかしながら、音響プロセッサをポータブルまたはセルラ電話に設けることによって、すべてのチャネル帯域を特徴の送信のために使うことができる。概して、抽出された音響特徴ベクトルは送信のために音声よりも帯域を必要としない。認識の正確度は入力音声信号の劣化に大きく依存するので、特徴抽出要素22をできるだけユーザに近接させる必要があり、これによって、特徴抽出要素22は、送信中にさらに破壊されるボコーダによって処理された(vocoded)電話音声の代わりにマイクロホン音声に基づいて特徴ベクトルを抽出する。
実際上は、音声認識装置は背景雑音などの周囲の条件下で動作するように設計される。すなわち、雑音の存在下での音声認識の問題を考慮することが重要である。語彙(基準パターン)のトレーニングがテスト時の条件と全く(またはほぼ)同じ環境で実行されれば、音声認識装置は雑音が多い環境においてもよいパフォーマンスが得られるとともに、雑音によって認識の正確度が大きく劣化するのを低減することができる。トレーニングとテスト条件との間の不整合は認識のパフォーマンスにおける主な劣化原因の1つである。(前記したように音響特徴の方が音声信号よりも送信時の帯域を必要としないので)、音響特徴が音声信号よりもより大きな信頼度で通信チャネルを横断できると仮定すると、提案された分散音声認識システムは整合された状態を提供するのにより適している。音声認識装置がリモート状態で実行されたとき、ワイヤレス通信において発生する主にフェージングなどのチャネルバリエーションのために、整合状態が大きく破壊される。大規模なトレーニング計算がローカルで吸収されるなら、VRをローカルで実行することによりこれらの影響を避けることができる。不幸なことに、多くの応用ではこれは不可能である。明らかに、分散音声認識の構成はチャネルの複雑さによって起こる不整合の状態を避けて、中央集権構成の欠点を補うことができる。
図3において、ディジタル音声サンプルは特徴抽出要素51に供給される。特徴抽出要素51は通信チャネル56を介して特徴をワード推定要素62に供給し、ここで推定ワード列が決定される。音声信号は各音声フレームに対する特徴を決定する音響プロセッサ52に供給される。ワード復号器は認識とトレーニングの作業に対する入力として音響特徴シーケンスを必要とするので、これらの特徴は通信チャネル56を介して送信される必要がある。しかしながら、通常の音声認識システムにおいて用いられる特徴が雑音の多いチャネルを介した送信に適しているわけではない。例えば、変換要素54は音声源符号化(source encoding)を行ってチャネル雑音の影響を低減する必要がある。音声認識装置で広範に用いられているLPCに基づく音響特徴の1つはケプストラム係数、{ci}である。これはLPC係数、{ai}から直接次のようにして得ることができる。
ここで、Pは使用されるLPCフィルタの次数であり、Qはケプストラム特徴ベクトルのサイズである。ケプストラム特徴ベクトルは急峻に変化するので、ケプストラム係数のフレームシーケンスを圧縮することは容易ではない。しかしながら、LPCと、ゆるやかに変化し、デルタパルス符号変調(DPCM)によって効率的に符号化できる線スペクトルペア(LSP)周波数との間の変換が存在する。ケプストラム係数はLPC係数から直接引き出すことができるので、LPCは変換要素54によってLSPに変換され、ここで通信チャネル56を横断すべく符号化される。リモートワード推定要素62では、変換された特徴が逆変換要素60によって逆変換されて音響特徴がワードプロセッサ64に供給され、ワードプロセッサ64はこれに応答して推定ワード列を提供する。
変換要素54の実施形態は図4に変換サブシステム70として示されている。図4において、音響プロセッサ52からのLPC係数は、LPCからLSP変換要素72に供給される。LPCからLSP変換要素72において、LSP係数は次の通りに決定される。P次の次数のLPC係数に対して、対応するLSP周波数が次の方程式の0とπの間に存在するP個の根として得られる。
P(w)=cos5w+p1cos4w+…+p5/2 (7)
Q(w)=cos5w+q1cos4w+…+q5/2 (8)
ここで、piとqiは帰納的に次のように求められる。
p0=q0=1 (9)
pi=−ai−ap-i−pi-1、1≦i≦P/2 (10)
qi=−ai−ap-i−qi-1、1≦i≦P/2 (11)
LSP周波数はDPCM要素74に供給されて通信チャネル76を介しての送信のために符号化される。
逆変換要素78において、チャネルからの受信信号は、音声信号のLSP周波数を復元すべく、逆DPCM要素80とLSPからLPC要素82とを通過される。LPCからLSP要素72の逆プロセスは、LSP周波数をケプストラム係数を引き出すのに用いられるLPC係数に変換するLSPからLPC要素82によって実行される。LSPからLPC要素82は次のように変換を実行する。
LPC係数はLPCからケプストラム要素84に供給され、ここで、方程式5及び6に応じてケプストラム係数をワード復号器64に供給する。
ワード復号器は、通信チャネルを介して直接送信されたときに雑音の影響を受けやすい音響特徴シーケンスのみに依存するので、音響特徴シーケンスが引き出されて図3に示すようなサブシステム51において送信を可能にする代替表現に変換される。ワード復号器で使用される音響特徴シーケンスは後で逆変換によって得られる。すなわち、VRの分散構成においては、空中(チャネル)を介して送信された特徴シーケンスはワード復号器において実際に使用されるものとは異なっている。変換要素70からの出力は既知の種々のエラー保護方法によってさらに符号化される。
本発明の改善された実施形態が図5に示されている。ワイヤレス通信への応用においては、ユーザは、部分的に高価なチャネルアクセスのために、小数の単純だが供給に用いられる音声コマンドに対する通信チャネルを占有しないことを望む。これは、比較的小さい語彙サイズをもつ音声認識装置がローカルで送受話器において実行されるとともに、大きな語彙サイズをもつ第2の音声認識システムがリモート基地局に設けられるという点を考慮すると、送受話器100と基地局110との間のワード復号機能を分散させることによって達成される。それらは送受話器において同じ音響プロセッサを共有する。ローカルのワード復号器の語彙テーブルは最もよく用いられるワード、またはワード列を含む。一方、リモートのワード復号器の語彙テーブルは正規のワード、またはワード列を含む。このような構成に基づいて、図5に示すように、チャネルがビジーである平均時間を小さくして認識の正確度を増大させることができる。
さらに、2群の音声コマンドが利用され、第1は特殊音声コマンドと呼ばれ、ローカルVRによって認識できるコマンドに対応する。第2は正規の音声コマンドと呼ばれ、ローカルVRによって認識されないコマンドに対応する。特殊な音声コマンドが発音されるときはいつでも、真の音響特徴がローカルワード復号器のために抽出され、音声認識機能は通信チャネルにアクセスすることなしにローカルで実行される。正規の音声コマンドが発音されるとき、変換された音響特徴ベクトルがチャネルを介して送信され、復号化が基地局においてリモートで行われる。
特殊な音声コマンドに対する音響特徴は変換、あるいは符号化される必要がなく、ローカルのVRに対する語彙サイズは小さいので、要求される計算量はリモートのものよりもはるかに小さい(語彙の中から正確なワード列を探索するときの計算量は語彙のサイズに比例する)。さらに、音響特徴はチャネル内での破壊なしにローカルVRに直接供給されるので、ローカルの音声認識装置はリモートVRに比較して(状態数が小さい、状態出力確率などに対する混合要素の数が小さいなど)HMMの単純化された形態によって構成される。これは制限された語彙で送受信機(サブシステム1)でのVRのローカル構成を可能にし、この場合の計算量は制限されたものとなる。分散されたVR構成はワイヤレス通信システム以外の他の応用分野にも適用可能である。
図5において、音声信号は音響プロセッサ102に供給されて、音声信号から例えばLPCに基づく特徴パラメータなどの特徴が抽出される。これらの特徴はローカルのワード復号器106に供給されて、入力音声信号を小さな語彙から識別するための探索が行われる。ワード復号器106が入力ワード列を復号できず、リモートのVRが復号すべきであるときは、特徴を送信する準備をする変換要素104に信号を送る。変換された特徴は通信チャネル108を介してリモートのワード復号器110に送信される。変換された特徴は逆変換要素112に供給される。この逆変換要素112は変換要素104の逆変換を実行してリモートのワード復号器要素114に音響特徴を供給する。ワード復号器要素114はこれに応答して推定リモートワード列を提供する。
好ましい実施形態の前記した説明は当業者が本発明を製造または使用可能なように提供される。上記の実施形態に対する種々の変形が可能であり、ここに定義された一般的原理は発明に相当する能力を用いることなしに他の実施形態に適用可能である。すなわち、本発明は上記の実施形態に制限されることはなく、ここに開示された原理と新規な特徴に一致する範囲で広範な権利範囲が与えられるべきである。
Claims (49)
- 移動通信システム中で使用されるリモート局において、
リモート局に設けられ、音声サンプルのフレームを受け取り、音声認識のための1組のパラメータを抽出する特徴抽出手段と、
前記1組のパラメータを受け取り、少ない語彙にしたがって前記1組のパラメータから前記音声の意味を抽出する第1のワード復号器手段と、
送信されてきたパラメータから音声の意味をより大きな語彙にしたがって抽出する第2のワード復号器手段を有する受信局に、前記第1のワード復号器手段によって復号できない1組のパラメータをワイヤレスで送信する送信手段とを具備するリモート局。 - 音響信号を受け取り、前記音響信号を前記特徴抽出手段に供給するマイクロフォンをさらに具備する請求項1記載のリモート局。
- 前記特徴抽出手段と前記送信手段との間に配置され、前記1組のパラメータを受け取り、前記1組のパラメータを予め定められた変換フォーマットにしたがって前記パラメータの代替表現に変換する変換手段をさらに具備する請求項1記載のリモート局。
- 前記1組のパラメータが線形予測係数を含む請求項1記載のリモート局。
- 前記1組のパラメータが線スペクトルペア値を含む請求項1記載のリモート局。
- 前記1組のパラメータは線形予測係数を含み、前記予め定められた変換フォーマットは線スペクトルペアへの線形予測係数の変換である請求項3記載のリモート局。
- 前記音声フレームに対する第2のワード復号器手段による音声認識動作にしたがった応答信号を受信する受信手段をさらに具備する請求項1記載のリモート局。
- 前記応答信号を受け取り、前記応答信号にしたがって制御信号を供給する制御手段をさらに具備する請求項7記載のリモート局。
- 移動通信システム中で使用される中央通信局において、
前記中央通信局に配置され、前記中央通信局から物理的に離れて位置してワイヤレス通信手段により前記中央通信局と通信するリモート局から、リモート局に配置されたワード復号器に関係するローカル語彙により認識できない1組の音声パラメータを受け取り、前記中央通信局に配置されたワード復号器に関係する正規の語彙を使用して前記1組の音声パラメータに音声認識動作を実行するワード復号器と、
前記音声認識動作の結果に基づいて応答信号を発生する信号発生器とを具備する中央通信局。 - 前記リモート局から前記1組の音声パラメータの信号を受信する入力を有し、前記リモート局からの音声パラメータを前記中央通信局に配置された前記ワード復号器に供給する受信機をさらに具備する請求項9記載の中央通信局。
- 前記中央通信局に配置された前記ワード復号器の出力に結合された入力と、制御信号を供給する出力とを有する制御手段をさらに具備する請求項9記載の中央通信局。
- 加入者局に配置され、第1の音声サンプルフレームの抽出された音響特徴を受け取り、少ない語彙にしたがって前記音響特徴を復号するローカルワード復号器と、
前記加入者局から物理的に離れた中央処理局に配置され、第2の音声サンプルフレームの抽出された音響特徴を受け取り、前記少ない語彙よりも多い正規の語彙にしたがって、前記ローカルワード復号器により復号できない前記第2の音声サンプルフレームの前記音響特徴を復号するリモートワード復号器とを具備する音声認識システム。 - 加入者局に配置され、予め定められた特徴抽出フォーマットにしたがって音声サンプルフレームの音響特徴を抽出し、前記音響特徴を供給するプリプロセッサをさらに具備する請求項12記載のシステム。
- 前記音響特徴が線形予測符号化(LPC)に基づくパラメータである請求項13記載のシステム。
- 前記音響特徴がケプストラム係数である請求項13記載のシステム。
- 前記プリプロセッサがボイスコーダ(ボコーダ)を備えている請求項13記載のシステム。
- 前記ボコーダが線形予測符号化(LPC)に基づくボコーダである請求項16記載のシステム。
- 前記加入者局に配置され、前記音響特徴を受け取り、予め定められた変換フォーマットにしたがって前記音響特徴を、通信チャネルを介して前記中央処理局に送信される変換された特徴に変換する変換要素と、
前記中央処理局に配置され、前記変換された特徴を受け取り、予め定められた逆変換フォーマットにしたがって、前記変換された特徴を推定された音響特徴に変換し、前記推定された音響特徴を前記リモートワード復号器に供給する逆変換要素とをさらに具備する請求項12記載のシステム。 - 前記音響特徴は線形予測符号化(LPC)に基づくパラメータであり、
前記予め定められた変換フォーマットは前記LPCに基づくパラメータを線スペクトルペア(LSP)周波数に変換し、
前記逆変換フォーマットは前記LSP周波数をLPCに基づくパラメータに変換する請求項18記載のシステム。 - 前記ローカルワード復号器が、隠れマルコフモデル(HMM)に基づく音響パターンマッチングを実行する請求項12記載のシステム。
- 前記リモートワード復号器が、隠れマルコフモデル(HMM)に基づく音響パターンマッチングを実行する請求項12記載のシステム。
- 前記ローカルワード復号器が、ダイナミックタイムワーピング(DTW)に基づく音響パターンマッチングを実行する請求項12記載のシステム。
- 前記リモートワード復号器が、ダイナミックタイムワーピング(DTW)に基づいた音響パターンマッチングを実行する請求項12記載のシステム。
- 前記加入者局が、ワイヤレス通信手段により前記中央処理局と通信を行う請求項12記載のシステム。
- 音声特徴を有する音声サンプルフレームをリモート局で受け取る工程と、
予め定められた特徴抽出フォーマットにしたがって前記音声サンプルフレームから1組の音声特徴を抽出する工程と、
少ない語彙の復号フォーマットにしたがって前記抽出された音声特徴から音声の意味を決定し、音声の意味がリモート局で決定できない場合には、音声の意味を決定できる能力を有する受信局に前記1組の音声特徴が送られる工程とを含むワイヤレス通信システムにおける音声認識方法。 - 前記1組の音声特徴が線スペクトルペア(LSP)パラメータデータを含む請求項25記載の方法。
- 前記LSPパラメータデータを線形予測符号化(LPC)パラメータデータに変換する工程をさらに含む請求項26記載の方法。
- ワイヤレス通信システム中で使用される通信局における音声認識方法において、
前記通信局から物理的に離れて配置されたローカル局から1組の音声パラメータを受信する工程と、
ローカル語彙により認識することができない前記1組の音声パラメータに対し、前記ローカル語彙よりも多い正規の語彙を使用して音声認識動作を実行する工程と、
前記音声認識動作に基づく信号を発生する工程とを含む音声認識方法。 - 音声サンプルフレームの抽出された音響特徴を加入者局で受け取る工程と、
前記加入者局に配置されたローカルワード復号器を使用し、少ない語彙にしたがって前記音響特徴を復号する工程と、
前記抽出された音響特徴が前記ローカルワード復号器により認識できない場合に、前記抽出された音響特徴を前記加入者局から中央処理局へ送る工程と、
前記抽出された音響特徴を中央処理局で受け取る工程と、
前記中央処理局に配置されたリモートワード復号器を使用し、正規の語彙にしたがって、前記ローカルワード復号器により認識できない音声サンプルを復号する工程とを含む分散音声認識を提供する方法。 - 予め定められた特徴抽出フォーマットにしたがって、前記音声サンプルフレームの前記音響特徴を抽出する工程をさらに含む請求項29記載の方法。
- 加入者局に配置され、音声サンプルフレームから抽出された音響特徴を受け取り、少ない語彙にしたがって前記音響特徴を復号するローカルワード復号器と、
前記加入者局から物理的に離れて位置する中央処理局に配置され、前記抽出された音響特徴を受け取り、正規の語彙にしたがって、前記ローカルワード復号器によって認識できない前記音声のサンプルを復号するリモートワード復号器とを具備する分散音声認識システム。 - 加入者局に配置され、予め定められた特徴抽出フォーマットにしたがって、前記音声サンプルフレームの前記音響特徴を抽出し、前記音響特徴を供給するプリプロセッサをさらに具備する請求項31記載のシステム。
- 前記音響特徴が線形予測符号化(LPC)に基づくパラメータである請求項32記載のシステム。
- 前記音響特徴はケプストラム係数である請求項32記載のシステム。
- 前記プリプロセッサが音声コーダ(ボコーダ)を含む請求項32記載のシステム。
- 前記ボコーダが線形予測符号化(LPC)に基づくボコーダである請求項35記載のシステム。
- 前記加入者局に配置され、前記音響特徴を受け取り、予め定められた変換フォーマットにしたがって、前記音響特徴を、通信チャネルを介して前記中央処理局に送信される変換された特徴に変換する変換要素と、
前記中央処理局に配置され、前記変換された特徴を受け取り、予め定められた逆変換フォーマットにしたがって、前記変換された特徴を推定された音響特徴に変換し、前記推定された音響特徴を前記リモートワード復号器に供給する逆変換要素とをさらに具備する請求項31記載のシステム。 - 前記音響特徴は線形予測符号化(LPC)に基づくパラメータであり、前記予め定められた変換フォーマットは前記LPCに基づくパラメータを線スペクトルペア(LSP)周波数に変換し、さらに前記逆変換フォーマットは前記LSP周波数をLPCに基づくパラメータに変換する請求項37記載のシステム。
- 前記ローカルワード復号器が隠れマルコフモデル(HMM)に基づく音響パターンマッチングを実行する請求項31記載のシステム。
- 前記リモートワード復号器が隠れマルコフモデル(HMM)に基づく音響パターンマッチングを実行する請求項31記載のシステム。
- 前記ローカルワード復号器がダイナミックタイムワーピング(DTW)に基づく音響パターンマッチングを実行する請求項31記載のシステム。
- 前記リモートワード復号器がダイナミックタイムワーピング(DTW)に基づく音響パターンマッチングを実行する請求項31記載のシステム。
- 前記加入者局は、ワイヤレス通信手段により前記中央処理局と通信する請求項31記載のシステム。
- ワイヤレス通信システム中で音声認識を提供する方法において、
ユーザにより話された音声信号を加入者局に配置された特徴抽出装置に提供し、
予め定められた特徴抽出フォーマットにしたがって音声信号から1組の音声特徴を抽出し、
加入者局にローカルに記憶された少ない語彙にしたがって、抽出された音声特徴から音声の意味を決定し、
音声の意味が少ない語彙にしたがって加入者局に配置された第1のワード復号器で復号できない場合、抽出された音声特徴を中央処理局に送信して、中央処理局に配置された第2のワード復号器を使用して、より多い語彙にしたがって抽出された音声特徴を復号するステップを含む方法。 - 1組の音声特徴は線形スペクトルペア(LSP)パラメータデータを有する請求項44記載の方法。
- LSPパラメータデータを線形予測符号化(LPC)パラメータデータに変換することをさらに含む請求項45記載の方法。
- 分散音声認識を提供する方法において、
加入者局で音声サンプルのフレームを処理して、音声サンプルのフレームの音響特徴を決定し、
加入者局に配置され、少ない語彙を使用して音響特徴を復号する第1のワード復号器を使用して、音響特徴を復号し、
音響特徴が第1のワード復号器で復号できない場合、加入者局から中央処理局へ音響特徴を送信し、
中央処理局で音響特徴を受信し、
中央処理局に配置され、より多い語彙を使用して音響特徴を復号する第2のワード復号器を使用して音響特徴を復号し、
中央処理局から加入者局に復号された音響特徴を送信するステップを含む方法。 - 音声サンプルのフレームを処理して音響特徴を決定することは、予め定められた特徴抽出フォーマットにしたがって音声サンプルのフレームの音響特徴を抽出することを含む請求項47記載の方法。
- 分散音声認識を提供する方法において、
加入者局で音声サンプルのフレームの音響特徴を抽出し、
加入者局に配置された第1のワード復号器を使用して少ない語彙にしたがって音響特徴を復号し、
抽出された音響特徴が第1のワード復号器で復号できない場合、加入者局から抽出処理局に抽出された音響特徴を送信し、
中央処理局で抽出された音響特徴を受信し、
中央処理局に配置された第2のワード復号器を使用してより多い語彙にしたがって抽出された音響特徴を復号し、
復号された音響特徴がローカルコマンド信号と関連する場合、ローカルコマンド信号を中央処理局から加入者局へ送信するステップを含む方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17324793A | 1993-12-22 | 1993-12-22 | |
| US173,247 | 1993-12-22 | ||
| PCT/US1994/014803 WO1995017746A1 (en) | 1993-12-22 | 1994-12-20 | Distributed voice recognition system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH09507105A JPH09507105A (ja) | 1997-07-15 |
| JP3661874B2 true JP3661874B2 (ja) | 2005-06-22 |
Family
ID=22631169
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP51760595A Expired - Lifetime JP3661874B2 (ja) | 1993-12-22 | 1994-12-20 | 分散音声認識システム |
Country Status (16)
| Country | Link |
|---|---|
| US (1) | US5956683A (ja) |
| EP (3) | EP0736211B1 (ja) |
| JP (1) | JP3661874B2 (ja) |
| KR (1) | KR100316077B1 (ja) |
| CN (1) | CN1119794C (ja) |
| AT (1) | ATE261172T1 (ja) |
| AU (1) | AU692820B2 (ja) |
| BR (1) | BR9408413A (ja) |
| CA (1) | CA2179759C (ja) |
| DE (1) | DE69433593T2 (ja) |
| FI (2) | FI118909B (ja) |
| IL (1) | IL112057A0 (ja) |
| MY (1) | MY116482A (ja) |
| TW (1) | TW318239B (ja) |
| WO (1) | WO1995017746A1 (ja) |
| ZA (1) | ZA948426B (ja) |
Families Citing this family (291)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6594628B1 (en) * | 1995-09-21 | 2003-07-15 | Qualcomm, Incorporated | Distributed voice recognition system |
| US9063719B1 (en) * | 1995-10-02 | 2015-06-23 | People Innovate For Economy Foundation, Inc. | Table format programming |
| US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
| US8209184B1 (en) | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
| FI972723A0 (fi) * | 1997-06-24 | 1997-06-24 | Nokia Mobile Phones Ltd | Mobila kommunikationsanordningar |
| CA2219008C (en) * | 1997-10-21 | 2002-11-19 | Bell Canada | A method and apparatus for improving the utility of speech recognition |
| JP3055514B2 (ja) * | 1997-12-05 | 2000-06-26 | 日本電気株式会社 | 電話回線用音声認識装置 |
| US6208959B1 (en) | 1997-12-15 | 2001-03-27 | Telefonaktibolaget Lm Ericsson (Publ) | Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel |
| US6003004A (en) | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
| US6614885B2 (en) * | 1998-08-14 | 2003-09-02 | Intervoice Limited Partnership | System and method for operating a highly distributed interactive voice response system |
| US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
| US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
| AU1445100A (en) | 1998-10-13 | 2000-05-01 | Hadasit Medical Research Services & Development Company Ltd | Method and system for determining a vector index to represent a plurality of speech parameters in signal processing for identifying an utterance |
| GB2342828A (en) * | 1998-10-13 | 2000-04-19 | Nokia Mobile Phones Ltd | Speech parameter compression; distributed speech recognition |
| US6185535B1 (en) | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
| GB2343778B (en) * | 1998-11-13 | 2003-03-05 | Motorola Ltd | Processing received data in a distributed speech recognition process |
| GB2343777B (en) * | 1998-11-13 | 2003-07-02 | Motorola Ltd | Mitigating errors in a distributed speech recognition process |
| US6490621B1 (en) * | 1998-11-20 | 2002-12-03 | Orchestream Americas Corporation | Calculation of resource availability using degradation factors |
| US6336090B1 (en) * | 1998-11-30 | 2002-01-01 | Lucent Technologies Inc. | Automatic speech/speaker recognition over digital wireless channels |
| KR100667522B1 (ko) * | 1998-12-18 | 2007-05-17 | 주식회사 현대오토넷 | Lpc 계수를 이용한 이동통신 단말기 음성인식 방법 |
| US6411926B1 (en) * | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
| KR20010102280A (ko) * | 1999-02-19 | 2001-11-15 | 커스텀 스피치 유에스에이, 인크. | 자동화된 전사 시스템 및 두 개의 음성 변환 인스턴스 및컴퓨터 지원형 보정을 사용하는 방법 |
| DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
| ATE281689T1 (de) * | 1999-03-26 | 2004-11-15 | Scansoft Inc | Client-server spracherkennungssystem |
| EP1088299A2 (en) * | 1999-03-26 | 2001-04-04 | Scansoft, Inc. | Client-server speech recognition |
| US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
| US20050261907A1 (en) | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
| US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
| US6290646B1 (en) | 1999-04-16 | 2001-09-18 | Cardiocom | Apparatus and method for monitoring and communicating wellness parameters of ambulatory patients |
| US8419650B2 (en) | 1999-04-16 | 2013-04-16 | Cariocom, LLC | Downloadable datasets for a patient monitoring system |
| US6292781B1 (en) * | 1999-05-28 | 2001-09-18 | Motorola | Method and apparatus for facilitating distributed speech processing in a communication system |
| US6363349B1 (en) * | 1999-05-28 | 2002-03-26 | Motorola, Inc. | Method and apparatus for performing distributed speech processing in a communication system |
| DE19930407A1 (de) * | 1999-06-09 | 2000-12-14 | Philips Corp Intellectual Pty | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten |
| KR20010019786A (ko) * | 1999-08-30 | 2001-03-15 | 윤종용 | 이동통신 시스템에서 음성인식 및 문자표시 장치 및 방법 |
| JP3969908B2 (ja) | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
| US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
| US7689416B1 (en) * | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
| US6963759B1 (en) * | 1999-10-05 | 2005-11-08 | Fastmobile, Inc. | Speech recognition technique based on local interrupt detection |
| US6912496B1 (en) * | 1999-10-26 | 2005-06-28 | Silicon Automation Systems | Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics |
| FI19992350A7 (fi) | 1999-10-29 | 2001-04-30 | Nokia Corp | Parannettu puheentunnistus |
| EP1098297A1 (en) * | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
| US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
| US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
| US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
| US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
| US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
| US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
| US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
| US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
| WO2001039177A2 (en) * | 1999-11-22 | 2001-05-31 | Microsoft Corporation | Distributed speech recognition for mobile communication devices |
| US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
| US6532446B1 (en) * | 1999-11-24 | 2003-03-11 | Openwave Systems Inc. | Server based speech recognition user interface for wireless devices |
| US6424945B1 (en) * | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
| DE10003529A1 (de) * | 2000-01-27 | 2001-08-16 | Siemens Ag | Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung |
| US7505921B1 (en) | 2000-03-03 | 2009-03-17 | Finali Corporation | System and method for optimizing a product configuration |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| CN1315721A (zh) * | 2000-03-23 | 2001-10-03 | 韦尔博泰克有限公司 | 客户服务器语音信息传送系统与方法 |
| US6760699B1 (en) * | 2000-04-24 | 2004-07-06 | Lucent Technologies Inc. | Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels |
| US6502070B1 (en) * | 2000-04-28 | 2002-12-31 | Nortel Networks Limited | Method and apparatus for normalizing channel specific speech feature elements |
| US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
| JP3728177B2 (ja) | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
| WO2001095312A1 (en) * | 2000-06-08 | 2001-12-13 | Nokia Corporation | Method and system for adaptive distributed speech recognition |
| EP1304682A1 (en) * | 2000-07-05 | 2003-04-23 | Alcatel | Distributed speech recognition system |
| WO2002021512A1 (en) * | 2000-09-07 | 2002-03-14 | Koninklijke Philips Electronics N.V. | Voice control and uploadable user control information |
| US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
| US8135589B1 (en) | 2000-11-30 | 2012-03-13 | Google Inc. | Performing speech recognition over a network and using speech recognition results |
| US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
| EP1215659A1 (en) * | 2000-12-14 | 2002-06-19 | Nokia Corporation | Locally distibuted speech recognition system and method of its operation |
| US20020091515A1 (en) * | 2001-01-05 | 2002-07-11 | Harinath Garudadri | System and method for voice recognition in a distributed voice recognition system |
| US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
| US7024359B2 (en) * | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
| US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
| FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
| USRE46109E1 (en) | 2001-03-29 | 2016-08-16 | Lg Electronics Inc. | Vehicle navigation system and method |
| US8175886B2 (en) | 2001-03-29 | 2012-05-08 | Intellisist, Inc. | Determination of signal-processing approach based on signal destination characteristics |
| US7236777B2 (en) | 2002-05-16 | 2007-06-26 | Intellisist, Inc. | System and method for dynamically configuring wireless network geographic coverage or service levels |
| US6487494B2 (en) | 2001-03-29 | 2002-11-26 | Wingcast, Llc | System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation |
| US7406421B2 (en) * | 2001-10-26 | 2008-07-29 | Intellisist Inc. | Systems and methods for reviewing informational content in a vehicle |
| US20020143611A1 (en) * | 2001-03-29 | 2002-10-03 | Gilad Odinak | Vehicle parking validation system and method |
| US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
| US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
| US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
| US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
| US20020198716A1 (en) * | 2001-06-25 | 2002-12-26 | Kurt Zimmerman | System and method of improved communication |
| KR100777551B1 (ko) * | 2001-06-29 | 2007-11-16 | 주식회사 케이티 | 채널용량에 따른 가변 구성이 가능한 음성인식 시스템 및그 방법 |
| DE10228408B4 (de) | 2001-07-10 | 2021-09-30 | Sew-Eurodrive Gmbh & Co Kg | Bussystem, umfassend mindestens einen Bus und Busteilnehmer und Verfahren zur Sprachsteuerung |
| DE60115042T2 (de) * | 2001-09-28 | 2006-10-05 | Alcatel | Kommunikationsvorrichtung und Verfahren zum Senden und Empfangen von Sprachsignalen unter Kombination eines Spracherkennungsmodules mit einer Kodiereinheit |
| US7139704B2 (en) * | 2001-11-30 | 2006-11-21 | Intel Corporation | Method and apparatus to perform speech recognition over a voice channel |
| GB2383459B (en) * | 2001-12-20 | 2005-05-18 | Hewlett Packard Co | Speech recognition system and method |
| US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
| US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
| US7286993B2 (en) | 2002-01-31 | 2007-10-23 | Product Discovery, Inc. | Holographic speech translation system and method |
| US20030154080A1 (en) * | 2002-02-14 | 2003-08-14 | Godsey Sandra L. | Method and apparatus for modification of audio input to a data processing system |
| US8249880B2 (en) * | 2002-02-14 | 2012-08-21 | Intellisist, Inc. | Real-time display of system instructions |
| US7099825B1 (en) | 2002-03-15 | 2006-08-29 | Sprint Communications Company L.P. | User mobility in a voice recognition environment |
| US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
| US20030233233A1 (en) * | 2002-06-13 | 2003-12-18 | Industrial Technology Research Institute | Speech recognition involving a neural network |
| US6834265B2 (en) | 2002-12-13 | 2004-12-21 | Motorola, Inc. | Method and apparatus for selective speech recognition |
| US7076428B2 (en) * | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
| US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
| KR100956941B1 (ko) * | 2003-06-27 | 2010-05-11 | 주식회사 케이티 | 네트워크 상황에 따른 선택적 음성인식 장치 및 그 방법 |
| US7383181B2 (en) | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
| EP1661124A4 (en) * | 2003-09-05 | 2008-08-13 | Stephen D Grody | PROCESSES AND DEVICES FOR PROVIDING SERVICES THROUGH THE USE OF LANGUAGE IDENTIFICATION |
| US7447630B2 (en) | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
| US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
| US7574008B2 (en) | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
| US7283850B2 (en) | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
| US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
| US7346504B2 (en) | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
| US7680656B2 (en) | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
| US7406303B2 (en) | 2005-07-05 | 2008-07-29 | Microsoft Corporation | Multi-sensory speech enhancement using synthesized sensor signal |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
| US7930178B2 (en) | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
| US20070162282A1 (en) * | 2006-01-09 | 2007-07-12 | Gilad Odinak | System and method for performing distributed speech recognition |
| DE102006002604A1 (de) * | 2006-01-13 | 2007-07-19 | Deutsche Telekom Ag | Verfahren und System zur Durchführung einer Datentelekommunikation |
| US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
| US7778831B2 (en) | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
| US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
| US8654868B2 (en) | 2006-04-18 | 2014-02-18 | Qualcomm Incorporated | Offloaded processing for wireless applications |
| US8289159B2 (en) | 2006-04-26 | 2012-10-16 | Qualcomm Incorporated | Wireless localization apparatus and method |
| AR060670A1 (es) * | 2006-04-26 | 2008-07-02 | Qualcomm Inc | Distribucion dinamica de funcionalidad y administracion de recursos en un dispositivo |
| US8406794B2 (en) | 2006-04-26 | 2013-03-26 | Qualcomm Incorporated | Methods and apparatuses of initiating communication in wireless networks |
| US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
| US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
| KR100794140B1 (ko) | 2006-06-30 | 2008-01-10 | 주식회사 케이티 | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| WO2008064137A2 (en) * | 2006-11-17 | 2008-05-29 | Rao Ashwin P | Predictive speech-to-text input |
| US7904298B2 (en) * | 2006-11-17 | 2011-03-08 | Rao Ashwin P | Predictive speech-to-text input |
| JP4658022B2 (ja) * | 2006-11-20 | 2011-03-23 | 株式会社リコー | 音声認識システム |
| US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
| US20080154870A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
| US20080154608A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | On a mobile device tracking use of search results delivered to the mobile device |
| US20080154612A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Local storage and use of search results for voice-enabled mobile communications devices |
| US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
| EP1976255B1 (en) | 2007-03-29 | 2015-03-18 | Intellisist, Inc. | Call center with distributed speech recognition |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| JP5139747B2 (ja) * | 2007-08-17 | 2013-02-06 | 株式会社ユニバーサルエンターテインメント | 電話端末装置及びこれを用いた音声認識システム |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
| US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
| US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
| US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
| US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
| US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
| US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
| US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
| US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
| US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
| US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
| WO2012116110A1 (en) * | 2011-02-22 | 2012-08-30 | Speak With Me, Inc. | Hybridized client-server speech recognition |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8946812B2 (en) | 2011-07-21 | 2015-02-03 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device and manufacturing method thereof |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US8972263B2 (en) | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
| US8918804B2 (en) | 2012-02-07 | 2014-12-23 | Turner Broadcasting System, Inc. | Method and system for a reward program based on automatic content recognition |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
| US9685160B2 (en) * | 2012-04-16 | 2017-06-20 | Htc Corporation | Method for offering suggestion during conversation, electronic device using the same, and non-transitory storage medium |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US10354650B2 (en) | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| CN104769668B (zh) | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
| US9570076B2 (en) | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
| US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
| US9395234B2 (en) | 2012-12-05 | 2016-07-19 | Cardiocom, Llc | Stabilizing base for scale |
| US9167276B2 (en) | 2012-12-28 | 2015-10-20 | Turner Broadcasting System, Inc. | Method and system for providing and handling product and service discounts, and location based services (LBS) in an automatic content recognition based system |
| US9542947B2 (en) | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
| US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| US9058805B2 (en) | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
| US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
| CN103531197A (zh) * | 2013-10-11 | 2014-01-22 | 安徽科大讯飞信息科技股份有限公司 | 一种对用户语音识别结果反馈的命令词识别自适应优化方法 |
| US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
| US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
| EP3107447B1 (en) * | 2014-02-19 | 2022-12-07 | Institut National De La Recherche Scientifique (INRS) | Method and system for evaluating a noise level of a biosignal |
| US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
| CN103915092B (zh) * | 2014-04-01 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
| US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| WO2015199653A1 (en) * | 2014-06-24 | 2015-12-30 | Nuance Communications, Inc. | Methods and apparatus for joint stochastic and deterministic dictation formatting |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US9715498B2 (en) | 2015-08-31 | 2017-07-25 | Microsoft Technology Licensing, Llc | Distributed server system for language understanding |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US9954665B2 (en) * | 2015-11-12 | 2018-04-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Server, wireless device, methods and computer programs for distributing performance of a control task based on a connection quality |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US10701438B2 (en) | 2016-12-31 | 2020-06-30 | Turner Broadcasting System, Inc. | Automatic content recognition and verification in a broadcast chain |
| US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| US10410635B2 (en) | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
| US11063645B2 (en) | 2018-12-18 | 2021-07-13 | XCOM Labs, Inc. | Methods of wirelessly communicating with a group of devices |
| US10756795B2 (en) | 2018-12-18 | 2020-08-25 | XCOM Labs, Inc. | User equipment with cellular link and peer-to-peer link |
| US11330649B2 (en) | 2019-01-25 | 2022-05-10 | XCOM Labs, Inc. | Methods and systems of multi-link peer-to-peer communications |
| US10756767B1 (en) | 2019-02-05 | 2020-08-25 | XCOM Labs, Inc. | User equipment for wirelessly communicating cellular signal with another user equipment |
| WO2020246649A1 (ko) * | 2019-06-07 | 2020-12-10 | 엘지전자 주식회사 | 엣지 컴퓨팅 디바이스에서 음성 인식 방법 |
| US20210104233A1 (en) * | 2019-10-03 | 2021-04-08 | Ez-Ai Corp. | Interactive voice feedback system and method thereof |
| CN111199731A (zh) * | 2019-11-27 | 2020-05-26 | 深圳市科尚通信有限公司 | 一种智能自行车蓝牙语音交互设备 |
| CN110970031B (zh) * | 2019-12-16 | 2022-06-24 | 思必驰科技股份有限公司 | 语音识别系统及方法 |
| US11586964B2 (en) * | 2020-01-30 | 2023-02-21 | Dell Products L.P. | Device component management using deep learning techniques |
| CN116030790A (zh) * | 2021-10-22 | 2023-04-28 | 华为技术有限公司 | 分布式语音控制方法及电子设备 |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US108354A (en) * | 1870-10-18 | Improvement in combined eaves-troughs and lightning-rods | ||
| US4567606A (en) * | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
| FR2571191B1 (fr) * | 1984-10-02 | 1986-12-26 | Renault | Systeme de radiotelephone, notamment pour vehicule automobile |
| JPS61105671A (ja) * | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
| US4991217A (en) * | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
| DE3519915A1 (de) * | 1985-06-04 | 1986-12-04 | Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt | Verfahren zur spracherkennung an endgeraeten von fernmelde-, insbesondere fernsprechanlagen |
| JPS6269297A (ja) * | 1985-09-24 | 1987-03-30 | 日本電気株式会社 | 話者確認タ−ミナル |
| US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
| US5321840A (en) * | 1988-05-05 | 1994-06-14 | Transaction Technology, Inc. | Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal |
| US5040212A (en) * | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
| US5325524A (en) * | 1989-04-06 | 1994-06-28 | Digital Equipment Corporation | Locating mobile objects in a distributed computer system |
| US5012518A (en) * | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
| US5146538A (en) * | 1989-08-31 | 1992-09-08 | Motorola, Inc. | Communication system and method with voice steering |
| US5045082A (en) * | 1990-01-10 | 1991-09-03 | Alza Corporation | Long-term delivery device including loading dose |
| US5280585A (en) * | 1990-09-28 | 1994-01-18 | Hewlett-Packard Company | Device sharing system using PCL macros |
| WO1993001664A1 (en) * | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
| DE4126882A1 (de) * | 1991-08-14 | 1993-02-18 | Philips Patentverwaltung | Anordnung zur sprachuebertragung |
| US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
-
1994
- 1994-10-26 ZA ZA948426A patent/ZA948426B/xx unknown
- 1994-11-15 TW TW083110578A patent/TW318239B/zh not_active IP Right Cessation
- 1994-12-09 MY MYPI94003300A patent/MY116482A/en unknown
- 1994-12-19 IL IL11205794A patent/IL112057A0/xx not_active IP Right Cessation
- 1994-12-20 CN CN94194566A patent/CN1119794C/zh not_active Expired - Lifetime
- 1994-12-20 KR KR1019960703304A patent/KR100316077B1/ko not_active Expired - Lifetime
- 1994-12-20 EP EP95904956A patent/EP0736211B1/en not_active Expired - Lifetime
- 1994-12-20 AU AU13753/95A patent/AU692820B2/en not_active Ceased
- 1994-12-20 AT AT95904956T patent/ATE261172T1/de not_active IP Right Cessation
- 1994-12-20 WO PCT/US1994/014803 patent/WO1995017746A1/en not_active Ceased
- 1994-12-20 EP EP08152546A patent/EP1942487A1/en not_active Withdrawn
- 1994-12-20 BR BR9408413A patent/BR9408413A/pt not_active IP Right Cessation
- 1994-12-20 CA CA002179759A patent/CA2179759C/en not_active Expired - Lifetime
- 1994-12-20 JP JP51760595A patent/JP3661874B2/ja not_active Expired - Lifetime
- 1994-12-20 DE DE69433593T patent/DE69433593T2/de not_active Expired - Lifetime
- 1994-12-20 EP EP03021806A patent/EP1381029A1/en not_active Ceased
-
1996
- 1996-04-04 US US08/627,333 patent/US5956683A/en not_active Expired - Lifetime
- 1996-06-20 FI FI962572A patent/FI118909B/fi not_active IP Right Cessation
-
2007
- 2007-12-03 FI FI20070933A patent/FI20070933L/fi not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| FI20070933A7 (fi) | 2007-12-03 |
| CA2179759A1 (en) | 1995-06-29 |
| IL112057A0 (en) | 1995-03-15 |
| FI20070933L (fi) | 2007-12-03 |
| MY116482A (en) | 2004-02-28 |
| KR100316077B1 (ko) | 2002-02-28 |
| DE69433593T2 (de) | 2005-02-03 |
| DE69433593D1 (de) | 2004-04-08 |
| CA2179759C (en) | 2005-11-15 |
| EP0736211A1 (en) | 1996-10-09 |
| EP1381029A1 (en) | 2004-01-14 |
| CN1119794C (zh) | 2003-08-27 |
| US5956683A (en) | 1999-09-21 |
| AU1375395A (en) | 1995-07-10 |
| FI962572L (fi) | 1996-08-20 |
| JPH09507105A (ja) | 1997-07-15 |
| HK1011109A1 (en) | 1999-07-02 |
| ZA948426B (en) | 1995-06-30 |
| EP1942487A1 (en) | 2008-07-09 |
| WO1995017746A1 (en) | 1995-06-29 |
| CN1138386A (zh) | 1996-12-18 |
| FI962572A0 (fi) | 1996-06-20 |
| AU692820B2 (en) | 1998-06-18 |
| BR9408413A (pt) | 1997-08-05 |
| TW318239B (ja) | 1997-10-21 |
| EP0736211B1 (en) | 2004-03-03 |
| ATE261172T1 (de) | 2004-03-15 |
| FI118909B (fi) | 2008-04-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3661874B2 (ja) | 分散音声認識システム | |
| US6594628B1 (en) | Distributed voice recognition system | |
| KR100923896B1 (ko) | 분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법및 장치 | |
| US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
| US20110153326A1 (en) | System and method for computing and transmitting parameters in a distributed voice recognition system | |
| US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
| US20020091515A1 (en) | System and method for voice recognition in a distributed voice recognition system | |
| HK1044403A1 (en) | Distributed voice recognition system | |
| US20060095260A1 (en) | Method and apparatus for vocal-cord signal recognition | |
| HK1011109B (en) | Distributed voice recognition system | |
| HK1062070A (en) | Distributed voice recognition system | |
| Rose et al. | A tutorial on ASR for wireless mobile devices | |
| SHISHIBORI et al. | ROBUST FEATURE EXTRACTION IN A VARIETY OF INPUT DEVICES ON THE BASIS OF ETSI STANDARD DSR FRONT-END | |
| HK1074276B (en) | System and method for transmitting speech activity in a distributed voice recognition system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040517 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040628 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040622 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040928 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041227 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050215 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050317 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080401 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090401 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100401 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100401 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110401 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140401 Year of fee payment: 9 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |