JP7242520B2 - 視覚支援スピーチ処理 - Google Patents
視覚支援スピーチ処理 Download PDFInfo
- Publication number
- JP7242520B2 JP7242520B2 JP2019231729A JP2019231729A JP7242520B2 JP 7242520 B2 JP7242520 B2 JP 7242520B2 JP 2019231729 A JP2019231729 A JP 2019231729A JP 2019231729 A JP2019231729 A JP 2019231729A JP 7242520 B2 JP7242520 B2 JP 7242520B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- visual feature
- model
- visual
- linguistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Description
本技術はスピーチ処理の分野に存在する。
コンピューティングにおける最近の進歩は、多くの長く求められてきた音声制御アプリケーションを実現する可能性を高めている。たとえば、有効なニューラルネットワークアーキテクチャのための実際的なフレームワークを含む統計モデルにおける改善は、以前のスピーチ処理システムの精度および信頼性を大幅に増加させている。これは、アプリケーションプログラミングインターフェイスを使用して単純にアクセスされ得るある範囲のモジュラーサービスを提供するワイドエリアコンピュータネットワークの興隆に結び付けられている。したがって、音声は急速に、ユーザインターフェイスを提供するための実行可能なオプションになっている。
US8,768,693B2は、画像ファイルに1つ以上のタグを割り当てるためのシステムおよび方法を記載している。画像ファイルは、付加的なメタデータとして画像ファイルに関連付けられるテキストタグに変換されるよう、そこに埋め込まれたオーディオコンポーネントを含み得る。
本願明細書において記載されるある例は、スピーチを処理するための方法およびシステムを提供する。ある例は、スピーチを処理するためにオーディオデータおよび画像データの両方を使用する。ある例は、オーディオデータおよび画像データからオーディオ特徴およびビジュアル特徴をそれぞれ抽出する。当該特徴は、たとえばデータの顕著な局面を表わす数値配列といった特徴テンソルとして提供され得る。ある例は、オーディオ特徴およびビジュアル特徴がクライアントデバイスにおいて抽出され、さらなる処理のためにサーバデバイスに送信されるクライアントサーバアーキテクチャを提供する。オーディオ特徴およびビジュアル特徴は、たとえばサーバデバイスにおいて実現される言語的モデルに供給される。言語的モデルは、オーディオデータに関連付けられる発声を解析するために使用される。オーディオ特徴および画像特徴の両方の使用は、発声を解析するために使用される言語的モデルの精度を向上させる。処理フレームワークはさらに、低コストの埋込音声アシスタントからビークル内音声制御システムに至るある範囲の現実世界のデバイスにおいて実現されることが可能である。
以下に、さまざまな興味深い局面を示す本技術のさまざまな例を記載する。一般に、例は、記載された局面を任意の組合せで使用し得る。
図1は、例に従ったクライアントサーバアーキテクチャ100を示す。クライアントサーバアーキテクチャ100は、少なくとも1つのネットワーク130を介してサーバデバイス120と通信する複数のクライアントデバイス110を含む。ネットワーク130は、さまざまな物理的な技術(たとえば、イーサネット(登録商標)のような有線技術および/またはWi-Fi(登録商標)(IEEE802.11)規格およびセルラー通信技術のような無線技術)を使用して実現され得る1つ以上のローカルおよび/またはワイドエリアネットワークを含み得る。ある場合において、ネットワーク130は、1つ以上のプライベートネットワークおよびインターネットのようなパブリックネットワークの混合を含み得る。クライアントデバイス110およびサーバデバイス120は、異なる技術および通信経路を使用してネットワークを介して通信し得る。
図2は、クライアントデバイス210の例200を示す。クライアントデバイス210は、図1に示されるクライアントデバイス110のうちの1つのバージョンを含み得る。なお、クライアントデバイス210は、本記載に関連するある特徴を示すのみであり、クライアントデバイス210は、説明の明瞭さのためにここで示されない付加的な特徴を含んでもよい。たとえば、クライアントデバイスは、ディスプレイスクリーンを有さないイヤーピースのように、スクリーンレスであってもよい。いくつかのクライアントデバイスは、自動販売機のように静置されてもよい。いくつかのクライアントデバイスは、自動車またはロボティックデバイスのように移動可能であってもよい。いくつかのクライアントデバイスは携帯電話のようにポータブルであってもよい。いくつかのクライアントデバイスは、キーボードまたはタッチスクリーンのような手動インターフェイスを含んでもよい。さらに、クライアントデバイス210は、コンポーネントの1つの可能な配置を提供し、たとえば分散ベースの他の配置も可能である。
図3Aは、クライアントデバイス300の1つの例示的な実現例を示す。これは、図1のクライアントデバイス116または図2のクライアントデバイス210の実現例であり得る。この場合、クライアントデバイスは自動車305に組み込まれる。図3Aは、自動車305の側面図を示す。自動車305は、自動車305のコンポーネントを制御するための制御ユニット310を含む。クライアントデバイス210のコンポーネントはこの制御ユニット310に組み込まれ得る。他の場合では、クライアントデバイス210のコンポーネントは、制御ユニット310とのコネクティビティのオプションを有する別個のユニットとして実現され得る。自動車305はさらに、多くの画像キャプチャデバイス315、320および325を含む。これらは、複数の外部ビデオカメラ315および320と、少なくとも1つの内部ビデオカメラ325とを含んでいる。この例において、画像キャプチャデバイス315、320および325は、制御ユニット310に通信可能に結合され得、かつ、制御ユニット310によって制御され得る。複数の外部ビデオカメラ315および320は、駐車動作および/または自律運転機能のために使用され得る。少なくとも1つの内部ビデオカメラ325は、たとえばビデオデータによるボイスオーバインターネットプロトコルコールといったビデオ通信、および/または、環境モニタリングのために使用され得る。
図3Bは、クライアントデバイス350の別の例を示す。これは、図1のクライアントデバイス112または図2のクライアントデバイス210の実現例であり得る。この場合、クライアントデバイスはモバイルコンピューティングデバイス355に組み込まれる。図3Bは、モバイルコンピューティングデバイス355の前方図および後方図を示す。モバイルコンピューティングデバイス355はスマートフォンまたはタブレットを含み得る。モバイルコンピューティングデバイス355の前方部は、ユーザへ情報を表示するためのディスプレイスクリーン360を特徴とする。ディスプレイスクリーンはタッチスクリーンを含み得る。モバイルコンピューティングデバイス355の前方部はさらに、前方向きカメラ365および前方向きマイクロフォン370を特徴とする。モバイルコンピューティングデバイス355の後方部は、後方向きカメラ375および低部内部マイクロフォン380を特徴とする。モバイルコンピューティングデバイス355の後方図はさらに、内部マルチコアプロセッサ390および無線ネットワーク通信モジュール395を強調している。モバイルコンピューティングデバイス355は、複数の付加的なコンポーネントを特徴とし得るが、これらは明瞭さのために示されていない。前方および後方向きカメラ365および375は、静止画カメラまたはビデオカメラを含み得る。
図4A、図4Bおよび図4Cは、クライアントデバイス402とサーバデバイス404との間の異なる通信を表わすシーケンス図400、440、470のセットを示す。クライアントデバイス402は、図1におけるクライアントデバイス110のうちの1つ、図2におけるクライアントデバイス210、および/または、図3Aおよび図3Bに示されるクライアントデバイス300,350のうちの1つを含み得る。サーバデバイス404は、図1からのサーバデバイス120を含み得る。
ある例では、オーディオ特徴抽出器、ビジュアル特徴抽出器および言語的モデルのうちの1つ以上は、ニューラルネットワークアーキテクチャを含み得る。1つの場合では、これらのコンポーネントの各々はニューラルネットワークアーキテクチャを含み得る。この後者の場合では、組み合わされたニューラルネットワークアーキテクチャは、共同でコンポーネントを構成するためにエンドツーエンドで学習され得る。
図5は、ビジュアル特徴抽出器500の例示的な実現例を示す。たとえば、その実現例は、図2におけるビジュアル特徴抽出器250を実現するために使用され得る。この例において、ビジュアル特徴抽出器500は、第1の畳み込みニューラルネットワークアーキテクチャ510および第2のニューラルネットワークアーキテクチャ550を含む。
図6は、例に従ったニューラルスピーチ処理システム600を示す。ニューラルスピーチ処理システム600は、クライアント側ニューラルコンポーネント610およびサーバ側ニューラルコンポーネント650に分割される。この場合、「ニューラル」という用語は、システムおよびコンポーネントが、バックプロバゲーション(backpropagation)および勾配降下(gradient descent)アプローチを使用して学習され得る1つ以上のニューラルネットワーク層を含むということを示すために使用される。各ニューラルネットワーク層の後には非線形関数(「非線形性」または「活性化関数(activation function)」とも称される)が続き得、複数のニューラルネットワーク層が非線形のマッピングまたは変換を提供する。非線形関数は、双曲線正接もしくはシグモイド関数、または、正規化線形ユニット(RELU: REctified Linear Unit)であり得る。クライアント側およびサーバ側という用語が使用されるが、当該用語は、ある例において、たとえば図3Aにおける制御ユニット310の2つの部分といった共通のコンピューティングデバイスの異なるコンポーネントに関し得るか、または、たとえば図3Bにおけるモバイルコンピューティングデバイス355といった共通のデバイス内の2つのハードウェアデバイスに関し得る。
図7は、図6のニューラルスピーチ処理システムのための例示的な学習構成700を示す。図7は、図6のビジュアル特徴抽出器620、オーディオ特徴抽出器630および言語的モデル655の伝達結合を示す。1つの場合において、学習のために、ビジュアル特徴抽出器620、オーディオ特徴抽出器630および言語的モデル655の各々の実現例は、単一のコンピューティングデバイスまたはコンピューティングデバイスの好適に結合されたクラスタ上で構成され得る。学習は、プロダクションサーバデバイスおよびクライアントデバイス、たとえば以前の例において示されるようなデバイス上で行なわれる必要はない(しかしながら、所望の場合、これは行われ得る)。1つの場合では、学習は、たとえば複数の処理ユニット(CPU、GPU、FPGA(フィールドプログラマブルゲートアレイ(Field Programmable Gate Array))または他の専用のプロセッサアーキテクチャ)と、学習データのバッチを保持する大きなメモリ部分といった実質的な処理リソースへのアクセスを有するコンピューティングデバイス上で行なわれ得る。ある場合には、学習は、たとえば結合可能なFPGAまたはGPUベースのデバイスといった結合されたアクセラレータデバイスを使用して行なわれ得る。図7に示されるような学習は、ビジュアル特徴抽出器620およびオーディオ特徴抽出器630の出力が言語的モデル655の入力に結合され、結合されたシステムが単一ユニットとして学習されるので、「エンドツーエンド」学習と称され得る。
図8は、本願明細書において記載されるあるコンポーネントを使用する代替的なスピーチ処理システム800を示す。図6および以前の例のように、代替的なスピーチ処理システム800は、ビジュアル特徴抽出器820、オーディオ特徴抽出器830および言語的モデル855を含む。これらは前述のようにニューラルネットワークコンポーネントを含み得る。ビジュアル特徴抽出器820は、画像データ825からビジュアル特徴テンソル840を生成し、オーディオ特徴抽出器830は、オーディオデータ835からオーディオ特徴テンソル845を生成する。ビジュアル特徴抽出器820およびオーディオ特徴抽出器830はクライアントデバイス810の部分を形成し得、言語的モデル855はサーバデバイス850の部分を形成し得る。同様の参照番号は同様の特徴を参照するために使用されており、図6に関して上で議論されたバリエーションは、図8の構成に適用され得る。
ある場合には、以前に記載された言語的モデルの局面がスピーチ処理装置として実現され得る。この場合、スピーチ処理装置は、スピーチデータを解析するために使用される音素データを生成する音響モデルと、音響モデルからの音素データを使用してスピーチデータのトランスクリプションを生成する言語モデルとを含み得る。音響モデルは、たとえば、構成された音響モデルインスタンス866によって実現されたような音響モデル、および/または、図4Cのブロック476において適用されたような音響モデルといった、前述のような音響モデルを含み得る。音響モデルは、統計モデルまたはニューラルネットワークアーキテクチャを含み得る。言語モデルはさらに、たとえば、図4Cのブロック478において適用されたような言語モデルといった、前述のような言語モデルを含み得る。そのトランスクリプションはテキストベースの出力を含み得る。
図9Aは、クライアントデバイスにおいてスピーチを処理するための例示的な方法900を示す。方法900は、ユーザからの発声に関連付けられるオーディオデータがキャプチャされるブロック905において始まる。これは、図3Aおよび図3Bにおけるデバイス330、370または380のような1つ以上のマイクロフォンからのデータをキャプチャすることを含み得る。オーディオデータは、発声の前または後の記録の部分と、発声自体とを含み得る。ブロック910では、ユーザの環境を特徴とする画像データがキャプチャされる。たとえば、画像データは、図3Aおよび図3Bにおける315、320、325、365および375のうちの1つ以上のようなカメラデバイスからキャプチャされ得る。1つの場合では、画像データは、クライアントデバイスの外部のカメラからデータを受け取ることによりキャプチャされ得る。
図10は、例に従った、スピーチを処理するためのシステムを構成する方法1000を示す。ブロック1010では、当該方法は、スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含む。たとえば、これは、図7に示されるエンドツーエンドシステムを構成することを含み得る。図7に示されるように、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルは、たとえば重みおよびバイアスのセットといったモデルパラメータのそれぞれのセットによってパラメータ化され得る。ブロック1020では、当該方法は、時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることを含む。この場合、時間的な相関は、オーディオデータおよび画像データの両方がユーザの発声の所与の時間窓内でキャプチャされたということであり得る。ある場合には、画像データおよびオーディオデータが集合的に、ビデオデータを含み得、オーディオデータがビデオデータのための1つ以上のオーディオチャンネルを形成する。グラウンドトゥールース言語的特徴は、音素、文字、単語部分および単語の1つ以上のシーケンスを含み得る。1つの場合では、グラウンドトゥールース言語的特徴は、発声のテキストトランスクリプションの形態で提供され得る。ブロック1030では、当該方法は、モデルパラメータのそれぞれのセットについて学習された値を決定するために、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルを、学習データを使用して共同で構成することを含み、共同で構成することは、スピーチ認識モデルを通じて言語的モデルのエラーをバックプロパゲーションすることを含む。これは、図7に示されるプロセスを行なうことを含み得る。ブロック1030は、ニューラルネットワーク機能のライブラリにおいて供給されると、損失関数および学習ルーチンの実現例を規定すること含み得る。
図11は、図1におけるサーバデバイス120を実現し得るか、または、図9Bおよび図10の方法のうちの1つ以上を行ない得る例示的なサーバデバイス1100を示す。サーバデバイスは、ラックマウントサーバブレードマルチプロセッササーバシステム(rack-mounted server blade multi-processor server system)を含み得る。サーバデバイスは、ソフトウェアを並列で実行する複数のネットワーク接続されたコンピュータプロセッサを含み得る。サーバデバイス110は、コンピュータプロセッサ(CPU)コア1110のマルチコアクラスタおよびグラフィックスプロセッサ(GPU)コア1120のマルチコアクラスタを含む。これらのプロセッサは、プログラムコードおよびデータストレージのためのランダムアクセスメモリ(RAM)デバイス1140にボードレベルのインターコネクト1130を通じて接続する。サーバシステム1100はさらに、プロセッサがインターネットにアクセスすることを可能にするようネットワークインターフェイス1150を含む。インターフェイス1130を通じてRAMデバイスに格納される命令を実行することによって、CPU1110およびGPU1120は、本願明細書に記載されるような方法のステップを行ない得る。ある場合では、本願明細書に記載されるようなクライアントデバイスは、コンポーネントの同様の一般的な構成を有し得るが、ある場合において、より少ないコンピューティングリソースを有し得、専用のグラフィックスプロセッサ1120を有さない場合もあり得る。クライアントデバイスは、サーバデバイス1100と同様の態様で本願明細書において記載される方法のステップを行なう1つ以上のCPUを有し得る。
図12は、スピーチ処理システムを構成するための動作1200の例示的なセットを示すシーケンス図である。動作1200のセットは図10の方法1000の拡張と理解され得る。動作1200のセットは、学習デバイス1202と、サーバデバイス1204と、1つ以上のクライアントデバイス1206のセットとを含む分散コンピューティングシステムに亘って行なわれる。たとえば、学習デバイス1202および/またはサーバデバイス1204は、図11に示されるもののようなコンピューティングシステムを含み得、クライアントデバイス1206は、図1、図2、図3Aおよび図3Bに示されるもののようなクライアントデバイスを含み得る。
自動音声認識を含むスピーチ処理に関するある例が記載される。ある例は、ある話された言語の処理に関する。さまざまな例は、他の言語または言語の組合せについても同様に動作する。ある例は、言語外の環境情報を組み込むことによりスピーチ処理の精度および堅牢性を向上させる。言語外の環境情報は言語的モデルを向上させるために使用され得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの1つ以上を含み得る。
Claims (32)
- スピーチを処理するためのクライアントデバイスであって、
ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する1つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、1つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記言語的モデルと共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含む、クライアントデバイス。 - スピーチを処理するためのクライアントデバイスであって、
ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する1つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、1つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャを含み、前記第1の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第1の出力層に結合される1つ以上の付加的な分類層による学習動作から導出され、
前記ビジュアル特徴抽出器はさらに、第2の入力層および第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャを含み、前記第2の入力層は、前記第1の畳み込みニューラルネットワークアーキテクチャの前記第1の出力層に結合されており、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有する、クライアントデバイス。 - 前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および/または、
群衆の中にいるか否か、を識別する、請求項1または請求項2に記載のクライアントデバイス。 - 前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器のうちの1つ以上は、ニューラルネットワークアーキテクチャを含む、請求項1~請求項3のいずれか1項に記載のクライアントデバイス。
- 前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの数値表現を含み、前記トランスミッタは、前記オーディオ特徴テンソルとともに前記オーディオデータを前記サーバデバイスに送信するように構成されており、前記サーバデバイスの前記言語的モデルは、前記オーディオデータに基づいて言語的特徴を決定するよう、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用して構成される、請求項1~請求項4のいずれか1項に記載のクライアントデバイス。
- 前記画像データはビデオデータを含み、前記オーディオデータは前記ビデオデータに時間的に相関されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記ビデオデータおよび前記オーディオデータに並列に適用される、請求項1~請求項5のいずれか1項に記載のクライアントデバイス。
- スピーチを処理するためのクライアントデバイスであって、
ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する1つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、1つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャを含み、前記第1の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第1の出力層に結合される1つ以上の付加的な分類層による学習動作から導出され、
前記ビジュアル特徴抽出器はさらに、第2の入力層および第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャを含み、前記第2の入力層は、前記第1の畳み込みニューラルネットワークアーキテクチャの前記第1の出力層に結合されており、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有し、
前記第2のニューラルネットワークアーキテクチャは、学習動作において、前記オーディオ特徴抽出器および前記言語的モデルと共同で学習され、前記第1の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータの前記セットは、前記学習動作中は固定される、クライアントデバイス。 - スピーチを処理するためのサーバデバイスであって、
クライアントデバイスから1つ以上のビジュアル特徴テンソルおよび1つ以上のオーディオ特徴テンソルを受け取るレシーバを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは、前記クライアントデバイスの環境を特徴としており、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、
前記サーバデバイスはさらに、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを受け取り、かつ、前記発声を解析するために使用可能な言語的特徴を決定する言語的モデルを含み、
前記ビジュアル特徴テンソルは、前記クライアントデバイスのユーザの場所を識別し、
前記言語的モデルは、前記クライアントデバイスの前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成され、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含む、サーバデバイス。 - 前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および/または、
群衆の中にいるか否か、を識別する、請求項8に記載のサーバデバイス。 - 前記言語的モデルは、音響モデルおよび言語モデルを含み、
前記言語モデルは、前記ビジュアル特徴テンソルに従って、音素シーケンスをテキストにマッピングする、請求項8または請求項9に記載のサーバデバイス。 - 前記言語的モデルによる使用に先立って、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに重みを適用するアテンションプリプロセッサを含む、請求項8~請求項10のいずれか1項に記載のサーバデバイス。
- 前記言語的モデルは、入力として前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、前記発声のテキスト表現を出力するニューラルネットワークアーキテクチャを含む、請求項8~請求項11のいずれか1項に記載のサーバデバイス。
- 前記オーディオ特徴テンソルは、前記環境についてのオーディオコンテキストの表現を含み、前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの表現を含み、
前記サーバデバイスの前記レシーバは、前記オーディオ特徴テンソルに加えて前記オーディオデータを受け取るように構成され、
前記言語的モデルは、前記オーディオデータからの前記発声を解析するために使用される音素データを生成する音響モデルを含み、前記音響モデルは、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに基づいて構成される、請求項8~請求項12のいずれか1項に記載のサーバデバイス。 - 前記音響モデルは、
音響モデル構成のデータベースと、
前記オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいて、前記データベースから音響モデル構成を選択する音響モデルセレクタと、
前記オーディオデータを処理する音響モデルインスタンスとを含み、前記音響モデルインスタンスは、前記音響モデルセレクタによって選択される前記音響モデル構成に基づいてインスタンス化され、前記音響モデルインスタンスは、前記発声を解析するために使用される前記音素データを生成するように構成される、請求項13に記載のサーバデバイス。 - 前記言語的モデルはさらに、
前記音素データを受け取り、かつ、前記発声を表わすテキストデータを生成する、前記音響モデルに伝達可能に結合される言語モデルを含み、
前記言語モデルは、前記オーディオ特徴テンソルおよび前記ビジュアル特徴テンソルを、前記発声を表わす前記テキストデータを生成するために使用される入力として受け取るように構成される、請求項13または請求項14に記載のサーバデバイス。 - クライアントデバイスにおいてスピーチを処理するための方法であって、
前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
画像データの1つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記言語的モデルと共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含む、方法。 - クライアントデバイスにおいてスピーチを処理するための方法であって、
前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
画像データの1つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器を使用して抽出することは、
画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャに、キャプチャされた前記画像データから導出されるデータを提供することと、
第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャに前記第1の出力層の出力を提供することとを含み、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有しており、前記第2の出力層の出力は、ビジュアル特徴テンソルの前記セットを生成するために使用される、方法。 - 前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および/または、
群衆の中にいるか否か、を識別する、請求項16または請求項17に記載の方法。 - 前記クライアントデバイスにおいて、前記発声に対する応答を前記サーバデバイスから受け取ることと、
前記クライアントデバイスにおいて、前記サーバデバイスから受け取られる前記発声に対する前記応答に基づいて前記ユーザに対する応答を提供することとを含む、請求項16~請求項18のいずれか1項に記載の方法。 - クライアントデバイスにおいてスピーチを処理するための方法であって、
前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
画像データの1つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャを含み、前記第1の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第1の出力層に結合される1つ以上の付加的な分類層による学習動作から導出され、
前記ビジュアル特徴抽出器はさらに、第2の入力層および第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャを含み、前記第2の入力層は、前記第1の畳み込みニューラルネットワークアーキテクチャの前記第1の出力層に結合されており、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有し、
前記第2のニューラルネットワークアーキテクチャは、学習動作において、前記オーディオ特徴抽出器および前記言語的モデルと共同で学習され、前記第1の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータの前記セットは、前記学習動作中は固定される、方法。 - サーバデバイスにおいてスピーチを処理するための方法であって、
前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをクライアントデバイスから受け取ることを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは前記クライアントデバイスの環境を特徴とし、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、
前記方法はさらに、
前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットを入力として言語的モデルに提供することを含み、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含み、
前記方法はさらに、
前記言語的モデルの出力を使用して前記発声を解析することを含む、方法。 - 前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および/または、
群衆の中にいるか否か、を識別する、請求項21に記載の方法。 - 前記言語的モデルは、音響モデルおよび言語モデルを含み、
前記言語モデルは、前記ビジュアル特徴テンソルに従って、音素シーケンスをテキストにマッピングする、請求項21または請求項22に記載の方法。 - 前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られた前記セットに基づいて、音響モデル構成を選択することと、
前記サーバデバイスにおいて、前記オーディオデータを受け取ることと、
前記発声に対応する音素データを決定するために、前記音響モデル構成に従って構成される音響モデルを前記オーディオデータに適用することと、
前記音素データを使用して前記発声を解析することとを含む、請求項21~請求項23のいずれか1項に記載の方法。 - スピーチを処理するためのシステムを構成する方法であって、
スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、前記オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、前記ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、前記ビジュアル特徴テンソルは、前記オーディオデータに対応するユーザの場所を識別し、前記言語的モデルは、言語的特徴のセットを決定するために、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、
前記方法はさらに、
時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、
モデルパラメータの前記それぞれのセットについて学習された値を決定するために、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルを、前記学習データを使用して共同で構成することとを含み、前記共同で構成することは、前記スピーチ認識モデルを通じて前記言語的モデルのエラーをバックプロパゲーションすることを含む、方法。 - 前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および/または、
群衆の中にいるか否か、を識別する、請求項25に記載の方法。 - 前記言語的モデルは、音響モデルおよび言語モデルを含み、
前記言語モデルは、前記ビジュアル特徴テンソルに従って、音素シーケンスをテキストにマッピングする、請求項25または請求項26に記載の方法。 - 前記オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された前記値を1つ以上のクライアントデバイスに伝達することと、
前記言語的モデルについての学習された前記値を1つ以上のサーバデバイスに伝達することと、
学習された前記値を使用して前記1つ以上のクライアントデバイスおよび前記1つ以上のサーバデバイスを構成することとを含み、前記1つ以上のクライアントデバイスは、前記1つ以上のサーバデバイスによって処理されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成するために使用するために、学習された前記値をロードするように構成される、請求項25~請求項27のいずれか1項に記載の方法。 - 学習中に前記言語的モデルによって使用される前記オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上に重み付けすることを含む、請求項25~請求項28のいずれか1項に記載の方法。
- スピーチを処理するためのシステムを構成する方法であって、
スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、前記オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、前記ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、前記言語的モデルは、言語的特徴のセットを決定するために、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、
前記方法はさらに、
時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、
モデルパラメータの前記それぞれのセットについて学習された値を決定するために、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルを、前記学習データを使用して共同で構成することとを含み、前記共同で構成することは、前記スピーチ認識モデルを通じて前記言語的モデルのエラーをバックプロパゲーションすることと、
学習されたビジュアル分類モデルを得ることと、
学習された前記ビジュアル分類モデルのための新しい出力層を生成するために、構成された前記ビジュアル分類モデルの1つ以上の分類層を除去することと、
前記ビジュアル特徴抽出器を得るために、1つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを前記新しい出力層に伝達可能に結合することとを含み、前記さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、前記新しい出力層の次元数より小さい、方法。 - 命令を含むプログラムコードであって、
前記命令は、マシンのコンピュータプロセッサによって実行されると、前記マシンに、
ユーザからの発声に関連付けられるオーディオデータを得ることと、
前記ユーザの環境を特徴とする画像データを得ることと、
前記画像データの1つ以上のフレームからのビジュアル特徴テンソルのセットの抽出を命令することとを行わせ、画像データの前記フレームは、ビジュアル特徴テンソルの前記セットより大きい情報コンテンツを有しており、ビジュアル特徴テンソルの前記セットの前記抽出はパラメータの第1のセットによって構成され、
前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
前記オーディオデータからのオーディオ特徴テンソルのセットの抽出を命令することを行わせ、オーディオ特徴テンソルの前記セットの前記抽出はパラメータの第2のセットによって構成され、
前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
少なくともオーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットに基づく前記発声の解析を命令することを行わせ、前記発声の前記解析はパラメータの第3のセットによって構成され、
パラメータの前記第1のセット、第2のセットおよび第3のセットについての値は、共同学習プロシージャを使用して決定される、プログラムコード。 - 命令を含むプログラムコードであって、前記命令は、デバイスのコンピュータプロセッサによって実行されると、前記デバイスに請求項16~請求項24のいずれか1項に記載の方法を実行させる、プログラムコード。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/509,029 US11257493B2 (en) | 2019-07-11 | 2019-07-11 | Vision-assisted speech processing |
| US16/509,029 | 2019-07-11 | ||
| KR10-2019-0121046 | 2019-09-30 | ||
| KR1020190121046A KR20210007786A (ko) | 2019-07-11 | 2019-09-30 | 시각 보조 음성 처리 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021015264A JP2021015264A (ja) | 2021-02-12 |
| JP7242520B2 true JP7242520B2 (ja) | 2023-03-20 |
Family
ID=74101823
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019231729A Active JP7242520B2 (ja) | 2019-07-11 | 2019-12-23 | 視覚支援スピーチ処理 |
Country Status (3)
| Country | Link |
|---|---|
| US (2) | US11257493B2 (ja) |
| JP (1) | JP7242520B2 (ja) |
| KR (6) | KR20210007786A (ja) |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018176017A1 (en) * | 2017-03-24 | 2018-09-27 | Revealit Corporation | Method, system, and apparatus for identifying and revealing selected objects from video |
| US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
| US11508374B2 (en) * | 2018-12-18 | 2022-11-22 | Krystal Technologies | Voice commands recognition method and system based on visual and audio cues |
| US11257493B2 (en) * | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
| US11663814B2 (en) * | 2019-08-23 | 2023-05-30 | Arm Limited | Skip predictor for pre-trained recurrent neural networks |
| KR102231909B1 (ko) * | 2019-09-20 | 2021-03-25 | 엘지전자 주식회사 | 인공지능 장치 |
| US11580869B2 (en) * | 2019-09-23 | 2023-02-14 | Revealit Corporation | Computer-implemented interfaces for identifying and revealing selected objects from video |
| CN112738634B (zh) * | 2019-10-14 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 视频文件的生成方法、装置、终端及存储介质 |
| US11615781B2 (en) * | 2019-10-18 | 2023-03-28 | Google Llc | End-to-end multi-speaker audio-visual automatic speech recognition |
| US11948076B2 (en) * | 2019-10-25 | 2024-04-02 | Sony Group Corporation | Media rendering device control based on trained network model |
| EP3855432B1 (en) * | 2020-01-22 | 2024-11-27 | Infineon Technologies AG | Classification system and method for classifying an external impact on a window or on an access opening of an enclosed structure |
| US11635299B2 (en) * | 2020-02-06 | 2023-04-25 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for scene-aware interaction |
| WO2021192991A1 (ja) * | 2020-03-23 | 2021-09-30 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
| US11657799B2 (en) * | 2020-04-03 | 2023-05-23 | Microsoft Technology Licensing, Llc | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition |
| KR20220013850A (ko) * | 2020-07-27 | 2022-02-04 | 주식회사 딥브레인에이아이 | 발화 영상 생성 방법 및 장치 |
| US11450310B2 (en) * | 2020-08-10 | 2022-09-20 | Adobe Inc. | Spoken language understanding |
| US12354602B2 (en) * | 2020-09-10 | 2025-07-08 | Harman International Industries, Incorporated | Virtual conversation agent for controlling multiple vehicular intelligent virtual assistants |
| US11802894B2 (en) * | 2020-09-17 | 2023-10-31 | Silicon Laboratories Inc. | Compressing information in an end node using an autoencoder neural network |
| US20220269922A1 (en) * | 2021-02-23 | 2022-08-25 | Mcafee, Llc | Methods and apparatus to perform deepfake detection using audio and video features |
| US12170079B2 (en) | 2021-08-03 | 2024-12-17 | Samsung Electronics Co., Ltd. | System and method for improving named entity recognition |
| US11908478B2 (en) | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
| US12216749B2 (en) | 2021-08-04 | 2025-02-04 | Q (Cue) Ltd. | Using facial skin micromovements to identify a user |
| CN114120074B (zh) * | 2021-11-05 | 2023-12-12 | 北京百度网讯科技有限公司 | 基于语义增强的图像识别模型的训练方法和训练装置 |
| CN114338385B (zh) * | 2021-12-31 | 2024-05-17 | 上海商汤智能科技有限公司 | 网络配置方法及系统、电子设备和存储介质 |
| KR20250137111A (ko) | 2022-07-20 | 2025-09-17 | 큐(큐) 리미티드 | 얼굴 미세 움직임의 검출 및 이용 |
| CN115690575B (zh) * | 2022-10-08 | 2025-09-30 | 北京数慧时空信息技术有限公司 | 基于目标场景的遥感影像样本优选方法 |
| US20240403627A1 (en) * | 2023-05-31 | 2024-12-05 | Xu YUAN | Method and apparatus for characterizing cultural symbols |
| WO2025023469A1 (ko) * | 2023-07-26 | 2025-01-30 | 삼성전자주식회사 | 시각 정보를 고려해서 인공지능 에이전트를 동작하는 장치 및 방법 |
| FR3152908A1 (fr) * | 2023-09-12 | 2025-03-14 | Psa Automobiles Sa | Méthode et dispositif de traitement des données d'image représentatives d'une ou de plusieurs images d'un environnement d'un véhicule |
| WO2025249802A1 (ko) * | 2024-05-31 | 2025-12-04 | 삼성전자주식회사 | 멀티모달 모델을 이용하기 위한 전자 장치, 방법, 및 컴퓨터 판독 가능 저장 매체 |
| US12548589B1 (en) | 2025-09-24 | 2026-02-10 | CNTXT FZCo | Systems and methods for generating audio descriptions |
Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002268683A (ja) | 2001-03-09 | 2002-09-20 | Canon Inc | 情報処理方法及び装置 |
| JP2003241788A (ja) | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
| JP2003271182A (ja) | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
| JP2004333738A (ja) | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
| WO2011111221A1 (ja) | 2010-03-12 | 2011-09-15 | 三菱電機株式会社 | エレベータの音声呼び登録装置 |
| JP2012022053A (ja) | 2010-07-12 | 2012-02-02 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
| JP2012059121A (ja) | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | 眼鏡型表示装置 |
| JP2018036653A (ja) | 2012-08-10 | 2018-03-08 | エイディシーテクノロジー株式会社 | 音声応答装置 |
| US20180075849A1 (en) | 2016-09-12 | 2018-03-15 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
| US20180285752A1 (en) | 2017-03-31 | 2018-10-04 | Samsung Electronics Co., Ltd. | Method for providing information and electronic device supporting the same |
| JP2019097016A (ja) | 2017-11-22 | 2019-06-20 | 株式会社デンソーアイティーラボラトリ | コーパス生成装置、コーパス生成方法、およびプログラム |
| JP2020066472A (ja) | 2018-10-19 | 2020-04-30 | 株式会社日立ビルシステム | エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法 |
Family Cites Families (62)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
| US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
| US7254538B1 (en) | 1999-11-16 | 2007-08-07 | International Computer Science Institute | Nonlinear mapping for feature extraction in automatic speech recognition |
| US6633844B1 (en) | 1999-12-02 | 2003-10-14 | International Business Machines Corporation | Late integration in audio-visual continuous speech recognition |
| US6442820B1 (en) | 2000-10-26 | 2002-09-03 | F & P Mfg., Inc. | Method and apparatus for forming a tube having an article inserted therein |
| US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
| US6952674B2 (en) | 2002-01-07 | 2005-10-04 | Intel Corporation | Selecting an acoustic model in a speech recognition system |
| JP2004260641A (ja) | 2003-02-27 | 2004-09-16 | Shibasoku:Kk | 信号処理装置 |
| JP4463526B2 (ja) | 2003-10-24 | 2010-05-19 | 株式会社ユニバーサルエンターテインメント | 声紋認証システム |
| JP4599244B2 (ja) | 2005-07-13 | 2010-12-15 | キヤノン株式会社 | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
| US8126274B2 (en) | 2007-08-30 | 2012-02-28 | Microsoft Corporation | Visual language modeling for image classification |
| KR100903348B1 (ko) | 2007-11-28 | 2009-06-23 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
| CN101187990A (zh) | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
| US8645123B2 (en) | 2008-10-27 | 2014-02-04 | Microsoft Corporation | Image-based semantic distance |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| KR101092820B1 (ko) | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
| US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
| TWI399739B (zh) | 2009-11-13 | 2013-06-21 | Ind Tech Res Inst | 語音留言與傳達之系統與方法 |
| TWI398853B (zh) | 2010-05-10 | 2013-06-11 | Univ Nat Cheng Kung | 人臉說話模擬系統及方法 |
| JP5797009B2 (ja) | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
| BR112014015844A8 (pt) | 2011-12-26 | 2017-07-04 | Intel Corp | determinação das entradas de áudio e visuais de ocupantes baseada em veículo |
| US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
| TWI466101B (zh) | 2012-05-18 | 2014-12-21 | Asustek Comp Inc | 語音識別方法及系統 |
| US8768693B2 (en) | 2012-05-31 | 2014-07-01 | Yahoo! Inc. | Automatic tag extraction from audio annotated photos |
| US20150199960A1 (en) | 2012-08-24 | 2015-07-16 | Microsoft Corporation | I-Vector Based Clustering Training Data in Speech Recognition |
| US9031293B2 (en) * | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
| US9190058B2 (en) | 2013-01-25 | 2015-11-17 | Microsoft Technology Licensing, Llc | Using visual cues to disambiguate speech inputs |
| JP6534926B2 (ja) | 2013-06-10 | 2019-06-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者識別方法、話者識別装置及び話者識別システム |
| KR20150031896A (ko) * | 2013-09-17 | 2015-03-25 | 한국전자통신연구원 | 음성인식장치 및 그 동작방법 |
| JP6025690B2 (ja) | 2013-11-01 | 2016-11-16 | ソニー株式会社 | 情報処理装置および情報処理方法 |
| US10360901B2 (en) | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
| US10741182B2 (en) | 2014-02-18 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Voice input correction using non-audio based input |
| JP2015175859A (ja) | 2014-03-12 | 2015-10-05 | 学校法人早稲田大学 | パターン認識装置、パターン認識方法及びパターン認識プログラム |
| US9728185B2 (en) | 2014-05-22 | 2017-08-08 | Google Inc. | Recognizing speech using neural networks |
| US20160034811A1 (en) | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
| CN104463250B (zh) | 2014-12-12 | 2017-10-27 | 广东工业大学 | 一种基于达芬奇技术的手语识别翻译方法 |
| JP2016143050A (ja) | 2015-02-05 | 2016-08-08 | 株式会社デンソー | 音声認識装置および音声認識方法 |
| JP2016170701A (ja) | 2015-03-13 | 2016-09-23 | ノーリツプレシジョン株式会社 | 浴室異常検知装置、浴室異常検知方法、及び、浴室異常検知プログラム |
| US9697833B2 (en) | 2015-08-25 | 2017-07-04 | Nuance Communications, Inc. | Audio-visual speech recognition with scattering operators |
| US10965975B2 (en) * | 2015-08-31 | 2021-03-30 | Orcam Technologies Ltd. | Systems and methods for recognizing faces using non-facial information |
| JP2017090612A (ja) | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
| US20170186044A1 (en) * | 2015-12-29 | 2017-06-29 | Picsoneye Segmentation Innovations Ltd | System and method for profiling a user based on visual content |
| US10896681B2 (en) * | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
| US11264044B2 (en) | 2016-02-02 | 2022-03-01 | Nippon Telegraph And Telephone Corporation | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program |
| US10964326B2 (en) | 2016-02-16 | 2021-03-30 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | System and method for audio-visual speech recognition |
| CN105760852B (zh) | 2016-03-14 | 2019-03-05 | 江苏大学 | 一种融合脸部表情和语音的驾驶员情感实时识别方法 |
| CN106782545B (zh) | 2016-12-16 | 2019-07-16 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
| KR102408308B1 (ko) | 2017-05-17 | 2022-06-13 | 삼성전자주식회사 | 센서 변환 집중 네트워크 모델 |
| CN107507612B (zh) | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
| CN107134279B (zh) * | 2017-06-30 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
| US11290518B2 (en) * | 2017-09-27 | 2022-03-29 | Qualcomm Incorporated | Wireless control of remote devices through intention codes over a wireless connection |
| US10699144B2 (en) * | 2017-10-26 | 2020-06-30 | Toyota Research Institute, Inc. | Systems and methods for actively re-weighting a plurality of image sensors based on content |
| CN109872379B (zh) | 2017-12-05 | 2022-12-02 | 富士通株式会社 | 数据处理装置和方法 |
| CN107945789A (zh) | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
| JP6973110B2 (ja) | 2018-01-23 | 2021-11-24 | 株式会社リコー | 情報処理システム、情報処理端末、情報処理方法及びプログラム |
| CN111712852B (zh) | 2018-02-19 | 2023-08-11 | 三菱电机株式会社 | 乘客状态检测装置、系统和方法 |
| CN109147763B (zh) | 2018-07-10 | 2020-08-11 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
| CN109697976B (zh) | 2018-12-14 | 2021-05-25 | 北京葡萄智学科技有限公司 | 一种发音识别方法及装置 |
| CN110111783A (zh) | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
| CN110136698B (zh) | 2019-04-11 | 2021-09-24 | 北京百度网讯科技有限公司 | 用于确定嘴型的方法、装置、设备和存储介质 |
| US11257493B2 (en) * | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
| US20210065712A1 (en) | 2019-08-31 | 2021-03-04 | Soundhound, Inc. | Automotive visual speech recognition |
-
2019
- 2019-07-11 US US16/509,029 patent/US11257493B2/en active Active
- 2019-09-30 KR KR1020190121046A patent/KR20210007786A/ko not_active Ceased
- 2019-12-23 JP JP2019231729A patent/JP7242520B2/ja active Active
-
2021
- 2021-12-03 KR KR1020210171630A patent/KR102380689B1/ko active Active
- 2021-12-10 US US17/547,917 patent/US12592237B2/en active Active
-
2022
- 2022-03-25 KR KR1020220037343A patent/KR102451100B1/ko active Active
- 2022-09-29 KR KR1020220123895A patent/KR20220139841A/ko not_active Ceased
-
2024
- 2024-03-04 KR KR1020240030412A patent/KR20240037205A/ko not_active Ceased
-
2025
- 2025-04-28 KR KR1020250055261A patent/KR20250067781A/ko active Pending
Patent Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002268683A (ja) | 2001-03-09 | 2002-09-20 | Canon Inc | 情報処理方法及び装置 |
| JP2003241788A (ja) | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
| JP2003271182A (ja) | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
| JP2004333738A (ja) | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
| WO2011111221A1 (ja) | 2010-03-12 | 2011-09-15 | 三菱電機株式会社 | エレベータの音声呼び登録装置 |
| JP2012022053A (ja) | 2010-07-12 | 2012-02-02 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
| JP2012059121A (ja) | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | 眼鏡型表示装置 |
| JP2018036653A (ja) | 2012-08-10 | 2018-03-08 | エイディシーテクノロジー株式会社 | 音声応答装置 |
| US20180075849A1 (en) | 2016-09-12 | 2018-03-15 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
| US20180285752A1 (en) | 2017-03-31 | 2018-10-04 | Samsung Electronics Co., Ltd. | Method for providing information and electronic device supporting the same |
| JP2019097016A (ja) | 2017-11-22 | 2019-06-20 | 株式会社デンソーアイティーラボラトリ | コーパス生成装置、コーパス生成方法、およびプログラム |
| JP2020066472A (ja) | 2018-10-19 | 2020-04-30 | 株式会社日立ビルシステム | エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法 |
Non-Patent Citations (2)
| Title |
|---|
| 杣田裕太,経年変化に頑健な顔認識のための照合手法に関する研究,三重大学大学院工学研究科情報工学専攻修士論文,2018年03月,p.1-71 |
| 重冨達哉ほか,深層学習を用いた環境変化に対して頑健な場所推定手法,第22回日本バーチャルリアリティ学会大会論文集,2017年09月,p.1-3 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20210007786A (ko) | 2021-01-20 |
| US20210012769A1 (en) | 2021-01-14 |
| KR20210152430A (ko) | 2021-12-15 |
| KR102451100B1 (ko) | 2022-10-06 |
| KR20220139841A (ko) | 2022-10-17 |
| KR20240037205A (ko) | 2024-03-21 |
| US12592237B2 (en) | 2026-03-31 |
| KR20220045116A (ko) | 2022-04-12 |
| US20220139393A1 (en) | 2022-05-05 |
| JP2021015264A (ja) | 2021-02-12 |
| KR102380689B1 (ko) | 2022-04-01 |
| US11257493B2 (en) | 2022-02-22 |
| KR20250067781A (ko) | 2025-05-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7242520B2 (ja) | 視覚支援スピーチ処理 | |
| US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
| EP3783605B1 (en) | Vehicle-mounted apparatus, method of processing utterance, and program | |
| US12602553B2 (en) | Speech translation method, device, and storage medium | |
| US20210065712A1 (en) | Automotive visual speech recognition | |
| US10235994B2 (en) | Modular deep learning model | |
| US20190115011A1 (en) | Detecting keywords in audio using a spiking neural network | |
| CN120183410B (zh) | 基于语音指令的处理方法、设备和系统 | |
| CN116978359A (zh) | 音素识别方法、装置、电子设备及存储介质 | |
| CN117809630B (zh) | 一种电子设备及语音唤醒方法 | |
| US12307214B2 (en) | Hybrid language translation on mobile devices | |
| CN119229845A (zh) | 语音合成方法和装置、电子设备及存储介质 | |
| CN116501902A (zh) | 多模态的电影情感识别方法和装置、设备、存储介质 | |
| KR20230149894A (ko) | 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템 | |
| KR102813862B1 (ko) | 음성 합성 시스템 및 방법 | |
| KR20210030160A (ko) | 전자 장치 및 이의 제어 방법 | |
| US20240419731A1 (en) | Knowledge-based audio scene graph | |
| US20260087635A1 (en) | Image object mask generation | |
| HK40092332A (zh) | 一种语音转换模型的确定方法和相关装置 | |
| CN117649848A (zh) | 语音信号的处理设备及方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200826 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210915 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210928 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211129 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220325 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221017 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230308 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7242520 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |