JP7242520B2

JP7242520B2 - 視覚支援スピーチ処理

Info

Publication number: JP7242520B2
Application number: JP2019231729A
Authority: JP
Inventors: クリスティーナ・バスコンセロス; ズイッリ・リ
Original assignee: サウンドハウンド，インコーポレイテッド
Priority date: 2019-07-11
Filing date: 2019-12-23
Publication date: 2023-03-20
Anticipated expiration: 2039-12-23
Also published as: KR20210007786A; US20210012769A1; KR20210152430A; KR102451100B1; KR20220139841A; KR20240037205A; US12592237B2; KR20220045116A; US20220139393A1; JP2021015264A; KR102380689B1; US11257493B2; KR20250067781A

Description

発明の分野
本技術はスピーチ処理の分野に存在する。

背景
コンピューティングにおける最近の進歩は、多くの長く求められてきた音声制御アプリケーションを実現する可能性を高めている。たとえば、有効なニューラルネットワークアーキテクチャのための実際的なフレームワークを含む統計モデルにおける改善は、以前のスピーチ処理システムの精度および信頼性を大幅に増加させている。これは、アプリケーションプログラミングインターフェイスを使用して単純にアクセスされ得るある範囲のモジュラーサービスを提供するワイドエリアコンピュータネットワークの興隆に結び付けられている。したがって、音声は急速に、ユーザインターフェイスを提供するための実行可能なオプションになっている。

スピーチは人間のコミュニケーションの自然なモードであるので、音声制御は、キーボードおよびマウスまたはより最近の場合では静電容量式タッチスクリーンのような従来のユーザインターフェイスに対する多くの利点を提供する。スピーチを使用してデバイスを制御することは、モータビークルもしくは重機械を安全に動作させるかまたは食事を料理するといったように、ユーザがマルチタスクを行うことを可能にする。このように、音声制御デバイスは、家庭において一般的になっており、質問を尋ねたり、音楽を再生したり、リマインダをセットしたりするためにしばしば使用される。音声制御はさらに、自動車システム設計における活発な研究領域である。

これらの進歩にもかかわらず、ユーザは、現在のシステムが人間レベルの応答性およびインテリジェンスを欠くとしばしば報告している。空気中の圧力変動を解析されたコマンドに変換することは、信じられないほどに困難である。スピーチ処理は典型的に複雑な処理パイプラインを伴っており、如何なるステージにおけるエラーによっても、マシン解析の成功が頓挫され得る。これらの困難さの多くは、意識的な思考なく皮質構造および皮質下構造を使用してスピーチを処理することができる人間には直ちに明白ではない。しかしながら、当該分野で働くエンジニアは、人間の能力と現状技術のマシン処理との間のギャップに急速に気が付いてきている。

ある特許公報は、画像とともに動作するためのシステムを記載している。
ＵＳ８，７６８，６９３Ｂ２は、画像ファイルに１つ以上のタグを割り当てるためのシステムおよび方法を記載している。画像ファイルは、付加的なメタデータとして画像ファイルに関連付けられるテキストタグに変換されるよう、そこに埋め込まれたオーディオコンポーネントを含み得る。

ＵＳ２００９／００６０３５１Ａ１は、画像分類のためのビジュアル言語モデリングのためのシステムおよび方法を記載している。当該システムおよび方法は、「ビジュアルワード（visual word）」のマトリックスとして複数の画像カテゴリに対応する学習画像をモデリングする。

人間の発声をより正確にトランスクリプションすることおよび解析することができるスピーチ処理システムおよび方法を提供することが望まれている。さらに、現実世界のデバイスにより実際的に実現され得るスピーチ処理方法を提供することが望まれている。たとえば、ほとんどのユーザは、スーパーコンピュータまたはデータセンタの処理リソースへのアクセスを有しておらず、日常の対象物に容易に埋め込まれ得る低コストのデバイスを望んでいる。さらに、モータビークルは、システムインテグレーションおよびコネクティビティについての困難さを示している。

発明の概要
本願明細書において記載されるある例は、スピーチを処理するための方法およびシステムを提供する。ある例は、スピーチを処理するためにオーディオデータおよび画像データの両方を使用する。ある例は、オーディオデータおよび画像データからオーディオ特徴およびビジュアル特徴をそれぞれ抽出する。当該特徴は、たとえばデータの顕著な局面を表わす数値配列といった特徴テンソルとして提供され得る。ある例は、オーディオ特徴およびビジュアル特徴がクライアントデバイスにおいて抽出され、さらなる処理のためにサーバデバイスに送信されるクライアントサーバアーキテクチャを提供する。オーディオ特徴およびビジュアル特徴は、たとえばサーバデバイスにおいて実現される言語的モデルに供給される。言語的モデルは、オーディオデータに関連付けられる発声を解析するために使用される。オーディオ特徴および画像特徴の両方の使用は、発声を解析するために使用される言語的モデルの精度を向上させる。処理フレームワークはさらに、低コストの埋込音声アシスタントからビークル内音声制御システムに至るある範囲の現実世界のデバイスにおいて実現されることが可能である。

１つの局面では、スピーチを処理するためのクライアントデバイスが提供される。クライアントデバイスは、ユーザからの発声を特徴とするオーディオデータをキャプチャするオーディオキャプチャデバイスと、ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスとを含む。ビジュアル特徴抽出器は、１つ以上のビジュアル特徴テンソルを生成するために、画像キャプチャデバイスから画像データのフレームを受け取る。ビジュアル特徴テンソルは、画像データのフレーム未満である情報コンテンツを有しており、たとえば、画像データのフレームの圧縮された表現を提供する。オーディオ特徴抽出器は、オーディオキャプチャデバイスからオーディオデータを受け取り、１つ以上のオーディオ特徴テンソルを生成する。クライアントデバイスのトランスミッタが、ビジュアル特徴テンソルおよびオーディオ特徴テンソルをサーバデバイスに送信するように使用され、サーバデバイスは、少なくともビジュアル特徴テンソルおよびオーディオ特徴テンソルを言語的モデルに供給するように構成されており、言語的モデルは、発声を解析するために使用可能な言語的特徴を決定するように構成される。この局面において、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成される。

上記の局面に従うと、クライアントデバイスは、ユーザからの音声コマンドのような発声が記録される環境の情報が豊富な表現を生成することができる。共同の構成により、ビジュアル特徴テンソルは、発声についての解析エラーを低減する態様で、発声の環境のビジュアル特徴を表わす出力を生成する。ビジュアル特徴テンソルは、オーディオ入力を明確にするのに有用であるビジュアル特徴の圧縮された表現と理解され得る。

別の局面に従うと、スピーチを処理するためのサーバデバイスが提供される。サーバデバイスは、クライアントデバイスから１つ以上のビジュアル特徴テンソルおよび１つ以上のオーディオ特徴テンソルを受け取るレシーバを含む。クライアントデバイスは上記の局面のクライアントデバイスであり得る。ビジュアル特徴テンソルは、クライアントデバイスによってキャプチャされる画像データのフレームに基づいて、クライアントデバイスのビジュアル特徴抽出器によって生成される。画像データのフレームは、クライアントデバイスの環境を特徴とし、ビジュアル特徴テンソルより大きい情報コンテンツを有する。たとえば、ビジュアル特徴テンソルは、画像データのフレームの圧縮された表現を提供する。オーディオ特徴テンソルは、ユーザの発声の後でクライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、クライアントデバイスのオーディオ特徴抽出器によって生成される。サーバデバイスはさらに、ビジュアル特徴テンソルおよびオーディオ特徴テンソルを受け取り、かつ、発声を解析するために使用可能な言語的特徴を決定する言語的モデルを含み、言語的モデルは、クライアントデバイスのビジュアル特徴抽出器およびオーディオ特徴抽出器と共同で構成される。

クライアントデバイスにおいてオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成することによって、サーバデバイスに送信される発声を解析するために使用される情報のデータサイズが低減され得る。このように構成されるクライアントサーバモデルを使用することによって、クライアントデバイスでの処理が低減され得、ビークル、家電またはウェアラブルデバイスにおけるような埋込デバイスの範囲を含むクライアント実現例のより大きな多様性が可能になる。

１つの変形例では、ビジュアル特徴抽出器およびオーディオ特徴抽出器のうちの１つ以上は、ニューラルネットワークアーキテクチャを含み、たとえば畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの１つ以上を含む。１つの場合では、ビジュアル特徴抽出器は畳み込みニューラルネットワークを含み得、オーディオ特徴抽出器はリカレントニューラルネットワークを含み得る。これらの場合では、共同の構成は、ニューラルネットワークの共同学習を含み得る。これは、たとえば、学習データの好適なセットが与えられる場合、エンドツーエンドの態様で共同の構成を行なうためのメカニズムを提供する。この変形例は、音および視覚の両方におけるニューラルネットワークアーキテクチャの最近の進歩が、スピーチ処理パイプライン内においてモジュールで実現されることを可能にする。

１つの変形例において、ビジュアル特徴テンソルは、環境についてのビジュアルコンテキストの数値表現を含む。この場合、クライアントデバイスのトランスミッタは、オーディオ特徴テンソルとともにオーディオデータをサーバデバイスに送信するように構成されており、サーバデバイスの言語的モデルは、オーディオデータに基づいて言語的特徴を決定するよう、オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用して構成される。この変形例では、オーディオデータは、レガシースピーチ処理パイプラインでのように、時系列サンプルまたは周波数特徴を含み得る。ビジュアル特徴テンソルおよび／またはオーディオ特徴テンソルは、レガシースピーチ処理パイプラインの拡張として使用され得る。これらのテンソルは、スピーチ処理パイプラインの言語的モデルに有益である発声の環境の数値表現を提供し、たとえば、音素および／またはトランスクリプションされたテキストの予測のような言語的モデルの予測を向上させる圧縮された形態の付加的な情報を提供する発声の環境の数値表現を提供する。

１つの変形例では、画像データはビデオデータを含み、オーディオデータは時間的にビデオデータに相関される。この変形例では、ビジュアル特徴抽出器およびオーディオ特徴抽出器はビデオデータおよびオーディオデータに並列に適用される。これにより、例は、たとえば音声コマンドへの人間のような応答性といった、発声に対する迅速な応答を提供するよう、低コストの埋込デバイスでもますます使用されているマルチコア中央処理装置および／またはグラフィカルプロセッシングユニット（ＣＰＵおよび／またはＧＰＵ）を活用し得る。

１つの変形例では、ビジュアル特徴抽出器は、画像データのフレームを受け取る第１の入力層と、第１の出力層とを含む複数の層を含む第１の畳み込みニューラルネットワークアーキテクチャを含み、第１の畳み込みニューラルネットワークアーキテクチャは、複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータのセットは、１つ以上の付加的な分類層が第１の出力層に結合された状態で、学習動作から導出される。この変形例では、ビジュアル特徴抽出器はさらに、第２の入力層および第２の出力層を含む１つ以上の層を含む第２のニューラルネットワークアーキテクチャを含み、第２の入力層は、第１の畳み込みニューラルネットワークアーキテクチャの第１の出力層に結合されており、第２の出力層は、第１の出力層の次元数未満である次元数を有する。この変形例は、ビジュアル特徴学習の適切性および安定性を保証するよう、予め学習された畳み込みニューラルネットワーク（たとえば「既製」のシステム）からビジュアル特徴抽出器が構築されることを可能にしつつ、第２のニューラルネットワークアーキテクチャがオーディオ処理に適切であるビジュアル特徴をラーニングするよう情報ボトルネックを実現することを可能にする。

上記の変形例において、第２のニューラルネットワークアーキテクチャは、学習動作において、オーディオ特徴抽出器および言語的モデルと共同で学習され得、第１の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータのセットは、学習動作中は固定され得る。これにより、予め学習された畳み込みニューラルネットワークのパラメータは、いわゆる破滅的忘却（catastrophic forgetting）を回避するために固定され得る。破滅的忘却とは、すなわち、低いエラーの多様体（manifold）から学習が離れると、当該多様体を表わすパラメータ値が失われることである。

１つの変形例では、アテンションプリプロセッサ（attention pre-processor）が、言語的モデルによる使用に先立って、オーディオ特徴テンソルおよびビジュアル特徴テンソルに重みを適用するように使用される。アテンションプリプロセッサの使用は、ラーニングされた経験に基づいて、ビジュアル特徴テンソルおよび／またはオーディオ特徴テンソルのある要素に重み付けするように作用し得る。これは、パフォーマンスを向上させ得、たとえば、エラーレートを低減し、学習を向上させ得る。１つの場合では、これは、ある特徴を重み付けするために「先の」項を導入することを伴い得る。

１つの変形例では、言語的モデルは、入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、発声のテキスト表現を出力するニューラルネットワークアーキテクチャを含む。当該ニューラルネットワークアーキテクチャは、リカレントニューラルネットワークアーキテクチャであり得る。この変形例では、発声を解析するのに使用可能なテキストは言語的モデルによって生成され得、言語的モデルは、オーディオおよびトランスクリプションされたテキスト（たとえば字幕）を有するビデオのデータセットに基づいて共同で学習され得る。したがって、変形例は、スピーチを処理する際に解析エラーを低減するために、大きなオンラインデータセットを活用し得る。

１つの変形例では、オーディオ特徴テンソルは、環境のためのオーディオコンテキストの表現を含み、ビジュアル特徴テンソルは、環境のためのビジュアルコンテキストの表現を含む。この変形例では、サーバデバイスのレシーバは、オーディオ特徴テンソルに加えてオーディオデータを受け取るように構成され、言語的モデルは、オーディオデータからの発声を解析するために使用される音素データを生成する音響モデルを含み、音響モデルは、オーディオ特徴テンソルおよびビジュアル特徴テンソルに基づいて構成される。この変形例では、たとえば時間および／または周波数データからの音素のシーケンスをトランスクリプションするモデルといった音響モデルは、環境のコンテキストの表現としてビジュアル特徴テンソルおよびオーディオ特徴テンソルを供給することにより向上され得る。たとえば、この変形例は、たとえば確率および／またはｎグラムシーケンスを使用する非ニューラル統計モデルが向上されることを可能にし得る。環境のコンテキストは、雨の中または公共交通機関上といったような困難性のあるオーディオ環境において、音素の正確なシーケンスを明確にするよう音響モデルを支援することができる。

１つの変形例では、音響モデルは、音響モデル構成のデータベースと、オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいて、データベースから音響モデル構成を選択する音響モデルセレクタと、オーディオデータを処理する音響モデルインスタンスとを含み、音響モデルインスタンスは、音響モデルセレクタによって選択される音響モデル構成に基づいてインスタンス化され、音響モデルインスタンスは、発声を解析するために使用される音素データを生成するように構成される。この変形例では、オーディオ特徴テンソルおよびビジュアル特徴テンソルはたとえば、環境について適切な音響モデルを選択するために使用される数ビットの出力を有する低次元数表現を含み得る。この変形例は、効率的に実現され得、かつ、クライアントデバイスからサーバデバイスに送信される付加的なデータを低減し得る。この変形例はさらに、現実世界のデータと共に使用される場合、堅牢であり得る。たとえば、アーキテクチャを制限することにより、学習問題および複雑なエラーモードの可能性が低減される。

１つの変形例では、言語的モデルはさらに、音素データを受け取り、かつ、発声を表わすテキストデータを生成する、音響モデルに伝達可能に結合される言語モデルを含む。この変形例では、言語モデルは、オーディオ特徴テンソルおよびビジュアル特徴テンソルを、発声を表わすテキストデータを生成するために使用される入力として受け取るように構成され得る。したがって、この変形例は、ある条件下で直接的な特徴・ツー・テキスト実現例（feature-to-text implementation）より信頼性があり得る２層または２ステージの言語的モデルを提供する。

１つの局面では、クライアントデバイスにおいてスピーチを処理するための方法が提供される。当該方法は、上記クライアントデバイス局面に関連して行なわれ得る。当該方法は、クライアントデバイスにおいて、ユーザからの発声を特徴とするオーディオデータをキャプチャすることと、クライアントデバイスにおいて、ユーザの環境を特徴とする画像データをキャプチャすることと、クライアントデバイスにおいてビジュアル特徴抽出器を使用して、画像データの１つ以上のフレームからビジュアル特徴テンソルのセットを抽出することとを含み、画像データのフレームは、ビジュアル特徴テンソルのセットより大きい情報コンテンツを有しており、たとえば、ビジュアル特徴テンソルは、画像データのフレームの圧縮された表現を提供しており、上記方法はさらに、クライアントデバイスにおいてオーディオ特徴抽出器を使用してオーディオデータからオーディオ特徴テンソルのセットを抽出することと、クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをサーバデバイスに送信することとを含み、サーバデバイスは、少なくともビジュアル特徴テンソルおよびオーディオ特徴テンソルを言語的モデルに供給するように構成されており、言語的モデルは、発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成される。

１つの局面では、サーバデバイスにおいてスピーチを処理するための方法が提供される。当該方法は、サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをクライアントデバイスから受け取ることを含み、ビジュアル特徴テンソルは、クライアントデバイスによってキャプチャされる画像データのフレームに基づいてクライアントデバイスのビジュアル特徴抽出器によって生成され、画像データのフレームは、クライアントデバイスの環境を特徴とし、かつ、ビジュアル特徴テンソルより大きい情報コンテンツを有しており、たとえば、ビジュアル特徴テンソルは、画像データのフレームの圧縮された表現を提供する。オーディオ特徴テンソルは、ユーザの発声の後でクライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、クライアントデバイスのオーディオ特徴抽出器によって生成される。上記方法はさらに、サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットを入力として言語的モデルに提供することを含み、言語的モデルは、発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成され、上記方法はさらに、言語的モデルの出力を使用して発声を解析することを含む。上記方法は、上記の局面に記載されるクライアント側の動作に応答してサーバ側の方法として行なわれ得る。

両方の局面の方法は、上記のデバイス局面について説明された利点と同様の利点を提供し得る。

１つの変形例では、当該サーバ側の方法は、サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られたセットに基づいて、音響モデル構成を選択することと、サーバデバイスにおいて、オーディオデータを受け取ることと、発声に対応する音素データを決定するために、音響モデル構成に従って構成される音響モデルをオーディオデータに適用することと、音素データを使用して発声を解析することとを含む。たとえば、この変形例は、上述したような堅牢な２層モデルを可能にし得る。

１つの変形例では、当該クライアント側の方法は、クライアントデバイスにおいて、発声に対する応答をサーバデバイスから受け取ることと、クライアントデバイスにおいて、サーバデバイスから受け取られる発声に対する応答に基づいてユーザに対する応答を提供することとを含む。たとえば、発声は質問のような音声コマンドを含み得、応答は、ユーザに対して口述される質問応答を含み得る。別の場合では、発声はスピーチを含み得、応答はスピーチの口述の指示を含み得る。さらに別の場合では、発声は、デバイスを制御する音声コマンドを含み得、応答は、音声コマンドの実行の後の当該デバイスの状態の指示を含み得る。

１つの変形例では、クライアント側の方法は、画像データのフレームを受け取る第１の入力層と、第１の出力層とを含む複数の層を含む第１の畳み込みニューラルネットワークアーキテクチャに、キャプチャされた画像データから導出されるデータを提供することと、第２の出力層を含む１つ以上の層を含む第２のニューラルネットワークアーキテクチャに第１の出力層の出力を提供することとを含み、第２の出力層は、第１の出力層の次元数未満である次元数を有しており、第２の出力層の出力は、ビジュアル特徴テンソルのセットを生成するために使用される。この変形例は上述したような利点を有し得る。

１つの局面では、スピーチを処理するためのシステムを構成する方法が存在する。この局面では、当該方法は、スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、言語的モデルは、言語的特徴のセットを決定するために、オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、上記方法はさらに、時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、モデルパラメータのそれぞれのセットについて学習された値を決定するために、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルを、学習データを使用して共同で構成することとを含み、共同で構成することは、スピーチ認識モデルを通じて言語的モデルのエラーをバックプロパゲーションすることを含む。

上記の局面は、以前に記載されたクライアントデバイスおよびサーバデバイスを学習させる効率的な方法を提供し得る。オーディオ特徴抽出器と、ビジュアル特徴抽出器と、言語的モデルとを共同で構成することにより、言語的モデルによる予測におけるエラーは、言語的モデルを通ってオーディオ特徴抽出器およびビジュアル特徴抽出器へ「流れ」、当該エラーを最小化する出力特徴につながる態様でこれらの抽出器のパラメータを修正することが可能になる。従って、オーディオ特徴抽出器およびビジュアル特徴抽出器は、言語的モデルのパフォーマンスを向上させる特徴表現をラーニングする。この態様でのエンドツーエンドの学習は、自動化されたパイプラインの部分として構成および実現するのが容易である。

１つの変形例では、上記方法は、オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された値を１つ以上のクライアントデバイスに伝達することと、言語的モデルについての学習された値を１つ以上のサーバデバイスに伝達することと、学習された値を使用して１つ以上のクライアントデバイスおよび１つ以上のサーバデバイスを構成することとを含み、１つ以上のクライアントデバイスは、１つ以上のサーバデバイスによって処理されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成するために使用するために、学習された値をロードするように構成される。これにより、共同の構成は、分散されたシステムにおいて複数のデバイスに送達されるパラメータにより中央位置において行なわれ得る。

１つの変形例では、学習中に、言語的モデルによって使用されるオーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの１つ以上が重み付けされ得る。特徴テンソルのうちの１つに対する値は、たとえば、オーディオ特徴テンソルおよびビジュアル特徴テンソルの１つ以上が利用不可能でも、言語的モデルが発声を解析することができるように堅牢性を向上させるために大きさが低減され得る。これにより、ビジュアル特徴テンソルが利用可能でない場合、言語的モデルは、オーディオのみのモードへ「フォールバック」することが可能であり得る。

１つの変形例では、上記方法は、学習されたビジュアル分類モデルを得ることと、学習されたビジュアル分類モデルのための新しい出力層を生成するために、構成されたビジュアル分類モデルの１つ以上の分類層を除去することと、ビジュアル特徴抽出器を得るために、１つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを新しい出力層に伝達可能に結合することとを含み、さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、新しい出力層の次元数より小さい。これは、たとえば、上で論じたように、予め学習されたモデルの使用と、これがもたらす利点との使用を可能にし得る。

１つの局面では、コンピュータプロセッサによって実行されると、上で記載した方法の局面のうちの１つ以上をマシンに実現させる命令を含むコードを格納する一時的でないコンピュータ読取可能媒体が存在する。

１つの局面では、スピーチ処理装置が存在する。当該スピーチ処理装置は、スピーチデータを解析するために使用される音素データを生成する音響モデルと、音響モデルからの音素データを使用してスピーチデータのトランスクリプションを生成する言語モデルと、スピーチデータがキャプチャされるビジュアル環境の表現を提供する、音響モデルおよび言語モデルのうちの少なくとも１つに伝達可能に結合されるビジュアルコンテキストインジケータとを含み、音響モデルおよび言語モデルのうちの１つは、ビジュアル環境の表現に基づいて区別的に構成される。

例に従ったスピーチ処理システムを示す概略図である。例に従ったスピーチ処理のためのクライアントデバイスを示す概略図である。例に従ったスピーチ処理機器を含むモータビークルを示す概略図である。例に従ったスピーチ処理機器を含むモバイルコンピューティングデバイスを示す概略図である。例に従った、クライアントデバイスとサーバデバイスとの間の通信を示すシーケンス図である。例に従った、クライアントデバイスとサーバデバイスとの間の通信を示すシーケンス図である。例に従った、クライアントデバイスとサーバデバイスとの間の通信を示すシーケンス図である。例に従ったビジュアル特徴抽出器を示す概略図である。例に従ったスピーチを処理するためのシステムを示す概略図である。図６のシステムがどのように学習され得るかについての例を示す概略図である。例に従った音響モデルセレクタを含む、スピーチを処理するためのシステムを示す概略図である。例に従ったクライアントデバイスにおいてスピーチを処理するための方法を示すフロー図である。例に従ったサーバデバイスにおいてスピーチを処理するための方法を示すフロー図である。例に従ったスピーチを処理するためのシステムを構成する方法を示すフロー図である。例示的なコンピューティングデバイスを示す概略図である。例に従った、スピーチを処理するためのシステムを構成する間のコンピューティングデバイスのセット間の通信を示すシーケンス図である。

詳細な説明
以下に、さまざまな興味深い局面を示す本技術のさまざまな例を記載する。一般に、例は、記載された局面を任意の組合せで使用し得る。

本願明細書において記載されるある例は、スピーチ処理を向上するためにビジュアル情報を使用する。これらの例は、我々の環境内において普及した画像キャプチャデバイスを利用して、スピーチ処理パイプライン内で使用され得る環境の表現をエンコードする。そのため、これらの例は、オーディオ処理の精度および信頼性を向上するマルチモーダルな能力によりスピーチ処理システムを拡張するように理解され得る。

本願明細書において記載されるある例は、音声アシスタント、携帯電話、モータビークルおよびウェアラブルデバイスといった埋込スピーチ処理デバイスを含む多くのさまざまなデバイスにおいて向上が実現されることを可能にする実際的なクライアントサーバインプリメンテーションを提供する。これらの例は、ネットワーク上で交換されるデータ量を低減するが高度なスピーチ処理方法が適用されることを可能にするマルチモーダルなデータを処理するためのフレームワークを提供する。

本技術のある例は、スピーチ処理システムのためのシステムおよび方法を提供することにおいて、ＵＳ８，７６８，６９３Ｂ２およびＵＳ２００９／００６０３５１Ａ１に対して利点を有する。ＵＳ８，７６８，６９３Ｂ２は、オーディオデータをテキストに変換して画像にタグをつけることに関係があり、スピーチ処理を向上させるためにオーディオデータおよび画像データを使用していない。ＵＳ２００９／００６０３５１Ａ１は画像分類に関係がある。ＵＳ２００９／００６０３５１Ａ１は、画像をパッチに分割することを教示しており、これらのパッチについての特徴は「ビジュアルワード」として公知である。これらの「ビジュアルワード」は、言語的特徴とは対照的なハッシュコードの形態として理解され得る。「ビジュアルワード」は画像をカテゴライズするために使用される。ＵＳ２００９／００６０３５１Ａ１はスピーチ処理について有用な教示を提供していない。

クライアントサーバアーキテクチャ
図１は、例に従ったクライアントサーバアーキテクチャ１００を示す。クライアントサーバアーキテクチャ１００は、少なくとも１つのネットワーク１３０を介してサーバデバイス１２０と通信する複数のクライアントデバイス１１０を含む。ネットワーク１３０は、さまざまな物理的な技術（たとえば、イーサネット（登録商標）のような有線技術および／またはＷｉ－Ｆｉ（登録商標）（ＩＥＥＥ８０２．１１）規格およびセルラー通信技術のような無線技術）を使用して実現され得る１つ以上のローカルおよび／またはワイドエリアネットワークを含み得る。ある場合において、ネットワーク１３０は、１つ以上のプライベートネットワークおよびインターネットのようなパブリックネットワークの混合を含み得る。クライアントデバイス１１０およびサーバデバイス１２０は、異なる技術および通信経路を使用してネットワークを介して通信し得る。

クライアントデバイス１１０は、たとえば非コンピューティングデバイス内に位置する電子回路内の処理リソースといった埋込コンピューティングデバイスを含むある範囲のコンピューティングデバイスを含み得る。図１において、クライアントデバイス１１０は、例として、パーソナルコンピューティングデバイス１１２、ウェアラブルデバイス１１４、モータビークル１１６およびホームアシスタント１１８を含む。これらの例は限定的ではなく、たとえば、クライアントデバイスは代替的には、冷蔵庫およびテレビジョンのような「スマート」家電と、セキュリティ機器と、デスクトップおよびオフィスコンピューティングデバイスと、カメラと、ロボティックデバイスとを含んでもよい。パーソナルコンピューティングデバイス１１２は、セルラー通信デバイスおよび／または無線ネットワーキングデバイスを含んでもよい。パーソナルコンピューティングデバイス１１２はスマートフォン、タブレットまたはラップトップデバイスを含んでもよい。図１におけるウェアラブルデバイス１１４はいわゆる「スマート」ウォッチとして示されているが、代替的には、ヘッドマウントユーザインターフェイスデバイス、イヤーピース、ウェアラブルフィットネストラッカー、および、埋込回路を有する「スマート」衣類デバイスといったデバイスを含んでもよい。モータビークル１１６は車として示されており、たとえば、クライアントデバイスは車両制御システム内に埋め込まれてもよいが、たとえば航空および海上ビークルといった他のビークルタイプおよび形態が使用されてもよい。ビークルは手動で制御されてもよく、および／または、自律機能（たとえば航空「ドローン」）を有してもよい。ホームアシスタント１１８は、家で使用されるオーディオデバイスを含み得る。例示的なクライアントデバイスのさらに別の特徴は、後のセクションにおいてより詳細に記載される。

サーバデバイス１２０は、１つ以上の中央処理装置および／またはグラフィックスプロセッシングユニットを有するコンピューティングデバイスと、メモリリソースとを含み得る。図１において、サーバデバイス１２０は、レシーバ１２２および言語的モデル１２４を含む。レシーバ１２２は、通信インターフェイスと、（たとえばマルチレイヤー通信スタックにおける）１つ以上の通信プロトコルのインプリメンテーションとを含み得る。レシーバ１２２は、ネットワーク１３０を介してクライアントデバイス１１０からデータを受け取るように構成される。１つの実現例において、レシーバ１２２は、有線または無線物理インターフェイスと、予め規定されたフォーマットでの要求を受け取るための方法を提供する１つ以上の通信プロトコルとを含み得る。１つの場合では、レシーバ１２２は、インターネットプロトコルスイート上で動作するアプリケーションレイヤーインターフェイスを含み得る。この場合、アプリケーションレイヤーインターフェイスは、サーバデバイス１２０を識別する特定のインターネットプロトコルアドレスに方向付けされる通信を受け取るように構成され得、パス名またはウェブアドレスに基づいたルーティングが１つ以上のプロキシおよび／または通信（たとえば「ウェブ」）サーバによって行なわれる。

図１におけるサーバデバイス１２０は、ユーザ（たとえばクライアントデバイス１１０のユーザ）によって発される発声に関するデータをクライアントデバイス１１０の１つ以上から受け取るように構成される。このコンテキストにおける発声は、スピーチのような、言語的情報を表わす、ユーザによって作り出されるボーカル音に関連付けられる。たとえば、発声は、ユーザの喉頭から発せられるスピーチを含み得る。発声は、たとえばユーザからの話された要求といった音声コマンドを含み得る。音声コマンドはたとえば、アクションを実行するための要求（たとえば、「音楽を再生」、「暖房をオン」、「リマインダをセット」）、要求に関するさらに別の情報（たとえば、「アルバムＸＹ」、「華氏６８度」、「火曜日の午前９時」）」、トランスクリプションされるスピーチ（「たとえば、…を筆記）」または「ユーザＡに次のメッセージを送信…」）、および／または、情報の要求（たとえば「Ｃの交通量はどんな感じ？」、「今日の天気は？」、または、「最高のビーガンタコスはどこ？」）を含み得る。ユーザは、人間またはマシンであり得る（たとえば、後者は、人工スピーチを使用するマシンツーマシンの通信を表わし得る）。

図１の例では、クライアントデバイス１１０は、ユーザからの発声を特徴とするオーディオデータをキャプチャするように構成される。１つの場合では、オーディオデータはクライアントデバイス自身によってキャプチャされ得、別の場合では、別のデバイスがオーディオデータをキャプチャし得る。たとえば、ウェアラブルデバイス１１４を動作するユーザは、ウェアラブルデバイス１１４に向かって話し得るか、または、ホームアシスタント１１８または別のオーディオキャプチャデバイスを含む部屋の中へ話し得る。オーディオデータは、１つ以上のオーディオキャプチャデバイス（たとえば１つ以上のマイクロフォン）からの時系列測定値を含み得る。たとえば、パルス符号変調（ＰＣＭ： Pulse Code Modulation）データの１つ以上のチャンネルが、予め規定されたサンプリングレート（たとえば８ｋＨｚまたは４４．１ｋＨｚ）でキャプチャされ得、各サンプルは予め規定された数のビットによって表わされる（たとえば１つのサンプル当たり８ビット、１６ビットまたは２４ビットであり、各サンプルは整数または浮動小数点値を含む）。キャプチャの後、オーディオデータは、たとえば、時間および周波数ドメインのうちの１つ以上においてフィルタリングすることによって、ビームフォーミングおよびノイズ低減を適用することによって、および／または、フィルタリングおよび正規化によって処理され得る。１つの場合において、オーディオデータは、たとえば、スペクトログラムデータの１つ以上のフレームを作成するために高速フーリエ変換を行なうことによって、周波数ドメインにおいて時間にわたる測定値に変換され得る。ある場合には、フィルタバンクが、メル周波数ケプストラム係数のような１つ以上の周波数ドメイン特徴についての値を決定するために適用され得る。本願明細書に記載されるようなオーディオデータは、オーディオ処理パイプラインに沿ってなされた任意の測定値を含み得る。

図１の例において、キャプチャされたオーディオデータは、クライアントデバイス１１０のうちの少なくとも１つからネットワークを介してサーバデバイス１２０のレシーバ１２２に送信されるオーディオ特徴１４０のセットに変換される。これらのオーディオ特徴１４０は、たとえば１つ以上の要素を有する１つ以上の次元を有するアレイといったオーディオ特徴テンソルを含み得る。１つの場合では、オーディオ特徴テンソルは、固定長１次元アレイ（たとえばベクトル）、または、たとえばアレイの各要素についての１つの値といった数値を含み得る。数値は、（たとえば、８ビットは０から２５５の範囲を与えるといったように、特定のビット長によってセットされる範囲内の）整数値、または、（たとえば、３２ビットまたは６４ビットの浮動小数点値として規定される）浮動小数点値を含み得る。浮動小数点値は、正規化がオーディオ特徴テンソルに適用される場合、たとえば値が０～１または－１～１の範囲にマッピングされる場合、使用され得る。たとえばオーディオ特徴テンソルのサイズ（単位はビットまたはバイト）は、大きさがより小さくなる順である場合、生のキャプチャされたオーディオデータのサイズより小さくあり得る。したがって、たとえば、データサイズおよび／またはデータ要素の数によって表わされるようなオーディオ特徴テンソルの情報コンテンツは、オーディオデータの情報コンテンツよりも少ない。たとえば４４．１ｋＨｚで１６ビットサンプルを有するオーディオデータの１秒は、８８２００バイトのサイズを有するデータに帰着し得、その一方、３２ビットの浮動小数点値の２５６個の要素は１０２４バイトのサイズを有するデータに帰着し得る（８ビットの整数値は、２５６バイトであるさらに小さなサイズを有する）。これは、圧縮された表現を提供すると理解され得、たとえば、ビジュアル特徴テンソルのサイズが、入力として使用される画像データの対応するフレームまたは複数のフレームのサイズ未満であると理解され得る。一般に、ビジュアル特徴テンソルは、たとえばその後のスピーチ処理のためにそれでも非常に情報を与えるものであり、サイズは、スピーチ処理に適切でない情報を廃棄することにより低減され、これはロッシー圧縮（lossy compression）の形態として機能する。

図１の例において、オーディオデータと同様の態様で、クライアントデバイス１１０はさらに、クライアントデバイスの環境を特徴とする画像データをキャプチャするように構成される。１つの場合では、画像データはクライアントデバイス自身によってキャプチャされ得、別の場合では、別のデバイスが画像データをキャプチャし得る。たとえば、ウェアラブルデバイス１１４はカメラを含み得、画像データはカメラからキャプチャされる画像を含み得る。別の場合では、ユーザはウェアラブルデバイス１１４とインタラクションしており、オーディオデータのキャプチャは、環境内の別の画像キャプチャデバイスからの画像データのキャプチャをトリガし得る。たとえば、ユーザは、１つ以上のインターネットプロトコルカメラを含むホーム監視システムを有し得る。この場合において、ユーザがウェアラブルデバイス１１４に音声コマンドを発すると、ウェアラブルデバイス１１４は、ユーザの識別された位置をカバーする１つ以上のインターネットプロトコルカメラからの画像データのフレームのキャプチャを命令し得る。１つの場合では、クライアントデバイス１１０はビデオキャプチャデバイスを含み得、画像データは、ビデオデータの１つ以上のフレームおよび／または静止画像キャプチャデバイスを含み、画像データは、静止画像の１つ以上のフレームを含む。画像データは、たとえば、高さおよび幅（たとえば、アレイの行および列に相当する）を有する２次元アレイを含み得る。１つの場合において、画像データは、複数のカラーチャンネルを有し得、たとえば、赤、緑、青（ＲＧＢ）のカラーの各々のための３つのカラーチャンネルを含み得、各カラーチャンネルは、カラー値の関連付けられる２次元アレイを有する（たとえば１つのアレイ要素当たり８ビット、１６ビットまたは２４ビット）。カラーチャンネルは、異なる画像「面」とも称され得る。ある場合では、たとえば明るさチャンネルを表わす単一のチャンネルだけが使用されてもよい。異なるカラースペースが用途に依存して使用されてもよく、たとえば、画像キャプチャデバイスは、明るさチャンネルＹ（たとえば輝度）ならびに２つの対向するカラーチャンネルＵおよびＶ（たとえば、概略的に青－緑また赤－緑に整列される２つのクロミナンスコンポーネント）を特徴とするＹＵＶ画像データのフレームをネイティブに生成し得る。オーディオデータと同様に、キャプチャの後、画像データのフレームが処理され得、たとえば、１つ以上の画像フィルタリング動作が適用され得る。

図１の例において、キャプチャされた画像データは、クライアントデバイス１１０のうちの少なくとも１つからネットワークを介してサーバデバイス１２０のレシーバ１２２に送信されるビジュアル特徴１５０のセットに変換される。これらのビジュアル特徴１５０は、たとえば１つ以上の要素を有する１つ以上の次元を有するアレイといったビジュアル特徴テンソルを含み得る。１つの場合では、ビジュアル特徴テンソルは、固定長１次元アレイ（たとえばベクトル）、または、たとえばアレイの各要素についての１つの値といった数値を含み得る。数値は、（たとえば、８ビットは０から２５５の範囲を与えるといったように、特定のビット長によってセットされる範囲内の）整数値、または、（たとえば、３２ビットまたは６４ビットの浮動小数点値として規定される）浮動小数点値を含み得る。浮動小数点値は、正規化がビジュアル特徴テンソルに適用される場合、たとえば値が０～１または－１～１の範囲にマッピングされる場合、使用され得る。ビジュアル特徴テンソルはオーディオ特徴テンソルと同じサイズであってもよく、または、異なるサイズであってもよい。たとえば、オーディオ特徴テンソルは、各要素が８ビットの値である３２要素アレイを含み得、ビジュアル特徴テンソルは、各要素が８ビットまたは１６ビットの値である２５６要素アレイを含み得る。一般に、ビジュアル特徴テンソルは、画像データの対応するフレーム未満である情報コンテンツを有しており、たとえば、前述の例を使用すると、８ビットの値を有する長さ２５６のビジュアル特徴テンソルは、８ビットの値の３つのチャンネルを有する６４０×４８０のビデオフレームより小さい、すなわち、２０４８ビットｖｓ７３７２８００ビットである。情報コンテンツは、ビットで測定され得るか、または、エントロピー測定の形態で測定され得る。

図１の例では、言語的モデル１２４は、レシーバ１２２からオーディオ特徴１４０およびビジュアル特徴１５０を受け取り、ユーザの発声を解析するためにこれらを使用する。１つの場合では、言語的モデル１２４は、発声を解析するのに使用可能な言語的特徴のセットを決定するように構成される。言語的モデルはスピーチ処理モジュールとも称され得る。たとえば、言語的特徴は、音素、単語部分（たとえば語幹または原始語）、および単語（句読点にマッピングされる句切りのようなテキスト特徴を含む）を含み得る。１つの場合では、言語的特徴は、発声を表わすテキスト出力を生成するために使用され得る。この場合、テキスト出力はそのまま使用されてもよく、または、コマンドおよび／もしくはコマンドデータの予め規定されたセットにマッピングされてもよい。別の場合では、言語的特徴は、コマンドおよび／またはコマンドデータの予め規定されたセットに直接的にマッピングされてもよい。言語的モデル１２４は、オーディオ特徴１４０およびビジュアル特徴１５０のみに基づいて動作し得るか、または、これらおよび付加的なオーディオデータとに基づいて動作し得る。当該付加的なオーディオデータはたとえば、クライアントデバイスにおけるオーディオ特徴１４０の生成の前のオーディオ処理パイプラインの出力を表わすオーディオデータである。

オーディオ特徴１４０に加えてビジュアル特徴１５０を使用することは、言語的モデル１２４のパフォーマンスを向上させ得る。ビジュアル特徴１５０は、オーディオ特徴１４０によって表わされるオーディオコンテキストと異なる、発声についてのビジュアルコンテキストを提供し得る。たとえば、ビジュアル特徴１５０のセットは、ユーザがモータビークル内にいることを示す表現を提供し得るか、または、ユーザが公園において外にいることを示す表現を提供し得る。言語的モデル１２４によって可能性のあるものとしてランク付けされる複数の候補音素シーケンス（たとえば、しきい値より大きな確率を有する）が存在する場合、「モータビークル」の場合では、言語的モデル１２４は、周囲の道路およびビークルノイズの存在と一致している音素シーケンスを選択し得、その一方、「外にいる」場合では、言語的モデル１２４は、風のノイズの存在と一致している音素シーケンスを選択し得る。各場合において、ビジュアル特徴１５０に基づいて異なる音素シーケンスが選択され得る。別の例として、音素シーケンス「ＡＹＳＫＲＩＹＭ」は、ビジュアル特徴１５０のセットが明るい外部環境、スーパーマーケットまたはアイスクリームコーンを表わす場合には、「アイスクリーム（ice cream）」テキスト（または「アイスクリーム（ice cream）」の知識ベースオブジェクト表現）にマッピングされ得るが、ビジュアル特徴１５０のセットがガレージまたは納屋のようなダークもしくは暗い環境または蜘蛛のような動物を表わす場合には、「アイ・スクリーム（I scream）」テキスト（またはユーザおよび「スクリーム（scream）」するアクションの知識ベースのオブジェクト表現）にマッピングされる。

本願明細書において記載される例において、適切なオーディオおよび／またはビジュアル特徴１４０，１５０は、言語的モデル１２４とともにビジュアル特徴抽出器およびオーディオ特徴抽出器を共同で構成することによって、生成され得る。いくつかの例の場合、言語的モデル１２４は、ビジュアル特徴抽出器およびオーディオ特徴抽出器のセットと共同で学習され得るか、および／または、抽出器とパラメータを共有し得る。可能な共同の構成のさらなる詳細は後で以下に記載される。他の例の場合、ビジュアル特徴抽出器およびオーディオ特徴抽出器を言語的モデルにより共同で構成することは、ビジュアル特徴抽出器、オーディオ特徴抽出器および言語的モデルは、連係された態様で互いに動作するように構成され得ることを意味する。ビジュアル特徴抽出器、オーディオ特徴抽出器および言語的モデルは、学習されたニューラルネットワークである場合、別個のネットワークとして扱われることになるが、勾配の学習プロセス計算は、言語的モデルからビジュアル特徴抽出器およびオーディオ特徴抽出器にバックプロパゲーションされることになる。

例示的なクライアントデバイス
図２は、クライアントデバイス２１０の例２００を示す。クライアントデバイス２１０は、図１に示されるクライアントデバイス１１０のうちの１つのバージョンを含み得る。なお、クライアントデバイス２１０は、本記載に関連するある特徴を示すのみであり、クライアントデバイス２１０は、説明の明瞭さのためにここで示されない付加的な特徴を含んでもよい。たとえば、クライアントデバイスは、ディスプレイスクリーンを有さないイヤーピースのように、スクリーンレスであってもよい。いくつかのクライアントデバイスは、自動販売機のように静置されてもよい。いくつかのクライアントデバイスは、自動車またはロボティックデバイスのように移動可能であってもよい。いくつかのクライアントデバイスは携帯電話のようにポータブルであってもよい。いくつかのクライアントデバイスは、キーボードまたはタッチスクリーンのような手動インターフェイスを含んでもよい。さらに、クライアントデバイス２１０は、コンポーネントの１つの可能な配置を提供し、たとえば分散ベースの他の配置も可能である。

図２のクライアントデバイス２１０は、オーディオキャプチャデバイス２２０および画像キャプチャデバイス２３０を含む。オーディオキャプチャデバイス２２０は、クライアントデバイス２１０の外部の環境から音２２５を表わすオーディオデータをキャプチャするように構成される。上述したように、オーディオキャプチャデバイス２２０は、予め規定されたサンプリングレートでオーディオサンプルを記録するように構成されるマイクロフォンまたはマイクロフォンのアレイを含み得る。ある場合には、サンプリングレート、ビット分解能、チャンネルの数およびサンプルフォーマットのようなオーディオキャプチャデバイス２２０の局面が構成可能であり得る。オーディオデータはパルスコード変調され得る。オーディオキャプチャデバイス２２０はさらに、オーディオ前処理コンポーネントおよび／またはフィルタリングコンポーネント（たとえばコントラスト調節、ノイズ除去など）を含み得る。本願明細書において記載されるコンポーネントおよび方法は、共同の構成ステージにより幅広いさまざまなオーディオフォーマットに対応することができる。

画像キャプチャデバイス２３０は、クライアントデバイス２１０の外部のビジュアル環境２３５を特徴とする画像データのフレームをキャプチャするように構成される。上述したように、画像キャプチャデバイス２３０は、コマンドにより、または、予め規定されたサンプリングレートで画像データのフレームをキャプチャするように構成される１つ以上のスチルカメラまたはビデオカメラを含み得る。１つの場合において、予め規定されたサンプリングレートは、全解像度ビデオのためのフレームレート未満であり得、たとえば、ビデオストリームは１秒当たり３０個のフレームでキャプチャされ得るが、画像キャプチャデバイスのサンプリングレートはこのレートでキャプチャしてもよく、または、１秒当たり１フレームのような低いレートでキャプチャしてもよい。当該例において、画像データの１つ以上のフレーム（たとえば合計または１秒当たり）は、さらなるスピーチ処理で使用するために、ビジュアル環境２３５の状態をキャプチャするのに十分であり得る。画像キャプチャデバイス２３０は、１つ以上のカラーチャンネル（たとえば、上述したようなＲＧＢまたはＹＵＶ）を有する画像データの１つ以上のフレームをキャプチャし得る。ある場合には、フレームレート、フレームサイズおよび解像度、カラーチャンネルの数ならびにサンプルフォーマットのような画像キャプチャデバイス２３０の局面が構成可能であり得る。ある場合において、画像データのフレームはダウンサンプリングされ得、たとえば、３８４０×２１６０の「４Ｋ」解像度でビデオをキャプチャするビデオキャプチャデバイスでは、６４０×４８０以下にダウンサンプリングされ得る。代替的には、低コストの埋込デバイスの場合、３２０×２４０以下で画像データのフレームをキャプチャする低解像度画像キャプチャデバイスが使用され得る。ある場合において、安価な低解像度画像キャプチャデバイスでも、スピーチ処理が向上するために十分な視覚情報を提供し得る。前述のように、画像キャプチャデバイス２３０はさらに、画像前処理コンポーネントおよび／またはフィルタリングコンポーネント（たとえばコントラスト調節、ノイズ除去、色調節、クロッピング（cropping）など）を含み得る。本願明細書において記載されるコンポーネントおよび方法は、共同の構成ステージにより幅広いさまざまなオーディオフォーマットに対応することができる。

ある場合において、画像キャプチャデバイスは、ビジュアル環境の広い視界をキャプチャするために１つ以上のレンズを含み得る。たとえば、レンズは、１８０度までの視界をキャプチャすることができる広角レンズまたは魚眼レンズを含み得る。ある場合において、画像データが、（たとえばビークルなどの上部にマウントされるような）３６０度のパノラマカメラからキャプチャされ得る。キャプチャされた画像データは人間によって解釈可能である必要はなく、組み合わせたスピーチ処理システムの共同の構成は、画像フォーマットの幅広いアレイからの関連する特徴表現を「ラーニング」することになる。

図２のクライアントデバイス２１０はさらにオーディオ特徴抽出器２４０およびビジュアル特徴抽出器２５０を含む。オーディオ特徴抽出器２４０は、オーディオキャプチャデバイス２２０に通信可能に結合され、ビジュアル特徴抽出器２５０は、画像キャプチャデバイス２３０に通信可能に結合される。

オーディオ特徴抽出器２４０は、オーディオキャプチャデバイス２２０からオーディオデータを受け取るように構成される。これは、生のオーディオサンプルおよび／または前処理されたオーディオデータのセットを含み得る。１つの場合では、オーディオ特徴抽出器２４０は、たとえばオーディオ要素の固定長アレイといった、初期テンソルの形態でオーディオデータを受け取るように構成される。オーディオデータは、時間サンプル当たり供給される大きさを有するパルスコード変調されたオーディオデータであり得る。オーディオデータは、１つの時間サンプルのためのデータ（たとえば、シーケンスとして供給される）、および／または、時間サンプルのセットのためのデータ（たとえば、予め規定された時間窓に対応するデータのフレームとして受け取られる）を含み得る。たとえば、４４．１ｋＨｚのサンプリングレートでは、１つの秒窓についての１つのチャンネルのためのオーディオデータのアレイは、たとえば４４１００個の８ビット、１６ビットまたは２４ビットの値といった４４１００個のサンプルを含み得る。オーディオデータは、ｔ秒の時間期間をカバーするサンプルのセットのローリングにおいて供給され得る。１つの場合において、オーディオ特徴抽出器２４０は、周波数データのフレームとして、たとえば１つ以上の時間点についての周波数の範囲についての振幅（および／または位相）の値のセットとして、オーディオデータを受け取るように構成され得る。

オーディオ特徴抽出器２４０は、オーディオキャプチャデバイス２４０からオーディオデータを受け取り、かつ、１つ以上のオーディオ特徴テンソル２６０を生成するように構成される。上述したように、オーディオ特徴テンソルは、１つ以上の次元を有する値のアレイを含み得る。１つの場合では、オーディオ特徴テンソルは、オーディオデータにおいて検出されるオーディオ特徴を表わす数値のベクトルを含み得る。たとえば、オーディオ特徴テンソルは、８ビットもしくは１６ビットの整数値または３２ビットもしくは６４ビットの浮動小数点値の１６要素アレイ、３２要素アレイ、６４要素アレイまたは２５６要素アレイを含み得る。１つの場合では、オーディオ特徴テンソル２６０は、１つ以上の２値または整数値のアレイを含み得る。この場合、オーディオ特徴テンソル２６０の要素は、特定のオーディオ環境を識別するフラグまたは分類を表わし得る（たとえば、「屋内／屋外」、「車内／車外」、「群衆／非群衆」、「大音／静音」など）。別の場合では、オーディオ特徴テンソル２６０は、２つ以上の次元を含み得、たとえば、第２の次元は一連の時間サンプルを表わし得、および／または、各次元は異なる特徴セットを表わし得る。たとえば、発声について生成されるオーディオ特徴テンソル２６０は、ｔ１個の時間サンプルに亘るｓ１個の特徴セットからのｆ１個の特徴を表わすｆ１×ｓ１×ｔ１テンソル（たとえば、Ａ［ｉ，ｊ，ｋ］）を含み得る。

ビジュアル特徴抽出器２５０は画像キャプチャデバイス２３０から画像データを受け取るように構成される。これは、生の画像もしくはビデオフレームおよび／または前処理された画像データのセットを含み得る。１つの場合において、ビジュアル特徴抽出器２５０は、たとえば１つ以上のｙ×ｘ×ｃ画像平面のシーケンス、および／または、付加的な時間次元に亘るそのような平面のボリューム（たとえばｙ×ｘ×ｃ×ｔ）といった初期テンソルの形態の画像データを受け取るように構成され、上記式中、ｙは行（たとえば画像高さ）の数であり、ｘは列（たとえば画像幅）の数であり、ｃはカラーチャンネルの数（たとえばＲＧＢの場合は３つ）である。ある場合では、画像データはたとえば、時間ｔでの画像データが同じ時間のオーディオサンプルに対応するように、オーディオデータと同期されてもよい。他の場合では、画像データは、オーディオサンプルと時間的に相関されなくてもよく、たとえば、発声がなされる直前、発声がなされている間、および／または、発声がなされた後にキャプチャされた画像データであってもよい。

ビジュアル特徴抽出器２５０は、画像キャプチャデバイス２３０から画像データを受け取り、かつ、１つ以上のビジュアル特徴テンソル２７０を生成するように構成される。上述したように、ビジュアル特徴テンソルは、１つ以上の次元を有する値のアレイを含み得る。ビジュアル特徴テンソル２７０は、オーディオ特徴テンソル２６０に類似する形態を有し得る。ある場合には、ビジュアル特徴テンソル２７０は、サイズ、次元およびデータタイプのうちの少なくとも１つによって、オーディオ特徴テンソル２６０と異なり得る。１つの場合では、ビジュアル特徴テンソルは、画像データにおいて検出されるビジュアル特徴を表わす数値のベクトルを含み得る。たとえば、ビジュアル特徴テンソルは、８ビットもしくは１６ビットの整数値または３２ビットもしくは６４ビットの浮動小数点値の１６要素アレイ、３２要素アレイ、６４要素アレイまたは２５６要素アレイを含み得る。１つの場合では、ビジュアル特徴テンソル２７０は、１つ以上の２値または整数値のアレイを含み得る。この場合、ビジュアル特徴テンソル２７０の要素は、特定のビジュアル環境を識別するフラグまたは分類を表わし得る（たとえば、「屋内／屋外」、「車内／車外」、「群衆／非群衆」、「位置分類」など）。別の場合では、ビジュアル特徴テンソル２７０は、２つ以上の次元を含み得、たとえば、第２の次元は一連の時間サンプルを表わし得、および／または、各次元は異なる特徴セットを表わし得る。たとえば、発声について生成されるビジュアル特徴テンソル２７０は、ｔ_２個の時間サンプルに亘るｓ_２個の特徴セットからのｆ_２個の特徴を表わすｆ_２×ｓ_２×ｔ_２テンソル（たとえば、Ｖ［ｉ，ｊ，ｋ］）を含み得る。この場合、ｆ_１、ｓ_１およびｔ_１はｆ_２、ｓ_２およびｔ_２と等しくてもよく、等しくなくてもよい。ある場合には、最適な特徴テンソルサイズは、精度と、学習時間および推論速度に対する負の影響との間のトレードオフとして選択され得る。

図２に戻って、クライアントデバイス２１０は、たとえば図１に示されるサーバデバイス１２０に類似するサーバデバイスにオーディオ特徴テンソル２６０およびビジュアル特徴テンソル２７０を送信するトランスミッタ２８０を含む。トランスミッタ２８０は、図１のレシーバ１２２と同様の態様で、通信インターフェイスと、（たとえばマルチレイヤー通信スタックにおける）１つ以上の通信プロトコルのインプリメンテーションとを含み得る。トランスミッタ２８０は、図１に示されるネットワーク１３０のような１つ以上のネットワークを介して、クライアントデバイス２１０からデータを送信するように構成され得る。１つの実現例において、トランスミッタ２８０は、有線または無線物理インターフェイスと、予め規定されたフォーマットでの要求を開始するための方法を提供する１つ以上の通信プロトコルとを含み得る。１つの場合では、トランスミッタ２８０は、たとえばデバイスアドレスおよびポート番号を使用してセットアップされると、構成された通信リンクを介してデータを送信し得る。トランスミッタ２８０は、特定のインターネットプロトコルアドレス（および、いくつかの場合には、ポート番号）を使用して識別されるアプリケーションレイヤーインターフェイスにデータを送信するように構成され得る。

図１を参照して記載されたように、オーディオ特徴テンソル２６０およびビジュアル特徴テンソル２７０は、最初にキャプチャされたオーディオデータおよび画像データに関連付けられる発声を解析するために、サーバデバイスにおいて言語的モデルによって使用され得る。一例では、オーディオ特徴テンソル２６０およびビジュアル特徴テンソル２７０は、発声によって表わされる音声コマンドを決定するために直接的に使用され得る。他の例において、オーディオ特徴テンソル２６０およびビジュアル特徴テンソル２７０は、発声を解析するために、オーディオデータと一緒に付加的な入力として使用され得る。両方の場合において、少なくとも、ビジュアル特徴テンソル２７０は、発声の環境についてのビジュアルコンテキストの数値表現を提供する。オーディオ特徴テンソル２６０は、発声自体の数値表現または環境についての音響コンテキストの数値表現のうちの１つ以上を提供し得る。

１つの場合では、オーディオデータは、複数の部分と、環境の周囲のオーディオ記録を表わす第１の部分と、発声のオーディオ記録を表わす第２の部分とを含み得る。第１の部分は、第２の部分の前、第２の部分中、または、第２の部分の後に記録され得る。オーディオデータの第１の部分は、オーディオ特徴テンソル２６０を生成するために、オーディオ特徴抽出器２４０によって処理され得、オーディオデータの第２の部分は、オーディオ特徴テンソル２６０と一緒に発声を解析するために送信され得る。発声は、キャプチャされたスピーチを特徴としないオーディオ時間の連なりのセクション同士の間のキャプチャされたスピーチの期間として規定され得、オーディオデータは両方を表わし得る。

ある場合には、画像データの複数のフレームが異なる時間においてキャプチャされ得る。たとえば、画像データのフレームは、以下の時間のうちの１つ以上においてキャプチャされ得る。すなわち、発声の前、発声の開始時、発声中、発声の終了時、および／または、発声の後のうちの１つ以上においてキャプチャされ得る。画像データのフレームは、画像データが異なる時間から処理され得るようにバッファされ得る。ある場合において、バッファは、発声の特定の部分からの複数のフレームでポピュレートされ得、当該複数のフレームは、ビジュアル特徴抽出器への入力のためのデータボリュームとして取得され得る。

例示的なモータビークル
図３Ａは、クライアントデバイス３００の１つの例示的な実現例を示す。これは、図１のクライアントデバイス１１６または図２のクライアントデバイス２１０の実現例であり得る。この場合、クライアントデバイスは自動車３０５に組み込まれる。図３Ａは、自動車３０５の側面図を示す。自動車３０５は、自動車３０５のコンポーネントを制御するための制御ユニット３１０を含む。クライアントデバイス２１０のコンポーネントはこの制御ユニット３１０に組み込まれ得る。他の場合では、クライアントデバイス２１０のコンポーネントは、制御ユニット３１０とのコネクティビティのオプションを有する別個のユニットとして実現され得る。自動車３０５はさらに、多くの画像キャプチャデバイス３１５、３２０および３２５を含む。これらは、複数の外部ビデオカメラ３１５および３２０と、少なくとも１つの内部ビデオカメラ３２５とを含んでいる。この例において、画像キャプチャデバイス３１５、３２０および３２５は、制御ユニット３１０に通信可能に結合され得、かつ、制御ユニット３１０によって制御され得る。複数の外部ビデオカメラ３１５および３２０は、駐車動作および／または自律運転機能のために使用され得る。少なくとも１つの内部ビデオカメラ３２５は、たとえばビデオデータによるボイスオーバインターネットプロトコルコールといったビデオ通信、および／または、環境モニタリングのために使用され得る。

本例における自動車３０５は、スピーチキャプチャのために前方にマウントされたマイクロフォン３３０のための方位に乗客を保持するための前方シートおよび後方シートを含む。自動車３０５はさらに、安全性について重大な表示情報を有する運転手ビジュアルコンソール（図示せず）、ならびに／または、ナビゲーション機能、娯楽機能および環境制御機能を有する一般的なコンソール（図示せず）を含み得る。運転手ビジュアルコンソールおよび一般的なコンソールも、制御ユニット３１０に通信可能に結合され得る。この例における制御ユニット３１０はさらに、ローカル処理モジュールおよび無線ネットワーク通信モジュールを含む。

この例において、前方にマウントされたマイクロフォン３３０は、図２のオーディオキャプチャデバイス２２０を実現し得、画像キャプチャデバイス３１５、３２０および３２５のうちの１つ以上は、画像キャプチャデバイス２３０を実現し得る。ローカル処理モジュールは、オーディオ特徴抽出器２４０およびビジュアル特徴抽出器２５０を実現するために少なくとも１つのプロセッサおよびメモリを含み得る。無線ネットワーク通信モジュールはトランスミッタ２８０を実現し得る。

ある場合には、自動車はさらに、側方にマウントされたマイクロフォン、前方オーバーヘッドマルチマイクロフォンスピーチキャプチャユニット、後方オーバーヘッドマルチマイクロフォンスピーチキャプチャユニットといった、付加的なオーディオキャプチャデバイスを含み得る。側方のマイクロフォンならびに前方および後方スピーチキャプチャユニットは、スピーチオーディオをキャプチャし、ノイズをキャンセリングし、話者の位置を識別することを提供し得る。この場合、オーディオ特徴抽出器２４０を実現するために、これらのマイクロフォンおよびキャプチャユニットのうちの１つ以上は、制御ユニット３１０にオーディオデータを提供し得る。制御ユニット３１０は、画像キャプチャデバイス３１５、３２０および３２５のうちの１つ以上によって得られる画像データから１つ以上のビジュアル特徴テンソルのセットを生成するように構成される。無線ネットワーク通信モジュールは、制御ユニット３１０によって生成されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを処理のためにリモートサーバに送信し得る。ある場合には、制御ユニット３１０はさらに、図１におけるサーバデバイス１２０のようなサーバ側の機能を実現し得る。これは「オフライン」モードにおける場合であり得る。１つの場合では、１つ以上のマイクロフォンおよびキャプチャユニットが、発声を特徴とするオーディオデータをキャプチャし得、１つ以上の他のマイクロフォンおよびキャプチャユニットが、オーディオ特徴テンソルの生成のためのオーディオデータをキャプチャし得る。別の場合では、各利用可能なマイクロフォンおよびキャプチャユニットが、発声解析のために少なくともオーディオ特徴テンソルを生成するために処理されるオーディオデータの異なるチャンネルを提供し得る。

例示的なモバイルコンピューティングデバイス
図３Ｂは、クライアントデバイス３５０の別の例を示す。これは、図１のクライアントデバイス１１２または図２のクライアントデバイス２１０の実現例であり得る。この場合、クライアントデバイスはモバイルコンピューティングデバイス３５５に組み込まれる。図３Ｂは、モバイルコンピューティングデバイス３５５の前方図および後方図を示す。モバイルコンピューティングデバイス３５５はスマートフォンまたはタブレットを含み得る。モバイルコンピューティングデバイス３５５の前方部は、ユーザへ情報を表示するためのディスプレイスクリーン３６０を特徴とする。ディスプレイスクリーンはタッチスクリーンを含み得る。モバイルコンピューティングデバイス３５５の前方部はさらに、前方向きカメラ３６５および前方向きマイクロフォン３７０を特徴とする。モバイルコンピューティングデバイス３５５の後方部は、後方向きカメラ３７５および低部内部マイクロフォン３８０を特徴とする。モバイルコンピューティングデバイス３５５の後方図はさらに、内部マルチコアプロセッサ３９０および無線ネットワーク通信モジュール３９５を強調している。モバイルコンピューティングデバイス３５５は、複数の付加的なコンポーネントを特徴とし得るが、これらは明瞭さのために示されていない。前方および後方向きカメラ３６５および３７５は、静止画カメラまたはビデオカメラを含み得る。

使用において、前方向きマイクロフォン３７０および低位置内部マイクロフォン３８０のうちの１つ以上は、図２のオーディオキャプチャデバイス２２０を実現するために使用され得る。図３Ａの例により記載されたように、１つのマイクロフォンがスピーチデータ（すなわち発声）をキャプチャし得るとともに１つのマイクロフォンが周囲の音データをキャプチャし得るか、または、両方のマイクロフォンが、発声とスピーチがない期間とを特徴とするマルチチャンネルオーディオデータを提供するために使用され得る。同様に、前方向きカメラ３６５および後方向きカメラ３７５のうちの１つ以上は、図２の画像キャプチャデバイス２４０として使用され得る。１つの場合では、画像データは、ユーザの環境を最も良く示すカメラからキャプチャされ得る。たとえば、モバイルコンピューティングデバイス３５５がテーブル上で上を向けられている場合、画像データは前方向きカメラ３６５からキャプチャされ得る。ユーザが歩いている場合、または、自身の前にモバイルコンピューティングデバイス３５５を保持している場合、画像データは両方のカメラからキャプチャされ得る。ユーザが自身の耳に対してモバイルコンピューティングデバイス３５５を保持している場合、後方向きカメラ３７４のみが使用され得る。

図３Ｂの例では、マルチコアプロセッサ３９０は、図２のオーディオ特徴抽出器２４０およびビジュアル特徴抽出器２５０を実現し得る。１つの場合では、これらは、メモリからロードされるとともにマルチコアプロセッサ３９０上でパラレルスレッドとして実行されるコンピュータプログラムコードを含み得る。他の例において、モバイルコンピューティングデバイス３５５は、図２のオーディオ特徴抽出器２４０およびビジュアル特徴抽出器２５０の各々を実現するために、専用デジタル信号プロセッサを含み得る。複数のアプローチが可能である。

１つの場合では、画像データを使用するべきか否かの決定は、ビジュアル特徴抽出器２５０の実現例に残され得る。たとえば、両方の前方向きカメラ３６５および後方向きカメラ３７５からのフレームは、異なるチャンネルとしてビジュアル特徴抽出器２５０に提供され得る。別の場合では、マルチコアプロセッサ３９０は、画像データの単一フレームを提供するために前方向きカメラ３６５および後方向きカメラ３７５から選択を行うスイッチを実現し得る。図３Ｂの例では、無線ネットワーク通信モジュールは、図２のトランスミッタ２８０を実現するために、セルラーデータまたは無線ネットワーキングモジュールを含み得る。

クライアントサーバ通信
図４Ａ、図４Ｂおよび図４Ｃは、クライアントデバイス４０２とサーバデバイス４０４との間の異なる通信を表わすシーケンス図４００、４４０、４７０のセットを示す。クライアントデバイス４０２は、図１におけるクライアントデバイス１１０のうちの１つ、図２におけるクライアントデバイス２１０、および／または、図３Ａおよび図３Ｂに示されるクライアントデバイス３００，３５０のうちの１つを含み得る。サーバデバイス４０４は、図１からのサーバデバイス１２０を含み得る。

図４Ａは、ユーザの発声を解析するためにプロセスの１つのセットを設定する第１のシーケンス図４００を示す。ブロック４０６では、画像データはサブブロック４０８においてキャプチャされ、オーディオデータはサブブロック４１０においてキャプチャされる。サブブロック４０８および４１０は、たとえば、別個の処理スレッドとして、および／または、異なるハードウェアデバイスによって、並列で行なわれ得る。ブロック４０６は、発声の時間期間に亘る複数のデータサンプルのキャプチャを含み得る。１つの場合では、ブロック４０６は、共通のビデオ記録のためにビデオおよびオーディオデータチャンネルを生成することを含み得る。サブブロック４０８および４１０は、図２における画像キャプチャデバイス２３０およびオーディオキャプチャデバイス２２０によってそれぞれ行なわれ得る。

ブロック４１２では、ビジュアル特徴テンソルがサブブロック４１４において生成され、オーディオ特徴テンソルがサブブロック４１６において生成される。サブブロック４１４および４１６は、たとえば別個の処理スレッドとして、および／または、異なるハードウェアデバイスによって、並列で行なわれ得る。サブブロック４１４および４１６は、図２におけるビジュアル特徴抽出器２５０およびオーディオ特徴抽出器２４０によってそれぞれ行なわれ得る。

ブロック４１８では、クライアントデバイス４０２はサーバデバイス４０４にビジュアル特徴テンソルおよびオーディオ特徴テンソルを送信する。これは図２のトランスミッタ２８０によって行なわれ得る。ビジュアル特徴テンソルおよびオーディオ特徴テンソルはブロック４２０においてサーバデバイスにて受け取られる。テンソルの受け取りは図１のレシーバ１２２によって扱われ得る。ブロック４２２では、言語的モデル（ＬＭ： linguistic model）が、受け取られたビジュアル特徴テンソルおよびオーディオ特徴テンソルに適用される。言語的モデルは図１に示されるような言語的モデル１２４を含み得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの１つ以上を含み得る。音響モデルは音素または他の原言語単位のシーケンスを示すデータを生成し得る。言語モデルはテキストデータを生成し得る。１つの場合では、音響モデルの出力は言語モデルによって受け取られ得る。

ブロック４２４では、言語的モデルの出力が処理される。これは、発声を表わすテキストデータを解析することを含み得る。ブロック４２４は、言語的モデルからのデータを音声コマンドおよび音声コマンドのためのデータのセットにマッピングすることを含み得る。ブロック４２４は、言語的モデルの出力からの音声コマンドを実行する適切なサービスを識別することを伴い得る。ブロック４２４は、識別されたサーバにアプリケーションプログラミングインターフェイス（ＡＰＩ： application programming interface)要求を行うことを含み得、当該要求は、言語モデルの出力から識別されるコマンドおよび任意のコマンドデータを含む。たとえば「今日の天気は何？」という発声は、たとえば現在時間または日付といった「今日」の時間パラメータとともに天候データについての天候サービスＡＰＩ要求にマッピングされ得る「今日の天気は何」というテキスト出力に帰着し得る。

ある場合において、発声が、サーバデバイス４０４からの応答を必要としない場合があり得る。たとえば、特定のデバイスをオフにする音声コマンドは、クライアントデバイス４０２でないデバイスに対する要求を開始し得、クライアントデバイスへのフィードバックが必要ではない場合があり得る。または、別のユーザに通知を送る音声コマンドも、応答がクライアントデバイス４０２に送られることが必要でない場合があり得る。しかしながら、他の場合では、クライアントデバイスに対する応答は必要であるかまたは望まれる。これらの場合は図４Ａにおける破線によって示される。

ブロック４２４の実行が、クライアントデバイス４０２にフィードバックされるべき情報に帰着する場合、ブロック４２６において、この情報は、パッケージ化され、クライアントデバイス４０２に送信され得る。たとえば、１つの場合では、図１のレシーバ１２２は、ネットワーク１３０を介して応答を送信することができるトランシーバを含み得る。ブロック４２６では、たとえばブロック４０６においてキャプチャされた際の発声に対する応答がクライアントデバイス４０２にて受け取られる。この場合、トランスミッタ２８０はさらに、ネットワーク１３０を介してデータを受け取ることができるトランシーバを含み得る。発声に対する応答は応答データを含む。これは、たとえばユーザインターフェイスまたは音声出力を介してユーザに伝達されるべきマシン読取可能データを含み得る。ブロック４３０では、応答データが処理され、ユーザに対する応答がクライアントデバイス４０２によって出力される。これは、図３Ｂにおけるディスプレイスクリーン３６０上でのテキストおよび／または画像の表示であり得るか、または、テキストツースピーチモジュールを介した音の出力であり得る。ある場合には、応答データは、クライアントデバイスにおいて処理され得るとともにたとえば１つ以上のスピーカを介してオーディオ出力を生成するために使用され得るオーディオデータを含み得る。図３Ａの自動車の例では、応答は、自動車３０５の内部にマウントされたスピーカを介してユーザに話され得るか、および／または、一般的なコンソール上に情報として表示され得る。

図４Ｂは、ある実現例において行なわれ得る通信の代替的なセットを示す。当該通信はそれでも、クライアントデバイス４０２とサーバデバイス４０４との間で行われる。しかしながら、図４Ｂの場合には、画像データおよびオーディオデータが別個の時間に処理される。

図４Ｂのブロック４４２では、画像データの１つ以上のフレームがキャプチャされる。これは、カメラからの画像データのスチル（still）をキャプチャすること、または、ビデオからフレームのグループをキャプチャすることを含み得る。ブロック４４２は、たとえばｔ秒または分ごとといったように周期的に行なわれ得るか、または、たとえば動きの検出またはスピーチの開始といったユーザアクションによってトリガされ得る。ブロック４４２は、図４Ａにおけるサブブロック４０８と同様のプロセスを含み得る。

ブロック４４４では、少なくとも１つのビジュアル特徴テンソルは、ブロック４４２においてキャプチャされた画像データの１つ以上のフレームに基づいて生成される。また、これは、図４Ａにおけるサブブロック４１４と同様のプロセスを含み得る。ブロック４４４も、周期的に行なわれ得るか、または、トリガ条件に基づいて行われ得る。ある場合には、ブロック４４４は、たとえば画像キャプチャデバイスから受け取られた際の画像データのフレームの存在に応答して行なわれ得る。画像データの複数フレームがブロック４４２でキャプチャされる場合、これは複数のビジュアル特徴テンソルに帰着し得る。他の場合、たとえば、ビジュアル特徴抽出器がシーケンスプロセッサを含む場合、画像データの複数の入力フレームは単一のビジュアル特徴テンソルに帰着し得る。

ブロック４４６では、ブロック４４４において生成された少なくとも１つのビジュアル特徴テンソルが、クライアントデバイス４０２からサーバデバイス４０４に送信される。これは、図４Ａにおけるブロック４１８と同様のプロセスを含み得、この場合のみにおいて、オーディオ特徴テンソルはこの時に送信されない。ブロック４４８では、サーバデバイス４０４は少なくとも１つのビジュアル特徴テンソルを受け取る。この段階では、サーバデバイス４０４は、受け取ったデータに基づいて言語的モデルを構成するためにアクションを開始し得る。ある構成において、ブロック４４２～４４８は、サーバデバイス４０４が、言語的モデルの構成に利用可能である少なくとも１つのビジュアル特徴テンソルの形態にあるビジュアル環境状態を有するように、周期的に繰り返され得る。たとえば、ブロック４４２～４４８は、１分ごと、５分ごと、または、１時間ごとに繰り返され得る。ある場合には、ブロック４４２～４４８は、クライアントデバイス４０２における加速度計および／または位置データの変化に基づいてトリガされ得る。たとえば、ブロック４４２～４４８は、動きのない期間（または予め規定されたしきい値を下回る動きの期間）の後に動きが検出されると、行なわれ得るか、または、クライアントデバイス４０２が特定のジオフェンスが設けられた（geo-fenced）位置から離れると、行なわれ得る。このように、クライアントデバイス４０２の環境が変化すると、サーバデバイス４０４はアップデートされたビジュアル特徴テンソルを受け取り得る。ブロック４４２、４４４および４４６のうちの１つ以上がトリガイベントに基づいて行なわれる場合、これは、エネルギー消費を低減することを支援し得る。これは、クライアントデバイス４０２がバッテリ駆動である場合、たとえばスマートフォンまたはセンサデバイスである場合、有益であり得る。たとえば、画像キャプチャおよびビジュアルテンソル生成のうちの１つ以上に関連付けられる処理は、たとえば環境が変化する場合または発声が検出される場合を含むある条件下で行なわれ得る。ある場合には、バッテリの電力が低い場合、ビジュアル処理パイプラインが抑制され得る。使用が抑制される場合、精度が低減するが処理リソースが保存され得る。

図４Ｂにおけるクライアントデバイス４０２に戻って、ブロック４５０～４５６において、ブロック４４２～４４８と同様の動作のセットが、サーバデバイス４０４にオーディオ特徴テンソルを送るために行なわれる。１つの場合では、ブロック４４２～４４８とブロック４５０～４５６とは、非同期的にサーバデバイス４０４へデータを送信する別個および独立した処理であり得る。これにより、ブロック４５０～４５６は、ブロック４４２～４４８の前、ブロック４４２～４４８中、または、ブロック４４２～４４８の後に行なわれ得る。

ブロック４５０において、オーディオデータは、図４Ａにおけるサブブロック４１０と同様の態様でキャプチャされる。ブロック４５２では、少なくとも１つのオーディオ特徴テンソルが、図４Ａにおけるサブブロック４１６と同様の態様で生成される。ブロック４５４では、少なくとも１つのオーディオ特徴テンソルが、図４Ｂにおけるブロック４４６または図４Ａのブロック４１８と同様の態様で、サーバデバイス４０４に送信される。ブロック４５６では、サーバデバイス４０４はオーディオ特徴テンソルを受け取る。ブロック４５６は、図４Ａのブロック４２２および４２４と同様のブロック４５８および４６０を行なうためのトリガとして解釈され得る。示されていないが、ブロック４６０において出力される言語的モデルの処理の後、応答データも、たとえば図４Ａのブロック４２６～４３０と同様の態様でサーバデバイス４０４から送信され得る。

図４Ｂの例は、環境のビジュアルコンテキストおよび音響コンテキストがサーバデバイス４０４においてどのように非同期的に維持され得るかを示す。１つの場合では、言語的モデルの動作状態は、受け取られたビジュアル特徴テンソルおよびオーディオ特徴テンソルに基づいて、継続的にアップデートされ得る。たとえば、これらは言語的モデルの動作パラメータをセットするために使用され得る。

図４Ｃは、図４Ｂの例の変形例を示す。図４Ｃの変形例も図４Ａのような他の例に適用されてもよい。図４Ｃにおいて、ブロック４４２～４５２は、図４Ｂを参照して記載したものと同じである。しかしながら、ブロック４７２において、ブロック４５０においてキャプチャされたオーディオデータは、オーディオ特徴テンソルと一緒にサーバデバイス４０４に送信され、サーバデバイス４０４においてブロック４７４にて受け取られる。図４Ｃの例では、言語的モデルは音響モデル（ＡＭ： acoustic model）および言語モデル（ＬａＭ： language model）を含む。この場合、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの１つ以上は、ユーザの環境についてのビジュアルおよび音響コンテキストのそれぞれ１つの以上を提供する。ビジュアルおよび／または音響コンテキストは、音響モデルおよび言語モデルのうちの１つ以上を構成するために使用され得る。１つの場合では、音響モデルおよび言語モデルはともに、入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取る。ある場合には、音響モデルおよび／または言語モデルは、オーディオ特徴テンソルおよびビジュアル特徴テンソルに加えて入力を受け取り得る。図４Ｃにおいて、音響モデルは、構成入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、特定の発声に関連付けられる入力としてブロック４７４において受け取られたオーディオデータを受け取る。１つの場合では、オーディオ特徴テンソル、ビジュアル特徴テンソルおよびオーディオデータのうちの２つ以上の数値表現が、たとえば連結といったように組み合わせられ得、数値のより大きなベクトルおよび／またはデータ値の多次元ボリュームにされ得る。ある場合には、オーディオデータがブロック４７２において送信の間にストリーミングされ得る。他の場合では、オーディオデータは、固定長ベクトルと比較すると、たとえば周波数特徴のストリームといったオーディオ特徴テンソルへのオーディオ特徴の異なるセットを含み得る。ブロック４７６では、たとえば上で論じたように入力に音響モデルが適用される。ブロック４７８では、言語モデルが音響モデルの出力に適用される。たとえば、音響モデルは、音素のシーケンス（たとえば選択された言語または検出された言語での各音素を表わすテキストシンボルまたは整数のシーケンス）を出力し得る。言語モデルは、構成入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り得、ブロック４７６の後の音素シーケンス出力を特定の発声に関連付けられる入力として受け取り得る。言語モデルは、たとえば、特定のコマンドに関連付けられる識別されたデータオブジェクトといった、テキストまたは音声コマンド表現を出力し得る。後者の場合、たとえば、コマンドセットは、複数のコマンドをクラスまたはコンピュータオブジェクトとして表し得、当該オブジェクトは関連付けられるデータおよびメソッドを有し得る。ブロック４８０では、言語モデルの出力が処理される。これは、テキスト出力を解析すること、または、音声コマンド表現を選択することと、ある場合において言語モデル出力からのデータとともにその表現に利用可能なメソッドを開始することとを含み得る。また、図４Ａの４２６～４３０と同様のブロックも行なわれ得る。

ニューラルネットワーク実現例
ある例では、オーディオ特徴抽出器、ビジュアル特徴抽出器および言語的モデルのうちの１つ以上は、ニューラルネットワークアーキテクチャを含み得る。１つの場合では、これらのコンポーネントの各々はニューラルネットワークアーキテクチャを含み得る。この後者の場合では、組み合わされたニューラルネットワークアーキテクチャは、共同でコンポーネントを構成するためにエンドツーエンドで学習され得る。

１つの場合では、ビジュアル特徴抽出器およびオーディオ特徴抽出器は、畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの１つ以上を含む。たとえば、ビジュアル特徴抽出器は、畳み込みニューラルネットワークを含み得、オーディオ特徴抽出器は、リカレントニューラルネットワークを含み得る。後者の場合に、オーディオ特徴テンソルは、たとえば時間サンプルのシーケンスの後のリカレントニューラルネットワークの隠れ状態（hidden state）、および／または、たとえば入力時間サンプルのセットの後の組み合わされた出力シーケンスといったリカレントニューラルネットワークの出力、および／または、発声を表わす入力時間サンプルのセットの入力の後に得られる出力のうちの１つ以上を含み得る。

ビジュアル特徴抽出器
図５は、ビジュアル特徴抽出器５００の例示的な実現例を示す。たとえば、その実現例は、図２におけるビジュアル特徴抽出器２５０を実現するために使用され得る。この例において、ビジュアル特徴抽出器５００は、第１の畳み込みニューラルネットワークアーキテクチャ５１０および第２のニューラルネットワークアーキテクチャ５５０を含む。

第１の畳み込みニューラルネットワークアーキテクチャ５１０は複数の層５１２～５２０を含む。これらは、画像データ５３０のフレームを受け取る第１の入力層５１２と、フレームの処理された表現を出力する第１の出力層５２０とを含む。第１の入力層５１２と第１の出力層５２０との間には、複数の畳み込みニューラルネットワーク層５１４、５１６および５１８が存在する。あるアーキテクチャにおいて、最後の畳み込みニューラルネットワーク層と出力層５２０との間に１つ以上のフィードフォワードニューラルネットワーク層（feed-forward neural network layer）が存在し得る。畳み込みニューラルネットワークアーキテクチャ５１０は、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇＬｅＮｅｔまたはＲｅｓＮｅｔアーキテクチャの適合された形態を含み得る。第１の畳み込みニューラルネットワークアーキテクチャ５１０は、より正確なアーキテクチャが利用可能になる場合、モジュラーの態様で置換され得る。

本例では、第１の畳み込みニューラルネットワークアーキテクチャ５１０は、複数の層の各々について学習されたパラメータのセットを使用してパラメータ化される。たとえば、これらの学習されたパラメータは、各層について少なくとも重みのセットを含み得る。１つの場合では、学習されたパラメータはさらに、当該層についてのバイアスのセットについての値を含み得る。重みは、より以前の層からの入力により畳み込まれる固定数のフィルタまたはカーネルについての重みを含み得る。第１の畳み込みニューラルネットワークアーキテクチャのためのハイパーパラメータは、実験を介してか、および／または、低エラーレートを有するパラメータの公開されたセットを使用してセットされ得る。

本例では、第１の畳み込みニューラルネットワークアーキテクチャ５１０は、予め学習された画像分類アーキテクチャとして解釈され得る。たとえば、学習されたパラメータについての値は、低エラーレートを有する公開されたモデルから得られ得る。１つの場合において、第１の畳み込みニューラルネットワークアーキテクチャ５１０は最初に、画像分類コンポーネントを含み得る。当該画像分類コンポーネントは、（たとえば、第１の要素が第１の分類に関し、第２の要素が第２の分類に関するなどといった）画像分類のセットを表わすワンホットベクトル（one-hot vector）（すなわち０と１との間の正規化された数のベクトル）を出力するように出力層において構成される。この場合、画像分類コンポーネントは最後の出力層としてソフトマックス層（softmax layer）を含み得る。第１の畳み込みニューラルネットワークアーキテクチャ５１０の層のための学習されたパラメータは、第１の出力層５２０に結合されるソフトマックス層を含む１つ以上の付加的な分類層により学習動作から導出されるパラメータであり得る。本願明細書に記載されるようにビジュアル特徴抽出器としての使用のために学習された畳み込みニューラルネットワークアーキテクチャ５１０を適合させるために、少なくともソフトマックス層は、出力層５２０がワンホットな表現または確率でない数値のテンソルを出力するように除去され得る。

第２のニューラルネットワークアーキテクチャ５５０は１つ以上の層５５２～５５６を含む。これらは、（たとえばビジュアル特徴抽出器５００に関する）第２の入力層５５２および第２の出力層５５６を含んでいる。第２の入力層５５２は、第１の畳み込みニューラルネットワークアーキテクチャ５１０の第１の出力層５２０に結合される。これらの層はたとえば、畳み込み層またはフィードフォワード層を含み得る。第２の出力層５５６は、ビジュアル特徴テンソルを出力するように構成される。第２の出力層５５６は、第１の出力層５２０の次元数（たとえばアレイ長さまたはサイズ）未満である次元数（たとえばアレイ長さまたはサイズ）を有する。１つの場合では、第２のニューラルネットワークアーキテクチャ５５０は、オートエンコーダまたは変分オートエンコーダ（variational autoencoder）の少なくとも部分を含み得、第２の出力層の出力５６０は数値の固定長「コード」を形成する。これらの場合において、第２のニューラルネットワークアーキテクチャ５５０の各層は、当該層に対する入力テンソル未満の長さを有するテンソル出力を生成するように構成され得る。たとえば、各層は、フィードフォワードまたは他のレデューシング（reducing）構成を含み得る。これにより、第２のニューラルネットワークアーキテクチャ５５０は、第１の出力層５２０の出力の圧縮された表現を表わす「コード」が学習中に得られる情報「ボトルネック」を形成する。この場合、オートエンコーダ構成は、特徴出力ごとに、たとえばビジュアル特徴テンソルの１つの要素ごとに、情報コンテンツを最大化し得る。たとえば、入力層５５２において受け取られるテンソルは、長さが４０９６であり得る（すなわち、各々が浮動小数点数によって表わされる４０９６個の要素を有し得る）一方、第２の出力層５５６でのテンソル出力は長さが３２～２５６であり得る。ある場合において、第２のニューラルネットワークアーキテクチャ５５０はさらに、たとえば、６４ビットの浮動小数点値の代わりに８ビットの整数値の連なりを作り出すために、第１の畳み込みニューラルネットワークアーキテクチャ５１０の出力を量子化し得る。

第２のニューラルネットワークアーキテクチャ５５０は、学習動作において、オーディオ特徴抽出器および言語的モデルと共同で学習され得る。しかしながら、第１の畳み込みニューラルネットワークアーキテクチャ５１０が予め学習された画像分類アーキテクチャに基づく場合、第１の畳み込みニューラルネットワークアーキテクチャ５１０のための学習されたパラメータのセットは、学習動作中に固定され得る。実際、予め学習された画像分類アーキテクチャの固定された画像分類特性は保持され、次いで、たとえば後の層の出力といった修正された出力が、学習された第２のニューラルネットワークアーキテクチャ５５０を通じて圧縮されて、スピーチ処理の使用のために、修正された出力の顕著な特徴を表わす出力ビジュアル特徴テンソルをラーニングする。第２のニューラルネットワークアーキテクチャ５５０の共同学習によって、第２のニューラルネットワークアーキテクチャ５５０は、発声解析におけるエラーを低減するために表現を有用にする予め学習された画像分類アーキテクチャの後の出力の変換をラーニングすることになる。これにより、予め学習された画像分類アーキテクチャ内に有用な画像特徴を生成する予め学習されたパラメータ値の破滅的忘却が回避され得る。その後、スピーチ処理システムは、第２のニューラルネットワークアーキテクチャ５５０を単に再学習することにより、現状技術のアーキテクチャを迅速に活用し得る。なお、２つのニューラルネットワークアーキテクチャが図５に示されるが、他の例は、ビジュアル特徴抽出器を実現するために単一のニューラルネットワークアーキテクチャを使用してもよい。

ニューラルスピーチ処理システム
図６は、例に従ったニューラルスピーチ処理システム６００を示す。ニューラルスピーチ処理システム６００は、クライアント側ニューラルコンポーネント６１０およびサーバ側ニューラルコンポーネント６５０に分割される。この場合、「ニューラル」という用語は、システムおよびコンポーネントが、バックプロバゲーション（backpropagation）および勾配降下（gradient descent）アプローチを使用して学習され得る１つ以上のニューラルネットワーク層を含むということを示すために使用される。各ニューラルネットワーク層の後には非線形関数（「非線形性」または「活性化関数（activation function）」とも称される）が続き得、複数のニューラルネットワーク層が非線形のマッピングまたは変換を提供する。非線形関数は、双曲線正接もしくはシグモイド関数、または、正規化線形ユニット（ＲＥＬＵ： REctified Linear Unit）であり得る。クライアント側およびサーバ側という用語が使用されるが、当該用語は、ある例において、たとえば図３Ａにおける制御ユニット３１０の２つの部分といった共通のコンピューティングデバイスの異なるコンポーネントに関し得るか、または、たとえば図３Ｂにおけるモバイルコンピューティングデバイス３５５といった共通のデバイス内の２つのハードウェアデバイスに関し得る。

クライアント側ニューラルコンポーネント６１０は、ビジュアル特徴抽出器６２０およびオーディオ特徴抽出器６３０を含む。ビジュアル特徴抽出器６２０は、画像データ６２５を受け取り、かつ、ビジュアル特徴テンソル６４０を生成するように構成される。たとえば図２および図５といった以前の例を参照して記載されるように、ビジュアル特徴抽出器６２０が構成され得る。ビジュアル特徴抽出器６２０は、たとえば図５に示されたような畳み込みニューラルネットワーク、および／または、ニューラルオートエンコーダのエンコーディング部分を含み得る。後者の場合では、エンコーディング部分は、デコーディング部によってデコードされ得る圧縮された「コード」を生成するように学習され得る。この場合、エンコーディングおよびデコーディング部は、（たとえば、エンコーディング部に入力として提供されるような）オリジナル画像データを、（たとえばデコーディング部によって出力されるような）再構築された画像データと比較することにより学習され得る。使用において、圧縮された「コード」からビジュアル特徴テンソル６４０を生成するためにエンコーディング部のみが使用される。ある場合において、ビジュアル特徴エンコーダ６２０の第１のステージの出力（たとえば畳み込みニューラルネットワークまたはオートエンコーダの出力）は、この出力を時間にわたって統合するために、（ロングショートタームメモリ（ＬＳＴＭ： Long Short-Term Memory）またはゲーテッドリカレントユニット（ＧＲＵ： Gated Recurrent Unit）といった）さらに別のリカレントニューラルネットワークに入力され得る。これらの場合では、リカレントニューラルネットワークの１つ以上の出力および／またはリカレントニューラルネットワークの隠れ状態が、ビジュアル特徴テンソル６２０として得られ得る。

オーディオ特徴抽出器６３０は、オーディオデータ６３５を受け取り、かつ、オーディオ特徴テンソル６４５を生成するように構成される。たとえば図２および図５といった以前の例を参照して記載されるように、オーディオ特徴抽出器６３０が構成され得る。ビジュアル特徴抽出器６２０のように、オーディオ特徴抽出器６３０は、畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの１つ以上を含み得る。ネットワークアーキテクチャは、オーディオデータのフォーマットに依存し得る。オーディオデータがスペクトログラムを表わすフレームのセットとして提供される場合、これらのフレームは、上述したように、各スペクトログラムが画像データのフレームとして扱われる状態で、ビジュアル特徴抽出器６２０と同様のアーキテクチャによって処理され得る。オーディオデータがメル周波数ケプストラム係数のシーケンスを含む場合、これらはリカレントニューラルネットワークに入力され得、オーディオ特徴テンソル６４５は、リカレントニューラルネットワークの１つ以上の出力および／またはリカレントニューラルネットワークの隠れ状態を含み得る。リカレントニューラルネットワークは上記のようにＬＳＴＭまたはＧＲＵを含み得る。１つの場合では、リカレントニューラルネットワークの異なる階層化されたヒエラルキー（tiered hierarchies）が、異なる時間的または周波数分解能でオーディオ特徴をエンコードするために提供され得る。

図４Ａ～図４Ｃを参照して記載されるように、ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５は、言語的モデル６５５に伝達される。この例において、言語的モデル６５５はさらに、たとえば畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの１つ以上といったニューラルネットワークアーキテクチャを含む。１つの場合では、言語的モデル６５５は、入力として、ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５の両方を受け取るように構成されるリカレントニューラルネットワークを含む。ある場合では、言語的モデル６５５は、ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５を前処理するために、たとえば、アテンションメカニズムを適用および／または次元数（たとえば組み合わされたアレイの長さ）をさらに低減するために、１つ以上の畳み込みニューラルネットワークまたはフィードフォワードニューラルネットワークを含み得る。１つの場合では、ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５は、テンソルの単純連結（simple concatenation）によって組み合わされる。別の場合では、マージされたテンソルを生成するために前処理機能が使用され得る。この場合、ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５は、たとえば３２～５１２個の要素の長さのベクトルを含み得る。各要素はたとえば、正規化された量（たとえば０と１との間）を表わす浮動小数点値である。この場合、ＬＳＴＭまたはＧＲＵアーキテクチャへの連結された入力は、たとえば２５６～１０２４個の要素のベクトルを含み得る。

言語的モデル６５５はテキスト出力６６０を生成するように構成される。たとえば、これは、文字ずつ、単語部分ずつ、または単語ずつで生成され得る。文字、単語部分または単語は、固定長出力ベクトルによって表わされるボキャブラリから選択され得る（たとえば、小文字およびシンプルな句読点について３０個の要素が存在し得、または、単語もしくは単語部分について１０，０００までの要素が存在し得る）。この場合における単語部分は、繰り返し使用される語幹、語尾および／または単語部位（word part）を含み得る。この場合、言語的モデル６５５は、音響および言語モデリング機能の両方を包含すると考えられ得る。

言語的モデル６５５は、出力テキストシーケンスを多くの態様で構築し得る。１つの場合では、出力テキストシーケンスは、時間ステップのシーケンスに亘って、リカレントニューラルネットワークの出力を取得することにより構築され得る。たとえば、ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５は、（たとえばビデオの場合は３０または６０Ｈｚまでであり得、オーディオの場合はそれよりも高くあり得るｆＨｚの入力フレームまたはデータレートでの）複数の時間サンプルについて生成され得る。ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５が、異なるレートで生成される場合、より遅いレートで変化するテンソルは、他のテンソルについての変化する値が入力される間、一定に保持され得る。１つの場合では、１つのビジュアル特徴テンソル６４０のみが存在し得、それぞれの複数の時間ステップに亘って生成される複数のオーディオ特徴テンソル６４５が存在し得る。１つの場合では、ビジュアル特徴テンソル６４０は、０の値のベクトルおよび／または制御コードのいずれかを提供することによりオミットされ得る。存在しないビジュアル特徴テンソル６４０の対応は、学習データ内においてある画像入力（またはビジュアル特徴テンソル入力）を０にセットすることにより学習され得る。別の場合では、ビジュアル特徴テンソル６４０およびオーディオ特徴テンソル６４５は、連結され、リカレントニューラルネットワークの最初の隠れ状態をセットするために使用され得る。この場合、第１の入力は＜ＳＴＡＲＴ＞制御シンボルを含み得、第１の出力シンボルは第２の入力として使用されるようにフィードバックされ得、このプロセスは、＜ＥＮＤ＞制御シンボルが出力されるまで繰り返される。この場合、リカレントニューラルネットワークは入力としてシンボル（たとえば文字または単語）を受け取るように適合される。この場合、シンボルは、リカレントニューラルネットワークに提供される前に、最初は数値表現にマッピングされ得、次いでシンボル埋込（symbol embedding）にさらにマッピングされる。たとえば利用可能なデータの形態、使用されるアーキテクチャの形態、データの時間的な可用性、出力の形態、リカレントニューラルネットワークの精度、典型的な発声の長さなどに依存して、異なるバリエーションが提供され得る。

ニューラルスピーチ処理システムの学習
図７は、図６のニューラルスピーチ処理システムのための例示的な学習構成７００を示す。図７は、図６のビジュアル特徴抽出器６２０、オーディオ特徴抽出器６３０および言語的モデル６５５の伝達結合を示す。１つの場合において、学習のために、ビジュアル特徴抽出器６２０、オーディオ特徴抽出器６３０および言語的モデル６５５の各々の実現例は、単一のコンピューティングデバイスまたはコンピューティングデバイスの好適に結合されたクラスタ上で構成され得る。学習は、プロダクションサーバデバイスおよびクライアントデバイス、たとえば以前の例において示されるようなデバイス上で行なわれる必要はない（しかしながら、所望の場合、これは行われ得る）。１つの場合では、学習は、たとえば複数の処理ユニット（ＣＰＵ、ＧＰＵ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ（Field Programmable Gate Array））または他の専用のプロセッサアーキテクチャ）と、学習データのバッチを保持する大きなメモリ部分といった実質的な処理リソースへのアクセスを有するコンピューティングデバイス上で行なわれ得る。ある場合には、学習は、たとえば結合可能なＦＰＧＡまたはＧＰＵベースのデバイスといった結合されたアクセラレータデバイスを使用して行なわれ得る。図７に示されるような学習は、ビジュアル特徴抽出器６２０およびオーディオ特徴抽出器６３０の出力が言語的モデル６５５の入力に結合され、結合されたシステムが単一ユニットとして学習されるので、「エンドツーエンド」学習と称され得る。

本例では、学習は、学習データのセットに対して行なわれる。学習データのセットは、データトリプル（data triple）、すなわち、画像データ７１０、オーディオデータ７２０およびグラウンドトゥールーステキストデータ７３０を含む。画像データ７１０およびオーディオデータ７２０は、環境の記録から導出され得、時間にわたるサンプルのシーケンスを含み得る。学習中において、画像データ７１０がビジュアル特徴抽出器６２０に提供され、オーディオデータ７２０はオーディオ特徴抽出器６３０に提供される。フォワードパス（forward pass）では、図６を参照して記載されるように、出力テキストデータ７４０が生成される。生成された出力テキストデータ７４０は、グラウンドトゥールーステキストデータ７３０と比較され、エラーｅが決定される。１つの場合では、エラーは、入力として出力テキストデータ７４０およびグラウンドトゥールーステキストデータ７３０を取得する損失関数を評価することにより決定され得る。ある場合には、エラーはシンボルごと（たとえば、予測されたシンボルをグラウンドトゥールーステキストデータ７３０における対応するシンボルと比較すること）に決定される。

エラーｅは、ひとたび決定されると、システムにわたるパラメータ値の変化を決定するために使用される。この変化は、システムにおいて各コンポーネントを自動的に区別し、システムを通じてエラーをフローバックすることにより、各コンポーネントについてのパラメータアップデートを決定するために当該区別を使用して決定され得る。図７では、エラーｅは、言語的モデルパラメータ７５０のセットをアップデートするために使用され、付加的なエラーｅ′およびｅ″はそれぞれビジュアル特徴抽出器６２０およびオーディオ特徴抽出器６３０の各々に言語的モデル６５５を通って伝播される。エラーｅ′およびｅ″は、ビジュアル抽出器パラメータ７６０およびオーディオ抽出器パラメータ７７０をアップデートするために使用される。エラーｅ、ｅ′およびｅ″を低減するパラメータアップデートの方向を決定するために、勾配降下が使用されてもよい。システムが全体として学習されるので、ビジュアル抽出器パラメータ７６０およびオーディオ抽出器パラメータ７７０は、言語的モデル６５５の最終出力エラーを低減する態様で調節される。換言すると、ビジュアル抽出器パラメータ７６０およびオーディオ抽出器パラメータ７７０は、ビジュアル特徴抽出器６２０およびオーディオ特徴抽出器６３０が、低いエラー出力を生成することにおいて言語的モデル６５５に有益であるビジュアル特徴テンソルおよびオーディオ特徴テンソルを生成するように調節される。ニューラルネットワークアーキテクチャを学習する多くの異なる方法が存在することと、ハイパーパラメータ、損失関数、勾配降下法およびバッチングなどのような特徴は特定の実現例に基づいて較正され得るということとは、当業者であれば理解するであろう。

ある場合には、ビジュアル特徴テンソルおよびオーディオ特徴テンソルの１つ以上の長さが、学習出力に基づいてセットされ得る。たとえば、最初の特徴テンソル長さが選択され得る。次いで、学習の間の要素値の分析が行なわれ得る。ある要素の出力の特定の割合が予め規定されたしきい値を下回る場合（たとえばほとんど０である場合）、その要素はプロダクション特徴テンソルからオミットされ得る。

音響モデル選択
図８は、本願明細書において記載されるあるコンポーネントを使用する代替的なスピーチ処理システム８００を示す。図６および以前の例のように、代替的なスピーチ処理システム８００は、ビジュアル特徴抽出器８２０、オーディオ特徴抽出器８３０および言語的モデル８５５を含む。これらは前述のようにニューラルネットワークコンポーネントを含み得る。ビジュアル特徴抽出器８２０は、画像データ８２５からビジュアル特徴テンソル８４０を生成し、オーディオ特徴抽出器８３０は、オーディオデータ８３５からオーディオ特徴テンソル８４５を生成する。ビジュアル特徴抽出器８２０およびオーディオ特徴抽出器８３０はクライアントデバイス８１０の部分を形成し得、言語的モデル８５５はサーバデバイス８５０の部分を形成し得る。同様の参照番号は同様の特徴を参照するために使用されており、図６に関して上で議論されたバリエーションは、図８の構成に適用され得る。

図８の代替的なスピーチ処理システム８００は、言語的モデル８５５が多くのサブコンポーネントを含む点で図６のスピーチ処理システム６００と異なる。この例において、これらは、音響モデル構成８６２のデータベース、音響モデルセレクタ８６４および音響モデルインスタンス８６６を含む。音響モデル構成８６２のデータベースは、音響モデルを構成するためにパラメータ数を格納する。この例において、音響モデルインスタンス８６６は、音響モデル構成８６２のデータベースからのパラメータ値の特定のセットを使用してインスタンス化（たとえば、構成または較正）される一般的な音響モデルを含み得る。たとえば、音響モデル構成８６２のデータベースは複数の音響モデル構成を格納し得る。各構成は、音響モデルの特定のクラスに関連付けられ得る。

基本的な場合では、２つの音響モデル構成が存在し得る。たとえば、これらは「屋内」および「屋外」の音響モデル構成に関し得る。音響モデルセレクタ８６４は、ビジュアル特徴抽出器８２０およびオーディオ特徴抽出器８３０からビジュアル特徴テンソル８４０およびオーディオ特徴テンソル８４５を受け取る。音響モデルセレクタ８６４は、入力としてビジュアル特徴テンソル８４０およびオーディオ特徴テンソル８４５を受け取り、かつ、分類ラベルを出力するように構成される分類器を含み得る。音響モデルセレクタ８６４の出力は、各々の可能な音響モデル構成のための要素を有するベクトルの形態のテンソルを含み得る。この場合、音響モデルセレクタ８６４のベクトル出力は、異なる音響モデル構成の確率（たとえば０と１の間の値）を示し得る。当該基本的な場合において、ベクトルまたは［０．６，０．４］は、第１の音響モデル構成（たとえば「屋内」）が６０％の確率または重みを有し、第２の音響モデル構成（たとえば「屋外」）が４０％の確率または重みを有するということを示す。これらの確率は、どの音響モデル構成を使用するかを決定するために、サンプリングされ得るか、または、最大の確率が選択され得る。選択された構成に関するパラメータ値は、音響モデル構成８６２のデータベースから抽出され得、音響モデルインスタンス８６６をインスタンス化するために使用され得る。上記の例において、第１の音響モデル構成は、確率に基づく可能性がより高いので、音響モデルインスタンスは、「屋内」音響モデルとしてセットされる可能性がより高い。他の例において、任意数（たとえば２以上）の異なる分類および対応する構成が存在してもよい。

図８において、たとえば、音響モデル構成のデータベースから抽出された構成を使用して音響モデルセレクタ８６４によって構成されるような音響モデルインスタンス８６６も、たとえばクライアントデバイス８１０からオーディオデータ８３５を受け取る。音響モデルインスタンス８６６は、オーディオデータ８３５に関連付けられる（たとえば、オーディオデータ８３５内において特徴とされる）発声を解析するために使用される音素データ８７０を生成するように構成される。音素データ８７０は、たとえば予め規定されたアルファベットまたは辞書からの音素シンボルのシーケンスを含み得る。従って、図８の例において、音響モデルセレクタ８６４は、オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいてデータベース８６２から音響モデル構成を選択し、音響モデル構成は、オーディオデータ８３５を処理するよう音響モデルインスタンス８６６をインスタンス化するために使用される。

１つの場合では、ビジュアル特徴抽出器８２０、オーディオ特徴抽出器８３０および音響モデルセレクタ８６４は、ニューラルネットワークアーキテクチャを含み得る。これらの特徴は、図７でのように組合せで学習され得る。たとえば、この場合の学習データは、画像データ８２５、オーディオデータ８３５およびグラウンドトゥールース音響モデル選択のトリプルを含み得る（たとえば、音響モデルセレクタによって出力される分類）。この場合、ビジュアル特徴テンソル８４０およびオーディオ特徴テンソル８４５は、図６のシステム６００より小さなサイズであり得る。これは、単にこれらのテンソルが、完全なシーケンス出力を生成するのではなく、正確な音響モデル選択をするために十分な情報を提供する必要があるからである。１つの場合では、ビジュアル特徴テンソル８４０およびオーディオ特徴テンソル８４５は、サイズが数ビットまたは数バイトであり得、たとえば１～３２個の要素を有し、当該要素は、バイナリまたは低い（＜８）ビット値といった限られた範囲を有し得る。したがって、帯域幅が限定されおよび／またはクライアントデバイス８１０が限られた処理リソースのみを有する実現例のこの形態は好適であり得る。

１つの場合では、音響モデルインスタンス８６６は非ニューラルモデルを含み得る。たとえば、音響モデルインスタンス８６６は統計モデルを含み得る。統計モデルは、シンボル周波数（たとえばｎグラム）および／または確率を使用し得る。１つの場合では、統計モデルは、ベイジアンネットワークまたは分類器のようなベイジアンモデルを含み得る。これらの場合では、音響モデル構成は、異なる環境において測定されたシンボル周波数および／または事前確率の特定のセットを含み得る。したがって、音響モデルセレクタ８６４は、発声についての特定の環境が、ビジュアルおよびオーディオ情報の両方に基づいて決定されることを可能にし、音素シーケンス８７０を生成するためにオーディオデータ８３５を単独で使用することに対して改善を提供し得る。１つの場合では、オーディオ特徴テンソル８４５は、音響モデルインスタンス８６６を構成することにおいて、環境におけるノイズの源が使用されることを可能にし得る。比較例では、これらのノイズの源は、（たとえば、オーディオデータ８３５から音響モデルインスタンス８６６に至る図８におけるパイプライン内において）スピーチ処理中にフィルタリングされ得る。しかしながら、環境におけるノイズの源は、音素生成に影響を与えるグローバルパラメータ（たとえば屋内／屋外、混雑／平穏、風が強い／風が強くない）を決定するのに有用であり得る。

システム８００の変形例において、ビジュアル特徴抽出器８２０、オーディオ特徴抽出器８３０、音響モデルセレクタ８６４および音響モデルインスタンス８６６は、ニューラルネットワークアーキテクチャを含み得る。この場合、音響モデル構成８６２のデータベースはオミットされ得、音響モデルセレクタ８６４が、インスタンスを構成するために音響モデルインスタンス８６６にテンソル入力を提供し得る。この場合、学習データは、画像データ８２５、オーディオデータ８３５および音素出力８７０のグラウンドトゥールースセットから構築され得る。また、結合されたシステムの学習は、図７に示される学習に類似し得る。

代替的な例
ある場合には、以前に記載された言語的モデルの局面がスピーチ処理装置として実現され得る。この場合、スピーチ処理装置は、スピーチデータを解析するために使用される音素データを生成する音響モデルと、音響モデルからの音素データを使用してスピーチデータのトランスクリプションを生成する言語モデルとを含み得る。音響モデルは、たとえば、構成された音響モデルインスタンス８６６によって実現されたような音響モデル、および／または、図４Ｃのブロック４７６において適用されたような音響モデルといった、前述のような音響モデルを含み得る。音響モデルは、統計モデルまたはニューラルネットワークアーキテクチャを含み得る。言語モデルはさらに、たとえば、図４Ｃのブロック４７８において適用されたような言語モデルといった、前述のような言語モデルを含み得る。そのトランスクリプションはテキストベースの出力を含み得る。

音響モデルおよび言語モデルに加えて、スピーチ処理装置はさらにビジュアルコンテキストインジケータを含み得る。ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの少なくとも１つに伝達可能に結合される。ある場合において、ビジュアルコンテキストインジケータが音響モデルおよび言語モデルの両方に結合され得る。他の場合では、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの１つのみに結合され得る。ビジュアルコンテキストインジケータは、スピーチデータがキャプチャされるビジュアル環境の表現を提供するように構成される。たとえば、ビジュアルコンテキストインジケータは、前述のようにビジュアル特徴抽出器を含み得る。１つの場合では、ビジュアルコンテキストインジケータは、たとえばサーバコンピューティングデバイス内といったように、音響モデルおよび言語モデルと同じデバイス内に存在し得るか、または、図３Ａにおける制御ユニット３１０のような単一デバイスに存在し得る。ある場合には、スピーチ処理装置は、本願明細書に記載されるようにクライアントデバイスの部分を形成し得、たとえば、記載されるようなサーバ側の機能がクライアント側に移動されてもよい。異なる分散化された構成を含む異なる組合せが可能である。

ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの少なくとも１つにビジュアル環境の表現を提供するように構成される。当該表現は、本願明細書に記載されるようなビジュアル特徴テンソルを含み得、たとえば、ビジュアルコンテキストインジケータは図５のビジュアル特徴抽出器５００と同様の構成を含み得る。本例では、ビジュアルコンテキストインジケータは、音響モデルセレクタ８６４と同様の態様で機能し得、たとえば、少なくとも音響モデルの構成をセットし得る。一般に、この例では、音響モデルおよび言語モデルのうちの少なくとも１つは、ビジュアル環境の表現に基づいて区別的に構成される。ここで、「区別的に」という用語は、異なる表現が提供される場合に音響モデルおよび／または言語モデルの処理が異なり得、さらに、表現が提供されない場合とも異なり得るということを示すために使用される。１つの場合では、スピーチ処理は、提供される表現に基づいて、音響モデルおよび言語モデルのうちの１つ以上内で向上される。

１つの場合では、表現は、本願明細書に記載されるようなビジュアル特徴テンソルを含み得る。これは、音響モデルおよび言語モデルの構成をセットするために入力として使用され得る。音響モデルおよび言語モデルのうちの少なくとも１つが、ニューラルネットワークアーキテクチャを含む場合、ビジュアル特徴テンソルは、ニューラルネットワークアーキテクチャへの入力の部分として使用され得、および／または、ニューラルネットワークアーキテクチャの状態をセットするために使用され得る。たとえば、表現は、数値のベクトルを含む場合、オーディオベースの入力に連結され得、および／または、リカレントニューラルネットワークアーキテクチャの隠れ状態をセットするために使用され得る。この場合、スピーチ処理装置は、たとえば図８のようにスピーチデータを提供するオーディオデータが提供されるといったように、図６のビジュアル特徴抽出器６２０および言語的モデル６５５の組合せと同様であると理解され得る。

１つの場合では、たとえば、スピーチ処理装置はさらに、スピーチ音がどのように発生するかについての特定のモデルに基づいて音響モデルおよび言語モデルのうちの１つ以上を構成するよう発音モデルを含み得る。発音モデルは、特定の方言およびアクセントならびに／または時間にわたってスピーチが学習された特定のユーザのためにスピーチ処理を適合し得る。ある場合には、たとえばビジュアル特徴テンソルといった表現はさらに、発音モデルを構成するために使用され得、他の場合では、発音モデルは、当該表現に基づいて構成されない場合があり得る。

１つの場合では、ビジュアルコンテキストインジケータは、リモートのビジュアル特徴抽出器から表現を受け取り得る。この場合、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの１つ以上を構成する際の使用の前に当該表現を処理してもよく、または、処理しなくてもよい。１つの場合では、ビジュアルコンテキストインジケータは、画像データまたは１つ以上の画像から導出されるデータを受け取り得る。１つの場合では、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの１つ以上と共同で学習または構成され得る。別の場合では、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの１つ以上と独立して学習または構成されてもよく、たとえば、ビジュアルコンテキストインジケータを学習する場合、音響モデルおよび／または言語モデルのパラメータは固定されてもよく、音響モデルおよび／または言語モデルを学習する場合、ビジュアルコンテキストインジケータのパラメータが固定されてもよい。

スピーチ処理の例示的な方法
図９Ａは、クライアントデバイスにおいてスピーチを処理するための例示的な方法９００を示す。方法９００は、ユーザからの発声に関連付けられるオーディオデータがキャプチャされるブロック９０５において始まる。これは、図３Ａおよび図３Ｂにおけるデバイス３３０、３７０または３８０のような１つ以上のマイクロフォンからのデータをキャプチャすることを含み得る。オーディオデータは、発声の前または後の記録の部分と、発声自体とを含み得る。ブロック９１０では、ユーザの環境を特徴とする画像データがキャプチャされる。たとえば、画像データは、図３Ａおよび図３Ｂにおける３１５、３２０、３２５、３６５および３７５のうちの１つ以上のようなカメラデバイスからキャプチャされ得る。１つの場合では、画像データは、クライアントデバイスの外部のカメラからデータを受け取ることによりキャプチャされ得る。

ブロック９１５では、当該方法は、ビジュアル特徴抽出器を使用して、画像データの１つ以上のフレームからビジュアル特徴テンソルのセットを抽出することを含む。ビジュアル特徴抽出器はクライアントデバイスの部分であり得る。画像データのフレームは、ビジュアル特徴テンソルのセットより大きい情報コンテンツを有しており、たとえば、より多いビットの情報を含み得る。ビジュアル特徴テンソルのセットは１つのビジュアル特徴テンソルを含み得、または、ビジュアル特徴テンソルのシーケンスを含み得る。たとえば、前者は図８のシステム８００のために使用されてもよく、後者は図６のシステム６００において使用されてもよい。ブロック９２０では、クライアントデバイスにおいてオーディオ特徴抽出器を使用してオーディオデータからオーディオ特徴テンソルのセットが抽出される。また、オーディオ特徴テンソルのセットは、１つのオーディオ特徴テンソルを含み得るか、または、オーディオ特徴テンソルのシーケンスを含み得、前者は図８のシステム８００のために使用され、後者は図６のシステム６００のために使用される。

ブロック９２５では、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットがサーバデバイスに送信される。これは、図１に示されるサーバデバイス１２０または図６および図８に示されるサーバ側コンポーネント６５０，８５０を含み得る。サーバデバイスは、言語的モデルに少なくともビジュアル特徴テンソルおよびオーディオ特徴テンソルを提供するように構成され、言語的モデルは、発声を解析するのに使用可能な言語的特徴のセットを決定するように構成される。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの１つ以上を含み得、言語的特徴は、音素シーケンス、文字シーケンス、単語部分シーケンスまたは単語シーケンスのうちの１つ以上を含み得る。この方法では、ビジュアル特徴抽出器およびオーディオ特徴抽出器は、たとえば図７を参照して説明されるように、言語的モデルと共同で構成される。

図９Ｂは、サーバデバイスにおいてスピーチを処理するための方法９５０を示す。当該方法は、方法９００の後に行なわれてもよく、および／または、ビジュアルおよびオーディオ特徴生成の別の方法の後に行なわれてもよい。ブロック９５５では、オーディオおよびビジュアル特徴テンソルのセットはクライアントデバイスから受け取られる。ビジュアル特徴テンソルは、図９Ａにおけるブロック９１５のように生成され得る。すなわち、クライアントデバイスによってキャプチャされる画像データのフレームに基づいてクライアントデバイスのビジュアル特徴抽出器によって生成され得、画像データのフレームは、クライアントデバイスの環境を特徴とする。オーディオ特徴テンソルは、図９Ａにおけるブロック９２０のように生成され得る。すなわち、ユーザの発声に関連してクライアントデバイスによってキャプチャされる対応するオーディオデータに基づいてクライアントデバイスのオーディオ特徴抽出器によって生成され得る。

ブロック９６０では、オーディオおよびビジュアル特徴テンソルのセットは入力として言語的モデルに提供される。言語的モデルはたとえば、図１の言語的モデル１２４、図６の言語的モデル６５５または図８の言語的モデル８５５を含み得る。言語的モデルは、発声を解析するのに使用可能な言語的特徴のセットを決定するように構成されており、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成される。ブロック９６５では、発声は言語的モデルの出力を使用して解析される。これは、コマンド、および／または、発声に関連付けられるコマンドデータを決定することを含み得る。その場合、当該方法はさらに、コマンドデータに従ってコマンドの実行を指示することを含み得る。これにより、応答データがクライアントデバイスに送信され得る。クライアントデバイスは、サーバデバイスからの発声に対する応答を受け取り得、たとえばコマンド実行の出力といったユーザに対する対応する応答を提供し得る。

１つの場合において、サーバデバイスでの方法はさらに、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られたセットに基づいて音響モデル構成を選択することと、オーディオデータを受け取ることと、発声に対応する音素データを決定するために、音響モデル構成に従って構成された音響モデルをオーディオデータに適用することとを含む。これはたとえば、図８の言語的モデル８５５を使用して行なわれ得る。したがって、その発声は、音素データを使用して解析され得る。１つの場合では、音素データは、発声を解析するためにさらに別の言語的処理パイプラインに入力され得、たとえば、音素データは言語的トランスクリプションへと処理され得、これが発声を解析するために使用され得る。

ある場合では、言語的モデルは、たとえばビジュアル特徴テンソルおよびオーディオ特徴テンソルのうちの１つ以上から導出されるような、環境情報のための統計的言語モデルおよび別個の「メタ」言語モデルを含み得る。この場合、メタ言語モデルは、メタモデルの出力に基づいて、統計的言語モデルによる出力として、代替的な仮定を再スコアリングするように構成され得る。

ある場合には、言語的モデルは、たとえば、オーディオデータ、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの１つ以上を受け取る複数のモデルを含み得る。この場合、言語的モデルは、トランスクリプションのような、言語的特徴を決定するために投票（voting）を使用するアンサンブルモデルを含み得る。ある場合には、音響モデルおよび／または言語モデルが複数の候補シンボルシーケンスを出力し得る。これらの場合において、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの１つ以上を受け取る自然言語処理の付加的なステージが、さまざまなシーケンス仮説を処理し、かつ、出力として各シーケンスについてのスコアを提供するように構成され得る。

共同で構成する方法
図１０は、例に従った、スピーチを処理するためのシステムを構成する方法１０００を示す。ブロック１０１０では、当該方法は、スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含む。たとえば、これは、図７に示されるエンドツーエンドシステムを構成することを含み得る。図７に示されるように、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルは、たとえば重みおよびバイアスのセットといったモデルパラメータのそれぞれのセットによってパラメータ化され得る。ブロック１０２０では、当該方法は、時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることを含む。この場合、時間的な相関は、オーディオデータおよび画像データの両方がユーザの発声の所与の時間窓内でキャプチャされたということであり得る。ある場合には、画像データおよびオーディオデータが集合的に、ビデオデータを含み得、オーディオデータがビデオデータのための１つ以上のオーディオチャンネルを形成する。グラウンドトゥールース言語的特徴は、音素、文字、単語部分および単語の１つ以上のシーケンスを含み得る。１つの場合では、グラウンドトゥールース言語的特徴は、発声のテキストトランスクリプションの形態で提供され得る。ブロック１０３０では、当該方法は、モデルパラメータのそれぞれのセットについて学習された値を決定するために、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルを、学習データを使用して共同で構成することを含み、共同で構成することは、スピーチ認識モデルを通じて言語的モデルのエラーをバックプロパゲーションすることを含む。これは、図７に示されるプロセスを行なうことを含み得る。ブロック１０３０は、ニューラルネットワーク機能のライブラリにおいて供給されると、損失関数および学習ルーチンの実現例を規定すること含み得る。

例示的なサーバデバイス
図１１は、図１におけるサーバデバイス１２０を実現し得るか、または、図９Ｂおよび図１０の方法のうちの１つ以上を行ない得る例示的なサーバデバイス１１００を示す。サーバデバイスは、ラックマウントサーバブレードマルチプロセッササーバシステム（rack-mounted server blade multi-processor server system）を含み得る。サーバデバイスは、ソフトウェアを並列で実行する複数のネットワーク接続されたコンピュータプロセッサを含み得る。サーバデバイス１１０は、コンピュータプロセッサ（ＣＰＵ）コア１１１０のマルチコアクラスタおよびグラフィックスプロセッサ（ＧＰＵ）コア１１２０のマルチコアクラスタを含む。これらのプロセッサは、プログラムコードおよびデータストレージのためのランダムアクセスメモリ（ＲＡＭ）デバイス１１４０にボードレベルのインターコネクト１１３０を通じて接続する。サーバシステム１１００はさらに、プロセッサがインターネットにアクセスすることを可能にするようネットワークインターフェイス１１５０を含む。インターフェイス１１３０を通じてＲＡＭデバイスに格納される命令を実行することによって、ＣＰＵ１１１０およびＧＰＵ１１２０は、本願明細書に記載されるような方法のステップを行ない得る。ある場合では、本願明細書に記載されるようなクライアントデバイスは、コンポーネントの同様の一般的な構成を有し得るが、ある場合において、より少ないコンピューティングリソースを有し得、専用のグラフィックスプロセッサ１１２０を有さない場合もあり得る。クライアントデバイスは、サーバデバイス１１００と同様の態様で本願明細書において記載される方法のステップを行なう１つ以上のＣＰＵを有し得る。

例示的なシステムの構成
図１２は、スピーチ処理システムを構成するための動作１２００の例示的なセットを示すシーケンス図である。動作１２００のセットは図１０の方法１０００の拡張と理解され得る。動作１２００のセットは、学習デバイス１２０２と、サーバデバイス１２０４と、１つ以上のクライアントデバイス１２０６のセットとを含む分散コンピューティングシステムに亘って行なわれる。たとえば、学習デバイス１２０２および／またはサーバデバイス１２０４は、図１１に示されるもののようなコンピューティングシステムを含み得、クライアントデバイス１２０６は、図１、図２、図３Ａおよび図３Ｂに示されるもののようなクライアントデバイスを含み得る。

ブロック１２１０～１２２０は、学習デバイス１２０２において行なわれ、図１０の動作と同様である。ブロック１２１０では、オーディオ特徴抽出器およびビジュアル特徴抽出器が言語的モデルに伝達可能に結合される。これは、メモリにロードされるとともに１つ以上のプロセッサ上で実行されるコンピュータプログラムコード内に規定されるモデルクラスをロードおよびインスタンス化することを含み得る。１つの場合では、これは、オーディオ特徴抽出器およびビジュアル特徴抽出器の出力同士間の結合と、言語的モデルの対応する入力とを規定することを含み得る。当該結合は、コンピュータプログラムコードに規定され得、および／または、グラフィカル開発環境を通じて規定され得る。ブロック１２１５では、学習データが得られる。これは、データベースまたは１つ以上のコンピュータファイルからの学習データの１つ以上のバッチをロードすることを含み得る。学習データは、オーディオ特徴抽出器およびビジュアル特徴抽出器のための入力と、言語的モデルのための対応するグラウンドトゥールース出力とを含む。学習データは、（audio_samples, video_frames, text_output）または（audio_samples, video_frames, phoneme_output）により構成されるトリプルを含み得る。学習データはそのまま使用されてもよいし、または、前処理されてもよい。たとえば、テキストまたは音素出力は、音素、文字または単語のようなシンボルのシーケンスへ分割され得る。オーディオサンプルは、生のオーディオデータを含む場合、プロダクションオーディオ処理パイプラインのように、クライアントデバイスにおけるオーディオ特徴抽出器の適用に先立って前処理され得る。同様に、ビデオフレームは、生の画像データを含む場合、プロダクション画像処理パイプラインのように、クライアントデバイスにおけるビジュアル特徴抽出器の適用に先立って前処理され得る。

ブロック１２２０では、ブロック１２１０において規定される結合されたシステムは、ブロック１２１５において得られた学習データを使用して共同で学習される。これは、学習データから個々のデータサンプルを抽出し、オーディオ特徴抽出器およびビジュアル特徴抽出器に入力を適用し、言語的モデルの出力および学習データからのグラウンドトゥールース値の比較に基づき損失関数値を計算するスクリプトおよび／または予め規定されたトレーニングプロシージャを実行することを含み得る。他の場合において、結合されたシステムの形態と、利用可能である学習データとに依存して、さまざまな学習アプローチが適用され得る。たとえば、学習は、教師あり学習であってもよく、または、教師なし学習であってもよい（たとえば、後者はグラウンドトゥールース値の代わりにクラスタリングを使用する）。ブロック１２２０での共同学習の出力は、たとえば図７に示されるように、オーディオ特徴抽出器、ビジュアル特徴抽出器および言語的モデルの各々についての学習されたパラメータのセットを含む。これらの学習されたパラメータは、重みおよびバイアスの１つ以上のセットについての値（たとえば整数または浮動小数点値）を含み得る。１つの場合では、学習されたパラメータは、たとえば１つ以上のマトリックス（数値配列）またはベクトルといった、１つ以上のテンソルとして規定され得る。これらは構成ファイルに格納され得る。

ブロック１２２５では、言語的モデルのための学習されたパラメータは、サーバデバイス１２０４に伝達される。１つのサーバデバイスがこの例において示されるが、他の例において、たとえば、並列のサーバデバイス実現例を有するロードバランスされたインフラストラクチャを実現する場合、複数のサーバデバイスが存在し得る。ブロック１２３０では、学習されたパラメータがサーバデバイス１２０４において受け取られる。学習されたパラメータは、たとえば、ファイル転送プロトコルを使用して１つ以上の構成ファイルを転送することによってネットワークを介して伝達され得、および／または、（たとえば学習デバイス１２０２およびサーバデバイス１２０４が物理的および／もしくは仮想環境において同じ場所に位置する場合）ローカルインターコネクトによって転送され得る。ブロック１２３５では、学習されたパラメータは、言語的モデルをインスタンス化するためにサーバデバイス１２０４によってロードされる。たとえば、これは、学習されたパラメータ内の重みおよびバイアスの１つ以上のセットについての値に従ってニューラルネットワークアーキテクチャを構成することを含み得る。ブロック１２３５は、サーバデバイス１２０４がクライアントデバイス１２０６からのデータを処理することを開始するようアクティベートされると、行なわれ得る。

ブロック１２４０では、ブロック１２２５～１２３５と同様のプロセスは、１つ以上のクライアントデバイス１２０６について繰り返される。ブロック１２４０では、オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された値は、１つ以上のクライアントデバイス１２０６に伝達される。これらは、すべてのクライアントデバイス１２０６について同時に生じる必要はなく、たとえば、学習されたパラメータは、コンピュータプログラムコードに埋め込まれてもよく、ならびに／または、ソフトウェアアップデートの形態でクライアントデバイスに伝達され、および／もしくは、クライアントデバイス上で実行されるエージェントによってダウン可能（downable）であるデータに埋め込まれてもよい。ブロック１２４５では、学習されたパラメータ値は、１つ以上のクライアントデバイス１２０６によって受け取られる。ブロック１２５０では、オーディオ特徴抽出器のための学習されたパラメータは、オーディオ特徴抽出器を構成するために使用され、たとえば、重みおよびバイアスの１つ以上のセットについての値は、リカレントニューラルネットワークアーキテクチャをインスタンス化するために使用され得る。ブロック１２５５では、ビジュアル特徴抽出器のための学習されたパラメータは、ビジュアル特徴抽出器を構成するために使用され、たとえば、重みおよびバイアスの１つ以上のセットについての値は、畳み込みニューラルネットワークアーキテクチャをインスタンス化するために使用され得る。ブロック１２５０および１２５５の後、クライアントデバイス１２０６は、サーバデバイス１２０４による処理のために、たとえば図４Ａ～図４Ｃの動作のように、オーディオおよびビジュアル特徴テンソルを生成する準備ができている。

図１２では、ブロック１２２５～１２５５は製造時に行なわれ得る。この場合、ブロック１２２５または１２４０での送信は、たとえば工場環境内において、１つ以上の結合されたデータインターフェイス（たとえばユニバーサルシリアルバス）を介してデータを送信することを含み得る。

１つの場合において、図１０におけるブロック１０３０または図１２におけるブロック１２２０では、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの１つ以上が、言語的モデルへの入力の前に、学習中に重み付けされ得る。たとえば、「ドロップアウト」アプローチと同様の態様で、あるサンプルに関しておよび／またはサンプルのあるランダムに選択された割合に関して、（全体、または、テンソル内の要素の規定された割合について）ビジュアル特徴テンソルからの入力がゼロにされ得る。これは、ビジュアル特徴テンソルが存在しない場合において、使用可能な出力をそれでも作り出す変換を言語的モデルがラーニングするのを支援し得る。これは、画像データが利用可能でない場合に有用であり得る（たとえば、ユーザがカメラをディアクティベートしてもよく、および／または、カメラが存在していなくてもよく、もしくは、動作してなくてもよい）。

ある場合において、ブロック１２１０は、学習されたビジュアル分類モデルを得ることと、学習されたビジュアル分類モデルのための新しい出力層を生成するために、構成されたビジュアル分類モデルの１つ以上の分類層を除去することとを含み得る。たとえば、これは、モデルについて、予め構築されたビジュアル分類モデルおよび学習されたパラメータのセットを得ることを含み得る。ビジュアル分類モデルは、ＩｍａｇｅＮｅｔのような公開データセットを使用して学習され得る。１つ以上の分類層を除去することは、分類確率と、後のフィードフォワードおよび／または畳み込みニューラルネットワークステージを出力するために使用されるソフトマックス層の１つ以上を除去することを含み得る。分類層は、たとえばコードエディタおよび／またはグラフィカル開発環境を介して、ビジュアル分類モデルを規定するコンピュータプログラムコードを編集することにより除去され得る。ひとたび１つ以上の分類層が除去されると、ブロック１２１０はさらに、ビジュアル特徴抽出器を得るために、１つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを新しい出力層に伝達可能に結合することを含み得る。この場合、さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、新しい出力層の次元数より小さい。すなわち、さらに別のニューラルネットワークアーキテクチャは、オートエンコーダと同様の態様で、ビジュアル特徴テンソルとしての使用のための圧縮された「コード」を生成するよう作用する。

ニューラルネットワークモデルに関連して本願明細書におけるある例が記載された。他の場合では、１つ以上の統計モデルが使用されてもよく、および／または、ニューラルネットワークおよび統計モデルのミックスが使用されてもよい。言語的モデルが統計モデルを含む例において、共同で言語的モデルを構成することは、たとえばニューラルネットワークモデルの重みおよび／またはバイアスと同様の態様で、言語的モデルのために確率値および／または周波数値をロードすることを含み得る。

例示的な実現例
自動音声認識を含むスピーチ処理に関するある例が記載される。ある例は、ある話された言語の処理に関する。さまざまな例は、他の言語または言語の組合せについても同様に動作する。ある例は、言語外の環境情報を組み込むことによりスピーチ処理の精度および堅牢性を向上させる。言語外の環境情報は言語的モデルを向上させるために使用され得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの１つ以上を含み得る。

ある例において、言語外の環境情報は、たとえば画像データから導出される表現といった、環境のビジュアル表現を含む。ある例において、言語外の環境情報は、たとえば、処理すべき発声を表わし得るかまたは表わし得ないオーディオデータから導出される表現といった、環境の音響表現を含む。後者の場合では、環境の音響の表現は、発声の音響の表現に加えて提供され得る。ある例は、スピーチ処理の精度を向上させるために、ビジュアル特徴と音響的特徴との間の相関を使用し得る。たとえば、音響モデルでは、人々の群衆の画像は、「お喋り」のバックグラウンドノイズに相関され得、屋外のシーンの画像は風のノイズに相関され得る。「お喋り」のノイズおよび風のノイズは異なる音響的特徴を有し得る。したがって、ビジュアル表現によって、音響モデルは「より正確な」ノイズ表現を選択することが可能となり得、たとえば、音響表現およびビジュアル表現と一貫する音素のシーケンスを選択することが可能となり得る。ある場合には、日時情報またはジオロケーション情報のような付加的な言語外の環境情報も使用され得る。たとえば、ジオロケーション情報は、音響モデリングの目的のために「戸外」の分類の信頼を高め得る。ある場合には、言語外の情報は、文単語統計（sentence word statistics）の開始のために特定の改善を提供し得る。たとえばシーケンスのトランスクリプションに使用されるコンテキストを選択するために特定の改善を提供し得、異なるコンテキストは異なるシーケンスにつながり得る。

携帯電話のようなクライアントデバイスは、環境の音響の表現の歪曲をコストとして音声データを記録するようにしばしば高度に適合されるので、音響の表現を既存のオーディオデータに加えることは有用であり得る。たとえば、マイクロフォン上のノイズキャンセルは、（たとえば人間のプレイバックのための）知覚されたスピーチオーディオ品質を向上させるが、マシンの処理についての有益な情報を廃棄する。図８のシステム８００のような例では、音声表現および環境表現のための並列オーディオ経路によって、言語的モデルが、ノイズキャンセルおよびビームフォーミングのようなクライアントデバイス処理の負の効果を抑制することが可能になる。ある場合では、オーディオ特徴抽出器は、言語的モデルニューラルネットワークアーキテクチャとは異なるニューラルネットワークアーキテクチャを有し得、たとえば、直接的なスピーチ処理に好適ではない場合があり得る、畳み込みニューラルネットワークが使用され得る環境の音響表現を提供する。これらの場合では、オーディオ特徴テンソルがスピーチオーディオを増強するために使用され得る。本願明細書において記載されるある例は、環境情報の特徴のモデルおよび言語的モデルを共同で構成しており、当該特徴はビジュアルおよび音響であり得る。

ある方法および動作のセットは、一時的でないコンピュータ読取可能媒体上に格納される命令によって行なわれ得る。一時的でないコンピュータ読取可能媒体は、１つ以上のコンピュータによって実行されると、本願明細書において記述された方法のステップをコンピュータに行なわせる命令を含むコードを格納する。一時的でないコンピュータ読取可能媒体は、回転磁気ディスク、回転光ディスク、フラッシュランダムアクセスメモリ（ＲＡＭ）チップ、他の機械的に動く記憶媒体またはソリッドステート記憶媒体のうちの１つ以上を含み得る。データセンタは、サーバプロセッサのための命令を含むデータおよびコードを格納するために一般に磁気ディスクおよびフラッシュメモリを使用する。モバイルデバイスは一般に、システムオンチップデバイス内のプロセッサのためにデータおよびコードを格納するためにフラッシュメモリを使用する。任意のタイプのコンピュータ読取可能媒体は、さまざまな例に従った命令を含むコードを格納するために適切である。

本願明細書において記載されるある例は、いわゆるシステムオンチップ（ＳｏＣ）デバイスとして実現され得る。ＳｏＣデバイスは、多くの埋込システムおよびＩｏＴデバイスを制御し、本願明細書において記載されるクライアントデバイス機能を実現するために使用され得る。１つの場合では、ビジュアル特徴抽出器およびオーディオ特徴抽出器のうちの１つ以上は、ＳｏＣデバイスとして実現され得る。ＳｏＣデバイスは、１つ以上のプロセッサ（たとえばＣＰＵまたはＧＰＵ）と、ランダムアクセスメモリ（たとえばオフチップダイナミックＲＡＭすなわちＤＲＡＭといったＲＡＭ）と、イーサネット（登録商標）、ＷｉＦｉ（登録商標）、３Ｇ、４Ｇロングタームエボリューション（ＬＴＥ： long-term evolution）、５Ｇおよび他の無線インターフェイス規格の無線のような有線または無線接続のためのネットワークインターフェイスとを含み得る。ＳｏＣデバイスはさらに、タッチスクリーンセンサ、ジオロケーションレシーバ、マイクロフォン、スピーカ、ブルートゥース（登録商標）周辺機器、ならびに、キーボードおよびマウスのようなＵＳＢデバイスといった異なる周辺機器デバイスに必要とされるようなさまざまなＩ／Ｏインターフェイスデバイスを含み得る。ＲＡＭデバイスに格納された命令を実行することによって、ＳｏＣデバイスのプロセッサは、本願明細書に記載されるように方法のステップを行ない得る。

ある例が本願明細書において記載されており、異なる例からの異なるコンポーネントの異なる組合せが可能であり得る。顕著な特徴は、例をより良く説明するために示されるが、記載したようなこれらの例の機能的な局面を修正することがなければ、ある特徴が、加えられてもよく、修正されてもよく、および／または省略されてもよいということが明らかである。

さまざまな例は、人間およびマシンのいずれかまたはその組合せの挙動を使用する方法である。方法の例は、世界においてほとんどの構成ステップが生じる場合はどこでも完全である。いくつかの例は、本願明細書において記載される方法についてそのような命令を格納するように構成される１つ以上の一時的でないコンピュータ読取可能媒体である。必要なコードのうちのいずれかを含む一時的でないコンピュータ読取可能媒体を保持するどのようなマシンでも例を実現し得る。いくつかの例は、次のように実現され得る。すなわち、半導体チップのような物理デバイス、そのようなデバイスの論理または機能的挙動のハードウェア記述言語表現、および、そのようなハードウェア記述言語表現を格納するように構成される１つ以上の一時的でないコンピュータ読取可能媒体のように実現され得る。原則、局面および実施形態を説明する本願明細書における記載は、その構造的および機能的な等価物を包含する。結合されると本願明細書において記載される要素は、直接的な接続によって、または、１つ以上の多くの他の介在要素により間接的に実現可能な有効な関係を有する。

Claims

スピーチを処理するためのクライアントデバイスであって、
ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する１つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、１つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記言語的モデルと共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含む、クライアントデバイス。
スピーチを処理するためのクライアントデバイスであって、
ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する１つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、１つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第１の入力層と、第１の出力層とを含む複数の層を含む第１の畳み込みニューラルネットワークアーキテクチャを含み、前記第１の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第１の出力層に結合される１つ以上の付加的な分類層による学習動作から導出され、
前記ビジュアル特徴抽出器はさらに、第２の入力層および第２の出力層を含む１つ以上の層を含む第２のニューラルネットワークアーキテクチャを含み、前記第２の入力層は、前記第１の畳み込みニューラルネットワークアーキテクチャの前記第１の出力層に結合されており、前記第２の出力層は、前記第１の出力層の次元数未満である次元数を有する、クライアントデバイス。
前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および／または、
群衆の中にいるか否か、を識別する、請求項１または請求項２に記載のクライアントデバイス。
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器のうちの１つ以上は、ニューラルネットワークアーキテクチャを含む、請求項１～請求項３のいずれか１項に記載のクライアントデバイス。
前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの数値表現を含み、前記トランスミッタは、前記オーディオ特徴テンソルとともに前記オーディオデータを前記サーバデバイスに送信するように構成されており、前記サーバデバイスの前記言語的モデルは、前記オーディオデータに基づいて言語的特徴を決定するよう、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用して構成される、請求項１～請求項４のいずれか１項に記載のクライアントデバイス。
前記画像データはビデオデータを含み、前記オーディオデータは前記ビデオデータに時間的に相関されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記ビデオデータおよび前記オーディオデータに並列に適用される、請求項１～請求項５のいずれか１項に記載のクライアントデバイス。
スピーチを処理するためのクライアントデバイスであって、
ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する１つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、１つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第１の入力層と、第１の出力層とを含む複数の層を含む第１の畳み込みニューラルネットワークアーキテクチャを含み、前記第１の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第１の出力層に結合される１つ以上の付加的な分類層による学習動作から導出され、
前記ビジュアル特徴抽出器はさらに、第２の入力層および第２の出力層を含む１つ以上の層を含む第２のニューラルネットワークアーキテクチャを含み、前記第２の入力層は、前記第１の畳み込みニューラルネットワークアーキテクチャの前記第１の出力層に結合されており、前記第２の出力層は、前記第１の出力層の次元数未満である次元数を有し、
前記第２のニューラルネットワークアーキテクチャは、学習動作において、前記オーディオ特徴抽出器および前記言語的モデルと共同で学習され、前記第１の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータの前記セットは、前記学習動作中は固定される、クライアントデバイス。
スピーチを処理するためのサーバデバイスであって、
クライアントデバイスから１つ以上のビジュアル特徴テンソルおよび１つ以上のオーディオ特徴テンソルを受け取るレシーバを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは、前記クライアントデバイスの環境を特徴としており、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、
前記サーバデバイスはさらに、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを受け取り、かつ、前記発声を解析するために使用可能な言語的特徴を決定する言語的モデルを含み、
前記ビジュアル特徴テンソルは、前記クライアントデバイスのユーザの場所を識別し、
前記言語的モデルは、前記クライアントデバイスの前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成され、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含む、サーバデバイス。
前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および／または、
群衆の中にいるか否か、を識別する、請求項８に記載のサーバデバイス。
前記言語的モデルは、音響モデルおよび言語モデルを含み、
前記言語モデルは、前記ビジュアル特徴テンソルに従って、音素シーケンスをテキストにマッピングする、請求項８または請求項９に記載のサーバデバイス。
前記言語的モデルによる使用に先立って、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに重みを適用するアテンションプリプロセッサを含む、請求項８～請求項１０のいずれか１項に記載のサーバデバイス。
前記言語的モデルは、入力として前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、前記発声のテキスト表現を出力するニューラルネットワークアーキテクチャを含む、請求項８～請求項１１のいずれか１項に記載のサーバデバイス。
前記オーディオ特徴テンソルは、前記環境についてのオーディオコンテキストの表現を含み、前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの表現を含み、
前記サーバデバイスの前記レシーバは、前記オーディオ特徴テンソルに加えて前記オーディオデータを受け取るように構成され、
前記言語的モデルは、前記オーディオデータからの前記発声を解析するために使用される音素データを生成する音響モデルを含み、前記音響モデルは、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに基づいて構成される、請求項８～請求項１２のいずれか１項に記載のサーバデバイス。
前記音響モデルは、
音響モデル構成のデータベースと、
前記オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいて、前記データベースから音響モデル構成を選択する音響モデルセレクタと、
前記オーディオデータを処理する音響モデルインスタンスとを含み、前記音響モデルインスタンスは、前記音響モデルセレクタによって選択される前記音響モデル構成に基づいてインスタンス化され、前記音響モデルインスタンスは、前記発声を解析するために使用される前記音素データを生成するように構成される、請求項１３に記載のサーバデバイス。
前記言語的モデルはさらに、
前記音素データを受け取り、かつ、前記発声を表わすテキストデータを生成する、前記音響モデルに伝達可能に結合される言語モデルを含み、
前記言語モデルは、前記オーディオ特徴テンソルおよび前記ビジュアル特徴テンソルを、前記発声を表わす前記テキストデータを生成するために使用される入力として受け取るように構成される、請求項１３または請求項１４に記載のサーバデバイス。
クライアントデバイスにおいてスピーチを処理するための方法であって、
前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
画像データの１つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記言語的モデルと共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含む、方法。
クライアントデバイスにおいてスピーチを処理するための方法であって、
前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
画像データの１つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器を使用して抽出することは、
画像データのフレームを受け取る第１の入力層と、第１の出力層とを含む複数の層を含む第１の畳み込みニューラルネットワークアーキテクチャに、キャプチャされた前記画像データから導出されるデータを提供することと、
第２の出力層を含む１つ以上の層を含む第２のニューラルネットワークアーキテクチャに前記第１の出力層の出力を提供することとを含み、前記第２の出力層は、前記第１の出力層の次元数未満である次元数を有しており、前記第２の出力層の出力は、ビジュアル特徴テンソルの前記セットを生成するために使用される、方法。
前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および／または、
群衆の中にいるか否か、を識別する、請求項１６または請求項１７に記載の方法。
前記クライアントデバイスにおいて、前記発声に対する応答を前記サーバデバイスから受け取ることと、
前記クライアントデバイスにおいて、前記サーバデバイスから受け取られる前記発声に対する前記応答に基づいて前記ユーザに対する応答を提供することとを含む、請求項１６～請求項１８のいずれか１項に記載の方法。
クライアントデバイスにおいてスピーチを処理するための方法であって、
前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
画像データの１つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第１の入力層と、第１の出力層とを含む複数の層を含む第１の畳み込みニューラルネットワークアーキテクチャを含み、前記第１の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第１の出力層に結合される１つ以上の付加的な分類層による学習動作から導出され、
前記ビジュアル特徴抽出器はさらに、第２の入力層および第２の出力層を含む１つ以上の層を含む第２のニューラルネットワークアーキテクチャを含み、前記第２の入力層は、前記第１の畳み込みニューラルネットワークアーキテクチャの前記第１の出力層に結合されており、前記第２の出力層は、前記第１の出力層の次元数未満である次元数を有し、
前記第２のニューラルネットワークアーキテクチャは、学習動作において、前記オーディオ特徴抽出器および前記言語的モデルと共同で学習され、前記第１の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータの前記セットは、前記学習動作中は固定される、方法。
サーバデバイスにおいてスピーチを処理するための方法であって、
前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをクライアントデバイスから受け取ることを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは前記クライアントデバイスの環境を特徴とし、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、前記ビジュアル特徴テンソルは、前記ユーザの場所を識別し、
前記方法はさらに、
前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットを入力として言語的モデルに提供することを含み、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成されることは、時間的に相関されるオーディオデータおよび画像データとグラウンドトゥールース言語的特徴とを用いた前記言語的モデルの学習において決定されたエラーを前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器にバックプロパゲーションすることを含み、
前記方法はさらに、
前記言語的モデルの出力を使用して前記発声を解析することを含む、方法。
前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および／または、
群衆の中にいるか否か、を識別する、請求項２１に記載の方法。
前記言語的モデルは、音響モデルおよび言語モデルを含み、
前記言語モデルは、前記ビジュアル特徴テンソルに従って、音素シーケンスをテキストにマッピングする、請求項２１または請求項２２に記載の方法。
前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られた前記セットに基づいて、音響モデル構成を選択することと、
前記サーバデバイスにおいて、前記オーディオデータを受け取ることと、
前記発声に対応する音素データを決定するために、前記音響モデル構成に従って構成される音響モデルを前記オーディオデータに適用することと、
前記音素データを使用して前記発声を解析することとを含む、請求項２１～請求項２３のいずれか１項に記載の方法。
スピーチを処理するためのシステムを構成する方法であって、
スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、前記オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、前記ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、前記ビジュアル特徴テンソルは、前記オーディオデータに対応するユーザの場所を識別し、前記言語的モデルは、言語的特徴のセットを決定するために、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、
前記方法はさらに、
時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、
モデルパラメータの前記それぞれのセットについて学習された値を決定するために、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルを、前記学習データを使用して共同で構成することとを含み、前記共同で構成することは、前記スピーチ認識モデルを通じて前記言語的モデルのエラーをバックプロパゲーションすることを含む、方法。
前記ユーザの場所は、
前記ユーザが屋内にいるか屋外にいるか、
前記ユーザが車内にいるか車外にいるか、および／または、
群衆の中にいるか否か、を識別する、請求項２５に記載の方法。
前記言語的モデルは、音響モデルおよび言語モデルを含み、
前記言語モデルは、前記ビジュアル特徴テンソルに従って、音素シーケンスをテキストにマッピングする、請求項２５または請求項２６に記載の方法。
前記オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された前記値を１つ以上のクライアントデバイスに伝達することと、
前記言語的モデルについての学習された前記値を１つ以上のサーバデバイスに伝達することと、
学習された前記値を使用して前記１つ以上のクライアントデバイスおよび前記１つ以上のサーバデバイスを構成することとを含み、前記１つ以上のクライアントデバイスは、前記１つ以上のサーバデバイスによって処理されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成するために使用するために、学習された前記値をロードするように構成される、請求項２５～請求項２７のいずれか１項に記載の方法。
学習中に前記言語的モデルによって使用される前記オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの１つ以上に重み付けすることを含む、請求項２５～請求項２８のいずれか１項に記載の方法。
スピーチを処理するためのシステムを構成する方法であって、
スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、前記オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、前記ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、前記言語的モデルは、言語的特徴のセットを決定するために、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、
前記方法はさらに、
時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、
モデルパラメータの前記それぞれのセットについて学習された値を決定するために、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルを、前記学習データを使用して共同で構成することとを含み、前記共同で構成することは、前記スピーチ認識モデルを通じて前記言語的モデルのエラーをバックプロパゲーションすることと、
学習されたビジュアル分類モデルを得ることと、
学習された前記ビジュアル分類モデルのための新しい出力層を生成するために、構成された前記ビジュアル分類モデルの１つ以上の分類層を除去することと、
前記ビジュアル特徴抽出器を得るために、１つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを前記新しい出力層に伝達可能に結合することとを含み、前記さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、前記新しい出力層の次元数より小さい、方法。
命令を含むプログラムコードであって、
前記命令は、マシンのコンピュータプロセッサによって実行されると、前記マシンに、
ユーザからの発声に関連付けられるオーディオデータを得ることと、
前記ユーザの環境を特徴とする画像データを得ることと、
前記画像データの１つ以上のフレームからのビジュアル特徴テンソルのセットの抽出を命令することとを行わせ、画像データの前記フレームは、ビジュアル特徴テンソルの前記セットより大きい情報コンテンツを有しており、ビジュアル特徴テンソルの前記セットの前記抽出はパラメータの第１のセットによって構成され、
前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
前記オーディオデータからのオーディオ特徴テンソルのセットの抽出を命令することを行わせ、オーディオ特徴テンソルの前記セットの前記抽出はパラメータの第２のセットによって構成され、
前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
少なくともオーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットに基づく前記発声の解析を命令することを行わせ、前記発声の前記解析はパラメータの第３のセットによって構成され、
パラメータの前記第１のセット、第２のセットおよび第３のセットについての値は、共同学習プロシージャを使用して決定される、プログラムコード。
命令を含むプログラムコードであって、前記命令は、デバイスのコンピュータプロセッサによって実行されると、前記デバイスに請求項１６～請求項２４のいずれか１項に記載の方法を実行させる、プログラムコード。