JP7619983B2

JP7619983B2 - ディープニューラルネットワークを使用する端末間話者認識

Info

Publication number: JP7619983B2
Application number: JP2022104204A
Authority: JP
Inventors: コーリー、エリー; ガーランド、マシュー
Original assignee: ピンドロップセキュリティー、インコーポレイテッド
Priority date: 2016-09-12
Filing date: 2022-06-29
Publication date: 2025-01-22
Anticipated expiration: 2037-09-11
Also published as: AU2021286422B2; KR102072782B1; CA3096378C; KR20200013089A; ES2883326T3; CA3096378A1; JP2025065135A; KR102198835B1; AU2023263421A1; US20230037232A1; AU2017322591B2; WO2018049313A1; US12512101B2; JP7173974B2; US20240249728A1; KR20190075914A; JP2022153376A; CA3036533A1; CA3075049C; US11468901B2

Description

本出願は、２０１６年９月１２日に出願された米国非仮特許出願第１５／２６２，７４８号の優先権を主張し、この開示全体は、参照によって本明細書に組み込まれる。
本発明は、話者検証および／または話者の識別を含む音声認識を対象とする。さらに、本発明は、テキスト独立型話者認識を行うために使用され得る。

話者認識に対する現在の最新の手法は、音響混合ガウス分布（ＧＭＭ）（全体の内容が参照によって本明細書に組み込まれる、ＤｏｕｇｌａｓＡ．Ｒｅｙｎｏｌｄｓｅｔａｌ．，“ＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎＵｓｉｎｇＡｄａｐｔｅｄＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌｓ，”ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０００を参照されたい）、または音声認識ディープニューラルネットワークアーキテクチャ（全体の内容が参照によって本明細書に組み込まれる、Ｙ．Ｌｅｉｅｔａｌ．，“ＡＮｏｖｅｌＳｃｈｅｍｅｆｏｒＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇａＰｈｏｎｅｔｉｃａｌｌｙ－ＡｗａｒｅＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ，”ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＡＳＳＰ２０１４を参照されたい）のいずれかを使用して推定されるユニバーサルバックグラウンドモデル（ＵＢＭ）に基づく。最も有効な技術は、全変動パラダイムを使用してＵＢＭモデルを全ての会話発声に適合させることからなる（全体の内容が参照によって本明細書に組み込まれる、Ｎ．Ｄｅｈａｋｅｔａｌ．，“Ｆｒｏｎｔ－ＥｎｄＦａｃｔｏｒＡｎａｌｙｓｉｓｆｏｒＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ，”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１９，Ｎｏ．４，ｐｐ．７８８－７９８，Ｍａｙ２０１１を参照されたい）。全変動パラダイムは、話者およびチャネルに関する全情報を保存する「ｉベクトル」として知られる低次元特徴ベクトルを抽出することを目的とする。チャネル補償技術の適用後、結果として生じるｉベクトルは、話者の声紋または音声署名とみなされ得る。

かかる手法の主な欠点は、人間の知覚システムを再生するように設計された手作りの特徴のみを使用することによって、それらの手法が、話者を認識または検証するために重要である有用な情報を破棄する傾向にあることである。典型的には、上記の手法は、メル周波数ケプストラム係数（ＭＦＣＣ）等の低位の特徴を利用し、それらをガウス分布の定数（典型的には、１０２４または２０４８ガウス）に当てはめることを試みる。これは、ガウス仮定が必ずしも保たれない特徴空間内の複雑な構造をモデル化することを困難にする。

本発明は、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークを利用して、フロントエンド特徴抽出器を訓練するシステムを対象とし、話者の識別情報の検証、または既知の話者の閉集合の中から話者を識別するタスクを実施するために使用される。

代表的な実施形態によると、システムは、メモリデバイスおよびプロセッサ基盤デバイスからなる。メモリデバイスは、同一話者による会話サンプルのデュアルセット、デュアルセットと同一話者によらない会話サンプルのコホートセット、および話者モデルセットを含む、会話サンプルを記憶する。さらに、プロセッサ基盤デバイスは、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークをモデル化するように構成される。プロセッサ基盤デバイスは、会話サンプルのデュアルセットが会話サンプルのコホートセットとの組み合わせでディープニューラルネットワークを通して供給される、バッチ処理に従ってディープニューラルネットワークを訓練する。

さらなる代表的な実施形態によると、ディープニューラルネットワークは、第１の入力を受信および処理して第１の出力を生成する第１のフィードフォワードニューラルネットワークと、第２の入力を受信および処理して第２の出力を生成する第２のフィードフォワードニューラルネットワークと、第３の入力を受信および処理して第３の出力を生成する第３のフィードフォワードニューラルネットワークと、を含み得る。また、複数の話者の各々に関して、メモリデバイスが、話者によるＰ個の会話サンプルの第１のセット

および話者によるＰ個の会話サンプルの第２のセット

を含み、Ｐが、２以上の整数である。ディープニューラルネットワークは、プロセッサ基盤デバイスによって訓練され、それにより、複数の話者の各々に関して、ディープニューラルネットワークは、バッチ処理を実施し、その間に、対応する会話サンプルの第１のセットが第１のフィードフォワードニューラルネットワークを通して供給され、対応する会話サンプルの第２のセットが第２のフィードフォワードニューラルネットワークを通して供給され、会話サンプルのコホートセットが第３のフィードフォワードニューラルネットワークを通して供給される。バッチ処理が完了すると、対応する会話サンプルの第１のセット、対応する会話サンプルの第２のセット、および会話サンプルのコホートセットにそれぞれ基づいて取得された、第１のネットワーク出力、第２のネットワーク出力、および第３のネットワーク出力に基づいて、損失関数が算出される。算出された損失関数は、バックプロパゲーション法によって第１、第２および第３のフィードフォワードニューラルネットワークの各々の接続重みを修正するために使用される。

さらなる代表的な実施形態によると、上記の損失関数は、会話サンプルの第１のセットのうちの１つ

に応じた第１のネットワーク出力と、対応する会話サンプルの第２のセットのうちの１つ

に応じた第２のネットワーク出力との間の類似度Ｓ_＋に対応する正の距離ｄ_＋と、会話サンプルの第１のセットのうちの１つ

に応じた第１のネットワーク出力と、コホートセットのそれぞれの会話サンプルに応じた第３のネットワーク出力のうちの最も類似の１つとの間の類似度Ｓ_－に対応する負の距離ｄ_－と、に基づき得る。さらに、正の距離ｄ_＋および負の距離ｄ_－が、対応する類似度Ｓ_＋、Ｓ_－に異なるそれぞれのマージンＭ_＋、Ｍ_－を適用することによって決定され得る。特に、損失関数は、

として定義され得、式中、

であり、ｄ_＋＝２（１－ｍｉｎ（（Ｓ_＋＋Ｍ_＋），１）であり、ｄ_－＝２（１－ｍａｘ（（Ｓ_＋＋Ｍ_－－１），０）であり、

であり、

であり、

は、Ｎ回の反復中に供給されたＮ個の負の会話サンプルのうちのｎ番目のものであり、

は、会話サンプルの第１のセットのうちの１つに応じた第１のネットワーク出力であり、

は、会話サンプルの第２のセットのうちの１つに応じた第２のネットワーク出力であり、

は、負の会話サンプル

に応じた第３のネットワーク出力であり、Ｋは、定数である。

代替的な代表的な実施形態によると、損失関数は、等価エラー率（ＥＥＲ）メトリックに関連し得る。この場合において、損失関数は、

として定義され得、式中、μ_＋および

は、ガウス分布に基づく正の認識スコアの平均および標準偏差であり、

および

は、ガウス分布に基づく負の認識スコアの平均および標準偏差である。

代表的な実施形態によると、トリプレットネットワークアーキテクチャに採用されるフィードフォワードニューラルネットワークの各々は、少なくとも１つの重畳層、少なくとも１つの最大プーリング層、および完全に接続された層を含み得る。

さらに、一代表的な実施形態において、本発明は、ユーザが自己識別を入力する話者検証タスクを実施するために使用され得、認識会話サンプルは、ユーザの識別情報が自己識別と同一であることを確認するために使用される。別の代表的な実施形態において、本発明は、それぞれの会話サンプルを伴って記憶された複数の潜在的識別情報からユーザを識別するために認識会話サンプルが使用される、話者識別タスクを実施するために使用され得る。上記の実施形態は、相互排他的ではなく、同一トリプレットネットワークアーキテクチャが、両方のタスクを実施するために使用され得る。

本発明の代表的な実施形態による、話者認識を実施するためのシステムを例示する。本発明の代表的な実施形態による、訓練での使用のためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワークの概略構造を例示する。本発明の代表的な実施形態による、特定のユーザに対する加入および試験での使用のためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワークの概略構造を例示する。訓練での使用のための、前処理された会話サンプルを受信するように設計された、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークの構造の具体例を例示する。特定のユーザに対する加入および試験での使用のためのディープニューラルネットワークアーキテクチャの構造の具体例を例示する。訓練での使用のための、生の会話サンプルを処理するように設計された、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークの構造の別の具体例を例示する。本発明の代表的な実施形態による、話者認識のための概略処理のフローチャートを例示する。本発明の代表的な実施形態による、話者認識を実施するトリプレットネットワークアーキテクチャのディープニューラルネットワークを利用する処理のフローチャートを例示する。本発明の代表的な実施形態による、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークを訓練するための処理のフローチャートである。ソフトマックス関数を組み込み、かつ話者認識を具体的に実施するように事前訓練されるように設計された、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークの構造の一例を例示する。

本発明のより詳細な説明が、ここで、添付図面を参照して提供されることになる。

本発明の代表的な実施形態は、テキスト独立型話者認識を行うために、トリプレットネットワークアーキテクチャを有するディープニューラルネットワーク（ＤＮＮ）を利用するシステムおよび方法を対象とする。「ディープニューラルネットワーク」および「ＤＮＮ」という用語は、複数の線形および非線形変換関数からなる、複数の隠れ層を有するニューラルネットワークを指す。本出願において、話者認識の２つのサブタスクは、検証および識別と考えられる。本出願の目的に関して、「検証」は、実際の話者が、その名乗る人物であるかどうかを検出するタスクを指し、一方で「識別」は、話者の所定のリストから話者の識別情報を取得するタスクを指す。以下に説明される本発明の原理は、これらのサブタスクのいずれか一方または両方に適用され得る。また、本出願において、「ユーザ」という用語は、ＤＮＮが認識するように訓練される、特定の話者を指すために使用される場合がある。

話者認識を実施するＤＮＮの使用は、ＤＮＮが低位の特徴を表現し、かつそれらを高位の特徴にマッピングする点でより良好であるため、混合ガウスモデル（ＧＭＭ）を使用して推定されたユニバーサルバックグラウンドモデル（ＵＢＭ）を利用する他の手法に対して有利である。低位の特徴は、生の会話信号と同様に低位であり得る。高位の特徴は、会話信号の全変動を保存する声紋である。したがって、ＤＮＮによって抽出された声紋は、ＵＢＭ／ＧＭＭによって取得されたｉベクトルに類似し得るが、より優れた結果を与える。

図１は、本発明の代表的な実施形態による、話者認識を実施するためのシステムを例示する。図１によると、ユーザまたは話者は、発声された音を電気信号に変換するためのマイクロフォンを含む入力デバイス１０に発声する。図１に特に示されるように、入力デバイス１０は、電話（携帯電話または固定電話のいずれか）もしくはコンピュータ、またはボイスオーバーインターネット（ＶｏＩＰ）通信が可能な他のプロセッサ基盤デバイス等の、遠距離通信が可能なデバイスとすることができる。事実上、本発明が、電話詐欺から保護する、例えば、発信者がその名乗る人物であることを検証する、または発信者の識別情報を「ブラックリスト」または「ブロックされた発信者リスト」上の人物として検出する、アプリケーションで具体的に利用され得ると考えられる。

図１によると、話者識別を実施するために使用されるユーザの発声は、本明細書では「認識会話サンプル」と呼ばれることになる。認識会話サンプルは、入力デバイス１０から話者認識サブシステム２０に電気的に送信され得る。認識会話サンプルが話される入力デバイス１０が遠距離通信デバイス（例えば、電話）である場合が考えられるが、そうである必要はない。例えば、入力デバイス１０は、話者認識サブシステム２０に近接して位置する単なるマイクロフォンであってもよい。

図１の話者認識サブシステム２０は、コンピューティングシステム２２を含み得、これは、トリプレットネットワークアーキテクチャ（この詳細は、以下により詳細に説明されることになる）を有するディープニューラルネットワークをモデル化するようにプログラムされた、サーバまたは汎用パーソナルコンピュータ（ＰＣ）であってもよい。しかしながら、コンピューティングシステム２２が、単一デバイスに厳密に限定されるものではなく、代わりに、本明細書に説明されるオペレーションを実施するために協働して働く複数のコンピュータおよび／またはデバイスを備えてもよいことが留意されるべきである（例えば、ＤＮＮの訓練は、１つのコンピューティングデバイス内で起こり得るが、実際の検証／識別タスクは、別のコンピューティングデバイス内で実施される）。単一または複数の中央処理装置（ＣＰＵ）が、訓練および試験の両方のためのコンピューティングデバイスとして使用され得る場合、グラフィック処理ユニット（ＧＰＵ）もまた使用され得る。例えば、コンピューティングデバイス２２におけるＧＰＵの使用は、特に訓練中の算出コストを低減することを助け得る。

図１に示されるように、話者認識サブシステム２０はまた、代表的な実施形態においてＤＮＮを訓練するために使用されるメモリデバイス２４も含む。特に、このメモリデバイス２４は、複数のユーザまたは話者からの複数のサンプルされた会話信号（または「会話サンプル」）、および話者登録サブシステム２０に「加入」されているユーザに対して取得された複数の登録された声紋を含み得る。特に、メモリデバイス２４は、ＤＮＮに対して実施されることになるそれぞれの機能、訓練および試験、に対応する２つの異なるデータセットを含む。

訓練の機能に関して、本発明の代表的な実施形態によると、ＤＮＮは、複数の話者に対応する正のサンプルおよび数Ｎの負のサンプルに従って訓練される。訓練を実施するために、メモリデバイス２４は、好ましくは、複数の話者の各々からの実際の発声として取得された少なくとも２つの会話サンプルを含むデータセットを含むことになる。これらの会話サンプルは、関連する話者に関する「正の会話サンプル」と呼ばれる。メモリデバイス２４において、ＤＮＮを訓練するためのデータセットはまた、上記の話者の各々に対する数Ｎの「負の会話サンプル」も含むことになる。これらの負の会話サンプルは、関連する話者とは異なる人々による発声に対応する。特定の例において、１０００個の負の会話サンプル（すなわち、Ｎ＝１０００）が、ＤＮＮを訓練するために使用される複数の話者の各々に関して使用され得る。しかしながら、数Ｎは、１０００より多くてもよく、または少なくてもよい。未知の会話元の会話サンプルが、かかる会話サンプルがＤＮＮを訓練するために現在使用されている話者とは異なる話者ｉから発生したことが確認され得るか否かにかかわらず、負の会話サンプルの１つとして使用され得ることも留意されるべきである。

メモリデバイス２４は、「試験」機能を実施するために別のデータセットを含み得、それによってＤＮＮは、ユーザを確実に検証または識別することによって実際の話者認識を実施する。この機能を実施するために、データセットは、特定のユーザの１つの正の会話サンプルのみを必要とし、これは、話者認識サブシステム２２へのユーザの「加入」の結果として取得され得る（これは、以下により詳細に説明されることになる）。さらに、このデータセットは、システムによって検証／識別され得る各ユーザに対応する、１つ以上の登録された声紋を含み得る。

図１を再び参照すると、話者認識分析の結果は、発信者（すなわち、ユーザ）を認証する、すなわち、発信者がその名乗る人物であることを検証することを必要とするエンドアプリケーション３０によって使用され得る。代替として、エンドアプリケーション３０は、所定のリスト（例えば、ブラックリストまたはブロックされた発信者）にある任意の発信者を識別することを必要とし得る。これは、発端末識別情報（ＣＬＩＤ）（「発信者ＩＤ」と呼ばれることもある）による検出をすり抜けるために電話番号を偽装する悪意のある発信者を検出することを助け得る。しかしながら、本発明が悪意のある発信者を取り除くように設計されたアプリケーション３０によって使用され得るが、本発明は、これらのタイプのアプリケーション３０に限定されない。例えば、本発明は、例えば、音声生体認証が、部屋、リソース等へのアクセスを解錠するために使用される、他のアプリケーション３０で有利に使用され得る。

様々な変更が図１に例示されたシステムになされ得ることが留意されるべきである。例えば、入力デバイス１０は、認識会話サンプルをエンドアプリケーション３０に直接送信し得、エンドアプリケーション３０は、次いで、認識会話サンプルを話者認識サブシステム２０に中継する。この場合において、エンドアプリケーション３０はまた、自己識別を表すユーザからいくつかの形態の入力も受信し得る。例えば、話者識別タスクの場合において、エンドアプリケーション３０は、ユーザを識別するようにユーザに要求し得（音声的または他の形態の入力のいずれか）、認識会話サンプルおよびユーザの主張された識別情報の両方を認証のために会話認識サブシステム２０に送信し得る。他の場合において、ユーザの自己識別は、ＣＬＩＤによって取得されるような、ユーザの主張された電話番号からなり得る。さらに、図１に例示される様々な要素のそれぞれの場所に関する限定は存在しない。一定の状況において、エンドアプリケーション３０は、ユーザから遠隔であり得、したがってユーザに対する遠距離通信の使用を要求して、エンドアプリケーション３０と対話する。代替的に、ユーザ（および入力デバイス１０）は、例えば、アプリケーション３０が音声起動セキュリティゲート等を制御する場合、使用時にエンドアプリケーション３０に近接していてもよい。

図２Ａは、本発明の代表的な実施形態による、訓練での使用のためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワーク（ＤＮＮ）の概略構造を例示する。また、図２Ａは、Ｐ個の音声サンプル、それらの対応するＰ個の正のサンプル、およびＮ個の負の会話サンプルのコホートセットが、第１、第２および第３のフィードフォワードニューラルネットワークを訓練するために使用される、バッチ処理の使用を概念的に例示する。

図２Ａにおいて、ＤＮＮは、同一パラメータを共有する、同一フィードフォワードニューラルネットワーク２１２、２２２および２３２の３つのインスタンスからなる。共有されたパラメータ（図に示されるように）を有すると、３つのフィードフォワードニューラルネットワーク２１２、２２２、２３２は、層の数および構成、層間の接続重み等において同一である。これらのフィードフォワードニューラルネットワーク２１２、２２２、２３２は、それぞれ、入力２１０、２２０、２３０を介して３つの異なるサンプルを提供される。特に、ＤＮＮが訓練されているとき、ＤＮＮは、バッチ処理を実施し得、それによって第１のフィードフォワードニューラルネットワーク２１２および第２のフィードフォワードニューラルネットワーク２２２が、それぞれ入力２１０および２２０を介して、各々

と示される、Ｐ個の会話サンプルの１つのセット、および各々

と示される、対応するＰ個の正の会話サンプルの１つのセットと共に供給される。これらの会話サンプルの２つのセットは、同一話者によって話されている（およびしたがって同一話者に起因する）。さらに、第３のフィードフォワードニューラルネットワーク２３２は、バッチ処理中に入力２３０を介して、負の会話サンプルの共通コホートセット

を供給する。コホートセット内の負の会話サンプルは、上記のＰ個のサンプルのセットとして同一話者によって話されておらず（または同一話者によって話されていることが少なくとも既知ではない）、したがって同一話者に起因しない。第１のフィードフォワードニューラルネットワーク２１２の出力２１４は、サンプル

に応じて第１のＰ個の埋め込みベクトルセットを生成し、第２のフィードフォワードニューラルネットワーク２２２の出力２２４は、サンプル

に応じて第２のＰ個の埋め込みベクトルセットを生成する。また、第３のフィードフォワードニューラルネットワーク２３２の出力２３４は、コホートセット内の負の会話サンプルに応じて第３のＮ個の埋め込みベクトルセットを生成する。所与のバッチが処理された後、これらの埋め込みベクトルは、損失を算出するために使用され（これは、以下により詳細に説明されることになる）、損失は、バックプロパゲーション法に従って３つのフィードフォワードニューラルネットワーク２１２、２２２、２３２の接続重みを修正するために使用される。

さらに、図２Ｂに示されるように、別のフィードフォワードニューラルネットワーク２４２は、ＤＮＮの訓練が完了した後、ユーザによって（入力デバイス１０を介して）入力された認識会話サンプルに基づいて実際の話者認識を実施するために使用される。第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２が、共有されたパラメータを組み込み、したがってＤＮＮの訓練が完了したときに互いに同一であるため、これらの３つのフィードフォワードニューラルネットワークのうちのいずれか１つが、話者認識を実施するフィードフォワードニューラルネットワーク２４２として互換的に使用され得る。代替的に、３つのフィードフォワードニューラルネットワーク２１２、２２２、２３２の間で共有されたパラメータを組み込む、フィードフォワードニューラルネットワークの新しいインスタンスが、ユーザの加入および／または試験（話者認識）での使用のための図２Ｂのフィードフォワードニューラルネットワーク２４２として使用されてもよい。このフィードフォワードニューラルネットワーク２４２によって実施される加入および試験が以下により詳細に説明されることになる。

ここで、追加の詳細が、ＤＮＮの設計に対して提供されることになる。以下に論じられることになるように、重畳ニューラルネットワーク（ＣＮＮ）の態様は、少なくとも１つの重畳層を第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２の各々に組み込むことによってＤＮＮの態様と組み合わせられ得る。さらに、各重畳層は、３次元、つまり高さ、幅および深さにおいてニューロンを有する。

図３Ａは、ＤＮＮの訓練での使用のためのトリプレットネットワークアーキテクチャを有するＤＮＮの構造の特定の例を例示する。図３Ａに示されるように、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２および２３２の各々は、最大プーリング層に接続された第１の重畳層、第２の最大プーリング層によって追従される第２の重畳層、後続の完全に接続された層、および埋め込みベクトルを含む出力層を含み得る。しかしながら、訓練の終わりの際、フィードフォワードニューラルネットワーク２１２、２２２、２３２の各々の出力層は、入力されたサンプルの特徴表現（すなわち、声紋）を生成するように構成されることになる。

また図３Ａに示されるものは、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２のそれぞれの入力２１０、２２０、２３０である。代表的な実施形態によると、ニューラルネットワーク２１２、２２２、２３２のそれぞれ１つに入力される前に、会話サンプルの各々（会話サンプル

、正の会話サンプル

、および負の会話サンプル

）は、対応する発声の「画像」を生成するために前処理され得る。かかる前処理は、信号の非会話部を破棄するために、音声区間検出を適用することを含み得る。前処理はまた、基礎をなす会話信号を一定数（Ｗ）のオーバーラッピングウィンドウにパーティション分割することと、一定数（Ｆ）の特徴（例えば、メルフィルタバンク特徴）をＷ個のオーバーラッピングウィンドウの各々から抽出することを含み得る。請求項を限定するように解釈されない、かかる前処理の具体例が、説明されることになる。この非限定的例において、画像が、基礎をなす会話信号を、１０ミリ秒のオーバーラップ（またはウィンドウシフト）を含む、２０ミリ秒期間のウィンドウにパーティション分割することによって各会話サンプルに対して生成され得る。さらに、各サンプルに対する画像は、５００個の上記のオーバーラッピングウィンドウを含み得（Ｗ＝５００）、４０個のメルフィルタバンク特徴（Ｆ＝４０）が各ウィンドウから抽出されている（それによって、入力２１０、２２０、２３０の各々におけるサイズ４０×５００の画像を結果としてもたらす）。これは、５秒間の会話サンプルに対応することになる（４０次元の特徴ベクトルが１０ミリ秒毎に抽出されている）。しかしながら、これは、単に一例であり、異なる発声期間、異なる数のウィンドウ、ならびに異なる数およびタイプの特徴が使用されてもよいことが留意されるべきである。言い換えると、異なるタイプの会話「画像」がＤＮＮに適用され得る。

上記の前処理が、関連する会話サンプルがメモリデバイス２４に記憶される前後のいずれかに実施され得ることが留意されるべきである。ユーザから認識会話サンプルを入力するデバイス１０、ならびに正および負の会話サンプルを入力するために使用される他のタイプの会話送信／記録デバイスが、上記の前処理のオペレーションの一部または全部を実施するように構成され得ることも考えられる。

再び図３Ａを参照すると、入力信号が上記のようにサイズＦ×Ｗの前処理された画像であると仮定すると、第１、第２および第３のフィードフォワードニューラルネットワークの各々の第１の重畳層は、かかる画像を処理する適切な数（Ｎ_Ｃ）の重畳フィルタを含み得る。さらに、この層内の各重畳フィルタは、対応するウィンドウの特徴を処理し、したがってＦ×ｗ_ｆのサイズのニューラルユニット（または「ニューロン」）を有するように構成され得る。したがって、各重畳フィルタは、特徴の数Ｆと比例する高さ、および様々な検討（例えば、会話のダイナミクスを考慮するように、処理およびメモリ要件に合致するように等）に基づいて選択され得る幅（ｗ_ｆ）を有することになる。

図３Ａのフィードフォワードニューラルネットワーク２１２、２２２、２３２内の第１の重畳層の構成の具体的な非限定的例が、ここで説明されることになる。本例の目的に関して、入力された画像が、前処理に関する上記の非限定的例に関して上記のように４０×５００のサイズ（Ｆ×Ｗ）で前処理されると仮定され得る（１０ミリ秒毎に抽出された４０次元の特徴ベクトルを含む、５秒の会話に対応する）。この場合において、第１、第２および第３のフィードフォワードニューラルネットワークの各々の重畳層は、２５６個の重畳フィルタ（Ｎ_Ｃ＝２５６）を含み得、各フィルタが、４０ニューロンの高さ（各ウィンドウから抽出された４０個の特徴に対応する）、および５ニューロンを超えない（例えば、１または３ニューロン）幅（ｗ_ｆ）を有する。この場合において、図３Ａの第１の重畳層の深さは、２５６になり、この層の高さは、４０になり、層の幅は、ｗ_ｆ≦５になる。また、この非限定的例において、第１の重畳層のエントリーニューロンは、入力画像の複数のウィンドウに接続され得る。

上記が非限定的例であり、第１の重畳層の深さおよび高さの次元が、それぞれ、上記の２５６および４０とは異なってもよいことが留意されるべきである。しかしながら、この場合において、深さ（すなわち、重畳フィルタの数Ｎ_Ｃ）が、好ましくは、入力された画像内のオーバーラッピングウィンドウの数以下であり、一方で高さが、好ましくは、関連する会話サンプルの処理中にウィンドウの各々から抽出された特徴（例えば、メルフィルタバンク特徴）の数に等しいことが提案される。

図３Ａを再び参照すると、フィードフォワードニューラルネットワーク２１２、２２２、２３２の各々における第１の重畳層に続いて、１次元の最大プーリング層のサイズｓ_ｍが提供される。最大プーリング層は、一時的な入力系列からの最大値を算出する層である。図３Ａにおいて、最大プーリング層の結果は、Ｎ_Ｃ個の重畳フィルタからなる、第２の重畳層に提供される。しかしながら、これらのフィルタのサイズは、第１の重畳層のものと同一である必要はない。非限定的例において、第２の重畳層の高さおよび幅は、１であり得る。さらに、図３Ａによると、最終的な全体最大プーリング層は、全時間軸にわたって適用されて、結果として生じる埋め込みベクトルを、入力された画像の期間に対して低感度にする。次の層は、完全に接続された層および出力層であり、例えば、各々がＮ_Ｃ個のニューロン有する。出力層は、訓練中に埋め込みベクトルを提供するが、訓練後、特徴表現、つまり、サンプルの元となる話者の声紋または音声署名を生成するように構成される。具体的には、それぞれの第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２の出力層は、上記にＤＮＮの第１、第２および第３のネットワーク出力２１４、２２４、２３４と呼ばれたものである。

例えば、訓練中、会話サンプル

の画像が第１のフィードフォワードニューラルネットワーク２１２を通して供給されたとき、第１のネットワーク出力２１４は、

に対して埋め込まれたベクトルを表す、

として記号化され得る結果を生成する。同様に、正の会話サンプル

の画像が第２のフィードフォワードニューラルネットワーク２２２を通して供給されたとき、第２のネットワーク出力２２４は、

に対して埋め込まれたベクトルを表す、

として記号化され得る結果を生成する。同様に、負の会話サンプル

の画像が第３のフィードフォワードニューラルネットワーク２３２を通して供給されたとき（ｎが１～Ｎの任意の整数である）、第３のネットワーク出力２３４は、

に対して埋め込まれたベクトルを表す、

として記号化され得る結果を生成する。

図３Ａに示されるように、サンプルを訓練する所与のバッチが処理された後、損失関数が、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２のそれぞれの出力２１４、２２４、２３４に基づいて算出され得る。算出された損失関数は、ＤＮＮ内の全ての重みに関して損失関数の勾配を算出することを目的とする、「確率的勾配降下法」オプティマイザを有するバックプロパゲーションアルゴリズムを使用してＤＮＮのそれぞれのニューラルネットワーク２１２、２２２、２３２を訓練するために使用され得る。オプティマイザの目標は、損失関数を最小にするために、重みを更新することである。しかしながら、他のタイプのバックプロパゲーションアルゴリズムが使用され得ることも考えられる。図３Ａの例において、損失関数は、第１の重畳層、第２の重畳層、および完全に接続された層の各々の接続重みを更新するために使用され得る。訓練アルゴリズムに関するより詳細は、図６に関して以下に論じられることになる。

ここで、特定のユーザの加入および試験での使用のためのＤＮＮアーキテクチャの具体例を例示する、図３Ｂを参照することになる。特に、図３Ｂは、加入および試験機能を実施するためのフィードフォワードニューラルネットワーク２４２を例示する。図２Ｂに関して上述されたように、図３Ｂのフィードフォワードニューラルネットワーク２４２の構成およびパラメータは、図３ＡのＤＮＮが訓練された後、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２の各々と同一構成およびパラメータを共有することになる。したがって、訓練の終わりにおいて、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２のいずれか１つは、図３Ｂのフィードフォワードニューラルネットワーク２４２として使用され得るか、または共有されたパラメータおよび構成を組み込むニューラルネットワークの新しいインスタンスが使用され得る。

図３Ｂに示されるように、ニューラルネットワーク２４２は、その入力２４０で、会話サンプルの前処理によって生成された画像を受信し得る。加入または試験が実施されるか否かに依存して、入力された画像は、特定のユーザを加入または登録する目的のために入力された会話サンプル（すなわち、「加入会話サンプル」）、または話者認識が行われる際の会話サンプル（すなわち、「認識会話サンプル」）のいずれかに対応することになる。一度、入力された画像がフィードフォワードニューラルネットワーク２４２を通して供給されると、出力層２４０は、対応する特徴提示（すなわち、声紋）を生成することになる。出力層２４０によって生成された各特徴表現は、ｉベクトルに類似し得るが、それらがＤＮＮによって生成されたため、話者の音声の低位の特徴をより良好に表すように設計される。

上述のように、図３Ａおよび図３Ｂの両方のＤＮＮアーキテクチャの例は、各入力された会話サンプルが画像として前処理されている仮定に基づく。しかしながら、そうである必要はない。例えば、ＤＮＮは、図３Ｃが入力として生の会話サンプルを処理するためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワークの例を例示する、異なるトリプレットネットワークアーキテクチャを呈してもよい。特に、図３Ｃに示されるように、それぞれのフィードフォワードニューラルネットワーク２１２、２２２および２３２のそれぞれの入力２１０、２２０および２３０で受信された会話サンプルは、図３Ａおよび図３Ｂに関する上記の様式で前処理されない。代わりに、各入力されたサンプルは、一連のサンプルを取得するために生の会話信号（例えば、入力デバイス１０を介して入力される）をサンプリングすることによって取得された信号を構築する。さらに、図３Ｃの特定の例に示されるように、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２の各々は、追加の重畳層および局所最大プーリングを含み、これらは、図３Ａに関して説明されたものに類似する他の層の前に位置付けられる。生の会話サンプルを受信するように示される、図３Ｃの追加された重畳層は、生の会話サンプルから抽出されることになる特徴の数に対応する数（Ｆ）の重畳フィルタからなる。追加された最大プーリング層は、サイズｓ_ｍ１の１次元の層とすることができる。これらの追加の層は、図３Ａおよび図３Ｂに関する上記の前処理に類似する変換を適用するように構成され得る。

ここで、本発明の代表的な実施形態による、話者認識のための概略処理４００のフローチャートを例示する、図４を参照することになる。この図のオペレーションＳ４１０によると、トリプレットネットワークアーキテクチャを有するＤＮＮが訓練される。特定のユーザに対して話者認識を行うために、ＤＮＮが、他の話者（かつ、可能であれば、未知の話者）から取得された複数の負の会話サンプルとの組み合わせで、ユーザから取得された少なくとも１つの会話サンプルに基づいて訓練されることになることが考えられる。図４に例示されるように、ＤＮＮの訓練に使用される会話サンプルは、メモリデバイス２４のストレージから抽出され得る。ＤＮＮが訓練された後、特定のユーザは、オペレーションＳ４２０において話者認識サブシステム２０によって登録または加入され得る。これは、「話者モデル」が、話者検証を実施するために、同一ユーザの特徴表現または声紋との将来的な比較の目的のために、特定のユーザに対して生成され得ることを意味する。その後、認識会話サンプルが、オペレーションＳ４３０において取得される。認識会話サンプルは、例えば、入力デバイス１０から取得され得る。図４のオペレーションＳ４４０において、認識会話サンプルは、ＤＮＮ（すなわち、ニューラルネットワーク２４２）を通して供給され、認識会話サンプルに応じたＤＮＮの出力が、オペレーションＳ４５０において使用されて（上記の話者モデルと共に）、話者認識を実施する、すなわち、ＤＮＮ出力に基づいてユーザを検証するか、または識別するかのいずれかを行う。

図５は、本発明の代表的な実施形態による、特定のユーザに対する話者認識を行うためのより具体的な処理５００のフローチャートを例示する。図５のオペレーションＳ５１０において、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２からなるＤＮＮは、メモリデバイス２４内に記憶された会話サンプルを使用してコンピュータシステム２２によって訓練される。この訓練処理の代表的な実施形態は、図６に関してより詳細に説明されることになる。メモリデバイス２４が、複数の異なるユーザに対応するバッチにおいてＤＮＮを訓練するために有用な会話サンプルのバンクを含み得ることに留意されるべきである。それゆえに、Ｓ５１０による、ＤＮＮを訓練することは、話者によるメモリデバイス２４内の会話サンプルを分類および抽出するための任意の必要なステップを含み得る。

ＤＮＮがＳ５１０の結果として訓練された後、コンピュータシステム２２は、登録された（または加入された）ユーザのリストに関して話者認識を実施するためにＤＮＮを使用するように動作可能である。これは、ＤＮＮが登録された（加入された）ユーザのうちの一人を名乗る話者が、実際にその名乗る人物であるか否かを判定することによって検証を実施し得ることを意味する。また、ＤＮＮが、匿名の話者を、話者が実際に登録された（加入された）ユーザのリストに存在するかどうかを識別し、話者がこのリストに存在しない場合、話者が未知であることを示し得ることも意味する。したがって、本発明の代表的な実施形態において、話者モデルが、加入または登録されている各ユーザに関して生成される。かかる話者モデルを生成する特定の例は、特定のユーザを加入させるために、図５のオペレーションＳ５２０およびＳ５２５に関して開示されている。

図５のオペレーションＳ５２０において、特定のユーザの加入は、対応する加入会話サンプル（すなわち、特定のユーザによって実際に発声された会話サンプル）を受信することによって開始される。オペレーションＳ５２５において、加入会話サンプルは、対応する声紋（または特徴表現）を出力するために、フィードフォワードニューラルネットワーク２４２（図２Ｂおよび図３Ｂに関して上に説明されたような）を通して供給される。フィードフォワードニューラルネットワーク２４２によって生成された声紋は、その後、メモリデバイス２４内に記憶され、登録されたユーザの話者モデルとして使用され得る。また、ユーザからの１つよりも多い加入会話サンプルが受信され、ユーザを登録するために使用され得ることも可能である。この場合において、複数の加入サンプルは、ユーザの複数の声紋を生成するために、フィードフォワードニューラルネットワーク２４２を通して供給され得る。この場合において、平均ベクトルは、複数の声紋から算出され、ユーザの話者モデルとして使用され得る。

図５のオペレーションＳ５２０およびＳ５２５は、代表的な実施形態による、ＤＮＮの「加入」機能の例を説明する。しかしながら、ＤＮＮが、登録されたユーザの話者モデルを生成するために、上記の様式で使用されることは、本発明の要件ではない。

図５のオペレーションＳ５３０～Ｓ５６０の順序に従って、話者認識が特定のユーザに対して実施され得る。したがって、これらのオペレーションは、本発明の代表的な実施形態による、ＤＮＮの「試験」機能に対応する。

Ｓ５３０において認識会話サンプルがデバイス１０を介してユーザから受信される。この認識会話サンプルは、次いで、オペレーションＳ５３０においてフィードフォワードニューラルネットワーク２４２に供給され、このフィードフォワードニューラルネットワーク２４２に応じて、ネットワーク出力２４４でユーザの認識会話サンプルの特徴表現または声紋を生成する。

図５のオペレーションＳ５４０において、認識会話サンプルに応じてフィードフォワードニューラルネットワーク２４２によって出力される声紋または特徴表現は、ユーザを検証または識別するために使用される。特に、この声紋は、オペレーションＳ５２５によって生成され、１つ以上の登録されたユーザに関してメモリデバイス２４内に記憶された、１つ以上の話者モデルと比較され得る。上述のように、これらの話者モデルの各々は、フィードフォワードニューラルネットワーク２４２によって同様に生成された声紋であり得る。判断ボックスＳ５５０によると、認識会話サンプルの結果としてニューラルネットワーク２４２によって取得された声紋が記憶された話者モデルのいずれかに「合致」するか否かに対する判断がなされる。各話者モデルが同様に生成された声紋であると仮定すると、この合致は、２つの声紋間の類似性（または距離）の測定によって決定され得る。一方で、各話者モデルが対応するユーザの会話特徴の異なる表現を含む場合、声紋を話者モデルのそれぞれの特徴と比較し、かつ合致が存在するか否かを決定するために、異なる処理がＳ５４０～Ｓ５５０で使用され得る。

Ｓ５５０が認識会話サンプルの声紋と記憶された会話サンプルのうちの１つの間で合致が起こったと判断した場合、処理５００は、Ｓ５６０に進み、特定のユーザの識別情報が認証されたこと（話者検証タスクにおいて）、または特定のユーザの識別情報が所定のリストもしくは既知の識別情報に存在していること（話者識別タスクにおいて）を示す。一方で、Ｓ５５０がいかなる合致も起こらなかったと判断した場合、処理５００は、Ｓ５７０に進み、特定のユーザがその名乗る人物ではない（したがって偽物）であること、または特定のユーザの識別情報が話者認識サブシステム２０にとって未知であることを示す。これらの結果は、例えば、ディスプレイおよび／または音声出力上でコンピュータシステム２２によって出力され得るか、または結果は、出力される別の場所に送信され得るか、もしくはエンドアプリケーション３０に送信され、そこで使用され得る。例えば、話者検証および識別タスクの両方において、エンドアプリケーション３０は、結果を使用して、ユーザが特定のリソースまたはパスにアクセスすることを許可／拒否し得る。例えば、エンドアプリケーション３０は、ユーザがブラックリストまたはブロックされた発信者のリストの一員であると識別されたとき、ユーザの電話発信をブロックするために使用され得る。アプリケーション３０はまた、ユーザの識別情報を偽っているユーザを自動的に合図する（またはそれに関する認証を警告する）ためにも使用され得る。

再び図５を参照すると、１つの話者認識タスクが実施された後、ＤＮＮは、Ｓ５８０に例示されるように、登録されたユーザの現在のプールに基づいて、特定のサンプルに対して別の話者認識タスクを実施するために使用され得る（処理５００が、Ｓ５３０に戻って、新しい認識会話サンプルを受信することを含む）。将来的な話者認識タスクを行う目的のために、別の話者が加入されること、すなわち、登録されたユーザのプールに加えられることを必要とすることも考えられる。Ｓ５９０に例示されるように、新しいユーザが加入または登録されることを必要とする場合、処理５００は、オペレーションＳ５２０に戻り、それによって新しい話者モデルが生成される。

次に、より具体的な説明が、処理に関して提供されることになり、それによってＤＮＮは、図５のオペレーションＳ５１０によって各登録されたユーザに対して訓練される。

特に、図６は、本発明の代表的な実施形態による、ＤＮＮを訓練する処理５１００のフローチャートである。ＤＮＮのこの訓練は、バッチ処理によって実施され得、それによって損失関数は、サンプルを訓練するバッチがＤＮＮを通して供給された後に算出される。各バッチに関して、同一話者によって全て話された、Ｘ_ｉ（ｉ＝１、．．．、Ｐ）として示されたＰ個の会話サンプルの１つのセットは、続いて、第１のフィードフォワードニューラルネットワーク２１２を通して適用される。また、各バッチに関して、

サンプルと同一話者によって全て話された、対応するＰ個の会話サンプルの１つのセット

は、続いて、第２のフィードフォワードニューラルネットワーク２２２に適用される。第３のフィードフォワードニューラルネットワーク２３２に関して、負の会話サンプルのコホートセット

（

および

会話サンプルを話した人物とは異なる人物によって話されたもの）は、引き続いて、各バッチ中に第３のフィードフォワードニューラルネットワーク２３２に入力される。非限定的例によると、コホートセット内の負の会話サンプルの数Ｎ（および各バッチに対して実行する反復の数）は、１０００に等しくてもよい。しかしながら、コホートセットは、異なる数の負の会話サンプルを含んでもよい。負の会話サンプルの同一コホートセットが、ＤＮＮの訓練中に、複数のバッチまたは可能であれば全てのバッチのために使用され得ることが可能である。また、各負の会話サンプルが、

および

の話者とは異なる人物によって話されることになると考えられる場合、コホートセット内の負の会話サンプルのうちの１つとして未知の会話元（すなわち、話者の識別情報が未知である）の会話サンプルを利用することが可能である。

図６を参照すると、オペレーションＳ５１１０によって、特定の話者からのＰ個の会話サンプルの１つのセット

が、メモリデバイス２４から抽出される。同様に、Ｓ５１２０において、同一話者からのＰ個の会話サンプルの１つのセットもまた、メモリデバイス２４から抽出される。正の会話サンプルの数Ｐは、少なくとも２つであるべきであり、Ｐが、２つよりも多くなることが考えられる。さらに、オペレーションＳ５１３０によると、Ｎ個の負の会話サンプルのコホートセットが、メモリデバイス２４から取得される。

上述のように、ディープニューラルネットワーク（ＤＮＮ）は、各バッチにおいて、Ｐ個の会話サンプルの１つのセット

および対応するＰ個の正の会話サンプルの１つのセット

が、全て同一話者由来であり、それぞれ、第１のフィードフォワードニューラルネットワーク２１２および第２のフィードフォワードニューラルネットワーク２２２を通して供給されるように、バッチ内で訓練を実施することになる。Ｐ個の会話サンプルのセット

は、引き続いて、オペレーションＳ５１４０において第１のニューラルネットワーク２１２を通して供給され、一方でＰ個の正の会話サンプルのセット

は、オペレーション５１５０において第２のフィードフォワードニューラルネットワーク２２２を通して供給される。オペレーションＳ５１６０において、コホートセット内のＮ個の負の会話サンプルが、引き続いて、第３のフィードフォワードニューラルネットワーク２３２を通して供給される。

所与のバッチがこのようにＤＮＮを通して処理された後、オペレーションＳ５１７０が実施される。このオペレーションは、ＤＮＮを通して、会話サンプル

、正の会話サンプル

、負の会話サンプル

のコホートセット

を供給する結果として生成された埋め込みベクトルセットに基づいて損失を計算する。さらに、Ｓ５１７０によると、計算された損失は、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２の各々の接続重みを修正するために使用される。特に、確率的勾配降下法オプティマイザを利用するバックプロパゲーション法が、一度、損失関数が計算されると、重みを修正するために使用され得る。損失を計算するための関数が、以下により詳細に説明されることになる。

各バッチ（すなわち、Ｐ個の会話サンプル

の各セットおよび対応するＰ個の正の会話サンプル

のセット）の損失を計算するために使用される損失関数は、以下のパラメータに基づく：
・各会話サンプル

に応じた第１のネットワーク出力２１４（すなわち、埋め込みベクトル

）と、対応する正の会話サンプル

に応じた第２のネットワーク出力２２４（すなわち、埋め込みベクトル

）との間の類似度Ｓ_＋
・各会話サンプル

に応じた第１のネットワーク出力２１４（すなわち、

）と、コホートセットに応じた第３のネットワーク出力２３４のうちの最も類似のもの（すなわち、特徴表現

のうちの最も類似のもの）との間の類似度Ｓ_－
・類似度Ｓ_＋およびＳ_－にそれぞれ適用される、正のマージンＭ_＋および負のマージンＭ_－
・類似度Ｓ_＋および対応するマージンＭ_＋に基づいて計算される正の距離ｄ_＋
・類似度Ｓ_－および対応するマージンＭ_－に基づいて計算される負の距離ｄ_＋
正のマージンＭ_＋および負のマージンＭ_－の使用は、会話サンプル

および

が互いに合理的に近く、かつ会話サンプル

が負の会話サンプルの最も近くから合理的に遠い状況下で損失関数の追加のコストを回避することを助ける。

代表的な実施形態によると、各バッチの損失関数は、次式のように定義され得る：

式中、

方程式（２）において、Ｋは、定数（例えば、１０００）を表す。さらに、方程式（２）の正および負の距離ｄ_＋およびｄ_－は、次の方程式によって計算され得る：
ｄ_＋＝２（１－ｍｉｎ（（Ｓ_＋＋Ｍ_＋），１）方程式（３）
および
ｄ_－＝２（１－ｍａｘ（（Ｓ_－＋Ｍ_－－１），０）方程式（４）。

方程式（３）および（４）に示されるように、正および負の距離ｄ_＋およびｄ_－は、それぞれ、類似度Ｓ_＋およびＳ_－ならびに対応するマージンＭ_＋およびＭ_－に基づいて計算される。これらの類似度Ｓ_＋およびＳ_－は、次の方程式によって計算され得る：

および

方程式（５）において、最大演算子は、コホートセットに基づいて第３のフィードフォワードニューラルネットワーク２３２によって生成された特徴表現

のうちの１つを抽出し、これは、特徴表現

に最も類似する。

また、正および負のマージンＭ_＋およびＭ_－は、次の方程式によって計算され得る：

および

方程式（５）～（８）によると、それぞれの距離（ｄ_＋およびｄ_－）を決定するために使用される、類似度（Ｓ_＋およびＳ_－）およびマージン（Ｍ_＋およびＭ_－）は、余弦類似度の観点で算出される。正および負のマージンの使用と共に、余弦類似度に基づく距離の使用は、声紋の堅牢な表現を提供する。

再び図６を参照すると、損失関数が所与のバッチに関して計算されるとき、算出された損失は、オペレーションＳ５１７０において使用されて、例えば、確率的勾配降下法を使用するバックプロパゲーション法によって、第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２の各々の接続重みを修正する。例えば、ＤＮＮが図３Ａに例示される特定の構成を有する場合、算出された損失は、第１の重畳層、第２の重畳層、および完全に接続された層に関して重みを修正するために使用され得る。

ドロップアウト訓練が、重みを修正するために、バックプロパゲーション法と併せて使用され得ることも留意される。特に、ドロップアウトアルゴリズムにおいて、訓練中のニューロンの一定の部分またはパーセンテージは、それらの対応する重みの修正を防止するために、訓練中にドロップされる。例えば、ドロップアウトアルゴリズムは、重みの８０％のみ（またはさらにちょうど５０％）が所与のバッチの結果として修正されるように適用され得る。

図６の処理５１００において、ＤＮＮの接続重みがオペレーションＳ５１７０によって所与のバッチに関して算出された損失によって修正された後、Ｓ５１８０において、ＤＮＮが任意のより多くのバッチ（すなわち、会話サンプルの異なるセット

および異なる話者に対応する正の

）によって訓練されることになるか否かの決定がなされる。処理されることになるより多くのバッチが存在する場合、処理は、オペレーションＳ５１１０に戻って、必要なサンプルを抽出し、新しいバッチの処理を開始する。そうでない場合、図６において、ＤＮＮの訓練が完了されるようにみなされる。

図４～６のフローチャートが例示の目的のみのために提供され、添付の請求項によって定義される本発明を限定するように意図されないことが留意されるべきである。これらの図に開示された処理は、修正されてもよく、本発明の概念および範囲内に依然として留まる。例えば、これらのフローチャートの各々がオペレーションの順序を例示するが、これらのオペレーションの順番は、変更されてもよく、これらのフローチャートに例示された一定のオペレーションは、省略されてもよく、示されていない他のオペレーションが追加されてもよい。

同様に、図１、２Ａ、２Ｂおよび３Ａ～３Ｃに例示された構造および構成もまた、例示の目的のみのために提供される。それらに例示されたシステムおよびニューラルネットワーク構成は、本発明の概念および範囲内で矛盾しない任意の様式で修正されてもよい。

代替的な実施形態
上記の実施形態において、トリプレットネットワークアーキテクチャを有するＤＮＮは、検証（実際の話者がその名乗る人物であるかどうかを検出する）および識別（話者の識別情報を閉集合内の誰かに合致させる）の両方の話者認識タスクを実施するように訓練される。かかる実施形態において、トリプレットネットワークアーキテクチャのＤＮＮモデルは、図３Ａおよび図３Ｂに例示される構造を含み得、図６に示される処理によってさらに訓練され得る。この場合において、トリプレットネットワークアーキテクチャのＤＮＮモデルのパラメータは、訓練前に、ランダムに初期化され得る。

しかしながら、代替的な実施形態によると、ＤＮＮは、識別のタスクのために具体的に設計され得、異なるＤＮＮ構造および訓練方法が採用され得る。例えば、トリプレットネットワークアーキテクチャを有するＤＮＮモデルのパラメータをランダムに初期化することに代えて、パラメータは、話者の閉集合に対して話者識別タスクを実施するように具体的に訓練されたＤＮＮのパラメータによって代わりに初期化され得、出力クラスは、異なる話者ラベルである。さらに、かかる話者識別訓練中、ＤＮＮの構造は、図３Ａおよび図３Ｂに例示されたフィードフォワードニューラルネットワーク２１２、２２２、２３２、２４２の構造に基づき得るが、少なくとも２つの追加の層によって修正され得る：（１）ソフトマックス層、および（２）訓練セット内のそれぞれの話者の複数のユニットを含む出力層。

例えば、これらの追加の層は、図３Ａおよび図３Ｂに例示されたフィードフォワードニューラルネットワーク構造に付加され得る。上記のように、図３Ａおよび図３Ｂに例示されたフィードフォワードニューラルネットワークの各々は、完全に接続された層、および埋め込みベクトルまたは声紋を生成するための後続層で終わる。代替的な実施形態によると、この後続層は、ソフトマックス層および出力層を供給する、第２の完全に接続された層に転換され得る。ソフトマックス層は、正規化指数関数と呼ばれることもあり、かつシグモイド関数の一般化である、関数を実行する。ソフトマックス関数は、人工ニューラルネットワークによって実装されたものを含む、様々な確率マルチクラス分類法で使用される。付加された出力層に関して、この層のニューラルユニットの数は、ＤＮＮが識別するように訓練される話者の数に等価である。例えば、ＤＮＮが３０００の異なる話者に対して話者識別を実施するように訓練された非限定例において、出力層は、３０００の異なるユニットを含むことになる。

ＤＮＮ（付加された層を有する）が話者の閉集合に対して話者識別を行うように訓練された後、訓練されたパラメータは、次いで、例えば、図６に関して上に説明された処理による、損失関数に基づく後続の訓練のための第１、第２および第３のフィードフォワードニューラルネットワーク２１２、２２２、２３２に与えられ得る。

この代替的な実施形態は、上記のように図３Ａおよび図３Ｂに例示された構造に基づき得るが、他の修正もまた、この代替的な実施形態にフィードフォワードニューラルネットワークの構造になされ得ると考えられる。例えば、図７は、代替的な実施形態に関して使用されるＤＮＮの構造の具体例を例示する。参照として図３Ｂのフィードフォワードニューラルネットワークの構造を使用して、図７は、３つの重畳層、３つの最大プーリング層、および４つの完全に接続された層を組み込む修正された構造を有するフィードフォワードニューラルネットワーク２４２’を例示する。図７において、第４の完全に接続された層が、ソフトマックス層７１０、およびいくつかのユニット（ＤＮＮが識別するように訓練される話者の数に等価）からなる出力層７２０に接続される。話者識別訓練が行われた後、パラメータは、次いで、トリプレットネットワークアーキテクチャによるそれぞれのフィードフォワードニューラルネットワークに与えられ得、上記の損失関数に基づいて訓練され得る。

第２の代替的な実施形態
図６に例示された訓練処理の説明において、具体的な損失関数が、方程式（１）～（８）に関して上に説明されたことが留意される。しかしながら、ＤＮＮが、図６に関して上に説明された特定の損失関数によって訓練されることは、要件ではない。代替的な代表的な実施形態において、例えば、等価エラー率（ＥＥＲ）メトリックに直接関連する異なる損失関数がＤＮＮを訓練するために使用され得る。

ＥＥＲメトリックは、典型的には、話者認識システムの正確さを評価するために使用される。話者認識および他の生体認証システムにおいて、ＥＥＲは、他人受入率および本人拒否率を等化するための閾値を事前決定するために使用される。ＥＥＲは、正の認識スコア（合致を示す）および負の認識スコア（不一致を示す）の分布がガウス分布である仮定において引き出され、次の方程式によって表現され得る：

方程式（９）において、ｅｒｆ（ｚ）の項は、誤差関数を表し、一方でμ_＋および

は、正の認識スコアの平均および標準偏差であり、

および

は、負の認識スコアの平均および標準偏差である。この場合において、正および負の認識スコアは、方程式（１）～（８）の損失関数に関して上述された類似度Ｓ_＋およびＳ_－に類似する。したがって、正の認識スコアの平均および標準偏差（μ_＋および

）、および負の認識スコアの平均および標準偏差（

および

）は、次式のようにバッチ処理から引き出され得る：

式中、記号Ｐ、Ｎ、ＥＶｘ_ｉ、ＥＶｘ_ｉ ^＋、およびＥＶｘ_ｉ ^－は、方程式（１）～（８）に関して上に定義されたものと同一の意味を有する。

上の方程式（９）に示されるように、ＥＥＲの値を最小にすることは、項

の最大化をもたらす。この論理を使用すると、訓練中に最小にされる損失関数は、次式のように定義され得る：

それゆえに、方程式（１）～（８）に関して説明された損失関数に対する代替として、トリプレットネットワークアーキテクチャを有するＤＮＮが、方程式（１４）によって定義された損失関数によって訓練され得る。しかしながら、他の損失関数もまた、ＤＮＮを使用するために使用されてもよく、本発明は、特定の損失関数に限定されるものではない。

特定の実施形態が例の目的のために上に説明されたが、それらは、その範囲が添付の請求項に定義されている本発明を限定することを意図しない。

Claims

話者認識デバイスであって、
会話サンプルを記憶するメモリデバイスであって、前記会話サンプルが、
第1のセットと第２のセットを含むデュアルセットであって、各セットが同一話者による１つ以上の正の会話サンプルを含む同一話者による正の会話サンプルのデュアルセット、
前記デュアルセットと同一話者によらない負の会話サンプルのコホートセット、および
登録された話者の声紋を含む話者モデルのセット、を含む、メモリデバイスと、
トリプレットネットワークアーキテクチャを有するディープニューラルネットワークをモデル化するように構成されたプロセッサ基盤デバイスと、を備え、
前記プロセッサ基盤デバイスが、正の会話サンプルの前記デュアルセットと前記負の会話サンプルを含む前記コホートセットが前記ディープニューラルネットワークを通して供給される、バッチ処理に従って前記ディープニューラルネットワークを訓練し、
前記プロセッサ基盤デバイスが、前記訓練されたディープニューラルネットワークを通してユーザに対して得られた認識会話サンプルを供給し、前記訓練されたディープニューラルネットワークが、前記認識会話サンプルに基づいて前記ユーザの声紋を生成し、前記プロセッサ基盤デバイスが、前記認識会話サンプルの声紋と前記話者モデルのセットの少なくとも１つの登録された声紋との間の類似度に基づいて前記ユーザを検証または識別する、話者認識デバイス。
前記ディープニューラルネットワークが、
第１の入力を受信および処理して、第１のネットワーク出力を生成する第１のフィードフォワードニューラルネットワークと、
第２の入力を受信および処理して、第２のネットワーク出力を生成する第２のフィードフォワードニューラルネットワークと、
第３の入力を受信および処理して、第３のネットワーク出力を生成する第３のフィードフォワードニューラルネットワークと、を含み、
複数の話者の各々に関して、前記メモリデバイスが、前記話者によるＰ個の会話サンプルの第１のセット

および前記話者によるＰ個の会話サンプルの第２のセット

を含み、Ｐが、２以上の整数であり、
前記ディープニューラルネットワークが、前記プロセッサ基盤デバイスによって訓練され、それにより、前記複数の話者の各々に関して、
前記ディープニューラルネットワークが、バッチ処理を実施し、その間に、前記対応する会話サンプルの第１のセットが前記第１のフィードフォワードニューラルネットワークを通して供給され、前記対応する会話サンプルの第２のセットが前記第２のフィードフォワードニューラルネットワークを通して供給され、前記会話サンプルのコホートセットが前記第３のフィードフォワードニューラルネットワークを通して供給され、
前記バッチ処理が完了すると、前記対応する会話サンプルの第１のセット、前記対応する会話サンプルの第２のセット、および前記会話サンプルのコホートセットにそれぞれ基づいて取得された、前記第１のネットワーク出力、前記第２のネットワーク出力、および前記第３のネットワーク出力に基づいて、損失関数が算出され、
前記算出された損失関数が、バックプロパゲーション法によって前記第１、第２および第３のフィードフォワードニューラルネットワークの各々の接続重みを修正するために使用される、請求項１に記載の話者認識デバイス。
前記損失関数が、
前記会話サンプルの第１のセットのうちの１つ

に応じた前記第１のネットワーク出力と、前記対応する会話サンプルの第２のセットのうちの１つ

に応じた前記第２のネットワーク出力との間の類似度Ｓ_＋に対応する正の距離ｄ_＋と、
前記会話サンプルの第１のセットのうちの前記１つ

に応じた前記第１のネットワーク出力と、前記コホートセットのそれぞれの会話サンプルに応じた前記第３のネットワーク出力のうちの最も類似の１つとの間の類似度Ｓ_－に対応する負の距離ｄ_－と、に基づく、請求項２に記載の話者認識デバイス。
前記正の距離ｄ_＋および前記負の距離ｄ_－が、前記対応する類似度Ｓ_＋、Ｓ_－に異なるそれぞれのマージンＭ_＋、Ｍ_－を適用することによって決定される、請求項３に記載の話者認識デバイス。
前記損失関数が、

によって定義され、式中、
であり、
ｄ_＋＝２（１－ｍｉｎ（（Ｓ_＋＋Ｍ_＋），１））であり、
ｄ_－＝２（１－ｍａｘ（（Ｓ_－＋Ｍ_－－１），０））であり、

であり、

であり、

が、Ｎ回の反復中に供給されたＮ個の負の会話サンプルのうちのｎ番目のものであり、

が、前記会話サンプルの第１のセットのうちの１つに応じた前記第１のネットワーク出力であり、

が、前記会話サンプルの第２のセットのうちの１つに応じた前記第２のネットワーク出力であり、

が、前記負の会話サンプル

に応じた前記第３のネットワーク出力であり、

であり、

であり、
Ｋが、定数である、請求項４に記載の話者認識デバイス。
前記ディープニューラルネットワークの第１、第２および第３のフィードフォワードニューラルネットワークの各々が、少なくとも１つの重畳層および完全に接続された層を含む、請求項１に記載の話者認識デバイス。
前記第１、第２および第３のフィードフォワードニューラルネットワークの各々が、少なくとも１つの最大プーリング層および後続の完全に接続された層をさらに含む、請求項６に記載の話者認識デバイス。
前記第１、第２および第３のフィードフォワードニューラルネットワークのそれぞれ１つに入力される、各会話サンプルが、
基礎会話信号を複数のオーバーラッピングウィンドウにパーティション分割することと、
複数の特徴を前記オーバーラッピングウィンドウの各々から抽出することと、によって、前処理される、請求項６に記載の話者認識デバイス。
前記第１、第２および第３のフィードフォワードニューラルネットワークが、前記前処理された会話サンプルを受信する第１の重畳層を含み、
前記第１の重畳層が、数Ｎ_Ｃの重畳フィルタを含み、
前記Ｎ_Ｃ個の重畳フィルタの各々が、Ｆ×ｗ_ｆ個のニューロンを有し、Ｆが、前記第１の重畳層の高さに対応し、ｗ_ｆが、前記重畳層の幅に対応し、
Ｆが、前記オーバーラッピングウィンドウの各々から抽出された前記特徴の数に等しく、ｗ_ｆが、５以下である、請求項８に記載の話者認識デバイス。
前記デバイスが、前記ユーザが自己識別を入力する話者検証タスクを実施するように構成され、前記認識会話サンプルが、前記ユーザの識別情報が前記自己識別と同一であることを確認するために使用される、請求項１に記載の話者認識デバイス。
前記デバイスが、それぞれの会話サンプルを伴って前記メモリデバイス内に記憶された複数の潜在的識別情報から前記ユーザを識別するために前記認識会話サンプルが使用される、話者識別タスクを実施するように構成されている、請求項１に記載の話者認識デバイス。
会話サンプルを前記ユーザから前記認識会話サンプルとして受信する入力デバイスをさらに備える、請求項１に記載の話者認識デバイス。
方法であって、
メモリデバイス内に記憶された複数の会話サンプルに基づいて、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークのコンピュータ実装モデルを訓練することであって、前記複数の会話サンプルが、
第1のセットと第２のセットを含むデュアルセットであって、各セットが同一話者による１つ以上の正の会話サンプルを含む同一話者による正の会話サンプルのデュアルセットと、
前記デュアルセットと同一話者によらない負の会話サンプルのコホートセットと、
登録された話者の声紋を含む話者モデルのセットと、を含む、訓練することと、
前記訓練されたディープニューラルネットワークを通してユーザに対して得られた認識会話サンプルを供給し、前記訓練されたディープニューラルネットワークが、前記認識会話サンプルに基づいて前記ユーザの声紋を生成し、
前記認識会話サンプルの声紋と前記話者モデルのセットの少なくとも１つの登録された声紋との間の類似度に基づいて前記ユーザを検証または識別することと、を含み、
前記ディープニューラルネットワークの前記訓練が、前記正の会話サンプルの前記デュアルセットと前記負の会話サンプルを含む前記コホートセットが前記ディープニューラルネットワークを通して供給される、バッチ処理に従って実施される、方法。
前記ディープニューラルネットワークが、
第１のフィードフォワードニューラルネットワークであって、前記デュアルセットの前記第1のセットとして、この各反復が、第１のネットワーク出力を生成するために第１の入力を受信および処理する、第１のフィードフォワードニューラルネットワークと、
第２のフィードフォワードニューラルネットワークであって、前記デュアルセットの前記第２のセットとして、この各反復が、第２のネットワーク出力を生成するために第２の入力を受信および処理する、第２のフィードフォワードニューラルネットワークと、
第３のフィードフォワードニューラルネットワークであって、この各反復が、第３のネットワーク出力を生成するために第３の入力を受信および処理する、第３のフィードフォワードニューラルネットワークと、
複数の話者の各々に関して、前記メモリデバイスが、前記話者によるＰ個の会話サンプルの第１のセット

および前記話者によるＰ個の会話サンプルの第２のセット

を含み、Ｐが、２以上の整数であり、
前記ディープニューラルネットワークが訓練され、それにより、前記複数の話者の各々に関して、
前記ディープニューラルネットワークが、バッチ処理を実施し、その間に、前記対応する会話サンプルの第１のセットが前記第１のフィードフォワードニューラルネットワークを通して供給され、前記対応する会話サンプルの第２のセットが前記第２のフィードフォワードニューラルネットワークを通して供給され、前記会話サンプルのコホートセットが前記第３のフィードフォワードニューラルネットワークを通して供給され、
前記バッチ処理が完了すると、前記対応する会話サンプルの第１のセット、前記対応する会話サンプルの第２のセット、および前記会話サンプルのコホートセットにそれぞれ基づいて取得された、前記第１のネットワーク出力、前記第２のネットワーク出力、および前記第３のネットワーク出力に基づいて、損失関数が算出され、
前記算出された損失関数が、バックプロパゲーション法によって前記第１、第２および第３のフィードフォワードニューラルネットワークの各々の接続重みを修正するために使用される、請求項１３に記載の方法。
に関して算出された前記損失関数が、
前記会話サンプルの第１のセットのうちの１つ

に応じた前記第１のネットワーク出力と、前記対応する会話サンプルの第２のセットのうちの１つ

に応じた前記第２のネットワーク出力との間の類似度Ｓ_＋に対応する正の距離ｄ_＋と、
前記会話サンプルの第１のセットのうちの前記１つ

に応じた前記第１のネットワーク出力と、前記コホートセットのそれぞれの会話サンプルに応じた前記第３のネットワーク出力のうちの最も類似の１つとの間の類似度Ｓ_－に対応する負の距離ｄ_－と、に基づく、請求項１４に記載の方法。
前記正の距離ｄ_＋および前記負の距離ｄ_－が、前記対応する類似度Ｓ_＋、Ｓ_－に異なるそれぞれのマージンＭ_＋、Ｍ_－を適用することによって決定される、請求項１５に記載の方法。
前記損失関数が、

によって定義され、式中、

であり、
ｄ_＋＝２（１－ｍｉｎ（（Ｓ_＋＋Ｍ_＋），１））であり、
ｄ_－＝２（１－ｍａｘ（（Ｓ_－＋Ｍ_－－１），０））であり、

であり、

であり、

が、Ｎ回の反復中に供給されたＮ個の負の会話サンプルのうちのｎ番目のものであり、

が、前記会話サンプルの第１のセットのうちの１つに応じた前記第１のネットワーク出力であり、

が、前記会話サンプルの第２のセットのうちの１つに応じた前記第２のネットワーク出力であり、

が、前記負の会話サンプル

に応じた前記第３のネットワーク出力であり、

であり、

であり、
Ｋが、定数である、請求項１６に記載の方法。
前記損失関数が、

によって定義され、式中、
μ_＋および

は、ガウス分布に基づく正の認識スコアの平均および標準偏差であり、

および

は、ガウス分布に基づく負の認識スコアの平均および標準偏差である、請求項１４に記載の方法。
前記ディープニューラルネットワークの第１、第２および第３のフィードフォワードニューラルネットワークの各々が、少なくとも１つの重畳層および完全に接続された層を含む、請求項１３に記載の方法。
前記第１、第２および第３のフィードフォワードニューラルネットワークの各々が、少なくとも１つの最大プーリング層および後続の完全に接続された層をさらに含む、請求項１９に記載の方法。
前記第１、第２および第３のフィードフォワードニューラルネットワークの各々が、ソフトマックス層および出力層をさらに含み、
前記ディープニューラルネットワークのパラメータが、話者識別タスクを話者の閉集合に対して実施するために、事前訓練されたニューラルネットワークのパラメータによって初期化され、前記出力層が、前記話者の各々のための別個のニューラルユニットを含む、請求項２０に記載の方法。
前記第１、第２、第３のフィードフォワードニューラルネットワークのそれぞれ１つに入力される、各会話サンプルを前処理することであって、
基礎会話信号を複数のオーバーラッピングウィンドウにパーティション分割することと、
複数の特徴を前記オーバーラッピングウィンドウの各々から抽出することと、による、前処理することをさらに含む、請求項１９に記載の方法。
前記第１、第２および第３のフィードフォワードニューラルネットワークが、前記前処理された会話サンプルを受信する第１の重畳層を含み、
前記第１の重畳層が、数Ｎ_Ｃの重畳フィルタを含み、
前記Ｎ_Ｃ個の重畳フィルタの各々が、Ｆ×ｗ_ｆ個のニューロンを有し、Ｆが、前記第１の重畳層の高さに対応し、ｗ_ｆが、前記重畳層の幅に対応し、
Ｆが、前記オーバーラッピングウィンドウの各々から抽出された前記特徴の数に等しく、ｗ_ｆが、５以下である、請求項２２に記載の方法。
話者検証タスクが実施され、前記ユーザが自己識別を入力し、前記認識会話サンプルが、前記ユーザの識別情報が前記自己識別と同一であることを確認するために使用される、請求項１３に記載の方法。
話者識別タスクが実施され、前記認識会話サンプルが、それぞれの会話サンプルを伴って前記メモリデバイス内に記憶された複数の潜在的識別情報から前記ユーザを識別するために使用される、請求項１３に記載の方法。
会話サンプルをユーザから、入力デバイスを介して、前記認識会話サンプルとして受信することをさらに含む、請求項１３に記載の方法。