JP7640964B2 - 発話内容認識装置、方法及びプログラム - Google Patents
発話内容認識装置、方法及びプログラム Download PDFInfo
- Publication number
- JP7640964B2 JP7640964B2 JP2021024841A JP2021024841A JP7640964B2 JP 7640964 B2 JP7640964 B2 JP 7640964B2 JP 2021024841 A JP2021024841 A JP 2021024841A JP 2021024841 A JP2021024841 A JP 2021024841A JP 7640964 B2 JP7640964 B2 JP 7640964B2
- Authority
- JP
- Japan
- Prior art keywords
- lip reading
- lip
- speaker
- speech content
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
以下、本発明を、発話内容認識装置としての読唇装置に適用した一実施形態(以下、本実施形態を「実施形態1」という。)について説明する。
本実施形態1の読唇装置は、口唇画像データとして話者の顔を撮像した顔画像データを入力し、入力された顔画像データの口唇部分を解析して当該話者が発話する発話内容の認識結果(読唇結果)を出力する。
本実施形態1の読唇装置100は、主に、入力部としての画像入力部111と、複数の読唇部としての2つの単一角度対応読唇部131,132と、統合生成部としての読唇結果統合部141と、から構成されている。
また、画像入力部111に入力される口唇画像データは、画像データ形式のものであってもよいし、口唇画像データを加工又は演算して得られる非画像データ形式のものであってもよい。
また、口唇画像データは、通常、実在の話者を撮像装置等により撮像して得られる撮像画像データであるが、仮想の話者(コンピュータグラフィックス等により作成されたもの等)を所定の視点から見たときの画像データであってもよい。
v=Σ(W×x)-θ ・・・(2)
本実施形態1の学習モードでは、図4に示すように、指示される発話内容を話者が発話し、これを、それぞれの対応角度(本実施形態1では0°と30°)から各収録用カメラ31-1,31-2によって撮像する。このように撮像された顔画像データは、対応角度ごとに学習データ記憶媒体32に記憶される。学習データ記憶媒体32に記憶される顔画像データは、時系列が特定できる形式で記憶される。そのため、学習データ記憶媒体32に記憶された顔画像データは、話者が発話した時期(各発話内容が発話された時期)と照らし合わせることで、話者の発話内容と対応づけられ、学習データとして用いることができる。
また、例えば、2つの単一角度対応読唇部131,132で得られた読唇処理結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
次に、上述した実施形態1における読唇装置100の一変形例(以下、本変形例を「変形例1」という。)について説明する。
図7は、本変形例1における読唇装置100を示すブロック図である。
本変形例1における読唇装置100は、図7に示すように、0°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部131と、45°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部136と、0°及び45°の2つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部137という、3つの読唇部を備えている。
次に、上述した実施形態1における読唇装置100の他の変形例(以下、本変形例を「変形例2」という。)について説明する。
図8は、本変形例2における読唇装置100を示すブロック図である。
本変形例2における読唇装置100は、図8に示すように、0°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部131と、45°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部136と、0°及び30°の2つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部134という、3つの読唇部を備えている。
次に、本発明を、発話内容認識装置としてのマルチモーダル音声認識装置に適用した一実施形態(以下、本実施形態を「実施形態2」という。)について説明する。
本実施形態2のマルチモーダル音声認識装置は、読唇処理と音声認識処理という2種類の発話内容認識処理を用いて、話者が発話する発話内容の認識結果を出力する。
本実施形態2のマルチモーダル音声認識装置300は、読唇認識処理部101と、音声認識処理部201と、認識結果統合部301とによって構成されている。
また、例えば、2つの認識処理部101,201の認識結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
次に、上述した実施形態2のマルチモーダル音声認識装置300における読唇認識処理部101で用いられる機械読唇モデル及び音声認識処理部201で用いられる音声認識モデルを構築するための学習データを収集する学習データ収集システムの一実施形態(以下、本実施形態を「実施形態3」という。)について説明する。
本実施形態3の学習データ収集システムは、複数の撮像装置を有するカメラアレイ31と、音声取得装置としての収録用マイクロフォン21と、指示装置としてのディスプレイ42と、制御装置43とを備えている。そのほか、本実施形態3の学習データ収集システムは、通報部41と、記憶装置としての学習データ記憶媒体32とを備えている。
[第1態様]
第1態様は、話者の発話内容を認識する発話内容認識装置(例えば、読唇装置100、マルチモーダル音声認識装置300)であって、話者の口唇画像データ(例えば顔画像データ)を入力する入力部(例えば画像入力部111)と、対応方向(例えば対応角度)から撮像された口唇画像データに対する読唇精度の高い複数の読唇部(例えば、単一角度対応読唇部131,132,133,136、複数角度対応読唇部134,135,137)と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部(例えば読唇結果統合部141)とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
一般に、入力部に入力された口唇画像データの読唇処理を行う読唇部は、入力される口唇画像データの撮像方向が特定の方向(対応方向)であるときに、高い精度(利用者の要求レベルを満たす精度)で読唇処理を行うことができ、発話内容の認識精度が高い。具体的には、例えば、対応方向が話者の顔の正面方向である読唇部は、話者の顔を正面から撮像したときの口唇画像データが入力されたときには読唇精度が高い。一方、この読唇部に対し、話者の顔を横や斜めから撮像したときの口唇画像データを入力したときには、読唇精度が落ち、高い読唇精度が得られない場合が多い。
本態様では、互いに異なる対応方向を有する複数の読唇部を用いて、入力部に入力された口唇画像データに対する読唇処理を実行する。このとき、本態様で用いられる複数の読唇部のうちの少なくとも1つの読唇部は、対応方向(高い読唇精度が得られる方向)が他のいずれかの読唇部における対応方向に含まれていない方向を含んでいる。そのため、これらの読唇部の対応方向のいずれかの方向と一致する方向から撮像された口唇画像データであれば、当該読唇部で高い読唇精度が得られ、その読唇処理結果から発話内容を高精度に認識することが可能である。したがって、本態様によれば、これらの複数の読唇部における対応方向の数の分だけ、発話内容を高精度に認識できる口唇画像データの撮像方向を増やすことができる。
ここで、複数の読唇部におけるいずれの対応方向とも一致しない方向から撮像された口唇画像データが入力部に入力された場合、個々の読唇部の読唇処理では十分な読唇精度が得られない。そのため、いずれかの読唇部の読唇処理結果だけを用いたのでは、このような口唇画像データについて発話内容を高精度に認識することはできない。
そこで、本態様では、統合生成部において、入力部に入力された口唇画像データに対する複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成するようにしている。これにより、個々の読唇部の各読唇処理結果は、正解である発話内容の確からしさ(信頼度)が不正解である他の発話内容の確からしさと比較して有意に高くない又は逆に低いという結果であっても、これらの読唇処理結果を統合することで、正解である発話内容の確からしさを際立たせ、不正解である他の発話内容の確からしさに対して有意な違いを出すことができる。例えば、個々の読唇部の各読唇処理結果に含まれる信頼度を発話内容候補ごとに積み上げることで、正解である発話内容について、不正解である他の発話内容に対して有意な違いをもった信頼度を導き出すことができる。したがって、上述した複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成することで、個々の読唇部の読唇処理では十分な読唇精度が得られない方向から撮像された口唇画像データについて発話内容を高精度に認識することができる。
よって、本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
第2態様は、第1態様において、前記複数の読唇部は、当該対応方向が1つである単方向読唇部(例えば、単一角度対応読唇部131,132,133,136)を含むことを特徴とするものである。
対応方向が1つである単方向読唇部は、対応方向が2つ以上である複方向読唇部よりも簡易に構築することが可能である。よって、発話内容認識装置を簡易に実現しやすい。
第3態様は、第1又は第2態様において、前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部(例えば、複数角度対応読唇部134,135,137)を含むことを特徴とするものである。
これによれば、読唇部の数を少なくでき、簡素な発話内容認識装置を実現しやすい。
第4態様は、第1乃至第3態様のいずれかにおいて、前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも1つの読唇部の対応方向になるように変換したデータを生成するデータ変換部(例えば角度変換部121~123)を有し、前記少なくとも1つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とするものである。
これによれば、複数の読唇部には、それぞれの対応方向に合致した撮像方向の口唇画像データがそれぞれ入力されるので、各読唇部から高い精度の読唇処理結果を得ることができる。その結果、これらの読唇処理結果を統合生成部によって統合して得られる発話内容の認識結果も高精度なものとすることができる。
第5態様は、第1乃至第4態様のいずれかにおいて、前記入力部に入力された口唇画像データの撮像方向を推定する撮像方向推定部(例えば角度推定部112)を有し、前記統合生成部は、前記撮像方向推定部の推定結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、入力部から顔画像データの撮像角度を撮像方向推定部により推定した推定結果を用いて、各読唇部の読唇処理結果の重み付けを行うことができる。すなわち、撮像方向推定部での推定結果を用い、対応方向に合致する推定角度の確信度が高い読唇部の読唇処理結果ほど重み付けを大きくして、当該読唇部の読唇処理結果が発話内容の認識結果に与える影響度を高めることができる。これにより、統合生成部によって得られる発話内容の認識結果を、より高精度なものとすることができる。
第6態様は、第1乃至第5態様のいずれかにおいて、前記複数の読唇部は、読唇処理により推定された1又は第2以上の発話内容候補と発話内容候補ごとの信頼度情報(例えば信頼度スコア)とを含む読唇処理結果を生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とするものである。
これによれば、簡易な方法で、統合生成部において発話内容の認識結果を高精度に得ることができる。
第7態様は、第1乃至第5態様のいずれかにおいて、前記複数の読唇部は、発話内容候補を推定するための中間情報(例えば中間表現)を読唇処理により読唇処理結果として生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とするものである。
これによれば、中間情報の学習データによって学習した学習済みモデル(統合モデル)を用いて、複数の読唇部の各読唇処理結果を統合することができ、統合生成部において発話内容の認識結果を高精度に得ることができる。
第8態様は、第1乃至第7態様のいずれかにおいて、前記話者の音声データから該話者の発話内容を認識する音声認識部(例えば音声認識処理部201)を有し、前記統合生成部(例えば、読唇結果統合部141及び認識結果統合部301)は、前記音声認識部の認識結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、読唇処理と音声認識処理という2種類の発話内容認識処理を用いて話者が発話する発話内容の認識結果を出力するマルチモーダルの発話内容認識装置(例えばマルチモーダル音声認識装置300)を実現できる。これにより、話者の発話内容の認識精度が話者の環境に左右されにくい、ロバスト性に優れた発話内容認識装置を実現できる。
第9態様は、第1乃至第8態様のいずれかにおいて、前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とするものである。
これによれば、機械読唇モデルにより読唇処理を行うため、より高精度な読唇処理結果を得ることができる。
第10態様は、第9態様の発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する学習データ収集システムであって、所定位置の話者を互いに異なる複数の撮像方向から撮像する複数の撮像装置(例えば収録用カメラ31-1~31-10)と、前記話者の音声を取得する音声取得装置(例えば収録用マイクロフォン21)と、前記話者に発話内容を指示する指示装置(例えばディスプレイ42)と、前記指示装置に発話内容を指示させ、指示された発話内容を発話する前記話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置(例えば学習データ記憶媒体32)に記憶する制御を実行する制御装置43とを有することを特徴とするものである。
これによれば、指示装置によって指示された発話内容を発話する話者の口唇画像を複数の撮像装置によって互いに異なる撮像角度から同時に撮像するとともに、その時の話者の音声を音声取得装置によって取得して、これらを記憶装置に記憶することができる。これにより、異なる撮像角度から撮像された口唇画像データとこれに対応する音声データとを迅速かつ大量に収集することができる。よって、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
第11態様は、発話内容認識装置により話者の発話内容を認識する方法であって、話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
第12態様は、話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
第13態様は、第10態様の学習データ収集システムにより、前記発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する方法であって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶することを特徴とするものである。
本態様によれば、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
第14態様は、第10態様の学習データ収集システムにおける前記制御装置のコンピュータに実行されるプログラムであって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶する制御を実行する制御手段として、前記コンピュータを機能させることを特徴とするものである。
本態様によれば、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
2 :記憶媒体
3 :マイクロフォン
21 :収録用マイクロフォン
31 :カメラアレイ
31-1~31-10:収録用カメラ
32 :学習データ記憶媒体
33-1 :第一学習部
33-2 :第二学習部
41 :通報部
42 :ディスプレイ
43 :制御装置
100 :読唇装置
101 :読唇認識処理部
111 :画像入力部
112 :角度推定部
121~123:角度変換部
131,132,133,136:単一角度対応読唇部
134,135,137:複数角度対応読唇部
141 :読唇結果統合部
201 :音声認識処理部
211 :音声入力部
231 :音声認識部
300 :マルチモーダル音声認識装置
301 :認識結果統合部
Claims (16)
- 話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする発話内容認識装置。 - 話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記入力部に入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定部を有し、
前記統合生成部は、前記撮像方向推定部の複数の推定結果を用いて前記各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。 - 話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とする発話内容認識装置。 - 話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識部を有し、
前記統合生成部は、前記複数の読唇部の読唇処理結果と前記音声認識部の認識結果とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。 - 請求項1乃至4のいずれか1項に記載の発話内容認識装置において、
前記複数の読唇部は、当該対応方向が1つである単方向読唇部を含むことを特徴とする発話内容認識装置。 - 請求項1乃至5のいずれか1項に記載の発話内容認識装置において、
前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも1つの読唇部の対応方向になるように変換したデータを生成するデータ変換部を有し、
前記少なくとも1つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とする発話内容認識装置。 - 請求項1、2又は4に記載の発話内容認識装置において、
前記複数の読唇部は、発話内容候補を推定するための中間情報を読唇処理により読唇処理結果として生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とする発話内容認識装置。 - 請求項1乃至7のいずれか1項に記載の発話内容認識装置において、
前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とする発話内容認識装置。 - 発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする方法。 - 発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記入力工程で入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定工程を有し、
前記統合生成工程では、前記撮像方向推定工程の複数の推定結果を用いて前記各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする方法。 - 発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成工程では、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とする方法。 - 発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識工程を有し、
前記統合生成工程では、前記複数の読唇部の読唇処理結果と前記音声認識工程の認識結果とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする方法。 - 話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、当該対応方向が2つ以上である複方向読唇手段を含むことを特徴とするプログラム。 - 話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段、及び、前記入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記統合生成手段は、前記撮像方向推定手段の複数の推定結果を用いて前記各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とするプログラム。 - 話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成手段は、前記複数の読唇手段の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とするプログラム。 - 話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段、及び、前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成手段は、前記複数の読唇手段の読唇処理結果と前記音声認識手段の認識結果とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とするプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021024841A JP7640964B2 (ja) | 2021-02-19 | 2021-02-19 | 発話内容認識装置、方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021024841A JP7640964B2 (ja) | 2021-02-19 | 2021-02-19 | 発話内容認識装置、方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022126962A JP2022126962A (ja) | 2022-08-31 |
| JP7640964B2 true JP7640964B2 (ja) | 2025-03-06 |
Family
ID=83060097
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021024841A Active JP7640964B2 (ja) | 2021-02-19 | 2021-02-19 | 発話内容認識装置、方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7640964B2 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7743377B2 (ja) | 2022-08-09 | 2025-09-24 | 三菱重工業株式会社 | 水素製造設備用の制御装置、水素製造設備、水素製造設備の制御方法及び水素製造設備用の制御プログラム |
| JP2024042780A (ja) * | 2022-09-16 | 2024-03-29 | 独立行政法人国立高等専門学校機構 | 状態推定システムと、これに用いる状態学習方法及び状態学習プログラムや状態推定方法及び状態推定プログラム |
| CN115762519A (zh) * | 2022-10-28 | 2023-03-07 | 歌尔科技有限公司 | 语音识别方法、装置、设备及存储介质 |
| CN116364075B (zh) * | 2022-12-12 | 2026-04-03 | 领悦数字信息技术有限公司 | 用于人机语音交互的方法和系统 |
| KR102533008B1 (ko) * | 2022-12-29 | 2023-05-17 | 월드버텍 주식회사 | 비정형 데이터로부터 개인정보를 탐지하고 노출 위험도를 측정하는 방법 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004240154A (ja) | 2003-02-06 | 2004-08-26 | Hitachi Ltd | 情報認識装置 |
| JP2020126492A (ja) | 2019-02-05 | 2020-08-20 | 株式会社リコー | 情報処理装置、発話認識システム及び発話認識プログラム |
-
2021
- 2021-02-19 JP JP2021024841A patent/JP7640964B2/ja active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004240154A (ja) | 2003-02-06 | 2004-08-26 | Hitachi Ltd | 情報認識装置 |
| JP2020126492A (ja) | 2019-02-05 | 2020-08-20 | 株式会社リコー | 情報処理装置、発話認識システム及び発話認識プログラム |
Non-Patent Citations (2)
| Title |
|---|
| Stavros Petridis、Yujiang Wang、Zuwei Li、Maja Pantic,"End-to-End Multi-View Lipreading",2017年 |
| 小梶 金志郎 外1名,CNNによる口元画像の正面変換を用いた斜め視点リップリーディングに関する検討,電子情報通信学会2020年総合大会講演論文集 基礎・境界/NOLTA,2020年03月03日 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022126962A (ja) | 2022-08-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7640964B2 (ja) | 発話内容認識装置、方法及びプログラム | |
| JP4971413B2 (ja) | 視聴覚を結合した動作認識システムおよびその認識方法 | |
| Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
| CN112088402B (zh) | 用于说话者识别的联合神经网络 | |
| Fisher et al. | Speaker association with signal-level audiovisual fusion | |
| US20110224978A1 (en) | Information processing device, information processing method and program | |
| JP2001092974A (ja) | 話者認識方法及びその実行装置並びに音声発生確認方法及び装置 | |
| CN112088315A (zh) | 多模式语音定位 | |
| JP2019200671A (ja) | 学習装置、学習方法、プログラム、データ生成方法及び識別装置 | |
| Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
| JP2023109786A (ja) | 議論分析装置及び議論分析方法 | |
| JP2019117556A (ja) | 情報処理装置、情報処理方法及びプログラム | |
| CN117854507A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
| CN119536602A (zh) | 一种基于元宇宙的会议互动方法及系统 | |
| JP6540742B2 (ja) | 物体認識装置および物体認識方法 | |
| Besson et al. | Extraction of audio features specific to speech production for multimodal speaker detection | |
| KR101747712B1 (ko) | 스마트폰을 통한 면접 자동인식 실시간관리방법 | |
| KR20230114196A (ko) | 감정 분석 방법 및 감정 분석 장치 | |
| KR102418232B1 (ko) | 보이스 유사도 평가 방법 및 그 장치 | |
| JP2009042910A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
| CN114973058A (zh) | 面签方法、装置、电子设备及存储介质 | |
| Sen et al. | Real-time sign language recognition system | |
| WO2021024869A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
| JP7032284B2 (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
| JP6916130B2 (ja) | 話者推定方法および話者推定装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230406 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240219 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240329 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240524 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240823 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241017 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250124 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250213 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7640964 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |