JP7640964B2 - Speech content recognition device, method, and program - Google Patents
Speech content recognition device, method, and program Download PDFInfo
- Publication number
- JP7640964B2 JP7640964B2 JP2021024841A JP2021024841A JP7640964B2 JP 7640964 B2 JP7640964 B2 JP 7640964B2 JP 2021024841 A JP2021024841 A JP 2021024841A JP 2021024841 A JP2021024841 A JP 2021024841A JP 7640964 B2 JP7640964 B2 JP 7640964B2
- Authority
- JP
- Japan
- Prior art keywords
- lip reading
- lip
- speaker
- speech content
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、発話内容認識装置、方法及びプログラムに関するものである。 The present invention relates to an apparatus, method, and program for recognizing speech content.
従来、話者の発話内容を認識する発話内容認識装置が知られている。例えば、話者の口唇画像データを入力し、対応方向から撮像された口唇画像データに対する読唇精度の高い読唇部を用いて、話者の発話内容を認識する装置が知られている。 Conventionally, there is known a speech content recognition device that recognizes the content of a speaker's speech. For example, a device is known that inputs image data of a speaker's lips and recognizes the content of the speaker's speech using a lip reading unit that has high lip reading accuracy for the lip image data captured from a corresponding direction.
また、非特許文献1には、畳み込みニューラルネットワークを用いたエンコーダ・デコーダモデルによる「View2View」と呼ばれる手法が開示されている。この手法では、予め正面顔の画像データ(顔の正面方向から撮像された口唇画像データ)で学習した機械読唇モデルを用いて読唇結果を出力する。非正面顔の画像データが入力された場合には、正面顔の画像データに変換してから機械読唇モデルに入力し、読唇結果を出力する。
Non-Patent
また、非特許文献2には、双方向長短記憶と呼ばれる深層学習技術を用いたエンドツーエンドの読唇手法が開示されている。この非特許文献2には、正面顔と横顔など、複数の撮像角度から撮像した顔画像データを組み合わせて学習することで、読唇モデルの読唇性能が向上することが記載されている。
Non-Patent
従来の読唇部を備えた発話内容認識装置においては、特定の方向(対応方向)から撮像された口唇画像データでは正しい読唇結果が高い精度で得られるが、当該対応方向とは異なる方向から撮像された口唇画像データでは精度が落ちるという課題がある。 In conventional speech recognition devices equipped with a lip reading unit, lip reading results can be obtained with high accuracy when using lip image data captured from a specific direction (corresponding direction), but there is an issue in that accuracy drops when using lip image data captured from a direction different from the corresponding direction.
上述した課題を解決するために、本発明は、話者の発話内容を認識する発話内容認識装置であって、話者の口唇画像データを入力する入力部と、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする。 In order to solve the above-mentioned problems, the present invention provides a speech content recognition device that recognizes the speech content of a speaker, comprising an input unit that inputs lip image data of the speaker, a plurality of lip reading units that have high lip reading accuracy for lip image data captured from corresponding directions, and an integration generation unit that integrates the lip reading processing results of the plurality of lip reading units for the lip image data input to the input unit and generates a recognition result of the speech content of the speaker based on the result of the integration, wherein at least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units , and the plurality of lip reading units includes a multi-directional lip reading unit having two or more corresponding directions .
本発明によれば、読唇部の対応方向とは一致しない方向から撮像された口唇画像データでも正しい読唇結果が高い精度で得られるので、対応方向の数を超える様々な種類(様々な撮像方向)の口唇画像データについて発話内容を高精度に認識できる。 According to the present invention, accurate lip reading results can be obtained with high accuracy even for lip image data captured from a direction that does not match the corresponding direction of the lip reading unit, so the speech content can be recognized with high accuracy for various types (various imaging directions) of lip image data that exceed the number of corresponding directions.
〔実施形態1〕
以下、本発明を、発話内容認識装置としての読唇装置に適用した一実施形態(以下、本実施形態を「実施形態1」という。)について説明する。
本実施形態1の読唇装置は、口唇画像データとして話者の顔を撮像した顔画像データを入力し、入力された顔画像データの口唇部分を解析して当該話者が発話する発話内容の認識結果(読唇結果)を出力する。
[Embodiment 1]
Hereinafter, an embodiment in which the present invention is applied to a lip reading device as a speech content recognition device (hereinafter, this embodiment will be referred to as "
The lip reading device of this
図1は、本実施形態1に係る読唇装置を示すブロック図である。
本実施形態1の読唇装置100は、主に、入力部としての画像入力部111と、複数の読唇部としての2つの単一角度対応読唇部131,132と、統合生成部としての読唇結果統合部141と、から構成されている。
FIG. 1 is a block diagram showing a lip reading device according to the first embodiment.
The
画像入力部111は、発話内容を認識する対象である話者の顔画像データ(口唇画像データ)の入力を受け付ける。本実施形態1の画像入力部111は、話者の顔を撮像する撮像装置であるカメラ1や、顔画像データを記憶した記憶媒体2に対し、有線または無線で通信可能に接続されている。カメラ1からは、現に話者が発話しているリアルタイムの顔画像データが画像入力部111に入力される。記憶媒体2は、過去に話者が発話したときの顔画像データを記憶しており、記憶媒体2からは、過去の顔画像データが画像入力部111に入力される。
The
画像入力部111は、入力された顔画像データを、必要に応じ、前記2つの単一角度対応読唇部131,132の入力前に画像処理して、各単一角度対応読唇部131,132にそれぞれ受け渡す。例えば、入力された顔画像データ中の口唇画像部分を時系列に並べて抽出し、その口唇画像部分のデータを各単一角度対応読唇部131,132にそれぞれ受け渡す。
The
画像入力部111に入力される口唇画像データは、話者の口唇を含むように撮像された画像データであれば、その撮像方向に特に制限はない。
また、画像入力部111に入力される口唇画像データは、画像データ形式のものであってもよいし、口唇画像データを加工又は演算して得られる非画像データ形式のものであってもよい。
また、口唇画像データは、通常、実在の話者を撮像装置等により撮像して得られる撮像画像データであるが、仮想の話者(コンピュータグラフィックス等により作成されたもの等)を所定の視点から見たときの画像データであってもよい。
There are no particular limitations on the imaging direction of the lip image data input to
Furthermore, the lip image data input to the
In addition, lip image data is typically captured image data obtained by capturing an image of a real speaker using an imaging device, etc., but it may also be image data of a virtual speaker (e.g., created using computer graphics, etc.) viewed from a specified viewpoint.
2つの単一角度対応読唇部131,132は、それぞれ、特定の方向(対応方向)から撮像された口唇画像データに対する読唇精度の高い読唇処理を行い、その読唇処理結果を生成する。2つの単一角度対応読唇部131,132は、それぞれの対応方向の中に、他方の単一角度対応読唇部における対応方向に含まれていない方向を含むように構成されている。
The two single-angle compatible
本実施形態1では、上述した対応方向を、話者の顔の正面方向から撮像したときの撮像方向を基準(0°)にした鉛直軸回りの角度(以下「対応角度」という。)で表すものとする。このとき、第一単一角度対応読唇部131は、話者の顔の正面方向から撮像したときの顔画像データに対する読唇精度が高く(利用者の要求レベルを満たす精度閾値を超えている)、その対応角度(読唇精度の高い角度)は0°である。一方、第二単一角度対応読唇部132は、話者の顔の正面方向に対して30°だけ横にずれた方向から撮像したときの顔画像データに対する読唇精度が高く、その対応角度(読唇精度の高い角度)は30°である。
In this
本実施形態1の単一角度対応読唇部131,132は、所定の読唇処理プログラム(推定プログラム)をコンピュータで実行することにより、画像入力部111に入力された顔画像データに対する読唇処理を実行し、読唇処理結果を生成する。本実施形態1の読唇処理プログラムは、話者の顔画像データを含む学習データを用いて学習した機械読唇モデル(学習済みモデル)を用いるが、プログラマーによってプログラミングされた読唇処理プログラムを用いてもよい。
The single-angle compatible
本実施形態1における機械読唇モデル(学習済みモデル)は、入力されたデータ(顔画像データ)から話者の発話内容を推定するものであり、機械読唇モデルから出力される推定結果(読唇処理結果)の形式には特に制限はない。一例として、本実施形態1では、入力されたデータ(顔画像データ)に対し、1又は2以上の発話内容候補(1つの文字、1つの語又は語系列など)と、その発話内容候補ごとの信頼度情報(以下「信頼度スコア」という。)とを含むデータを読唇処理結果として出力する場合について説明する。
The machine lip reading model (trained model) in this
所定の対応角度に特化した機械読唇モデル(当該対応角度の顔画像データに対する読唇精度の高い学習済みモデル)は、例えば、当該対応角度から撮像された大量の顔画像データを学習データとして機械学習や深層学習を行うことで作成することができる。例えば、このような学習データを用い、所定のモデルに対して教師あり学習を行わせることで、未知の顔画像データの入力に受けたときに、学習データから学習した特徴に従って、1又は2以上の発話内容候補と各発話内容候補の信頼度スコアとを含むデータを推定結果として出力する機械読唇モデル(学習済みモデル)を得ることができる。なお、本実施形態1では、所定のモデルとしては、ニューラルネットワークモデルを採用するが、他の機械学習モデルを使用することも可能である。
A machine lip-reading model specialized for a specified corresponding angle (a trained model with high lip-reading accuracy for face image data at the corresponding angle) can be created, for example, by performing machine learning or deep learning using a large amount of face image data captured from the corresponding angle as training data. For example, by using such training data and performing supervised learning on a specified model, it is possible to obtain a machine lip-reading model (trained model) that, when receiving input of unknown face image data, outputs data including one or more speech content candidates and a reliability score for each speech content candidate as an estimation result according to the features learned from the training data. Note that in this
「教師あり学習」では、一般に、ある入力と結果(ラベル)のデータの組を大量に機械学習装置に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、すなわち、その関係性を帰納的に獲得することができる。これは、後述のニューラルネットワークやSVM(Support Vector Machine)などのアルゴリズムを用いて実現することができる。 In "supervised learning," a machine learning device is generally given a large number of pairs of input and result (label) data, which allows it to learn the features of those data sets and inductively acquire a model that estimates results from inputs, i.e., the relationships between them. This can be achieved using algorithms such as neural networks and SVMs (Support Vector Machines), which are described below.
ニューラルネットワークは、例えば、図2に示すようなニューロンのモデルを模したニューラルネットワークを実現する演算装置及びメモリ等で構成される。図2に示すように、ニューロンは、複数の入力x(ここでは一例として、入力x1~入力x3としているが、その入力数は、より少ない数でもよいし、より多くの数でもよい。)に対する出力yを出力するものである。各入力x1~x3には、それぞれの入力xに対応する重みW(W1~W3)が乗算される。これにより、ニューロンは、次の式(1)及び(2)により表現される出力yを出力する。なお、式(1)及び(2)において、θはバイアスであり、fkは活性化関数である。 A neural network is composed of a computing device and a memory that realizes a neural network that mimics a neuron model, for example, as shown in FIG. 2. As shown in FIG. 2, a neuron outputs an output y for multiple inputs x (inputs x1 to x3 are shown here as an example, but the number of inputs may be less or more). Each of the inputs x1 to x3 is multiplied by a weight W (W1 to W3) corresponding to each input x. As a result, the neuron outputs an output y expressed by the following equations (1) and (2). In equations (1) and (2), θ is a bias, and fk is an activation function.
y = fk(v) ・・・(1)
v=Σ(W×x)-θ ・・・(2)
y = fk(v)...(1)
v=Σ(W×x)-θ...(2)
ニューラルネットワークの動作には、学習モードと評価モードとがあり、学習モードでは学習データを用いて重みWを学習し、評価モードではその重みWを用いて評価用データの入力に対する出力(本実施形態1では発話内容候補とそれぞれの信頼度スコア)を得る。重みW1~W3は、誤差逆伝搬法(バックプロパゲーション)等により学習可能である。誤差逆伝搬法は、入力xが入力されたときの出力yと正解の出力y(正解ラベル)との差分を小さくするように、各ニューロンについての重みを調整(学習)する手法である。
The neural network operates in a learning mode and an evaluation mode. In the learning mode, the weights W are learned using training data, and in the evaluation mode, the weights W are used to obtain an output for the input of evaluation data (in this
ニューラルネットワークは、図3に示すように、深層学習あるいはディープラーニングを呼ばれる複数層構造にすることが可能である。図3の例は、中間層(隠れ層)が3層構造になっている例である。各層は複数のノード(ニューロン)で構成され、各層間のノードはそれぞれ異なる重みWで連結されている。入力層に投入された入力x1~x6は、重みWの異なる中間層内のノードを通過する中で、入力x1~x6が重みWによって重み付けされながら合成され、出力層を通過して出力yを導出する。 As shown in Figure 3, neural networks can have a multi-layer structure known as deep learning. The example in Figure 3 shows a three-layer structure of intermediate (hidden) layers. Each layer is made up of multiple nodes (neurons), and the nodes between layers are connected with different weights W. Inputs x1 to x6 input to the input layer are combined while being weighted by the weight W as they pass through the nodes in the intermediate layer, which have different weights W, and then pass through the output layer to derive the output y.
本実施形態1では、図3に示すような複数層構造のニューラルネットワークからなるニューラルネットワークモデルを採用し、既知の発話内容を発話する話者の顔画像データを含む学習データを用い、これに正しい発話内容を正解ラベルとして用いて、教師あり学習をさせることにより、機械読唇モデル(学習済みモデル)を作成する。
In this
図4は、本実施形態1における機械読唇モデル(学習済みモデル)の作成方法(学習モード)の概要を示す説明図である。
本実施形態1の学習モードでは、図4に示すように、指示される発話内容を話者が発話し、これを、それぞれの対応角度(本実施形態1では0°と30°)から各収録用カメラ31-1,31-2によって撮像する。このように撮像された顔画像データは、対応角度ごとに学習データ記憶媒体32に記憶される。学習データ記憶媒体32に記憶される顔画像データは、時系列が特定できる形式で記憶される。そのため、学習データ記憶媒体32に記憶された顔画像データは、話者が発話した時期(各発話内容が発話された時期)と照らし合わせることで、話者の発話内容と対応づけられ、学習データとして用いることができる。
FIG. 4 is an explanatory diagram showing an overview of a method (learning mode) for creating a machine lip-reading model (trained model) in the first embodiment.
In the learning mode of the first embodiment, as shown in Fig. 4, a speaker speaks a specified utterance content, and this is captured by each of the recording cameras 31-1 and 31-2 from the corresponding angles (0° and 30° in the first embodiment). The facial image data captured in this manner is stored in the learning
このように学習データ記憶媒体32に蓄積された学習データは、対応角度が0°の顔画像データについては第一学習部33-1に用いられ、対応角度が30°の顔画像データについては第二学習部33-2に用いられる。なお、学習データには、より精度を高めるために、発話内容を特定(推定)するための特徴量として有用な他の情報を含めることができる。第一学習部33-1では、入力される学習データにより、対応角度が0°である機械読唇モデル(学習済みモデル)が生成され、生成された機械読唇モデルは、本実施形態1の第一単一角度対応読唇部131にインストールされる。同様に、第二学習部33-2では、入力される学習データにより、対応角度が30°である機械読唇モデル(学習済みモデル)が生成され、生成された機械読唇モデルは、本実施形態1の第二単一角度対応読唇部132にインストールされる。
The learning data thus stored in the learning
生成した機械読唇モデル(学習済みモデル)については、その学習済みモデルの作成(学習モード)を繰り返し試行して、パラメータチューニングを実行してもよい。パラメータチューニングで調整(チューニング)するパラメータとは、学習済みモデルにおける設定値や制限値(ハイパーパラメータ)などをいう。パラメータチューニングは、例えば、モデルが最適解を出せるパラメータを走査して設定する作業である。パラメータチューニングの種類としては、グリッドサーチ法やランダムサーチ法などがあり、これらを用いることができる。 For the generated machine lip reading model (trained model), parameter tuning may be performed by repeatedly trying to create the trained model (training mode). The parameters to be adjusted (tuned) in parameter tuning refer to the setting values and limit values (hyperparameters) in the trained model. Parameter tuning is, for example, the task of scanning and setting parameters that allow the model to produce an optimal solution. Types of parameter tuning that can be used include the grid search method and the random search method.
また、機械読唇モデル(学習済みモデル)に対してモデル評価を行ってもよい。このモデル評価には、例えば、クロスバリデーションやホールドアウト法などを用いることができる。ホールドアウト法とクロスバリデーションを併用してモデル評価を行うこともできる。 Model evaluation may also be performed on the machine lip reading model (trained model). For this model evaluation, for example, cross-validation or the hold-out method can be used. Model evaluation can also be performed using a combination of the hold-out method and cross-validation.
具体的には、ホールドアウト法では、元データを、事前に、学習モードで使用する学習用データと、評価モードで使用するテストデータとに分割しておき、学習用データだけを用いて学習済みモデルの作成を試行する。その後、作成した学習済みモデルにテストデータを入力し、その出力結果と当該テストデータの正解ラベルとの比較(誤差=推定精度)を行ってモデル評価を行う。 Specifically, in the hold-out method, the original data is first split into training data to be used in training mode and test data to be used in evaluation mode, and an attempt is made to create a trained model using only the training data. After that, test data is input into the trained model that has been created, and the model is evaluated by comparing the output result with the correct label of the test data (error = estimated accuracy).
また、クロスバリデーションでは、元データを例えば5グループに分け、1回目は、そのうちの1つのグループをテストデータとし、それ以外のグループを学習用データとして、学習済みモデルの作成とモデル評価を行う。2回目は、1回目とは異なるグループをテストデータとし、3回目は1回目及び2回目とは異なるグループをテストデータとして、同様に学習済みモデルの作成とモデル評価を行う。これを5グループすべてについて行い、各回で評価したモデル評価(推定精度)の平均を取る。 In cross-validation, the original data is divided into, for example, five groups, and in the first round, one of the groups is used as test data and the other groups are used as training data to create a trained model and evaluate the model. In the second round, a different group from the first round is used as test data, and in the third round, a different group from the first and second rounds is used as test data, and a trained model is created and evaluated in the same way. This is done for all five groups, and the model evaluations (estimation accuracy) evaluated each time are averaged.
また、本実施形態1の推定プログラム(学習済みモデル)を蒸留して、新たに同様の機能を備えた推定プログラム(蒸留モデル)を作成することもできる。具体的には、本実施形態1の推定プログラム(学習済みモデル)に対し、蒸留用入力データとして、発話内容が既知である顔画像データを入力し、その信頼度スコアを出力させる。そして、出力された信頼度スコアを蒸留用入力データの正解ラベルとした蒸留用の学習データを作成し、この蒸留用の学習データを用いてモデルに学習させることにより、本実施形態1の推定プログラム(学習済みモデル)と同様の機能を備えた新たな推定プログラム(蒸留モデル)を作成する。このようにして作成される新たな推定プログラム(蒸留モデル)は、一般に、本実施形態1の推定プログラム(学習済みモデル)よりも軽量化される。また、蒸留用入力データを工夫するなどすることで、本実施形態1の推定プログラム(学習済みモデル)よりも推定精度を高めることも可能である。
In addition, the estimation program (trained model) of the
なお、本実施形態1の機械読唇モデルは、発話内容候補と各発話内容候補の信頼度スコアとを含むデータを読唇処理結果として用いる例であるが、後段の読唇結果統合部141で用いるデータ形式に合わせた中間表現のデータを読唇処理結果として用いてもよい。具体的には、読唇処理結果として、機械読唇モデルを用いて読唇処理を行った際の当該機械読唇モデルの内部状態を記録したベクトルデータを用いてもよい。
Note that the machine lip reading model of this
本実施形態1においては、このように、特定の方向(対応方向)から撮像された口唇画像データに対する読唇精度の高い2つの単一角度対応読唇部131,132を用いて、口唇画像データに対する読唇処理を実行する。そして、本実施形態1で用いられる2つの単一角度対応読唇部131,132は、それぞれの対応角度(高い読唇精度が得られる角度)が、他方の単一角度対応読唇部における対応角度に含まれていない角度を含んでいる。そのため、これらの単一角度対応読唇部の対応角度(0°と30°)のいずれかの角度と一致する角度から撮像された口唇画像データであれば、これらの単一角度対応読唇部で高い読唇精度が得られ、その読唇処理結果から発話内容を高精度に認識可能である。したがって、本実施形態1によれば、0°と30°の角度から撮像された口唇画像データについて、発話内容を高精度に認識することができる。
In this
ここで、2つの単一角度対応読唇部131,132のいずれの対応角度とも一致しない角度(例えば15°や45°)から撮像された口唇画像データについては、個々の単一角度対応読唇部131,132の読唇処理では十分な読唇精度が得られない。そのため、いずれかの単一角度対応読唇部131,132の読唇処理結果だけを用いたのでは、このような口唇画像データについて発話内容を高精度に認識することはできない。
Here, for lip image data captured from an angle (e.g., 15° or 45°) that does not match the corresponding angle of either of the two single-angle compatible
そこで、本実施形態1では、読唇結果統合部141を設け、2つの単一角度対応読唇部131,132で得られた各読唇処理結果を統合し、その統合結果に基づいて話者の発話内容の認識結果を最終的な読唇結果として生成する。これにより、個々の単一角度対応読唇部131,132の各読唇処理結果は、正解である発話内容の確からしさ(信頼度スコア)が不正解である他の発話内容の確からしさと比較して有意に高くない又は逆に低いという結果である場合であっても、これらの読唇処理結果を統合することで、正解である発話内容の確からしさ(信頼度スコア)を際立たせ、不正解である他の発話内容の確からしさに対して有意に高くなるように処理することが可能となる。
Therefore, in this
読唇結果統合部141が行う統合処理は、精度の高い認識結果が得られるように(本実施形態1であれば、正解の発話内容の信頼度スコアが相対的に高くなるように)、2つの単一角度対応読唇部131,132で得られた各読唇処理結果を統合する処理であれば、特に制限はない。
There are no particular limitations on the integration process performed by the lip reading
読唇結果統合部141が行う統合処理の一例としては、例えば、2つの単一角度対応読唇部131,132で得られた読唇処理結果のいずれにも含まれる共通の発話内容候補(語や語系列など)の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に2以上の発話内容候補を統合結果としてもよい。
また、例えば、2つの単一角度対応読唇部131,132で得られた読唇処理結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
As an example of the integration process performed by the lip reading
Also, for example, the total value of the reliability score for each of the speech content candidates included in the lip reading processing results obtained by the two single-angle compatible
読唇結果統合部141が行う統合処理の別例としては、2つの単一角度対応読唇部131,132における中間表現から認識結果を得る学習済みモデル(統合モデル)を、例えばニューラルネットワークモデルによって予め学習しておく。そして、2つの単一角度対応読唇部131,132で得られた読唇処理結果に含まれる各中間表現(ベクトル等)を連結して1つの中間表現を生成し、読唇結果統合部141のコンピュータで学習済みの統合モデルを実行して、当該1つの中間表現から1又は2以上の発話内容の認識結果を得て、これを統合結果とする。あるいは、当該1つの中間表現から1又は2以上の発話内容の認識結果に、それぞれの信頼度スコアを含めてもよい。
As another example of the integration process performed by the lip-reading
本実施形態1の読唇装置100によれば、2つの単一角度対応読唇部131,132の各読唇処理結果を読唇結果統合部141で統合することで、各単一角度対応読唇部131,132の読唇処理により高精度な読唇結果が得られる0°と30°の対応角度だけでなく、この対応角度から外れた角度(例えば15°や45°)の口唇画像データについても、発話内容を高精度に認識することが可能となる。その結果、2つの単一角度対応読唇部131,132における対応角度の数(0°と30°)を超える様々な角度からの口唇画像データについて、発話内容を高精度に認識することが可能となる。
According to the
読唇結果統合部141で生成した認識結果は、話者の発話内容の認識結果を利用する後段の情報処理装置等へ出力したり、話者の発話内容の認識結果を蓄積する情報蓄積装置へ出力したりする。なお、出力態様に特に制限はなく、例えば、本実施形態1の読唇装置100に備わった表示部に認識結果を表示させたり、読唇装置100に備わった音声出力部から音声で出力したりしてもよい。
The recognition results generated by the lip reading
なお、上述した実施形態1では、読唇部が2つの例であるが、読唇部が3以上の例であってもよい。例えば、図5に示すように、話者の顔の正面方向に対して60°だけ横にずれた方向から撮像したときの顔画像データに対する読唇精度が高い第三単一角度対応読唇部133を追加した構成であってもよい。
In the above-mentioned
また、単一読唇部により2以上の対応角度で高精度な読唇結果を得ることが可能な複数角度対応読唇部を作成することが可能である。具体的には、例えば、図4に示したように、2つの対応角度(0°と30°)から撮像した顔画像データが記憶された学習データ記憶媒体32を利用し、これらを学習データとして単一の学習部に入力して学習することで、0°と30°という2つの対応角度で高精度な読唇処理が可能な機械読唇モデル(学習済みモデル)を生成することが可能である。
It is also possible to create a multiple-angle lip reading unit capable of obtaining highly accurate lip reading results at two or more corresponding angles using a single lip reading unit. Specifically, for example, as shown in FIG. 4, a learning
したがって、例えば、図6に示すように、上述した第二単一角度対応読唇部132に代えて、0°と30°という2つの対応角度で高精度な読唇処理が可能な第一複数角度対応読唇部134を設けてもよい。更に、図6に示すように、上述した第三単一角度対応読唇部133に代えて、0°と30°と60°という3つの対応角度で高精度な読唇処理が可能な第二複数角度対応読唇部135を設けてもよい。
Therefore, for example, as shown in FIG. 6, instead of the second single-angle
ただし、複数角度対応読唇部は、通常、その複数角度対応読唇部における複数の対応角度をそれぞれ対応角度とした複数の単一角度対応読唇部を作成する場合と比較して、より広範囲の角度について読唇精度が高まることが期待できるというメリットがある一方、学習コストが増大するデメリットがある。このデメリットについては、例えば、これらの読唇処理を実行する機械読唇モデルを構築するために必要となる学習データの必要量で比較することができる。複数の対応角度のいずれについても所定の高い精度(所定の精度閾値を超える精度)を得ようとする場合には、複数角度対応読唇部の機械読唇モデルでは、通常、複数の単一角度対応読唇部の各機械読唇モデルを構築するのに必要な学習データの合計量よりも、ずっと多くの学習データを必要とする。また、学習データの増大に伴い、パラメータチューニングなどのコストも増大する。 However, while a multi-angle lip-reading unit usually has the advantage of being able to improve lip-reading accuracy for a wider range of angles compared to creating multiple single-angle lip-reading units with each corresponding angle corresponding to the multiple corresponding angles of the multi-angle lip-reading unit, it also has the disadvantage of increased learning costs. This disadvantage can be compared, for example, with the amount of training data required to build a machine lip-reading model that executes these lip-reading processes. To achieve a predetermined high level of accuracy (accuracy exceeding a predetermined accuracy threshold) for each of the multiple corresponding angles, the machine lip-reading model of the multi-angle lip-reading unit usually requires much more training data than the total amount of training data required to build each machine lip-reading model of the multiple single-angle lip-reading units. Furthermore, as the training data increases, the costs of parameter tuning and the like also increase.
一方で、複数角度対応読唇部が前記メリットを備えている点を考慮すると、図6の例のように、単一角度対応読唇部と複数角度対応読唇部とを混在させた構成であることが好適である。これにより、例えば、入力される顔画像データ(口唇画像データ)において最も頻度の高い撮像角度及びその近傍の角度(高い読唇精度が得られる対応角度)については単一角度対応読唇部で対応し、それ以外の角度については複数角度対応読唇部で対応するようにし、これらの読唇処理結果を読唇結果統合部141で統合することで、より様々な角度からの口唇画像データについて発話内容を高精度に認識することが可能となる。
On the other hand, considering that the multiple-angle lip reading unit has the above-mentioned advantages, it is preferable to have a configuration in which a single-angle lip reading unit and a multiple-angle lip reading unit are mixed, as in the example of Figure 6. In this way, for example, the most frequent imaging angle and nearby angles (corresponding angles that provide high lip reading accuracy) in the input face image data (lip image data) are handled by the single-angle lip reading unit, and other angles are handled by the multiple-angle lip reading unit, and the results of these lip reading processes are integrated by the lip reading
また、この点で、理論上は、本実施形態1と同程度の様々な角度から撮像した口唇画像データに対し、発話内容を高精度に認識することが可能な単一の読唇部を構築することも可能といえる。しかしながら、このような単一の読唇部を、プログラマーによりプログラミングされた読唇プログラムによって実現することは極めて困難である。また、このような単一の読唇部を機械読唇モデル(学習済みモデル)によって実現するには、膨大な量の学習データが必要となり、そのような機械読唇モデルを構築することも実現的に困難である。 In this regard, it is also theoretically possible to construct a single lip-reading unit that is capable of recognizing speech content with high accuracy from lip image data captured from various angles similar to that of the first embodiment. However, it is extremely difficult to realize such a single lip-reading unit using a lip-reading program programmed by a programmer. Furthermore, to realize such a single lip-reading unit using a machine lip-reading model (trained model), a huge amount of training data is required, and it is also practically difficult to build such a machine lip-reading model.
これに対し、本実施形態1の読唇装置100で用いられる読唇部は、1つの対応角度に特化した読唇部(単一角度対応読唇部)又は複数(数個程度)の対応角度に特化した読唇部(複数角度対応読唇部)であり、これらの読唇部を構築することは比較的容易である。したがって、本実施形態1によれば、様々な角度からの口唇画像データについて発話内容を高精度に認識できる読唇装置を、より簡易に作成することができるというメリットもある。
In contrast, the lip reading unit used in the
なお、読唇結果統合部141によって読唇処理結果が統合される読唇部間において、それぞれの対応角度が部分的に重複していてもよい。すなわち、複数角度対応読唇部における対応角度は、全く同じ組み合わせでなければ、他の単一角度対応読唇部や他の複数角度対応読唇部における対応角度の一部または全部を含んでも良い。例えば、図6に示すように、0°については、すべての読唇部131,134,135の対応角度とし、30°については、2つの複数角度対応読唇部134,135の対応角度とするようにしてもよい。
The corresponding angles of the lip reading units whose lip reading process results are integrated by the lip reading
〔変形例1〕
次に、上述した実施形態1における読唇装置100の一変形例(以下、本変形例を「変形例1」という。)について説明する。
図7は、本変形例1における読唇装置100を示すブロック図である。
本変形例1における読唇装置100は、図7に示すように、0°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部131と、45°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部136と、0°及び45°の2つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部137という、3つの読唇部を備えている。
[Modification 1]
Next, a modification of the
FIG. 7 is a block diagram showing a
As shown in Figure 7, the
そして、本変形例1における読唇装置100は、画像入力部111に入力された口唇画像データに基づいて、撮像方向が複数の読唇部131,136,137のうちの少なくとも1つの読唇部の対応角度になるように変換したデータを生成するデータ変換部としての角度変換部121,122,123を備えている。なお、図7の例では、3つの読唇部131,136,137のすべてに対し、その前段の処理部として角度変換部121,122,123を設け、各角度変換部により、それぞれの読唇部131,136,137の対応角度のいずれかに撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。すなわち、各角度変換部121,122,123は、画像入力部111に入力された口唇画像データの口唇画像が、それぞれの読唇部131,136,137の対応角度から撮像された口唇画像と擬似的に同等になるように、変換処理を行う。
The
例えば、30°の角度から撮像された口唇画像データが画像入力部111に入力された場合、第一角度変換部121では、第一単一角度対応読唇部131の対応角度である0°に撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。この場合、同様に、第二角度変換部122では、第二単一角度対応読唇部136の対応角度である45°に撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。また、第三角度変換部123では、複数角度対応読唇部137の対応角度である0°と45°のうちのいずれか(ここでは0°)に撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。
For example, when lip image data captured at an angle of 30° is input to the
各角度変換部121,122,123は、アフィン変換のような線形写像を用いて変換してもよいし、機械学習や深層学習に基づいた変換モデルを用いて変換してもよい。また、各角度変換部121,122,123が変換した変換後のデータは、それぞれの読唇部131,136,137の入力データ形式に対応していればよく、例えば、画像データの形式でもよいし、変換モデルの中間表現の形式でもよい。
Each
本変形例1によれば、各読唇部131,136,137に対し、それぞれの角度変換部121,122,123から受け取るデータ(画像データや中間表現)は、それぞれの読唇部131,136,137の対応角度に合致したものとなる。そのため、各読唇部131,136,137は、それぞれ高い精度で読唇処理を行うことができ、それぞれの読唇部131,136,137から高い精度の読唇処理結果を得ることができる。その結果、これらの読唇処理結果を読唇結果統合部141によって統合して得られる最終的な読唇結果(発話内容の認識結果)も高精度なものとなる。
According to this first modification, the data (image data or intermediate representation) received by each of the
〔変形例2〕
次に、上述した実施形態1における読唇装置100の他の変形例(以下、本変形例を「変形例2」という。)について説明する。
図8は、本変形例2における読唇装置100を示すブロック図である。
本変形例2における読唇装置100は、図8に示すように、0°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部131と、45°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部136と、0°及び30°の2つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部134という、3つの読唇部を備えている。
[Modification 2]
Next, another modification of the
FIG. 8 is a block diagram showing a
As shown in Figure 8, the
そして、本変形例2における読唇装置100は、画像入力部111に入力された口唇画像データの撮像方向を推定する撮像方向推定部としての角度推定部112を備えている。例えば、上述した学習データ記憶媒体32に記憶してある様々な角度から撮像された大量の顔画像データを利用して、機械学習や深層学習により、入力された顔画像データの撮像角度を推定するモデルを学習する。そして、これにより生成された角度推定モデルを角度推定部112のコンピュータにより実行することで、画像入力部111に入力された口唇画像データの撮像方向を推定する。
The
本変形例2の角度推定部112は、画像入力部111から顔画像データを受け取ると、その顔画像データの撮像角度を推定し、予め設定された角度ごとに確からしさを示す確信度を角度推定結果として出力する。例えば、角度推定部112は、予め設定された角度が0°、30°、45°、60°であるとき、入力された顔画像データの撮像角度の推定結果として、0°の確信度が0.3、30°の確信度が0.4、45°の確信度が0.2、60°の確信度が0.1といった情報を出力する。
When the
本変形例2において、角度推定部112の角度推定結果は読唇結果統合部141に送られる。本変形例2の読唇結果統合部141は、角度推定部112から受け取った角度推定結果を用いて、3つの読唇部131,136,134で得られた各読唇処理結果を統合し、話者の発話内容の認識結果を最終的な読唇結果として生成する。
In this second modification, the angle estimation result of the
本変形例2における統合処理の一例としては、例えば、3つの読唇部131,136,134で得られた各読唇処理結果の信頼度スコアに対し、角度推定部112の角度推定結果に含まれるそれぞれの読唇部の対応角度に合致した推定角度の確信度を乗じる。例えば、前記の例で説明すると、対応角度が0°である第一単一角度対応読唇部131については信頼度スコアを0.3倍し、対応角度が45°である第二単一角度対応読唇部136については信頼度スコアを0.2倍し、対応角度が0°と30°の2つである複数角度対応読唇部134については信頼度スコアを0°と30°の確信度のうちの高い方を用いて0.4倍するといった処理を行う。
As an example of the integration process in this modified example 2, for example, the reliability score of each lip reading process result obtained by the three
このように角度推定結果を用いた後、読唇結果統合部141は、上述した実施形態1と同様、3つの読唇部131,136,134で得られた読唇処理結果のいずれにも含まれる共通の発話内容候補の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に2以上の発話内容候補を統合結果としてもよい。また、例えば、角度推定結果を用いた後、読唇結果統合部141は、3つの読唇部131,136,134で得られた読唇処理結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
After using the angle estimation result in this way, the lip reading
本変形例2によれば、画像入力部111から顔画像データの撮像角度を推定した角度推定結果を用いて、各読唇部131,136,134の読唇処理結果の重み付けを行うことができる。すなわち、角度推定部112での角度推定結果を用い、対応角度に合致する推定角度の確信度が高い読唇部の読唇処理結果ほど重み付けを大きくして、当該読唇部の読唇処理結果が発話内容の認識結果に与える影響度を高める。これにより、読唇結果統合部141によって得られる最終的な読唇結果(発話内容の認識結果)を、より高精度なものとすることができる。
According to this second modification, the lip reading results of each
〔実施形態2〕
次に、本発明を、発話内容認識装置としてのマルチモーダル音声認識装置に適用した一実施形態(以下、本実施形態を「実施形態2」という。)について説明する。
本実施形態2のマルチモーダル音声認識装置は、読唇処理と音声認識処理という2種類の発話内容認識処理を用いて、話者が発話する発話内容の認識結果を出力する。
[Embodiment 2]
Next, an embodiment in which the present invention is applied to a multimodal speech recognition device as a speech content recognition device (hereinafter, this embodiment will be referred to as "
The multimodal speech recognition device of the second embodiment uses two types of speech content recognition processing, namely lip reading processing and speech recognition processing, to output a recognition result of the content of an utterance spoken by a speaker.
図9は、本実施形態2に係るマルチモーダル音声認識装置を示すブロック図である。
本実施形態2のマルチモーダル音声認識装置300は、読唇認識処理部101と、音声認識処理部201と、認識結果統合部301とによって構成されている。
FIG. 9 is a block diagram showing a multimodal speech recognition device according to the second embodiment.
The multimodal
読唇認識処理部101の構成は、上述した実施形態1の読唇装置100の構成を採用することができる。図9の例は、図1に示した読唇装置100の構成を採用したものである。
The configuration of the lip reading
音声認識処理部201は、主に、音声入力部211と音声認識部231とから構成されている。
The voice
音声入力部211は、発話を行っている話者の音声データの入力を受け付ける。本実施形態2の音声入力部211は、話者の音声を集音するマイクロフォン3や、話者の音声データを記憶した記憶媒体2に対し、有線または無線で通信可能に接続されている。マイクロフォン3からは、現に話者が発話しているリアルタイムの音声データが音声入力部211に入力される。記憶媒体2は、過去に話者が発話したときの音声データを記憶しており、記憶媒体2からは、過去の音声データが音声入力部211に入力される。
The
音声入力部211は、入力された音声データを、必要に応じて音声認識部231の入力に対応するようにデータ処理して、音声認識部231に受け渡す。例えば、入力された音声データからノイズを除去した音声信号を抽出し、その音声信号のデータを音声認識部231に受け渡す。
The
本実施形態2の音声認識部231は、所定の音声認識プログラムをコンピュータで実行することにより、音声入力部211に入力された音声データに対する音声認識処理を実行し、音声認識結果を生成する。本実施形態2の音声認識プログラムは、話者の音声データを含む学習データを用いて学習した音声認識モデル(学習済みモデル)を用いるが、プログラマーによってプログラミングされた音声認識プログラムを用いてもよい。
The
本実施形態2における音声認識モデル(学習済みモデル)は、入力されたデータ(音声データ)から話者の発話内容を推定するものであり、音声認識モデルから出力される推定結果(音声認識結果)の形式には、上述した機械読唇モデルの場合と同様、特に制限はない。一例として、本実施形態2では、読唇認識処理部101の形式に合わせて、入力されたデータ(音声データ)に対し、1又は2以上の発話内容候補(1つの語又は語系列など)と、その発話内容候補ごとの信頼度スコアとを含むデータを音声認識結果として出力する。
The speech recognition model (trained model) in this
認識結果統合部301は、読唇認識処理部101の読唇結果統合部141から出力される認識結果(読唇結果)と、音声認識処理部201の音声認識部231から出力される認識結果(音声認識結果)とを統合して、最終的な発話内容の認識結果を出力する。
The recognition
認識結果統合部301が行う統合処理は、精度の高い認識結果が得られるように(例えば、正解の発話内容の信頼度スコアが相対的に高くなるように)、読唇認識処理部101の認識結果(読唇結果)と、音声認識処理部201の認識結果(音声認識結果)とを統合する処理であれば、特に制限はない。
There are no particular limitations on the integration process performed by the recognition
認識結果統合部301が行う統合処理の一例としては、例えば、2つの認識処理部101,201の認識結果のいずれにも含まれる共通の発話内容候補の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に2以上の発話内容候補を統合結果としてもよい。
また、例えば、2つの認識処理部101,201の認識結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
As an example of the integration process performed by the recognition
Also, for example, the total value of the reliability scores for each of the utterance content candidates included in the recognition results of the two
認識結果統合部301が行う統合処理の別例としては、2つの認識処理部101,201における中間表現から認識結果を得る学習済みモデル(統合モデル)を、例えばニューラルネットワークモデルによって予め学習しておく。そして、2つの認識処理部101,201で得られた認識結果に含まれる各中間表現(ベクトル等)を連結して1つの中間表現を生成し、認識結果統合部301のコンピュータで学習済みの統合モデルを実行して、当該1つの中間表現から1又は2以上の発話内容の認識結果を得て、これを統合結果とする。あるいは、当該1つの中間表現から1又は2以上の発話内容の認識結果に、それぞれの信頼度スコアを含めてもよい。
As another example of the integration process performed by the recognition
本実施形態2のマルチモーダル音声認識装置300は、読唇認識処理部101が上述した実施形態1の読唇装置100の構成を採用しているため、高い精度で読唇結果を得ることができる。
The multimodal
加えて、本実施形態2のマルチモーダル音声認識装置300は、読唇装置と音声認識装置という互いに異なる2種類の発話内容認識方法を用いて認識結果を求め、これらの認識結果を統合して最終的な発話内容の認識結果を出力する。そのため、例えば、話者の発話内容を音声認識処理部201では高精度に認識困難な状況(例えば、雑音の多い環境、複数の話者が同時に発話することの多い会議環境など)であっても、読唇認識処理部101により当該発話内容を高精度に認識することが可能となる。また、例えば、話者の発話内容を読唇認識処理部101では高精度に認識困難な状況(例えば、低照明の暗い環境、話者の動き回る等により話者の口唇を撮像することが困難な環境など)であっても、音声認識処理部201により当該発話内容を高精度に認識することが可能となる。
In addition, the multimodal
このように本実施形態2のマルチモーダル音声認識装置300によれば、話者の発話内容の認識精度が話者の環境に左右されにくい、ロバスト性に優れた発話内容認識装置を実現できる。このようなマルチモーダル音声認識装置300は、具体的には、会議室またはオンラインにおける会議録自動生成システム、スマートフォンにおける音声入力インタフェースとして、好適に利用することができる。
In this way, the multimodal
〔実施形態3〕
次に、上述した実施形態2のマルチモーダル音声認識装置300における読唇認識処理部101で用いられる機械読唇モデル及び音声認識処理部201で用いられる音声認識モデルを構築するための学習データを収集する学習データ収集システムの一実施形態(以下、本実施形態を「実施形態3」という。)について説明する。
[Embodiment 3]
Next, we will explain one embodiment of a training data collection system (hereinafter, this embodiment will be referred to as "
図10は、本実施形態3における学習データ収集システムの構成を示す説明図である。
本実施形態3の学習データ収集システムは、複数の撮像装置を有するカメラアレイ31と、音声取得装置としての収録用マイクロフォン21と、指示装置としてのディスプレイ42と、制御装置43とを備えている。そのほか、本実施形態3の学習データ収集システムは、通報部41と、記憶装置としての学習データ記憶媒体32とを備えている。
FIG. 10 is an explanatory diagram showing the configuration of a learning data collection system in the third embodiment.
The learning data collection system of the
カメラアレイ31は、所定位置の話者を互いに異なる複数の撮像方向から撮像する複数のカメラ(撮像装置)31-1~31-10によって構成されている。本実施形態3では、図11に示すように、10個の収録用カメラ31-1~31-10が等間隔で配置されている。具体的には、話者の顔の正面方向から撮像したときの撮像方向を基準(0°)にした鉛直軸回りの角度を撮像角度とすると、各収録用カメラ31-1~31-10は、0°~90°までの間を10°間隔で配置されている。このカメラアレイ31により、発話する話者の口唇画像を各収録用カメラ31-1~31-10によりそれぞれの撮像角度から同時に撮像することが可能である。
The
カメラアレイ31は、学習データ記憶媒体32に接続されており、各収録用カメラ31-1~31-10によって撮像された話者の顔画像データ(口唇画像データ)は、学習データ記憶媒体32に記憶され、蓄積される。また、カメラアレイ31は、制御装置43に接続され、制御装置43により撮像動作が制御される。
The
なお、カメラアレイ31を構成するカメラの数には特に制限はない。また、カメラアレイ31を構成するカメラの配置は、本実施形態3では鉛直軸回りの撮像角度が互いに異なるように複数の収録用カメラ31-1~31-10を水平面に沿って並べているが、これに限られない。例えば、水平軸回りや鉛直軸に対して傾斜した傾斜軸回りの撮像角度が互いに異なるように複数の収録用カメラ31-1~31-10を並べてもよい。
There is no particular limit to the number of cameras that make up the
収録用マイクロフォン21は、カメラアレイ31で撮像する対象である話者の音声を取得する。収録用マイクロフォン21は、学習データ記憶媒体32に接続されており、収録用マイクロフォン21によって集音した音声データは、学習データ記憶媒体32に記憶され、蓄積される。また、収録用マイクロフォン21は、制御装置43に接続され、制御装置43により動作が制御される。収録用マイクロフォン21は、例えば、ピンマイクを用いて話者の襟元などに設置しても良いし、スタンドマイクを話者の近傍に設置しても良い。このとき、カメラアレイ31の各収録用カメラ31-1~31-10によって話者の口唇画像を撮像するにあたり、収録用マイクロフォン21が邪魔にならないように設置することが望ましい。
The
なお、カメラアレイ31を構成するカメラが音声取得装置としての機能を備えている場合には、収録用マイクロフォン21としてカメラの音声取得装置を利用してもよい。
If the cameras that make up the
ディスプレイ42は、話者に指示する発話内容を表示する。ディスプレイ42は、有線または無線で接続された制御装置43によって表示内容が制御され、制御装置43の制御の下、話者に対して指示する発話内容や、発話やり直しの指示などを行う。
The
通報部41は、有線または無線で接続された制御装置43によって動作が制御され、制御装置43の制御の下、発話の開始と終了のタイミングを光や音等によって話者に通報する。
The operation of the
学習データ記憶媒体32は、上述したように、カメラアレイ31の各収録用カメラ31-1~31-10で撮像した話者の顔画像データと、収録用マイクロフォン21で集音した話者の音声データとを、時系列が特定できる形式で記憶する。具体的には、通報部41によって発せられる発話開始同期信号及び発話収容同期信号を、各収録用カメラ31-1~31-10で撮像した顔画像データ及び収録用マイクロフォン21で集音した音声データに埋め込む。これにより、学習データ記憶媒体32に記憶された顔画像データ及び音声データは、話者がディスプレイ42により指示された発話内容を発話した時期と照らし合わせることができる。よって、ディスプレイ42を介して話者に指示された発話内容と、その発話内容を発した時の話者の顔画像データ及び音声データとが対応づけられている。
As described above, the learning
学習データ記憶媒体32は、カメラアレイ31の各収録用カメラ31-1~31-10及び収録用マイクロフォン21のそれぞれに接続される複数の記憶媒体から構成される分散型の記憶装置であってもよいし、一台の記憶装置(ファイルサーバ等)によって構成されてもよい。
The learning
制御装置43は、パーソナルコンピュータ等の情報処理装置によって構成され、本システム全体を制御する。具体的には、制御装置43は、オペレータの指示操作により、カメラアレイ31及び収録用マイクロフォン21の収録を開始し、通報部41を通じて発話開始同期信号を発するとともに発話開始タイミングを話者に指示し、ディスプレイ42に発話内容を表示させて、話者に当該発話内容を発話させる。また、通報部41を通じて発話終了同期信号を発するとともに発話終了タイミングを話者に指示し、カメラアレイ31及び収録用マイクロフォン21の収録を終了する。また、制御装置43は、オペレータの指示操作により、ディスプレイ42を通じて話者に対して発話やり直しを指示する。
The
本実施形態3の学習データ収集システムによれば、ディスプレイ42によって指示された発話内容を発話する話者の口唇画像を複数の収録用カメラ31-1~31-10によって互いに異なる撮像角度から同時に撮像するとともに、その時の話者の音声を収録用マイクロフォン21によって取得して、これらを学習データ記憶媒体32に記憶することができる。これにより、異なる撮像角度から撮像された顔画像データ(口唇画像データ)とこれに対応する音声データとを迅速かつ大量に収集することができる。よって、上述した実施形態2のマルチモーダル音声認識装置300における読唇認識処理部101で用いられる機械読唇モデル及び音声認識処理部201で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
According to the learning data collection system of the third embodiment, the lip images of the speaker who is speaking the utterance content instructed by the
なお、本実施形態3の学習データ収集システムは、上述した実施形態1の読唇装置100の読唇装置100で用いられる機械読唇モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することにも有益である。この場合、収録用マイクロフォン21による収録は必ずしも必要ではない。
The learning data collection system of the third embodiment is also useful for easily and quickly collecting a large amount of learning data required to construct a machine lip reading model used in the
以上に説明したものは一例であり、本発明は、次の態様毎に特有の効果を奏する。
[第1態様]
第1態様は、話者の発話内容を認識する発話内容認識装置(例えば、読唇装置100、マルチモーダル音声認識装置300)であって、話者の口唇画像データ(例えば顔画像データ)を入力する入力部(例えば画像入力部111)と、対応方向(例えば対応角度)から撮像された口唇画像データに対する読唇精度の高い複数の読唇部(例えば、単一角度対応読唇部131,132,133,136、複数角度対応読唇部134,135,137)と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部(例えば読唇結果統合部141)とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
一般に、入力部に入力された口唇画像データの読唇処理を行う読唇部は、入力される口唇画像データの撮像方向が特定の方向(対応方向)であるときに、高い精度(利用者の要求レベルを満たす精度)で読唇処理を行うことができ、発話内容の認識精度が高い。具体的には、例えば、対応方向が話者の顔の正面方向である読唇部は、話者の顔を正面から撮像したときの口唇画像データが入力されたときには読唇精度が高い。一方、この読唇部に対し、話者の顔を横や斜めから撮像したときの口唇画像データを入力したときには、読唇精度が落ち、高い読唇精度が得られない場合が多い。
本態様では、互いに異なる対応方向を有する複数の読唇部を用いて、入力部に入力された口唇画像データに対する読唇処理を実行する。このとき、本態様で用いられる複数の読唇部のうちの少なくとも1つの読唇部は、対応方向(高い読唇精度が得られる方向)が他のいずれかの読唇部における対応方向に含まれていない方向を含んでいる。そのため、これらの読唇部の対応方向のいずれかの方向と一致する方向から撮像された口唇画像データであれば、当該読唇部で高い読唇精度が得られ、その読唇処理結果から発話内容を高精度に認識することが可能である。したがって、本態様によれば、これらの複数の読唇部における対応方向の数の分だけ、発話内容を高精度に認識できる口唇画像データの撮像方向を増やすことができる。
ここで、複数の読唇部におけるいずれの対応方向とも一致しない方向から撮像された口唇画像データが入力部に入力された場合、個々の読唇部の読唇処理では十分な読唇精度が得られない。そのため、いずれかの読唇部の読唇処理結果だけを用いたのでは、このような口唇画像データについて発話内容を高精度に認識することはできない。
そこで、本態様では、統合生成部において、入力部に入力された口唇画像データに対する複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成するようにしている。これにより、個々の読唇部の各読唇処理結果は、正解である発話内容の確からしさ(信頼度)が不正解である他の発話内容の確からしさと比較して有意に高くない又は逆に低いという結果であっても、これらの読唇処理結果を統合することで、正解である発話内容の確からしさを際立たせ、不正解である他の発話内容の確からしさに対して有意な違いを出すことができる。例えば、個々の読唇部の各読唇処理結果に含まれる信頼度を発話内容候補ごとに積み上げることで、正解である発話内容について、不正解である他の発話内容に対して有意な違いをもった信頼度を導き出すことができる。したがって、上述した複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成することで、個々の読唇部の読唇処理では十分な読唇精度が得られない方向から撮像された口唇画像データについて発話内容を高精度に認識することができる。
よって、本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
The above description is merely an example, and the present invention provides unique effects for each of the following aspects.
[First aspect]
The first aspect is a speech content recognition device (e.g.,
In general, a lip reading unit that performs lip reading processing of lip image data input to an input unit can perform lip reading processing with high accuracy (accuracy that meets the user's requirements) when the imaging direction of the input lip image data is a specific direction (corresponding direction), and the recognition accuracy of the spoken content is high. Specifically, for example, a lip reading unit whose corresponding direction is the front direction of the speaker's face has high lip reading accuracy when lip image data obtained when the speaker's face is imaged from the front is input. On the other hand, when lip image data obtained when the speaker's face is imaged from the side or diagonally is input to this lip reading unit, the lip reading accuracy drops, and in many cases high lip reading accuracy cannot be obtained.
In this embodiment, a lip reading process is performed on lip image data input to an input unit using a plurality of lip reading units having different corresponding directions. At this time, at least one of the plurality of lip reading units used in this embodiment includes a corresponding direction (a direction in which high lip reading accuracy can be obtained) that is not included in the corresponding direction of any of the other lip reading units. Therefore, if the lip image data is captured from a direction that matches one of the corresponding directions of these lip reading units, the lip reading unit can obtain high lip reading accuracy, and the speech content can be recognized with high accuracy from the lip reading process result. Therefore, according to this embodiment, the imaging directions of the lip image data that can recognize the speech content with high accuracy can be increased by the number of corresponding directions of these plurality of lip reading units.
Here, when lip image data captured from a direction that does not match any of the corresponding directions of the multiple lip readers is input to the input unit, the lip reading process of each lip reader cannot obtain sufficient lip reading accuracy. Therefore, if only the lip reading process result of one of the lip readers is used, the speech content of such lip image data cannot be recognized with high accuracy.
Therefore, in this embodiment, the integration generating unit integrates the results of the lip reading processes of the multiple lip reading units for the lip image data input to the input unit, and generates a recognition result of the speech content based on the integration result. As a result, even if the results of the lip reading processes of the individual lip reading units show that the reliability (confidence) of the correct speech content is not significantly higher than the reliability of the other incorrect speech content, or conversely, is lower, the integration of these lip reading results can highlight the reliability of the correct speech content and create a significant difference from the reliability of the other incorrect speech content. For example, by accumulating the reliability included in the results of the lip reading processes of the individual lip reading units for each speech content candidate, it is possible to derive a reliability of the correct speech content that is significantly different from the reliability of the other incorrect speech content. Therefore, by integrating the results of the lip reading processes of the multiple lip reading units described above and generating a recognition result of the speech content based on the integration result, it is possible to recognize the speech content with high accuracy for lip image data captured from a direction in which sufficient lip reading accuracy cannot be obtained by the lip reading processes of the individual lip reading units.
Therefore, according to this aspect, it is possible to recognize the speech content with high accuracy for various types (imaging directions) of lip image data, which exceeds the number of corresponding directions of the above-mentioned multiple lip reading units.
[第2態様]
第2態様は、第1態様において、前記複数の読唇部は、当該対応方向が1つである単方向読唇部(例えば、単一角度対応読唇部131,132,133,136)を含むことを特徴とするものである。
対応方向が1つである単方向読唇部は、対応方向が2つ以上である複方向読唇部よりも簡易に構築することが可能である。よって、発話内容認識装置を簡易に実現しやすい。
[Second aspect]
The second aspect is characterized in that in the first aspect, the multiple lip reading units include a unidirectional lip reading unit (e.g., single-angle compatible
A unidirectional lip reader that supports one direction can be constructed more easily than a multi-directional lip reader that supports two or more directions, and therefore a speech content recognition device can be easily realized.
[第3態様]
第3態様は、第1又は第2態様において、前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部(例えば、複数角度対応読唇部134,135,137)を含むことを特徴とするものである。
これによれば、読唇部の数を少なくでき、簡素な発話内容認識装置を実現しやすい。
[Third aspect]
The third aspect is characterized in that, in the first or second aspect, the multiple lip reading units include a multi-directional lip reading unit (e.g., multiple angle compatible
This allows the number of lip readers to be reduced, making it easier to realize a simple speech content recognition device.
[第4態様]
第4態様は、第1乃至第3態様のいずれかにおいて、前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも1つの読唇部の対応方向になるように変換したデータを生成するデータ変換部(例えば角度変換部121~123)を有し、前記少なくとも1つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とするものである。
これによれば、複数の読唇部には、それぞれの対応方向に合致した撮像方向の口唇画像データがそれぞれ入力されるので、各読唇部から高い精度の読唇処理結果を得ることができる。その結果、これらの読唇処理結果を統合生成部によって統合して得られる発話内容の認識結果も高精度なものとすることができる。
[Fourth aspect]
A fourth aspect is characterized in that, in any of the first to third aspects, the device has a data conversion unit (e.g.,
According to this, since the lip reading units are each input with lip image data of an imaging direction that matches the corresponding direction, each lip reading unit can obtain a lip reading process result with high accuracy. As a result, the recognition result of the speech content obtained by integrating these lip reading process results by the integration generation unit can also be highly accurate.
[第5態様]
第5態様は、第1乃至第4態様のいずれかにおいて、前記入力部に入力された口唇画像データの撮像方向を推定する撮像方向推定部(例えば角度推定部112)を有し、前記統合生成部は、前記撮像方向推定部の推定結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、入力部から顔画像データの撮像角度を撮像方向推定部により推定した推定結果を用いて、各読唇部の読唇処理結果の重み付けを行うことができる。すなわち、撮像方向推定部での推定結果を用い、対応方向に合致する推定角度の確信度が高い読唇部の読唇処理結果ほど重み付けを大きくして、当該読唇部の読唇処理結果が発話内容の認識結果に与える影響度を高めることができる。これにより、統合生成部によって得られる発話内容の認識結果を、より高精度なものとすることができる。
[Fifth aspect]
A fifth aspect is characterized in that, in any of the first to fourth aspects, it has an imaging direction estimation unit (e.g., an angle estimation unit 112) that estimates the imaging direction of the lip image data input to the input unit, and the integration generation unit generates a recognition result of the speech content of the speaker using the estimation result of the imaging direction estimation unit.
According to this, the lip reading process results of each lip reading unit can be weighted using the estimation result of the imaging direction estimation unit estimating the imaging angle of the face image data from the input unit. In other words, using the estimation result of the imaging direction estimation unit, the lip reading process results of the lip reading unit with a higher degree of certainty of the estimated angle matching the corresponding direction can be weighted more heavily, thereby increasing the influence of the lip reading process results of the lip reading unit on the recognition result of the utterance content. This makes it possible to increase the accuracy of the recognition result of the utterance content obtained by the integration generation unit.
[第6態様]
第6態様は、第1乃至第5態様のいずれかにおいて、前記複数の読唇部は、読唇処理により推定された1又は第2以上の発話内容候補と発話内容候補ごとの信頼度情報(例えば信頼度スコア)とを含む読唇処理結果を生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とするものである。
これによれば、簡易な方法で、統合生成部において発話内容の認識結果を高精度に得ることができる。
[Sixth aspect]
A sixth aspect is characterized in that, in any of the first to fifth aspects, the multiple lip reading units generate lip reading processing results including one or more speech content candidates estimated by the lip reading process and reliability information (e.g., a reliability score) for each speech content candidate, and the integration generation unit integrates the reliability information included in each lip reading processing result of the multiple lip reading units for each speech content candidate.
This makes it possible to obtain a highly accurate recognition result of the speech content in the integration generation unit using a simple method.
[第7態様]
第7態様は、第1乃至第5態様のいずれかにおいて、前記複数の読唇部は、発話内容候補を推定するための中間情報(例えば中間表現)を読唇処理により読唇処理結果として生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とするものである。
これによれば、中間情報の学習データによって学習した学習済みモデル(統合モデル)を用いて、複数の読唇部の各読唇処理結果を統合することができ、統合生成部において発話内容の認識結果を高精度に得ることができる。
[Seventh aspect]
A seventh aspect is characterized in that, in any of the first to fifth aspects, the multiple lip reading units generate intermediate information (e.g., intermediate expressions) for estimating candidate speech content as a lip reading processing result by lip reading processing, and the integration generation unit integrates the intermediate information contained in each lip reading processing result of the multiple lip reading units.
According to this, the lip reading processing results of multiple lip reading units can be integrated using a trained model (integrated model) trained using intermediate information learning data, and the integrated generation unit can obtain highly accurate recognition results of the speech content.
[第8態様]
第8態様は、第1乃至第7態様のいずれかにおいて、前記話者の音声データから該話者の発話内容を認識する音声認識部(例えば音声認識処理部201)を有し、前記統合生成部(例えば、読唇結果統合部141及び認識結果統合部301)は、前記音声認識部の認識結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、読唇処理と音声認識処理という2種類の発話内容認識処理を用いて話者が発話する発話内容の認識結果を出力するマルチモーダルの発話内容認識装置(例えばマルチモーダル音声認識装置300)を実現できる。これにより、話者の発話内容の認識精度が話者の環境に左右されにくい、ロバスト性に優れた発話内容認識装置を実現できる。
[Eighth aspect]
The eighth aspect is characterized in that, in any of the first to seventh aspects, it has a voice recognition unit (e.g., the voice recognition processing unit 201) that recognizes the content of the speaker's speech from the speaker's voice data, and the integration generation unit (e.g., the lip reading
This makes it possible to realize a multimodal speech content recognition device (e.g., the multimodal speech recognition device 300) that outputs a recognition result of the speech content uttered by a speaker using two types of speech content recognition processing, namely lip reading processing and speech recognition processing. This makes it possible to realize a speech content recognition device with excellent robustness in which the recognition accuracy of the speaker's speech content is less affected by the speaker's environment.
[第9態様]
第9態様は、第1乃至第8態様のいずれかにおいて、前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とするものである。
これによれば、機械読唇モデルにより読唇処理を行うため、より高精度な読唇処理結果を得ることができる。
[Ninth aspect]
A ninth aspect is characterized in that in any of the first to eighth aspects, the plurality of lip reading units include a lip reading unit that performs lip reading processing of lip image data input to the input unit by having a computer execute a machine lip reading model trained using training data including lip image data of a speaker.
According to this, lip reading processing is performed using a machine lip reading model, so that lip reading processing results with higher accuracy can be obtained.
[第10態様]
第10態様は、第9態様の発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する学習データ収集システムであって、所定位置の話者を互いに異なる複数の撮像方向から撮像する複数の撮像装置(例えば収録用カメラ31-1~31-10)と、前記話者の音声を取得する音声取得装置(例えば収録用マイクロフォン21)と、前記話者に発話内容を指示する指示装置(例えばディスプレイ42)と、前記指示装置に発話内容を指示させ、指示された発話内容を発話する前記話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置(例えば学習データ記憶媒体32)に記憶する制御を実行する制御装置43とを有することを特徴とするものである。
これによれば、指示装置によって指示された発話内容を発話する話者の口唇画像を複数の撮像装置によって互いに異なる撮像角度から同時に撮像するとともに、その時の話者の音声を音声取得装置によって取得して、これらを記憶装置に記憶することができる。これにより、異なる撮像角度から撮像された口唇画像データとこれに対応する音声データとを迅速かつ大量に収集することができる。よって、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
[Tenth aspect]
The tenth aspect is a learning data collection system that collects learning data for constructing the machine lip reading model used in the speech content recognition device of the ninth aspect, characterized in that it has a plurality of imaging devices (e.g., recording cameras 31-1 to 31-10) that image a speaker at a predetermined position from a plurality of different imaging directions, a voice acquisition device (e.g., recording microphone 21) that acquires the voice of the speaker, an instruction device (e.g., display 42) that instructs the speaker on the content of the utterance, and a
According to this, the lip images of the speaker who speaks the utterance contents instructed by the instruction device can be simultaneously captured from different imaging angles by the multiple imaging devices, and the voice of the speaker at that time can be acquired by the voice acquisition device and stored in the storage device. This makes it possible to quickly and massively collect lip image data captured from different imaging angles and corresponding voice data. Therefore, it is possible to easily and quickly collect a large amount of learning data required to build a machine lip reading model used in the lip reading process and a voice recognition model used in the voice recognition process in the multimodal utterance content recognition device of the ninth aspect described above.
[第11態様]
第11態様は、発話内容認識装置により話者の発話内容を認識する方法であって、話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
[Eleventh aspect]
An eleventh aspect is a method for recognizing the content of a speaker's utterance by a speech content recognition device, comprising: an input step of inputting lip image data of the speaker into the speech content recognition device; a lip reading step in which the speech content recognition device performs lip reading processing of the lip image data input in the input step using a plurality of lip reading units having high lip reading accuracy for lip image data captured from corresponding directions; and an integration generation step in which the speech content recognition device integrates the lip reading processing results of the plurality of lip reading units obtained by the lip reading step and generates a recognition result of the speaker's speech content based on the result of the integration, wherein at least one lip reading unit of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units.
According to this aspect, it is possible to recognize the speech content with high accuracy for various types (imaging directions) of lip image data, which exceeds the number of corresponding directions of the above-mentioned multiple lip reading units.
[第12態様]
第12態様は、話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
[Twelfth aspect]
A twelfth aspect is a program executed on a computer of a speech content recognition device that recognizes the content of a speaker's speech, which causes the computer to function as an integration generation means that integrates the results of lip reading processing performed by multiple lip reading means with high lip reading accuracy on lip image data captured from corresponding directions input to the speech content recognition device, and generates a recognition result for the content of the speaker's speech based on the result of the integration, and is characterized in that at least one lip reading unit among the multiple lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units.
According to this aspect, it is possible to recognize the speech content with high accuracy for various types (imaging directions) of lip image data, which exceeds the number of corresponding directions of the above-mentioned multiple lip reading units.
[第13態様]
第13態様は、第10態様の学習データ収集システムにより、前記発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する方法であって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶することを特徴とするものである。
本態様によれば、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
[Thirteenth aspect]
A thirteenth aspect is a method for collecting learning data for constructing the machine lip reading model used in the speech content recognition device by the learning data collection system of the tenth aspect, characterized in that the instruction device is caused to indicate the speech content, lip images of a speaker speaking the indicated speech content are simultaneously captured by the multiple imaging devices, and the speaker's voice is acquired by the voice acquisition device, and the obtained lip image data and voice data are stored in a storage device.
According to this aspect, it is possible to easily and quickly collect a large amount of training data required to construct a machine lip reading model used in the lip reading process and a speech recognition model used in the speech recognition process in the multimodal speech content recognition device of the ninth aspect described above.
[第14態様]
第14態様は、第10態様の学習データ収集システムにおける前記制御装置のコンピュータに実行されるプログラムであって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶する制御を実行する制御手段として、前記コンピュータを機能させることを特徴とするものである。
本態様によれば、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
[14th aspect]
A fourteenth aspect is a program executed by a computer of the control device in the learning data collection system of the tenth aspect, which causes the instructing device to instruct the speech content, simultaneously captures lip images of a speaker speaking the instructed speech content using the multiple imaging devices, acquires the speaker's voice using the voice acquisition device, and causes the obtained lip image data and voice data to function as a control means that executes control to store in a storage device.
According to this aspect, it is possible to easily and quickly collect a large amount of training data required to construct a machine lip reading model used in the lip reading process and a speech recognition model used in the speech recognition process in the multimodal speech content recognition device of the ninth aspect described above.
1 :カメラ
2 :記憶媒体
3 :マイクロフォン
21 :収録用マイクロフォン
31 :カメラアレイ
31-1~31-10:収録用カメラ
32 :学習データ記憶媒体
33-1 :第一学習部
33-2 :第二学習部
41 :通報部
42 :ディスプレイ
43 :制御装置
100 :読唇装置
101 :読唇認識処理部
111 :画像入力部
112 :角度推定部
121~123:角度変換部
131,132,133,136:単一角度対応読唇部
134,135,137:複数角度対応読唇部
141 :読唇結果統合部
201 :音声認識処理部
211 :音声入力部
231 :音声認識部
300 :マルチモーダル音声認識装置
301 :認識結果統合部
1: Camera 2: Storage medium 3: Microphone 21: Recording microphone 31: Camera array 31-1 to 31-10: Recording camera 32: Learning data storage medium 33-1: First learning unit 33-2: Second learning unit 41: Reporting unit 42: Display 43: Control device 100: Lip reading device 101: Lip reading recognition processing unit 111: Image input unit 112:
Claims (16)
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする発話内容認識装置。 A speech content recognition device that recognizes the content of a speaker's speech,
an input unit for inputting lip image data of a speaker;
A plurality of lip reading units having high lip reading accuracy for lip image data captured from corresponding directions;
an integration unit that integrates the lip reading process results of the plurality of lip reading units for the lip image data input to the input unit and generates a recognition result of the speech content of the speaker based on the integration result;
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
The speech content recognition device, wherein the plurality of lip reading units includes a multi-directional lip reading unit having two or more corresponding directions.
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記入力部に入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定部を有し、
前記統合生成部は、前記撮像方向推定部の複数の推定結果を用いて前記各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。 A speech content recognition device that recognizes the content of a speaker's speech,
an input unit for inputting lip image data of a speaker;
A plurality of lip reading units having high lip reading accuracy for lip image data captured from corresponding directions;
an integration unit that integrates the lip reading process results of the plurality of lip reading units for the lip image data input to the input unit and generates a recognition result of the speech content of the speaker based on the integration result;
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
an imaging direction estimation unit that estimates a plurality of imaging directions of the lip image data input to the input unit and certainty factor information for each imaging direction;
the integration generation unit integrates the lip reading process results using a plurality of estimation results from the imaging direction estimation unit, and generates a recognition result of the speaker's speech content based on the integration result .
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とする発話内容認識装置。 A speech content recognition device that recognizes the content of a speaker's speech,
an input unit for inputting lip image data of a speaker;
A plurality of lip reading units having high lip reading accuracy for lip image data captured from corresponding directions;
an integration unit that integrates the lip reading process results of the plurality of lip reading units for the lip image data input to the input unit and generates a recognition result of the speech content of the speaker based on the integration result;
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
the plurality of lip reading units generate a lip reading process result including one or more speech content candidates estimated by the lip reading process and reliability information for each of the speech content candidates;
The speech content recognition device, wherein the integration/generation unit integrates reliability information included in each of the lip reading processing results of the plurality of lip reading units for each speech content candidate.
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識部を有し、
前記統合生成部は、前記複数の読唇部の読唇処理結果と前記音声認識部の認識結果とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。 A speech content recognition device that recognizes the content of a speaker's speech,
an input unit for inputting lip image data of a speaker;
A plurality of lip reading units having high lip reading accuracy for lip image data captured from corresponding directions;
an integration unit that integrates the lip reading process results of the plurality of lip reading units for the lip image data input to the input unit and generates a recognition result of the speech content of the speaker based on the integration result;
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
the plurality of lip reading units generate a lip reading process result including one or more speech content candidates estimated by the lip reading process and reliability information for each of the speech content candidates;
a speech recognition unit that outputs, as a recognition result, speech content candidates of the speaker and reliability information for each of the speech content candidates from the speech data of the speaker;
The speech content recognition device is characterized in that the integration generation unit integrates the lip reading processing results of the multiple lip reading units and the recognition results of the voice recognition unit, and generates a recognition result of the speaker's speech content based on the result of the integration .
前記複数の読唇部は、当該対応方向が1つである単方向読唇部を含むことを特徴とする発話内容認識装置。 5. The speech recognition apparatus according to claim 1,
The speech content recognition device, wherein the plurality of lip reading units include a unidirectional lip reading unit corresponding to one direction.
前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも1つの読唇部の対応方向になるように変換したデータを生成するデータ変換部を有し、
前記少なくとも1つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とする発話内容認識装置。 6. The speech recognition apparatus according to claim 1,
a data conversion unit that generates data converted based on the lip image data input to the input unit so that the imaging direction corresponds to a corresponding direction of at least one of the plurality of lip reading units;
The speech content recognition device according to claim 1, wherein the at least one lip reading unit performs lip reading processing using data converted by the data conversion unit.
前記複数の読唇部は、発話内容候補を推定するための中間情報を読唇処理により読唇処理結果として生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とする発話内容認識装置。 5. The speech recognition apparatus according to claim 1, 2 or 4,
the plurality of lip reading units generate intermediate information for estimating speech content candidates as a lip reading process result by lip reading processing;
The speech content recognition device, wherein the integration/generation unit integrates intermediate information included in each of the lip reading processing results of the plurality of lip reading units.
前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とする発話内容認識装置。 8. The speech recognition apparatus according to claim 1,
The speech content recognition device is characterized in that the multiple lip reading units include a lip reading unit that performs lip reading processing of the lip image data input to the input unit by having a computer execute a machine lip reading model trained using training data including the speaker's lip image data.
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする方法。 A method for recognizing a speaker's utterance content by a speech recognition device, comprising:
an input step of inputting lip image data of a speaker into the speech recognition device;
a lip reading process in which the speech content recognition device performs lip reading processing on the lip image data input in the input process using a plurality of lip reading units having high lip reading accuracy for the lip image data captured from corresponding directions;
the speech content recognition device has an integration generating step of integrating the lip reading processing results of the plurality of lip reading units obtained by the lip reading step and generating a recognition result of the speech content of the speaker based on the integration result,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
The method according to claim 1, wherein the plurality of lip readers includes a multi-directional lip reader having two or more corresponding directions.
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記入力工程で入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定工程を有し、
前記統合生成工程では、前記撮像方向推定工程の複数の推定結果を用いて前記各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする方法。 A method for recognizing a speaker's utterance content by a speech recognition device, comprising:
an input step of inputting lip image data of a speaker into the speech recognition device;
a lip reading process in which the speech content recognition device performs lip reading processing on the lip image data input in the input process using a plurality of lip reading units having high lip reading accuracy for the lip image data captured from corresponding directions;
the speech content recognition device has an integration generating step of integrating the lip reading processing results of the plurality of lip reading units obtained by the lip reading step and generating a recognition result of the speech content of the speaker based on the integration result,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
an imaging direction estimating step of estimating a plurality of imaging directions of the lip image data inputted in the input step and pieces of certainty information for each imaging direction;
The method is characterized in that in the integration and generation step, the lip reading process results are integrated using multiple estimation results from the imaging direction estimation step, and a recognition result of the speaker's speech content is generated based on the integration result .
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成工程では、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とする方法。 A method for recognizing a speaker's utterance content by a speech recognition device, comprising:
an input step of inputting lip image data of a speaker into the speech recognition device;
a lip reading process in which the speech content recognition device performs lip reading processing on the lip image data input in the input process using a plurality of lip reading units having high lip reading accuracy for the lip image data captured from corresponding directions;
the speech content recognition device has an integration generating step of integrating the lip reading processing results of the plurality of lip reading units obtained by the lip reading step and generating a recognition result of the speech content of the speaker based on the integration result,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
the plurality of lip reading units generate a lip reading process result including one or more speech content candidates estimated by the lip reading process and reliability information for each of the speech content candidates;
The method according to the present invention, characterized in that in the integrating and generating step, reliability information included in each of the lip reading processing results of the plurality of lip reading units is integrated for each speech content candidate.
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識工程を有し、
前記統合生成工程では、前記複数の読唇部の読唇処理結果と前記音声認識工程の認識結果とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする方法。 A method for recognizing a speaker's utterance content by a speech recognition device, comprising:
an input step of inputting lip image data of a speaker into the speech recognition device;
a lip reading process in which the speech content recognition device performs lip reading processing on the lip image data input in the input process using a plurality of lip reading units having high lip reading accuracy for the lip image data captured from corresponding directions;
the speech content recognition device has an integration generating step of integrating the lip reading processing results of the plurality of lip reading units obtained by the lip reading step and generating a recognition result of the speech content of the speaker based on the integration result,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units;
the plurality of lip reading units generate a lip reading process result including one or more speech content candidates estimated by the lip reading process and reliability information for each of the speech content candidates;
a speech recognition step of outputting, as a recognition result, speech content candidates of the speaker and reliability information for each of the speech content candidates from the speech data of the speaker;
The method is characterized in that in the integration and generation process, the lip reading processing results of the multiple lip reading units and the recognition results of the voice recognition process are integrated, and a recognition result of the speaker's speech content is generated based on the result of the integration .
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、当該対応方向が2つ以上である複方向読唇手段を含むことを特徴とするプログラム。 A program executed on a computer of an utterance content recognition device for recognizing the content of a speaker's utterance,
The computer is caused to function as an integration generating means for integrating lip reading results of lip reading processes performed by a plurality of lip reading means having high lip reading accuracy on lip image data captured from corresponding directions, inputted into the speech content recognition device, and generating a recognition result of the speech content of the speaker based on the integration result,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units,
The program, wherein the plurality of lip reading means includes a multi-directional lip reading means having two or more corresponding directions.
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段、及び、前記入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記統合生成手段は、前記撮像方向推定手段の複数の推定結果を用いて前記各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とするプログラム。 A program executed on a computer of an utterance content recognition device for recognizing the content of a speaker's utterance,
the computer is caused to function as an integration generating means for integrating lip reading results obtained by lip reading lip image data input to the speech content recognition device using a plurality of lip reading means each having a high lip reading accuracy for lip image data captured from corresponding directions, and generating a recognition result for the speech content of the speaker based on the integration result; and an imaging direction estimating means for estimating a plurality of imaging directions of the input lip image data and certainty information for each imaging direction,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units,
The program, wherein the integration generation means integrates the lip reading process results using multiple estimation results from the imaging direction estimation means, and generates a recognition result of the speaker's speech content based on the integration result .
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成手段は、前記複数の読唇手段の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とするプログラム。 A program executed on a computer of an utterance content recognition device for recognizing the content of a speaker's utterance,
The computer is caused to function as an integration generating means for integrating lip reading results of lip reading processes performed by a plurality of lip reading means having high lip reading accuracy on lip image data captured from corresponding directions, inputted into the speech content recognition device, and generating a recognition result of the speech content of the speaker based on the integration result,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units,
the plurality of lip reading means generate a lip reading process result including one or more speech content candidates estimated by the lip reading process and reliability information for each of the speech content candidates;
The program, wherein the integrating and generating means integrates reliability information included in each lip reading process result of the plurality of lip reading means for each speech content candidate.
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段、及び、前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成手段は、前記複数の読唇手段の読唇処理結果と前記音声認識手段の認識結果とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とするプログラム。 A program executed on a computer of an utterance content recognition device for recognizing the content of a speaker's utterance,
The computer is caused to function as an integration generating means for integrating lip reading results obtained by lip reading lip image data input to the speech content recognition device using a plurality of lip reading means each having high lip reading accuracy for lip image data captured from corresponding directions, and generating a recognition result of the speaker's speech content based on the integration result, and a voice recognition means for outputting, as recognition results, speech content candidates of the speaker and reliability information for each of the speech content candidates from the voice data of the speaker,
At least one of the plurality of lip reading units is configured to include a direction in its corresponding direction that is not included in the corresponding direction of any of the other lip reading units,
the plurality of lip reading means generate a lip reading process result including one or more speech content candidates estimated by the lip reading process and reliability information for each of the speech content candidates;
The program, wherein the integration and generation means integrates the lip reading processing results of the multiple lip reading means and the recognition results of the voice recognition means, and generates a recognition result of the speaker's speech content based on the result of the integration .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021024841A JP7640964B2 (en) | 2021-02-19 | 2021-02-19 | Speech content recognition device, method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021024841A JP7640964B2 (en) | 2021-02-19 | 2021-02-19 | Speech content recognition device, method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022126962A JP2022126962A (en) | 2022-08-31 |
| JP7640964B2 true JP7640964B2 (en) | 2025-03-06 |
Family
ID=83060097
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021024841A Active JP7640964B2 (en) | 2021-02-19 | 2021-02-19 | Speech content recognition device, method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7640964B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7743377B2 (en) | 2022-08-09 | 2025-09-24 | 三菱重工業株式会社 | Control device for hydrogen production facility, hydrogen production facility, control method for hydrogen production facility, and control program for hydrogen production facility |
| JP2024042780A (en) * | 2022-09-16 | 2024-03-29 | 独立行政法人国立高等専門学校機構 | State estimation system, and state learning method and state learning program used therein, and state estimation method and state estimation program |
| CN115762519A (en) * | 2022-10-28 | 2023-03-07 | 歌尔科技有限公司 | Voice recognition method, device, equipment and storage medium |
| CN116364075B (en) * | 2022-12-12 | 2026-04-03 | 领悦数字信息技术有限公司 | Methods and systems for human-computer voice interaction |
| KR102533008B1 (en) * | 2022-12-29 | 2023-05-17 | 월드버텍 주식회사 | Method for detecting private information and measuring data exposure possibility from unstructured data |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004240154A (en) | 2003-02-06 | 2004-08-26 | Hitachi Ltd | Information recognition device |
| JP2020126492A (en) | 2019-02-05 | 2020-08-20 | 株式会社リコー | Information processing device, speech recognition system, and speech recognition program |
-
2021
- 2021-02-19 JP JP2021024841A patent/JP7640964B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004240154A (en) | 2003-02-06 | 2004-08-26 | Hitachi Ltd | Information recognition device |
| JP2020126492A (en) | 2019-02-05 | 2020-08-20 | 株式会社リコー | Information processing device, speech recognition system, and speech recognition program |
Non-Patent Citations (2)
| Title |
|---|
| Stavros Petridis、Yujiang Wang、Zuwei Li、Maja Pantic,"End-to-End Multi-View Lipreading",2017年 |
| 小梶 金志郎 外1名,CNNによる口元画像の正面変換を用いた斜め視点リップリーディングに関する検討,電子情報通信学会2020年総合大会講演論文集 基礎・境界/NOLTA,2020年03月03日 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022126962A (en) | 2022-08-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7640964B2 (en) | Speech content recognition device, method, and program | |
| JP4971413B2 (en) | Motion recognition system combined with audiovisual and recognition method thereof | |
| Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
| CN112088402B (en) | Federated neural network for speaker recognition | |
| Fisher et al. | Speaker association with signal-level audiovisual fusion | |
| US20110224978A1 (en) | Information processing device, information processing method and program | |
| JP2001092974A (en) | Speaker recognition method and execution device thereof, and voice generation confirmation method and device | |
| CN112088315A (en) | Multi-mode speech positioning | |
| JP2019200671A (en) | Learning device, learning method, program, data generation method, and identification device | |
| Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
| JP2023109786A (en) | Argument analysis device and argument analysis method | |
| JP2019117556A (en) | Information processing apparatus, information processing method and program | |
| CN117854507A (en) | Speech recognition method, device, electronic device and storage medium | |
| CN119536602A (en) | A conference interaction method and system based on metaverse | |
| JP6540742B2 (en) | Object recognition apparatus and object recognition method | |
| Besson et al. | Extraction of audio features specific to speech production for multimodal speaker detection | |
| KR101747712B1 (en) | interview auto recognizetion real-time management method by smart phone | |
| KR20230114196A (en) | Sentiment analysis method and emotion analysis device | |
| KR102418232B1 (en) | Method for evaluating a voice similarity of singer and device thereof | |
| JP2009042910A (en) | Information processing apparatus, information processing method, and computer program | |
| CN114973058A (en) | Interview method, device, electronic device and storage medium | |
| Sen et al. | Real-time sign language recognition system | |
| WO2021024869A1 (en) | Speech processing device, speech processing method, and recording medium | |
| JP7032284B2 (en) | A device, program and method for estimating the activation timing based on the image of the user's face. | |
| JP6916130B2 (en) | Speaker estimation method and speaker estimation device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230406 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240219 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240329 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240524 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240823 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241017 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250124 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250213 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7640964 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |