JP7624660B2 - Prediction device, subjective impression prediction method, and program - Google Patents
Prediction device, subjective impression prediction method, and program Download PDFInfo
- Publication number
- JP7624660B2 JP7624660B2 JP2021135890A JP2021135890A JP7624660B2 JP 7624660 B2 JP7624660 B2 JP 7624660B2 JP 2021135890 A JP2021135890 A JP 2021135890A JP 2021135890 A JP2021135890 A JP 2021135890A JP 7624660 B2 JP7624660 B2 JP 7624660B2
- Authority
- JP
- Japan
- Prior art keywords
- head movement
- interlocutor
- data
- movement function
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本開示内容は、予測装置、主観的印象予測方法、及びプログラムに関する。 This disclosure relates to a prediction device, a subjective impression prediction method, and a program.
人と人との対話中に生じる非言語行動の中でも、頭部運動は様々な役割を担うことが知られている。例えば、話し手は発話の強調や反応確認の際に、また、聞き手は話し手に対する相槌や応答あるいは同意のサインとして頭部運動を表出する。このように頭部運動には複数の機能があり、1つの頭部運動が同時に複数の意味を持つ場合もある。このような頭部運動の機能の多重性と曖昧性に着目し、非特許文献1では、頭部運動の機能カテゴリを定義し、機能の重複を許容する非排他的なアノテーションを行ったデータを用い、頭部姿勢および発話の有無の時系列から個々の機能の有無を検出する畳み込みニューラルネットワーク(CNN)を提案している。
Head movements are known to play a variety of roles among non-verbal behaviors that occur during human dialogue. For example, speakers use head movements to emphasize what they are saying or to confirm a response, while listeners use head movements to provide interjections, responses, or signs of agreement. As such, head movements have multiple functions, and a single head movement may simultaneously have multiple meanings. Focusing on the multiplicity and ambiguity of the functions of head movements, Non-Patent
しかしながら、上述のように、頭部運動機能は対話中の行動や心情と深く関わっていることが考えられるが、未だ、対話中の対話者自身が抱く主観的印象を予測する手法は確立されていない。 However, as mentioned above, although head movement function is thought to be deeply related to behavior and emotions during a conversation, there is still no established method to predict the subjective impressions that interlocutors themselves have during a conversation.
本発明は、上記の点に鑑みてなされたものであって、対話中の対話者自身が抱く主観的印象を予測することを目的とする。 The present invention has been made in consideration of the above points, and aims to predict the subjective impressions held by the interlocutors themselves during a conversation.
上記課題を解決するため、請求項1に係る発明は、対話中の対話者自身が抱く主観的印象を予測する予測装置であって、前記対話者が撮影されることで得られた映像データから、前記対話者の頭部運動に関するデータを取得するデータ取得手段と、頭部運動機能検出モデルを用いて、前記頭部運動に関するデータに対する頭部運動機能を検出する頭部運動機能検出手段と、前記頭部運動機能検出手段による検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出手段と、回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測手段と、を有することを特徴とする予測装置である。
In order to solve the above problem, the invention of
また、請求項2に係る発明は、対話中の対話者自身が抱く主観的印象を予測する予測装置であって、前記対話者が撮影されることで得られた映像データから、前記対話者の頭部運動に関するデータを取得するデータ取得手段と、頭部運動検出モデルを用いて、前記頭部運動に関するデータに対する前記頭部運動の有無を検出する頭部運動検出手段と、頭部運動機能検出モデルを用いて、前記頭部運動の有無を示す頭部運動の有無情報に対する頭部運動機能を検出する頭部運動機能検出手段と、前記頭部運動機能検出手段による検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出手段と、回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測手段と、を有することを特徴とする予測装置である。
The invention of
また、請求項5に係る発明は、対話中の対話者自身が抱く主観的印象を予測する予測装置であって、対話者に関する対話者データを受信し、当該対話者データから前記対話者の発話区間を示す発話区間の情報を取得するデータ取得手段と、頭部運動検出モデルを用いて、前記発話区間の情報に対する発話の有無を検出する頭部運動検出手段と、頭部運動機能検出モデルを用いて、前記発話の有無を示す発話の有無情報に対する頭部運動機能を検出する頭部運動機能検出手段と、前記頭部運動機能検出手段による検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出手段と、回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測手段と、を有することを特徴とする予測装置。
The invention of
以上説明したように本発明によれば、対話中の対話者自身が抱く主観的印象を予測することができるという効果を奏する。 As described above, the present invention has the effect of being able to predict the subjective impressions held by the interlocutors during a conversation.
以下、図面に基づいて本発明の実施形態を説明する。 The following describes an embodiment of the present invention with reference to the drawings.
〔実施形態のシステム構成〕
まず、図1を用いて、本実施形態の通信システムの構成の概略について説明する。図1は、本発明の実施形態に係る通信システムの概略図である。
[System configuration of the embodiment]
First, an outline of the configuration of a communication system according to the present embodiment will be described with reference to Fig. 1. Fig. 1 is a schematic diagram of a communication system according to an embodiment of the present invention.
図1に示されているように、本実施形態の通信システム1は、入力装置2、予測装置3、及びモニタ4によって構築されている。また、入力装置2は、カメラ2a、スマートフォン2b、マイク付きヘッドフォン2c、マイク2d等である。また、カメラ2aは、輝度撮影用カメラ、LiDAR(Light Detection and Ranging)、赤外線カメラ、又はサーモカメラ等である。
As shown in FIG. 1, the
また、入力装置2と予測装置3は、インターネット等の通信ネットワーク100を介して通信することができる。通信ネットワーク100の接続形態は、無線又は有線のいずれでも良い。
The
予測装置3は、単数又は複数のコンピュータによって構成されている。予測装置3が複数のコンピュータによって構成されている場合には、「予測装置」と示しても良いし、「予測システム」と示しても良い。
The
予測装置3は、入力装置2によって取得された対話者に関する対話者データに基づいて、対話者の主観的印象(心情)を予測し、予測結果を示す結果データを出力する。出力方法としては、出力装置としてのモニタ4に結果データを送信することにより、モニタ4側で結果データに係るグラフ等を表示することが挙げられる。
The
〔ハードウェア構成〕
<予測装置のハードウェア構成>
次に、図2を用いて、予測装置3の電気的なハードウェア構成を説明する。図2は、予測装置の電気的なハードウェア構成図である。
[Hardware configuration]
<Hardware configuration of prediction device>
Next, the electrical hardware configuration of the
予測装置3は、コンピュータとして、図2に示されているように、CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303、HD(Hard Disk)304、HDD(Hard Disk Drive)コントローラ305、外部機器接続I/F(Interface)308、ネットワークI/F309、バスライン310、メディアI/F314を備えている。
As shown in FIG. 2, the
これらのうち、CPU301は、予測装置3全体の動作を制御する。ROM302は、IPL(Initial Program Loader)等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。
Of these,
HD304は、プログラム等の各種データを記憶する。HDDコントローラ305は、CPU301の制御にしたがってHD304に対する各種データの読み出し又は書き込みを制御する。なお、HD304及びHDDコントローラ305の代わりに、SSD(Solid State Drive)及びSSDコントローラが搭載されるようにしてもよい。
HD304 stores various data such as programs.
外部機器接続I/F308は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、USB(Universal Serial Bus)メモリ、及びプリンタ等である。 The external device connection I/F 308 is an interface for connecting various external devices. In this case, the external devices include a display, a speaker, a keyboard, a mouse, a USB (Universal Serial Bus) memory, a printer, etc.
ネットワークI/F309は、通信ネットワーク100を介してデータ通信をするためのインターフェースである。バスライン310は、図2に示されているCPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
The network I/F 309 is an interface for data communication via the
また、メディアI/F314は、フラッシュメモリ等の記録メディア313に対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア313には、DVD(Digital Versatile Disc)やBlu-ray Disc(登録商標)等も含まれる。
The media I/
〔予測装置の機能構成〕
次に、図3を用いて、予測装置の機能構成について説明する。図3は、予測装置の機能構成図である。
[Functional configuration of the prediction device]
Next, the functional configuration of the prediction device will be described with reference to Fig. 3. Fig. 3 is a diagram showing the functional configuration of the prediction device.
図3において、予測装置3は、データ取得部31、検出部32、特徴量算出部33、及び主観的印象予測部34、及びモデル記憶部39を有する。データ取得部31、検出部32、特徴量算出部33、及び主観的印象予測部34は、プログラムに基づき図2のCPU301による命令によって実現される機能である。データ取得部31及び検出部32は、データ学習及びデータ予測の挙動を行う。データ取得部31、検出部32、特徴量算出部33及び主観的印象予測部34は、データ予測の挙動を行う。また、検出部32には、頭部運動検出部32a、及び頭部運動機能検出部32bが含まれている。
In FIG. 3, the
更に、図2のRAM303又はHD304には、モデル記憶部39が構築されている。モデル記憶部39には、頭部運動検出モデル40a、頭部運動機能検出モデル40b、及び回帰モデル50が記憶されている。
Furthermore, a
<各モデル>
続いて、各モデルについて説明する。
<Each model>
Next, each model will be described.
(頭部運動検出モデル)
頭部運動検出モデル40aは、CNN(Convolutional Neural Networks)モデルの構造として、Otsuka & Tsumori によって提案された Late-fusion CNNモデル(非特許文献1参照)をベースとし、全結合層の fc4 に Dropout 層を挿入したものが用いられている。頭部運動検出モデル40aは、入力情報(データ)として、対象とするフレームを中心とした映像データにおける32のビデオフレームの頭部姿勢角(Azimuth,Elevation,Roll)の角速度を使用し、この入力情報に対し、頭部運動の有無を出力するように CNN の学習を行う。このビデオフレーム数は任意に設定可能である。以降では,頭部運動が連続して検出されたビデオフレームの区間を1つの「頭部運動区間」と呼ぶ。機械学習が行われた頭部運動検出モデル40aはモデル記憶部39に記憶される。
(Head movement detection model)
The head
(頭部運動機能検出モデル)
頭部運動機能検出モデル40bは、頭部運動検出モデル40aと同様のLate-fusion CNN モデルを使用する。ここでは、頭部運動検出モデル40aによって検出された頭部運動区間内の各ビデオフレームを予測対象のビデオフレームとして、その各ビデオフレームを中心とした32フレーム分の頭部姿勢角の角速度、及び発話区間データの少なくとも一方を入力情報として用いる。このビデオフレーム数は任意に設定可能である。
(Head movement function detection model)
Head movement
なお、発話データとして、発話の有無を表す2値の時系列に対して、前後50のビデオフレームの幅を持つ移動平均フィルタにより平滑化を施した時系列を使用する。このビデオフレームの幅は任意に設定可能とする。事前の機械学習においては、頭部運動機能検出モデル40bは、モデル記憶部39に保存されている。
The speech data used is a time series that has been smoothed using a moving average filter with a width of 50 video frames before and after the binary time series indicating the presence or absence of speech. The width of this video frame can be set arbitrarily. In the preliminary machine learning, the head movement
図7は、頭部運動機能のカテゴリ及び機能内容が示された図である。事前学習においては、コーパス(対話に関する情報が時系列データとして記載されているデータ)を用いて、図7に記載の任意のカテゴリの機能の1つ以上について頭部運動機能検出モデルの学習を行う。コーパスでは、図7に記載の頭部運動機能におけるカテゴリの機能の1つ以上が、非排他的なラベルが付されたデータを含む。例えば、20歳代から30歳代の女性8人の2グループによる合計4つの合意形成型対話(計27分)を対象とし、図7に記載の32種類の頭部運動機能の各々について、ビデオフレーム毎にその有無が非排他的にラベル付けされたデータなどがその一例である。但し、今回の実施形態では、図8に記載の10種の機能のそれぞれについて頭部運動機能検出の機械学習を行った例を説明する。なお、図8は、本実施形態で使用される頭部運動機能のカテゴリ及び機能内容が示された図である。機械学習が行われた頭部運動機能検出モデル40bはモデル記憶部39に記憶される。
Figure 7 is a diagram showing the categories and function contents of head movement functions. In pre-learning, a corpus (data in which information about dialogue is written as time-series data) is used to learn a head movement function detection model for one or more of the functions of any category listed in Figure 7. The corpus includes data in which one or more of the functions of the categories in the head movement function listed in Figure 7 are non-exclusively labeled. For example, data in which the presence or absence of each of the 32 types of head movement functions listed in Figure 7 is non-exclusively labeled for each video frame for a total of four consensus-building dialogues (total of 27 minutes) between two groups of eight women in their 20s and 30s is the target. However, in this embodiment, an example of machine learning for head movement function detection for each of the 10 functions listed in Figure 8 will be described. Note that Figure 8 is a diagram showing the categories and function contents of head movement functions used in this embodiment. The head movement
(回帰モデル)
回帰モデル50は、主観的印象の予測値としての内観報告スコアを予測するためのランダムフォレスト回帰モデル(参考文献1)である。
(Regression model)
(参考文献1)L. Breiman, "Random forests," Machine Learning, vol.45, pp.5- 32, 2001.
なお、回帰モデル50は、ランダムフォレストに限らず、Liner Regression, Support Vector Regressionなど何でも良い。
(Reference 1) L. Breiman, "Random forests," Machine Learning, vol.45, pp.5-32, 2001.
The
入力情報(ここでは、特徴量)として、運動学的特徴6種に、頭部運動機能特徴22種のうちの少なくとも1種を加えたモデル(MK+F)が構築される。そして、回帰モデル50は、内観報告スコア4項目である「雰囲気」、「楽しさ」、「やる気」、「集中度」を出力情報(正解データ)として、この4項目の機械学習を行う。
A model (MK+F) is constructed that adds at least one of the 22 head movement function features to six kinematic features as input information (feature amounts in this case). Then, the
なお、内観報告スコアの項目数は任意に設定可能である。この内観報告スコアは、任意の時間で区切られ入力されたデータであり、区切られた区間を「スロット」と呼ぶ。このスロットが予測の単位である。この区間の長さは一意に決めた値でも、区間の長さが変化しても良い。区間の長さが変化する場合は、それぞれの区間の長さを別途、モデル記憶部39で保持する。
The number of items in the introspection report score can be set arbitrarily. This introspection report score is data that is divided into arbitrary time intervals and input, and each divided interval is called a "slot." This slot is the unit of prediction. The length of this interval may be a uniquely determined value, or the length of the interval may vary. If the length of the interval varies, the length of each interval is stored separately in the
<各機能構成>
続いて、図3を用いて、予測装置の各機能構成について説明する。
<Functional configuration>
Next, each functional configuration of the prediction device will be described with reference to FIG.
データ取得部31は、カメラ2a等によって対話者が撮影されることで得られた映像データから、対話者の頭部運動に関する座標情報を取得する。
The
また、データ取得部31は、カメラ2a等によって得られた対話者に関する対話者データを受信し、対話者データから対話者の発話区間を示す発話区間の情報を取得する。データ取得部31が発話区間の情報を取得する場合、以下のようなパターンが存在する。
(1)データ取得部31は、対話者が撮影されることで得られた対話者データとしての映像データに含まれる音声データから発話区間の情報を取得する。
(2)データ取得部31は、対話者の音声が収音されることで得られた対話者データとしての音声データから発話区間の情報を取得する。
(3)データ取得部31は、映像データにおける対話者の口の周りに存在する特徴点の動きベクトルが所定の閾値以上の場合に発話したとみなすことで、発話区間の情報を取得する。
(4)データ取得部31は、映像データに対して発話内容が時系列情報を持ちつつ書き起こしされたコーパスから発話区間の情報を取得する。
Furthermore, the
(1) The
(2) The
(3) The
(4) The
なお、データ取得部31は、入力装置2から映像データ(対話者データ)を取得した後、リアルタイムで、頭部運動に関する座標情報(発話区間の情報)を取得するがこれに限るものではない。例えば、データ取得部31は、入力装置2から、映像データ(対話者データ)を取得した後、一旦、RAM303等に記憶しておき、予測装置3が主観的印象の予測値を出力する際に、データ取得部31がRAM303等から映像データ(対話者データ)を読み出してもよい。
After acquiring the video data (partner data) from the
頭部運動検出部32aは、頭部運動検出モデルを用いて、頭部運動に関する座標情報に対する頭部運動の有無を検出する。また、頭部運動検出部32aは、頭部運動検出モデルを用いて、発話区間の情報に対する発話の有無を検出する。
The head
なお、対話の情報が書き起こされているコーパスが存在する場合、頭部運動検出部32aは、そのコーパスから発話の有無を出力しても良い。この場合、頭部運動検出部32aの処理は省略する。
If a corpus exists in which dialogue information is transcribed, the head
また、データ取得部31で取得されたデータとして映像データの入力がある場合、頭部運動検出部32aは、その映像データからOpenFaceなどのライブラリを用いることで、頭部に位置する座標の時系列情報を抽出してもよい。この抽出された時系列情報が、ある時刻間においての移動のユークリッド距離が閾値を超えている場合に、頭部運動が有ると判断することもでき、その場合、頭部運動検出部32aの処理は省略し、データ取得部31から直接、頭部運動機能検出部32bへデータを入力する。
Furthermore, when video data is input as data acquired by the
頭部運動機能検出部32bは、頭部運動機能検出モデルを用いて、頭部運動の有無を示す頭部運動の有無情報に対する頭部運動機能を検出する。また、頭部運動機能検出部32bは、頭部運動機能検出モデルを用いて、発話の有無を示す発話の有無情報に対する頭部運動機能を検出する。
The head movement
特徴量算出部33は、頭部運動機能検出部32bによる検出結果に基づいて、頭部運動機能の特徴量を算出する。また、特徴量算出部33は、頭部運動検出部32aによって検出された頭部運動の有無に基づいて、頭部運動学的な特徴量を算出する。更に、特徴量算出部33は、頭部運動検出部32aによって検出された発話の有無に基づいて、頭部運動学的な特徴量を算出する。
The feature
主観的印象予測部34は、回帰モデルを用いて、頭部運動機能の特徴量及び頭部運動学的な特徴量のうち、少なくとも頭部運動機能の特徴量に対する対話者の主観的印象を予測する。主観的印象予測部34の出力情報(データ)の例が、後述の図11に示されている。
The subjective
<入出力情報の関係>
ここで、図4を用いて、各機能における入力情報(データ)及び出力情報(データ)の関係を説明する。図4は、各機能における入力情報(データ)及び出力情報(データ)の関係を示した図である。
<Relationship between input and output information>
Here, the relationship between input information (data) and output information (data) in each function will be described with reference to Fig. 4. Fig. 4 is a diagram showing the relationship between input information (data) and output information (data) in each function.
図4に示されているように、データ取得部31が映像データを取得した場合、頭部運動検出部32aにおいて、入力情報が頭部運動に関する座標情報のときには、出力情報は頭部運動の有無情報である。また、データ取得部31が音声データ等を取得した場合、頭部運動検出部32aにおいて、出力情報は発話の有無情報である。
As shown in FIG. 4, when the
次に、頭部運動機能検出部32bにおいて、入力情報は頭部運動の有無情報及び発話の有無情報のうち少なくとも一方であり、出力情報は頭部運動機能の検出結果である。
Next, in the head movement
次に、特徴量算出部33において、入力情報が頭部運動機能の検出結果の場合には、出力情報は頭部運動機能の特徴量(後述の図10参照)である。また、特徴量算出部33において、入力情報が頭部運動の有無情報及び発話の有無情報のうちの少なくとも一方である場合には、出力情報は頭部運動学的な特徴量(後述の図9参照)である。なお、入力情報として、頭部運動機能の検出結果は必須であるが、頭部運動の有無情報及び発話の有無情報は必須ではない。即ち、特徴量算出部33は、頭部運動機能の特徴量の算出は必須であるが、頭部運動学的な特徴量の算出は必須ではない。
Next, in the
次に、主観的印象予測部34において、入力情報が頭部運動機能の特徴量及び頭部運動学的な特徴量のうち少なくとも頭部運動機能の特徴量であり、出力情報が対話者の主観的印象の予測値である。
Next, in the subjective
〔実施形態の処理又は動作〕
続いて、図5乃至図11を用いて、本実施形態の処理又は動作について説明する。
[Processing or Operation of the Embodiment]
Next, the processing or operation of this embodiment will be described with reference to FIGS.
<データ学習の挙動>
まず、図5を用いて、データ学習の挙動を説明する。図5は、データ学習の挙動を示したフローチャートである。
<Data learning behavior>
First, the behavior of data learning will be described with reference to Fig. 5. Fig. 5 is a flowchart showing the behavior of data learning.
データ取得部31は、入力装置2から時系列に出力された対話者データを受信する(S11)。そして、データ取得部31は、対話者データから、頭部運動に関する座標情報(発話区間を示す情報)を取得する(S12)。
The
ここで、データ取得部31の処理について具体的に説明する。
Here, we will explain in detail the processing of the
(映像データの活用)
まずは、データ取得部31が、映像データを活用する場合について説明する。データ取得部31は、カメラ2a、スマートフォン2b等から映像データを取得する。データ取得部31は、映像データを受け取った場合,OpenFaceの顔認証技術を用いて顔追跡を行い、頭部姿勢角を計測する。データ取得部31が、頭部姿勢角として、例えば、Azimuth(方位角)、Elevation(仰角)、及びRoll(ロール角)の3成分を検出する。
(Use of video data)
First, a case where the
なお、Azimuth(方位角)、Elevation(仰角)、及びRoll(ロール角)ではなく、他座標系による角度でも良い。また、データ取得部31は、角加速度を検出しても良い。
In addition, instead of Azimuth, Elevation, and Roll, angles based on other coordinate systems may be used. Furthermore, the
データ取得部31は、頭部運動に関する座標情報として、対話映像中の人の動きをもとにコンピュータで生成された任意のプログラムから取得しても良い。その場合、データ取得部31は、時間フレームt に対応するプログラムから出力される座標を抽出する。更に、データ取得部31は、ウェアラブルセンサ、加速度センサ、モーションキャプチャ、磁気式センサ、又は、これらが内蔵された機器などを活用し、頭部運動に関する座標情報を取得しても良い。この場合、データ取得部31は、時間フレームt に対応する角速度や角加速度の情報を抽出する。
The
以上により、データ取得部31は、頭部運動に関する座標情報として、時間フレームt における各成分を以下に示す値とし、頭部運動検出部32aへ出力する。
As a result of the above, the
次に、データ取得部31が、対話者データを活用する場合について説明する。データ取得部31は、カメラ2a、スマートフォン2b、マイク付きヘッドフォン2c、及びマイク2d等から対話者データを取得する。データ取得部31は、対話者ごとの発話区間を取得する。
Next, a case where the
データ取得部31は、対話者データとして音声データを取得した場合、音圧の情報から発話区間データを取得する。例えば、データ取得部31は、任意の閾値以上の値を持つ音圧を発話している区間として検出する。
When the
データ取得部31は、対話者データとして映像データを取得した場合、映像データから音声データ抽出する。また、データ取得部31は、映像データを用いて、OpenFaceの顔認証技術で取得できるある特徴点(例えば口の周りに存在する特徴点)を抽出し、この特徴点の動きベクトルがある閾値以上の場合に発話しているとみなしても良い。また、既に映像データに対して発話内容が時系列情報を持ちつつ書き起こしされたコーパスなどがある場合は、データ取得部31は、このコーパスの情報を用い、発話内容が存在する区間を発話区間データとしても良い。
When the
更に、データ取得部31は、話映像中の発話区間の情報をもとにコンピュータで生成された任意のプログラムから取得しても良い。なお、この場合、後述の頭部運動検出部32aは、時間フレームt に対応するプログラムから出力される発話の有無情報を抽出する。
Furthermore, the
以上により、データ取得部31は、発話区間の情報(時間フレームtの情報を含む)を頭部運動検出部32aへ出力する。なお、上述のように、データ取得部31は、頭部運動に関する座標情報ではなく、頭部運動に関するデータとして取得してもよい。
As a result, the
次に、頭部運動検出部32aは、頭部運動検出モデルを用いて、頭部運動に関する座標情報(発話区間を示す情報)に対する頭部運動の有無(発話の有無)を検出するように機械学習を実施する(S13)。なお、ステップS12において、頭部運動に関するデータが取得された場合、頭部運動検出部32aは、頭部運動検出モデルを用いて、頭部運動に関するデータに対する頭部運動の有無を検出するように機械学習を実施する。また、上述のように、頭部運動検出部32aによるステップS13は省略してもよい。この場合、ステップS12で取得されたデータが、直接、頭部運動機能検出部32bに入力される。
Next, the head
次に、頭部運動検出部32aは、モデル記憶部39に対して、機械学習後の頭部運動検出モデルを記憶する(S14)。
Next, the head
次に、頭部運動機能検出部32bは、頭部運動機能検出モデルを用いて、頭部運動の有無情報(発話の有無情報)に対する頭部運動の機能を検出するように機械学習を実施する(S15)。なお、頭部運動検出部32aによるステップS13が省略された場合、頭部運動機能検出部32bは、頭部運動機能検出モデルを用いて、ステップS12で取得されたデータに対する頭部運動の機能を検出するように機械学習を実施する。
Next, head movement
次に、頭部運動機能検出部32bは、モデル記憶部39に対して、機械学習後の頭部運動機能検出モデルを記憶する(S16)。
Next, the head movement
以上により、データ学習の挙動の説明について終了する。 This concludes the explanation of data learning behavior.
<データ予測の挙動>
続いて、図6乃至図11を用いて、データ予測の挙動を説明する。図6は、データ予測の挙動を示したフローチャートである。なお、下記ステップS21,S22,S23,S24は、それぞれ上述のステップS11,S12,S13,S15と同様の処理であるため、重複する処理の説明を省略する。
<Data prediction behavior>
Next, the behavior of data prediction will be described with reference to Fig. 6 to Fig. 11. Fig. 6 is a flowchart showing the behavior of data prediction. Note that steps S21, S22, S23, and S24 below are the same as steps S11, S12, S13, and S15 described above, respectively, and therefore descriptions of the overlapping processes will be omitted.
データ取得部31は、入力装置2から時系列に出力された対話者データを受信する(S12)。そして、データ取得部31は、対話者データから、頭部運動に関する座標情報(発話区間を示す情報)を取得する(S22)。なお、頭部運動に関する座標情報、及び発話区間を示す情報の取得方法は、機械学習とは異なる手法であってもよい。また、上述のように、データ取得部31は、頭部運動に関する座標情報ではなく、頭部運動に関するデータとして取得してもよい。
The
次に、頭部運動検出部32aは、学習済みの頭部運動検出モデルを用いて、頭部運動に関する座標情報(発話区間を示す情報)に対する頭部運動の有無(発話の有無)を検出する(S23)。なお、ステップS22において、頭部運動に関するデータが取得された場合、頭部運動検出部32aは、学習済みの頭部運動検出モデルを用いて、頭部運動に関するデータに対する頭部運動の有無を検出する。また、上述のように、頭部運動検出部32aによるステップS23は省略してもよい。この場合、ステップS22で取得されたデータが、直接、頭部運動機能検出部32bに入力される。
Next, head
次に、頭部運動機能検出部32bは、学習済みの頭部運動機能検出モデルを用いて、頭部運動の有無情報(発話の有無情報)に対する頭部運動の機能を検出する(S24)。
Next, the head movement
この場合、頭部運動機能検出部32bは、機械学習された10種の頭部運動機能のうち少なくとも1つ以上を含む検出を行う。10種全ての頭部運動機能の検出を行う場合、頭部運動機能検出部32bは、ある対話中のフレームt における10種の頭部運動機能の検出結果を図8に示されている番号を用いて、以下のように表す。
In this case, head movement
なお、上述のように、ステップS23が省略された場合、頭部運動機能検出部32bは、学習済みの頭部運動機能検出モデルを用いて、ステップS22で取得されたデータに対する頭部運動の機能を検出する。
As described above, if step S23 is omitted, the head movement
続いて、特徴量算出部33は、頭部運動の機能の検出結果に基づき、頭部運動機能の特徴量を算出する(S25)。また、特徴量算出部33は、頭部運動の有無情報(発話の有無情報)に基づき、頭部運動学的な特徴量を算出する(S26)。なお、このステップS26は必須の処理ではない。
Then, the
ここで、特徴量算出部33が実行する処理について更に詳細に説明する。
Now, we will explain in more detail the processing performed by the
特徴量算出部33は,頭部運動の有無情報及び頭部運動機能の検出結果のうち、少なくとも頭部運動機能の検出結果を取得し、次段の回帰モデル50に入力するための特徴量を計算する。
The
以下、頭部運動学的な特徴量6種と頭部運動機能の特徴量22種を定義し、少なくとも頭部運動機能の特徴量22種を使用する場合について説明する。なお、使用する特徴量はこれらに限らず、他の特徴量を活用しても良い。 Below, we define six types of head kinematic features and 22 types of head movement function features, and explain the case where at least the 22 types of head movement function features are used. Note that the features used are not limited to these, and other features may also be used.
図9は、運動学的特徴の一覧を示す図である。ここで、スロットに含まれるフレーム数をT 、スロット内の頭部運動の検出されたフレーム数の合計をNF 、スロット内の頭部運動区間の数をNI とすると、各特徴量は図9示されるように定義される。これについて、更に詳細に説明する。 Figure 9 shows a list of kinematic features. Here, if the number of frames included in a slot is T, the total number of frames in which head movement is detected within the slot is NF, and the number of head movement intervals within the slot is NI, then each feature amount is defined as shown in Figure 9. This will be explained in more detail.
Hrate は、1つのスロットのフレーム数に対する頭部運動区間の検出されたフレームの割合を示す。Hnum は各スロット内の頭部運動区間の回数を示す。Hdurは各スロットで検出された頭部運動区間の一回あたりの平均フレーム数を示す。これらは(式1)で表される。 Hrate indicates the ratio of frames in which head movement segments are detected to the total number of frames in one slot. Hnum indicates the number of head movement segments in each slot. Hdur indicates the average number of frames per head movement segment detected in each slot. These are expressed by (Equation 1).
(a)機能出現率(第1の特徴量)
機能出現率
(a) Function occurrence rate (first feature amount)
Feature occurrence rate
(b)機能含有率(第2の特徴量)
機能含有率
(b) Functional content (second characteristic amount)
Functional content
また、
Also,
(c)機能区分構成比(第3の特徴量)
機能区分構成比
(c) Functional division composition ratio (third characteristic amount)
Functional division composition ratio
また、聞き手としての活動が多い場合には Also, if you are mostly active as a listener
特徴量算出部33は、以上によって算出した特徴量を主観的印象予測部34に出力する。
The
次に、主観的印象予測部34は、回帰モデルを用いて、頭部運動機能の特徴量及び頭部運動学的な特徴量のうち少なくとも頭部運動機能の特徴量に対する対話者の内観報告スコアの各項目の予測値(主観的印象の予測値)の出力する(S27)。
Next, the subjective
ここで、主観的印象予測部34の処理について、更に詳細に説明する。図11は、項目毎に内観報告スコアとしての主観的印象の予測値を示す図である。図11では、内観報告スコア4項目である「雰囲気」、「楽しさ」、「やる気」、「集中度」について2分間の区間で区切り、1から9までの整数で値が表されている。この整数の値は、任意に入力された値(A)でも、何らかの機器より出力された値(B)でも良い。また、上記整数の値は、各値(A),(B)が任意の手法で計算され、その結果として求められた値でも良い。
Here, the processing of the subjective
また、主観的印象予測部34は、機械学習された回帰モデル50に対し、対話中の各スロットから得られる特徴量を入力し、内観報告スコアの各項目の予測値を出力する。なお、予測値は、9段階の離散値でも、実数値でも良い。
The subjective
以上により、データ予測の挙動の説明について終了する。 This concludes the explanation of data prediction behavior.
〔実施形態の効果〕
以上説明したように本実施形態によれば、対話中の対話者自身が抱く主観的印象(対話者の心情)を予測することができるという効果を奏する。これにより、対話者の間の関係性構築や心理的安全性の確保といった対話者の対話体験を向上する技術の確立へつながることができる。
[Effects of the embodiment]
As described above, the present embodiment has an effect of being able to predict the subjective impressions (feelings) of the interlocutors during a conversation. This leads to the establishment of technology that improves the conversation experience of the interlocutors, such as building relationships between the interlocutors and ensuring psychological safety.
また、対話中の頭部運動と頭部運動機能の特徴をともに用いることで対話中の状況の違いに頑強な予測を行うことが可能になる。 In addition, by using both head movement during dialogue and features of head movement function, it becomes possible to make predictions that are robust to differences in situations during dialogue.
更に、機能出現率を考慮することで対話活動の量的側面や、機能含有率を考慮することで発話活動の性質、機能区分構成比を考慮することで各参加者の対話活動の概略を特徴として用い、予測の精度向上を図ることが可能になる。 Furthermore, by considering the rate of occurrence of functions, it is possible to improve the accuracy of predictions by using the quantitative aspect of dialogue activity, by considering the rate of content of functions, it is possible to determine the nature of speech activity, and by considering the composition ratio of functional categories, it is possible to use the outline of each participant's dialogue activity as a feature.
〔補足〕
本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
(1)本発明の予測装置3はコンピュータとプログラムによっても実現できるが、このプログラムを記録媒体に記録することも、通信ネットワークを通して提供することも可能である。
(2)上記実施形態では、入力装置2の一例としてカメラ2a等が示されているが、これに限るものではなく、例えば、デスクトップパソコン、ノートパソコン、タブレット端末、スマートウォッチ、カーナビゲーション装置等であってもよい。
(3)各CPU301,501は、単一だけでなく、複数であってもよい。
〔supplement〕
The present invention is not limited to the above-described embodiment, and may have the following configurations or processes (operations).
(1) The
(2) In the above embodiment, a
(3) Each of the
1 通信システム
3 予測装置
4 モニタ
31 データ取得部(データ取得手段の一例)
32 検出部
32a 頭部運動検出部(頭部運動検出手段の一例)
32b 頭部運動機能検出部(頭部運動機能検出手段の一例)
33 特徴量算出部(特徴量算出手段の一例)
34 主観的印象予測部(主観的印象予測手段の一例)
39 モデル記憶部(モデル記憶手段の一例)
40a 頭部運動検出モデル
40b 頭部運動機能検出モデル
50 回帰モデル
1
32
32b Head movement function detection unit (an example of a head movement function detection means)
33 Feature amount calculation unit (an example of a feature amount calculation means)
34 Subjective impression prediction unit (an example of a subjective impression prediction means)
39 Model storage unit (an example of a model storage means)
40a Head
Claims (11)
前記対話者が撮影されることで得られた映像データから、前記対話者の頭部運動に関するデータを取得するデータ取得手段と、
頭部運動機能検出モデルを用いて、前記頭部運動に関するデータに対する頭部運動機能を検出する頭部運動機能検出手段と、
前記頭部運動機能検出手段による検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出手段と、
回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測手段と、
を有することを特徴とする予測装置。 A prediction device for predicting a subjective impression held by a person in a conversation , comprising:
A data acquisition means for acquiring data on head movement of the interlocutor from video data obtained by photographing the interlocutor;
a head movement function detection means for detecting a head movement function for the data relating to the head movement using a head movement function detection model;
a feature amount calculation means for calculating a feature amount of the head movement function based on a detection result by the head movement function detection means;
a subjective impression prediction means for predicting a subjective impression of the interlocutor with respect to the head movement function feature quantity by using a regression model;
A prediction device comprising:
前記対話者が撮影されることで得られた映像データから、前記対話者の頭部運動に関するデータを取得するデータ取得手段と、
頭部運動検出モデルを用いて、前記頭部運動に関するデータに対する前記頭部運動の有無を検出する頭部運動検出手段と、
頭部運動機能検出モデルを用いて、前記頭部運動の有無を示す頭部運動の有無情報に対する頭部運動機能を検出する頭部運動機能検出手段と、
前記頭部運動機能検出手段による検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出手段と、
回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測手段と、
を有することを特徴とする予測装置。 A prediction device for predicting a subjective impression held by a person in a conversation , comprising:
A data acquisition means for acquiring data on head movement of the interlocutor from video data obtained by photographing the interlocutor;
head movement detection means for detecting the presence or absence of head movement with respect to the head movement related data using a head movement detection model;
a head movement function detection means for detecting a head movement function corresponding to the head movement presence/absence information indicating the presence or absence of head movement using a head movement function detection model;
a feature amount calculation means for calculating a feature amount of the head movement function based on a detection result by the head movement function detection means;
a subjective impression prediction means for predicting a subjective impression of the interlocutor with respect to the head movement function feature quantity by using a regression model;
A prediction device comprising:
前記頭部運動検出手段は、前記頭部運動検出モデルを用いて、前記頭部運動に関する座標情報に対する前記頭部運動の有無を検出することを特徴とする請求項2に記載の予測装置。 the data regarding head movement is coordinate information regarding the head movement,
3. The prediction device according to claim 2, wherein the head movement detection means detects the presence or absence of the head movement with respect to the coordinate information relating to the head movement by using the head movement detection model.
前記主観的印象予測手段は、前記回帰モデルを用いて、前記頭部運動機能の特徴量及び頭部運動学的な特徴量に対する前記対話者の主観的印象を予測すること
を特徴とする請求項2又は3に記載の予測装置。 the feature amount calculation means calculates a head kinematic feature amount based on the presence or absence of the head movement detected by the head movement detection means;
The prediction device according to claim 2 or 3, wherein the subjective impression prediction means predicts the interlocutor's subjective impression of the head motor function feature and the head kinematic feature by using the regression model.
対話者に関する対話者データを受信し、当該対話者データから前記対話者の発話区間を示す発話区間の情報を取得するデータ取得手段と、
頭部運動検出モデルを用いて、前記発話区間の情報に対する発話の有無を検出する頭部運動検出手段と、
頭部運動機能検出モデルを用いて、前記発話の有無を示す発話の有無情報に対する頭部運動機能を検出する頭部運動機能検出手段と、
前記頭部運動機能検出手段による検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出手段と、
回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測手段と、
を有することを特徴とする予測装置。 A prediction device for predicting a subjective impression held by a person in a conversation , comprising:
a data acquisition means for receiving interlocutor data relating to an interlocutor and acquiring, from the interlocutor data, information on a speech section indicating an utterance section of the interlocutor;
a head movement detection means for detecting the presence or absence of speech in the speech section information by using a head movement detection model;
a head movement function detection means for detecting head movement function in response to the speech presence/absence information indicating the presence or absence of speech using a head movement function detection model;
a feature amount calculation means for calculating a feature amount of the head movement function based on a detection result by the head movement function detection means;
a subjective impression prediction means for predicting a subjective impression of the interlocutor with respect to the head movement function feature quantity by using a regression model;
A prediction device comprising:
前記主観的印象予測手段は、前記回帰モデルを用いて、前記頭部運動機能の特徴量及び頭部運動学的な特徴量に対する前記対話者の主観的印象を予測すること
を特徴とする請求項5に記載の予測装置。 The feature amount calculation means calculates a head kinematic feature amount based on the presence or absence of the speech detected by the head movement detection means,
The prediction device according to claim 5 , wherein the subjective impression prediction means predicts the interlocutor's subjective impression of the head motor function feature amount and the head kinematic feature amount by using the regression model.
前記対話者が撮影されることで得られた映像データから、前記対話者の頭部運動に関するデータを取得するデータ取得ステップと、
頭部運動機能検出モデルを用いて、前記頭部運動に関するデータに対する頭部運動機能を検出する頭部運動機能検出ステップと、
前記頭部運動機能検出ステップによる検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出手ステップと、
回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測ステップと、
を実行することを特徴とする予測方法。 A prediction method executed by a prediction device for predicting a subjective impression held by a person in a conversation , comprising:
a data acquisition step of acquiring data on head movement of the interlocutor from video data obtained by photographing the interlocutor;
a head movement function detection step of detecting a head movement function for the data relating to the head movement using a head movement function detection model;
a feature amount calculation step of calculating a feature amount of the head movement function based on a detection result in the head movement function detection step;
a subjective impression prediction step of predicting a subjective impression of the interlocutor with respect to the head movement function feature quantity using a regression model;
A prediction method comprising the steps of:
前記対話者が撮影されることで得られた映像データから、前記対話者の頭部運動に関するデータを取得するデータ取得ステップと、
頭部運動検出モデルを用いて、前記頭部運動に関するデータに対する前記頭部運動の有無を検出する頭部運動検出ステップと、
頭部運動機能検出モデルを用いて、前記頭部運動の有無を示す頭部運動の有無情報に対する頭部運動機能を検出する頭部運動機能検出ステップと、
前記頭部運動機能検出ステップによる検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出ステップと、
回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測ステップと、
を実行することを特徴とする予測方法。 A prediction method executed by a prediction device for predicting a subjective impression held by a person in a conversation , comprising:
a data acquisition step of acquiring data on head movement of the interlocutor from video data obtained by photographing the interlocutor;
a head movement detection step of detecting the presence or absence of head movement with respect to the head movement related data using a head movement detection model;
a head movement function detection step of detecting a head movement function corresponding to head movement presence/absence information indicating the presence/absence of head movement using a head movement function detection model;
a feature amount calculation step of calculating a feature amount of the head movement function based on a detection result by the head movement function detection step;
a subjective impression prediction step of predicting a subjective impression of the interlocutor with respect to the head movement function feature quantity using a regression model;
A prediction method comprising the steps of:
対話者に関する対話者データを受信し、当該対話者データから前記対話者の発話区間を示す発話区間の情報を取得するデータ取得ステップと、
頭部運動検出モデルを用いて、前記発話区間の情報に対する発話の有無を検出する頭部運動検出ステップと、
頭部運動機能検出モデルを用いて、前記発話の有無を示す発話の有無情報に対する頭部運動機能を検出する頭部運動機能検出ステップと、
前記頭部運動機能検出ステップによる検出結果に基づいて、前記頭部運動機能の特徴量を算出する特徴量算出ステップと、
回帰モデルを用いて、前記頭部運動機能の特徴量に対する前記対話者の主観的印象を予測する主観的印象予測ステップと、
を実行することを特徴とする予測方法。 A prediction method executed by a prediction device for predicting a subjective impression held by a person in a conversation , comprising:
a data acquiring step of receiving interlocutor data related to an interlocutor and acquiring, from the interlocutor data, information on a speech section indicating an utterance section of the interlocutor;
a head movement detection step of detecting the presence or absence of speech in the speech section information by using a head movement detection model;
a head movement function detection step of detecting head movement function in response to the speech presence/absence information indicating the presence or absence of speech using a head movement function detection model;
a feature amount calculation step of calculating a feature amount of the head movement function based on a detection result by the head movement function detection step;
a subjective impression prediction step of predicting a subjective impression of the interlocutor with respect to the head movement function feature quantity using a regression model;
A prediction method comprising the steps of:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021135890A JP7624660B2 (en) | 2021-08-23 | 2021-08-23 | Prediction device, subjective impression prediction method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021135890A JP7624660B2 (en) | 2021-08-23 | 2021-08-23 | Prediction device, subjective impression prediction method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023030649A JP2023030649A (en) | 2023-03-08 |
| JP7624660B2 true JP7624660B2 (en) | 2025-01-31 |
Family
ID=85414097
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021135890A Active JP7624660B2 (en) | 2021-08-23 | 2021-08-23 | Prediction device, subjective impression prediction method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7624660B2 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014102606A (en) | 2012-11-19 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | Dialogue state estimation device, dialogue state estimation method and program |
| JP2015032233A (en) | 2013-08-06 | 2015-02-16 | 日本電信電話株式会社 | Personnel perception tendency model learning apparatus, personnel perception state estimation apparatus, personnel perception tendency model learning method, personnel perception state estimation method, and program |
| WO2016009569A1 (en) | 2014-07-17 | 2016-01-21 | Necソリューションイノベータ株式会社 | Attribute factor analysis method, device, and program |
| JP2021056786A (en) | 2019-09-30 | 2021-04-08 | 富士通株式会社 | Impression estimation method, impression estimation program and impression estimation device |
-
2021
- 2021-08-23 JP JP2021135890A patent/JP7624660B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014102606A (en) | 2012-11-19 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | Dialogue state estimation device, dialogue state estimation method and program |
| JP2015032233A (en) | 2013-08-06 | 2015-02-16 | 日本電信電話株式会社 | Personnel perception tendency model learning apparatus, personnel perception state estimation apparatus, personnel perception tendency model learning method, personnel perception state estimation method, and program |
| WO2016009569A1 (en) | 2014-07-17 | 2016-01-21 | Necソリューションイノベータ株式会社 | Attribute factor analysis method, device, and program |
| JP2021056786A (en) | 2019-09-30 | 2021-04-08 | 富士通株式会社 | Impression estimation method, impression estimation program and impression estimation device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023030649A (en) | 2023-03-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12105876B2 (en) | System and method for using gestures and expressions for controlling speech applications | |
| Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
| Sebe et al. | Emotion recognition based on joint visual and audio cues | |
| JP7392492B2 (en) | Method, server and program for detecting cognitive and speech disorders based on temporal and visual facial features | |
| US20180077095A1 (en) | Augmentation of Communications with Emotional Data | |
| US20210271864A1 (en) | Applying multi-channel communication metrics and semantic analysis to human interaction data extraction | |
| Eskimez et al. | Noise-resilient training method for face landmark generation from speech | |
| JP7511374B2 (en) | Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program | |
| US11489894B2 (en) | Rating interface for behavioral impact assessment during interpersonal interactions | |
| JP5989603B2 (en) | Estimation apparatus, estimation method, and program | |
| Birmingham et al. | Group-level focus of visual attention for improved next speaker prediction | |
| US20220198293A1 (en) | Systems and methods for evaluation of interpersonal interactions to predict real world performance | |
| Chu et al. | Multimodal real-time contingency detection for HRI | |
| Gebre et al. | Motion history images for online speaker/signer diarization | |
| Kim et al. | Multimodal detection of engagement in groups of children using rank learning | |
| JP7624660B2 (en) | Prediction device, subjective impression prediction method, and program | |
| Tesema et al. | Addressee detection using facial and audio features in mixed human–human and human–robot settings: A deep learning framework | |
| Ota et al. | Nodding detection system based on head motion and voice rhythm | |
| Tahir et al. | Real-time sociometrics from audio-visual features for two-person dialogs | |
| Ryumina et al. | Emotional speech recognition based on lip-reading | |
| JP7773714B2 (en) | Information processing device, speech recognition method and program | |
| Paplu et al. | Social perception and scene awareness in human-robot interaction | |
| Sebe et al. | Bimodal emotion recognition | |
| Haider et al. | Improving Response Time of Active Speaker Detection Using Visual Prosody Information Prior to Articulation. | |
| Hunt et al. | Emotion Recognition in Images and Video with Python For Autism Assessment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210826 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210826 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231102 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240624 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240701 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240702 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240723 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240919 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250107 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250110 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7624660 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |