JP6550951B2 - Terminal, video conference system, and program - Google Patents
Terminal, video conference system, and program Download PDFInfo
- Publication number
- JP6550951B2 JP6550951B2 JP2015120357A JP2015120357A JP6550951B2 JP 6550951 B2 JP6550951 B2 JP 6550951B2 JP 2015120357 A JP2015120357 A JP 2015120357A JP 2015120357 A JP2015120357 A JP 2015120357A JP 6550951 B2 JP6550951 B2 JP 6550951B2
- Authority
- JP
- Japan
- Prior art keywords
- terminal
- utterance
- information
- user
- passive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Description
本発明は、端末、ビデオ会議システム、及びプログラムに関する。 The present invention relates to a terminal, a video conference system, and a program.
従来から、2つのビデオ会議端末がインターネットなどのネットワークを介して接続されたビデオ会議システムが知られている。ビデオ会議システムによれば、映像と音声データをリアルタイムに双方向に送受信し、遠隔地の者同士でもリアルタイムコミュニケーションを実現することができる。また、ビデオ会議端末を複数台用いることによって、多拠点における複数の利用者が同時に同じ会議に参加することができることも既に知られている。 2. Description of the Related Art Conventionally, a video conference system in which two video conference terminals are connected via a network such as the Internet is known. According to the video conference system, video and audio data are bidirectionally transmitted and received in real time, and real-time communication can be realized even between remote persons. It has also been already known that a plurality of users at multiple locations can participate in the same conference at the same time by using a plurality of video conference terminals.
ところで、人同士が集う会議においては話者が会議出席者の誰に対して話しているかは意識することなく認識することができる。他方、ビデオ会議システムでは、会議出席者が常にカメラ等を注視し続けることはなく、また、どの話者が誰に向かって話しているかを特定することが困難である。 By the way, in a meeting where people gather, it is possible to recognize without knowing who the meeting attendee the speaker is talking to. On the other hand, in a video conference system, a meeting attendee does not always keep an eye on a camera or the like, and it is difficult to identify which speaker is speaking to whom.
そこで、例えば特許文献1に係るテレビ会議システムでは、発話者側端末21の利用者が、表示手段により表示された映像のうち、聴衆者側端末22の利用者の映像を注目している場合に、端末22は、端末21から、端末22を注目していることを示す第1の注目情報を受信する。
Therefore, for example, in the video conference system according to
そして、第1の注目情報を受信すると、端末22は、利用者が注目している映像に対応する端末と端末21とが一致するか否かを判定する。端末22は、一致すると判定した場合に、第2の注目情報を生成して送信し、端末21が第2の注目情報を受信すると、表示手段により表示される映像のうち、端末22に対応する映像を強調して表示する。
Then, when receiving the first attention information, the
例えば特許文献1によれば、自分が話者になった場合に、自分が注目した相手もまた自分を注目しているか否かがわかるようになる。しかし、発話者を判定する処理において、双方の端末利用者が双方の名前を呼ばねばならず煩わしい。
For example, according to
また、特許文献1では双方の利用者の映像を注目している場合にその注目情報が相互に送受信されて初めて自端末において相手映像を強調表示する処理が行われる。このため、例えば伝送遅延により注目情報の送受信に不具合が生じた場合等において上記処理が遅れると、ビデオ会議システムのリアルタイム性を損ねることとなり、円滑なコミュニケーションを阻害することとなってしまう。
Further, in
本発明は、このような実情に鑑みてなされたものであって、ビデオ会議システムにおける円滑なコミュニケーションを実現することを目的とする。 The present invention has been made in view of such circumstances, and its object is to realize smooth communication in a video conference system.
上述した目的を達成するため、本発明は、ネットワークを介して接続された他端末から、該他端末を使用する他ユーザを撮像した撮像情報と、該他端末の近傍で発せられた音声情報と、該他ユーザが自端末を注目していることを示す注目情報とを受信する受信手段と、音声情報の送信元の他端末と注目情報の送信元の他端末とが一致するか否かを判定する発話受動判定手段と、発話受動判定手段により他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段とを備えることを特徴とする。 In order to achieve the above-mentioned object, according to the present invention, imaging information obtained by imaging another user who uses the other terminal from the other terminal connected via the network and voice information emitted in the vicinity of the other terminal Whether the receiving means for receiving the attention information indicating that the other user is focusing on the own terminal and the other terminal of the transmission source of the voice information and the other terminal of the transmission source of the attention information coincide with each other The apparatus is characterized by comprising: an utterance passive judging unit to judge, and an utterance passive notifying unit to notify an utterance from another user who uses the other terminal to the own terminal when it is judged by the utterance passive judging unit that the other terminal matches. I assume.
本発明によれば、ビデオ会議システムにおける円滑なコミュニケーションを実現することが可能になる。 According to the present invention, it is possible to realize smooth communication in a video conferencing system.
本発明の実施形態の端末及びビデオ会議システムに関し以下図面を用いて説明するが、本発明の趣旨を越えない限り、何ら本実施形態に限定されるものではない。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。また、以下に記載する実施形態は本発明の最良の形態であって、本発明に係る特許請求の範囲を限定するものではない。 The terminal and the video conference system according to the embodiment of the present invention will be described below with reference to the drawings, but the present invention is not limited to this embodiment as long as the purpose of the present invention is not exceeded. In the drawings, the same or corresponding parts are denoted by the same reference numerals, and the redundant description will be appropriately simplified or omitted. In addition, the embodiments described below are the best modes of the present invention, and do not limit the scope of the claims of the present invention.
まず初めに、本実施形態のビデオ会議システム1の概略について図1を参照して説明する。本図は、本システムを構成する4つの端末が4つの拠点AからDにそれぞれ配置されており、各端末がネットワーク14を介して接続されたシステムを示している。なお、ここでは4人のユーザがそれぞれ存在する4つの拠点で構成されたシステムを例示しているが、3つ以下の拠点で構成されたシステムであっても、5つ以上の拠点で構成されたシステムであってもよい。
First, an outline of the
各拠点に配置される端末とその周辺装置群の概略構成例について、拠点Aに配置される構成を用いて説明する。拠点Aには、端末としてのビデオ会議端末4と、ユーザAの視線を追跡する例えば視線追跡装置等の撮像装置5と、ユーザAを撮影するカメラ6と、ユーザAの発する音声を取得するマイク等の音声入力装置7と、音声出力装置8と、ユーザAの撮像、各拠点に配置された各端末から受信した各ユーザの撮像を表示する映像出力装置9が配置されている。拠点A以外の他の拠点も同様の構成であるため説明を省略する。
A schematic configuration example of the terminal and peripheral device group arranged at each site will be described using the configuration arranged at the site A. At the site A, a video conference terminal 4 as a terminal, an
撮像装置5としての視線追跡装置は、ユーザAの前に設置して、ユーザAの眼球運動を計測することでユーザAの視線データを取得する装置である。カメラ6は、ユーザAを撮影して、撮影された撮像から所定の画像処理を行い視線の位置やその変化あるいは角度等を検出するために用いられる。また、視線追跡装置としては眼鏡型の装置を使用してもよい。なお、本発明においては、撮像装置5やカメラ6をまとめて撮像装置というものとする。
The line-of-sight tracking device as the
ビデオ会議端末4は、各拠点から各ユーザの撮像を受信して映像出力装置9に表示させたり、ユーザAの撮像を解析したり、各拠点のビデオ会議端末に送信したり、後述する本実施形態に係る各種の情報処理を行う例えばパーソナルコンピュータ等の情報処理装置等である。ビデオ会議端末4の詳細な説明については後述する。なお、撮像等のデータの送受信には例えばサーバ等の仲介器を介してもよい。
The video conference terminal 4 receives the imaging of each user from each site and causes the
拠点Aにおいて、音声入力装置7はユーザAの発する音声及びビデオ会議端末4近傍で発せられる音声の入力を受けるマイク等である。音声出力装置8は、各拠点から受信した各ユーザの音声等を出力するスピーカ等である。なお、これらは、ビデオ会議端末4に内蔵されていても、外部マイクや外部スピーカ等としてビデオ会議端末4に別途接続されるものであってもよい。
In the base A, the
また、拠点Aの映像出力装置9には、拠点BのユーザBの撮像が画面左上に、拠点CのユーザCの撮像が画面右上に、拠点DのユーザDの撮像が画面左下に、拠点AのユーザAの撮像が画面に表示されているが、この表示態様が一例であることは言うまでもない。
In addition, the
本実施形態では、ビデオ会議システムを利用する利用者の注視対象を検知して、注視しながら発話した際に、その注視対象に向けての発話であるとし、発話対象の利用者にこの発話は自分へ向けての発話であることを通知する。以下では、拠点AのユーザAが、映像出力装置9に出力された拠点DのユーザDの撮像を注視して発話している例を用いて説明する。
In the present embodiment, when the gaze target of the user using the video conference system is detected and uttered while gazing, it is assumed that the utterance is directed to the gaze target, and the user of the utterance target utters this utterance. Notify that you are speaking to yourself. In the following, description will be made using an example in which the user A at the base A gazes at the image of the user D at the base D output to the
この場合、利用者Aから利用者Dへ向けての発話であると拠点Dのビデオ会議端末が判定し、拠点Dにおいて、拠点AにおけるユーザAの撮像を囲む赤枠を表示する。また、この場合、発話の開始タイミングや終了タイミングにおいて例えばビープ音等の音声を出力し、利用者Dに通知する。 In this case, the video conference terminal of the base D determines that the speech is directed from the user A to the user D, and the base D displays a red frame surrounding imaging of the user A at the base A. Further, in this case, a voice such as a beep is output at the start timing and the end timing of the speech, and the user D is notified of the sound.
なお、本実施形態では、各拠点の撮像を1画面を4分割して表示しているが、例えば1対1のシステムの場合、一画面に相手側の撮像として例えば会議室全体の様子がわかるような撮像を表示する態様であってもよい。また、1拠点に1ユーザでなく、複数のユーザが1拠点にいてもよいが、この場合、複数人の視線データを取得できることが好ましい。 In the present embodiment, the imaging of each site is displayed by dividing the screen into four, but in the case of, for example, a one-to-one system, one screen shows, for example, the appearance of the entire conference room as imaging of the other party. Such an image display may be possible. In addition, although one user may be at one site, a plurality of users may be at one site, but in this case, it is preferable to be able to acquire line-of-sight data of a plurality of people.
次に、本実施形態のビデオ会議システムにおける端末のハードウェア構成について図2を参照して説明する。拠点Aの構成を例として説明するが、その他の拠点BからDについても同様の構成であるため、説明を省略する。 Next, the hardware configuration of the terminal in the video conference system of this embodiment will be described with reference to FIG. Although the configuration of the base A will be described as an example, the other bases B to D have the same configuration, so the description will be omitted.
ビデオ会議端末4は、入力部28と、メモリ29と、CPU30と、ネットワークインタフェース31(以下「ネットワークI/F」)を備えている。なお、その他のハードウェアとして、例えばHDDや外付けあるいは内蔵された各種メディアドライブ等を備えていてもよい。
The video conference terminal 4 includes an
入力部28は、電源のON/OFFや音量の変更など、各操作をするための操作ボタンである。メモリ29は、本実施形態における各処理を実行するプログラムや、種々の制御プログラムや、入出力映像・音声データ、視線データ、後述の注視端末ID信号、話者ID信号、発話受動ID信号等を保存しておくROMやRAM等である。
The
CPU30は、ビデオ会議端末4の動作を制御し、映像データのエンコード及びデコード処理を行う。ネットワークI/F31は、通信ネットワークを利用して各種データを転送する。
The
次に、本実施形態におけるビデオ会議端末4の機能ブロックについて図3を参照して説明する。ここでも、図1の例に従い、4つの拠点AからDがネットワーク14によって接続されている構成例を用いて説明する。なお、拠点BからDにおけるビデオ会議端末の機能ブロックもビデオ会議端末4と同様の構成であるため、本図では簡易図として示し、拠点Aの構成との重複する説明は省略する。
Next, functional blocks of the video conference terminal 4 in the present embodiment will be described with reference to FIG. Here, in accordance with the example of FIG. 1, description will be made using a configuration example in which four bases A to D are connected by the
なお、本図においては、撮像装置5、音声入力装置7、音声出力装置8、映像出力装置9をまとめて入出力装置群10とする。また、拠点Bにはビデオ会議端末4’及び入出力装置群10’が、拠点Cにはビデオ会議端末4”及び入出力装置群10”が、拠点Dにはビデオ会議端末4”’及び入出力装置群10”’が備えられている。
In the drawing, the
ビデオ会議端末4は、映像入力部15と、データ送信部16と、注目情報生成部17と、音声取得部18と、データ受信部21と、話者判定部22と、話者識別信号生成部23と、発話受動判定部24と、出力部25を含み構成されている。出力部25は発話受動通知部251を含む。
The video conference terminal 4 includes a
映像入力部15は、撮像装置5により撮像された映像を取得する撮像情報取得手段である。なお、取得した映像は別途、映像圧縮部により圧縮/符号化される。
The
データ送信部16は、映像入力部15において取得した映像データをネットワーク14を介して各拠点のビデオ会議端末に送信する送信手段である。また、データ送信部16は、注目情報である後述の注視端末ID信号を各拠点のビデオ会議端末に送信する。
The
注目情報生成部17は、映像入力部15により取得された他端末を使用する他ユーザの撮像情報を解析して、表示手段である出力部25により映像出力装置9に表示された自端末を使用する自ユーザの撮像情報に他端末を使用する他ユーザが注目していることを示す注目情報を生成する注目情報生成手段である。なお、本実施形態における自端末及び他端末なる名称、自ユーザと他ユーザなる名称は便宜的なものであり、どちらかが主又は副であるかのような優劣を規定するものではない。
The attention
注目情報とは、例えば、図1を用いて説明した視線追跡装置により取得した視線データが特定の拠点のユーザ映像に集中している場合に生成される注視端末ID信号である。注視端末ID信号には、注視対象の拠点名と、注視元の拠点における端末の識別信号が含まれる。詳細については後述する。なお、注目情報は、視線データに限定されず、例えばユーザの撮像からユーザの顔の向き等を解析し、顔の向きが特定の対象に向けられているか否かを公知の画像解析技術により特定し、解析結果に基づいて生成されるものであってもよい。 The attention information is, for example, a gaze terminal ID signal generated when the line-of-sight data acquired by the line-of-sight tracking apparatus described with reference to FIG. 1 is concentrated on the user video at a specific base. The gaze terminal ID signal includes the name of the gaze target base and the terminal identification signal at the gaze base. Details will be described later. Note that attention information is not limited to line-of-sight data, for example, analyzes the user's face orientation etc. from imaging of the user, and specifies whether the face orientation is directed to a specific target by known image analysis technology However, it may be generated based on the analysis result.
音声取得部18は、例えばマイク等の音声入力装置7に入力された音声情報を取得する音声情報取得手段である。なお、音声入力装置7は、拠点Aのビデオ会議端末4においては、ビデオ会議端末4の近傍で発せられた音声情報の入力を受け付ける。つまり、この場合、音声入力装置7は、ユーザAの発した音声に加え、周囲の音等の入力も受け付ける。なお、取得した音声データが圧縮・符号化されている場合、音声伸長部により復号される。
The
データ受信部21は、ネットワークを介して接続された他端末から該他端末を使用する他ユーザを撮像した撮像情報と、該他端末の近傍で発せられた音声情報と、該他ユーザが自端末を注目していることを示す注目情報を受信する受信手段である。なお、他ユーザの撮像情報は各拠点でのビデオ会議端末における映像圧縮部によって圧縮/符号化されているが、これを映像伸長部によって復号する。
The
話者判定部22は、データ受信部21により受信した複数の他端末の近傍で発せられた音声情報を解析し、該複数の他端末を使用する複数の他ユーザのうち、どの他ユーザが発話しているか否かを判定する。音声情報の解析は、例えば取得した音声情報の入力ゲインで判定する等の手法をとればよいが、これに限定されず公知の手法で解析を行ってもよい。
The
話者識別信号生成部23は、話者判定部22により発話していると判定された他ユーザが使用する他端末を識別する識別信号に基づいて自端末に対する発話者を識別する話者識別信号を生成する。話者識別信号には、話者判定部22により発話していると判定された他ユーザの音声情報の送信元端末を識別する識別信号が含まれる。
The speaker identification
発話受動判定部24は、音声情報の送信元の他端末と注目情報の送信元の他端末とが一致するか否かを判定する。
The utterance
発話受動通知部251は、発話受動判定部24により音声情報の送信元の他端末と注目情報の送信元の他端末とが一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段である。
When the utterance
また、発話受動通知部251は、発話受動判定部24により一致すると判定された他端末を使用する他ユーザの出力部25により映像出力装置9に表示される撮像情報を、該他ユーザからの発話受動を自端末のユーザが認識し得る表示態様に変更するよう、出力部25による映像出力装置9への表示を制御する表示制御手段として機能する。表示態様の変更とは、具体的には、例えば図1を用いて説明したように、映像出力装置9に表示される撮像情報を囲むように赤枠を表示させたり、撮像情報を他の拠点の撮像情報より拡大させたりする等、他の拠点の撮像情報より目立つように表示態様を変更する処理をいう。
Further, the utterance
一方、発話受動判定部24は、音声情報の送信元の他端末と注目情報の送信元の他端末とが一致すると判定したとき、該他端末を使用する他ユーザから自端末を使用する自ユーザに向けて発話されていることを識別する発話受動識別信号を生成してもよい。この場合、発話受動通知部251は、発話受動判定部24により生成された発話受動識別信号に基づいて発話受動を通知することとしてもよい。詳細は後述するが、発話受動信号を生成することにより、端末は発話受動状態にあることを容易に認識することが可能となる。
On the other hand, when the utterance
また、発話受動通知部251は、発話受動判定部24から発話受動識別信号を受信したとき、所定の音声を出力するよう出力部25を制御することとしてもよい。所定の音声とは、例えば上述したビープ音等である。これにより、ユーザは自分に向けられた発話が開始されたことを認識することが可能となる。
In addition, when the utterance passive identification signal is received from the utterance
さらに、発話受動通知部251は、発話受動判定部24からの発話受動識別信号の受信が途絶えたとき、所定の音声を出力する制御を行うこととしてもよい。これにより、ユーザは自分に向けられた発話が終了したことを認識することが可能となる。
Furthermore, the utterance
さらに、発話受動通知部251は、発話受動判定部24からの発話受動識別信号の受信が途絶えた以降の一定時間、発話受動通知を継続することとしてもよい。詳細は後述するが、これにより、例えば発話受動識別信号の受信が途絶えた場合にすぐにビープ音を鳴らしてユーザに受け答えを急がせるような事態を回避して、ユーザは受け答えをゆっくりと行うことができるため、円滑なコミュニケーションの実施に寄与することになる。
Furthermore, the utterance
なお、発話受動通知部251は、発話受動識別信号を受信したとき、予め音声出力していた所定の音声の音量を上げ、発話受動識別信号の受信が途絶えたとき、上げていた音量を下げる制御を行うこととしてもよい。これにより、ユーザは発話受動開始及び終了のタイミングを音量の変化で認識することができる。
The utterance
さらに、発話受動通知部251は、発話受動識別信号を受信したとき、ビデオ会議端末を振動させ、発話受動識別信号の受信が途絶えたとき、再度ビデオ会議端末を振動させる制御を行うこととしてもよい。これにより、ユーザは発話受動開始及び終了の各タイミングを振動により認識することが可能となる。
Furthermore, the utterance
また、発話受動判定部24は、データ受信部21により注目情報の受信が途絶えた場合であっても、データ受信部21により音声情報の受信が途絶えるまでは発話受動信号の生成を継続することとしてもよい。詳細は後述するが、これにより、例えば他ユーザが表示された映像に注視しなくなる等によって注目情報である注視端末ID信号を受信しなくなったとしても、他ユーザによる発話が継続されている間は、発話受動状態にあるとみなすため、円滑なコミュニケーションを阻害することがない。
Further, even if the
ここで、例えば拠点DにおけるユーザDが映像出力装置であるディスプレイに表示されたユーザAを注視しながら発話しているとする。ビデオ会議端末4の発話受動判定部24は、各拠点より受信した注目情報である注視端末ID信号と話者ID信号を比較する。そして、発話受動判定部24は、比較の結果、それぞれが示す拠点名が一致したとき、利用者Aが発話受動状態にあると判定し、発話受動ID信号を生成する。この例の場合、注視端末ID信号と話者ID信号がともにD拠点を示すので、利用者Aは利用者Dによって発話受動状態にある、ということになる。
Here, for example, it is assumed that the user D at the site D speaks while gazing at the user A displayed on the display which is the video output device. The utterance
次に、本実施形態における処理の概略手順について図3及び図4を参照して説明する。ここでは図1を用いた説明と同様に、拠点DのユーザDが拠点AのユーザAの撮像を注視しているものとして説明する。 Next, a schematic procedure of processing in the present embodiment will be described with reference to FIGS. Here, as in the description using FIG. 1, it is assumed that the user D at the site D is watching the image of the user A at the site A.
まず、拠点Dにおけるビデオ会議端末4”’は撮像装置を介してユーザDの撮像を取得し、該撮像からユーザDの視線データを取得する(ステップS1)。 First, the video conference terminal 4 '' at the site D acquires an image of the user D via the imaging device, and acquires line-of-sight data of the user D from the image (step S1).
次に、ビデオ会議端末4”’の注目情報生成部17は注目情報である注視端末IDを生成する(ステップS2)。注目情報生成部17による注視端末ID生成処理の詳細については後述する。
Next, the attention
拠点Dにおけるビデオ会議端末4”’は、ユーザDの撮像や注視端末IDを拠点Aのビデオ会議端末4に送信する(ステップS3)。 The video conference terminal 4 ″ ′ at the site D transmits the imaging and gaze terminal ID of the user D to the video conference terminal 4 at the site A (step S3).
拠点Aの話者判定部22により話者の判定がされ、話者識別信号生成部23により話者識別信号である話者ID信号が生成される(ステップS4)。話者ID信号生成の詳細については後述する。
The
そして、発話受動判定部24により発話受動判定処理が実行される(ステップS5)。この処理の詳細については後述する。 Then, the utterance passive determination processing is executed by the utterance passive determination unit 24 (step S5). Details of this process will be described later.
発話受動通知部251は、自分に注目しているユーザの撮像について表示制御処理を行う(ステップS6)。
The utterance
図4に示した注視端末ID生成処理の詳細について図5を参照して説明する。ここでは、拠点AのユーザAが拠点DのユーザDに向けて発言していることを想定した、拠点Aでの注視判定処理手順を例として説明する。 Details of the gaze terminal ID generation process shown in FIG. 4 will be described with reference to FIG. Here, the gaze determination processing procedure at the site A will be described as an example, assuming that the user A at the site A speaks to the user D at the site D.
まず、ビデオ会議端末4は、撮像装置5からユーザAの視線データを取得する(ステップS11)。例えば、視線データは(x、y)で表した座標データとして取得するものとする。 First, the video conference terminal 4 acquires line-of-sight data of the user A from the imaging device 5 (step S11). For example, the line-of-sight data is acquired as coordinate data represented by (x, y).
視線データは時間の経過と共に変化するのが通常であるため、ビデオ会議端末4は所定の更新頻度で視線データを更新する(ステップS12)。この更新頻度は、例えば映像データのフレームレートが30fpsである場合、33msec間隔とすることが好ましい。このとき、撮像装置5は眼球を撮像した際の変化量を角度として取得するものとする。
Since the line-of-sight data normally changes with time, the video conference terminal 4 updates the line-of-sight data at a predetermined update frequency (step S12). For example, when the frame rate of the video data is 30 fps, the update frequency is preferably set at 33 msec intervals. At this time, the
ビデオ会議端末4は、メモリ29に取得した視線データを順次記憶し、例えば過去10データを参照する(ステップS13)。そして、ビデオ会議端末4は、過去10データ分の視線データに基づいて停留判定を行う(ステップS14)。この場合の停留判定は、例えば人間の眼球運動の特徴を踏まえ、例えば非特許文献1等に開示されているような判定条件を用いることが好ましい。
The video conference terminal 4 sequentially stores the line-of-sight data acquired in the
すなわち、本実施形態では、停留判定条件として、
1:「前後の視線データが視野角にして2.1度以上離れないこと」
2:「過去10データのうち、2つの視線データの最大距離が視野角にして2.1度以上離れないこと」
とするが一例であって、これに限らずその他公知の判定条件を採用してもよい。
That is, in this embodiment, as the stop determination condition,
1: "The line-of-sight data before and after does not deviate by more than 2.1 degrees in the viewing angle"
2: “The maximum distance between two line-of-sight data in the past 10 data is not more than 2.1 degrees away from the viewing angle”
However, this is an example, and not limited to this, other known judgment conditions may be adopted.
なお、人間の瞬きは、一般的に100msec〜150msecといわれており、これは視線データにして3〜5データ分である。瞬きされたときはユーザの眼球に基づいた視線データを取得できないためデータ欠損となってしまう。そこで、本実施形態では過去10データのうち連続5回までのデータ欠損を停留判定から除外し、残りのデータで判定するものとする。 Note that human blinking is generally said to be 100 msec to 150 msec, which corresponds to 3-5 data as line-of-sight data. When blinking, data cannot be obtained because line-of-sight data based on the user's eyeball cannot be acquired. Therefore, in the present embodiment, data loss up to 5 consecutive times out of the past 10 data is excluded from the stop determination, and determination is made with the remaining data.
ステップS14で視線データが停留していると判定した場合(ステップS14、YES)、ビデオ会議端末4は、画面上のどの拠点における映像上で停留したのかを確認する(ステップS15)。この際、ビデオ会議端末4は各拠点における映像が画面上のどの領域に表示されているのかの情報を得ているものとする。そして、ビデオ会議端末4は、停留していると判定した10データ分の視線データの座票が、各拠点映像が表示される矩形領域内に収まっているか否かによりどの拠点映像に停留しているかを判定する。 When it is determined in step S14 that the line-of-sight data is stopped (YES in step S14), the video conference terminal 4 confirms at which base on the screen the image is stopped (step S15). At this time, it is assumed that the video conference terminal 4 obtains information on which region on the screen the video at each site is displayed. Then, the video conference terminal 4 is stopped at which base video depending on whether or not the seat data of the line-of-sight data for 10 data determined to be parked falls within the rectangular area where each base video is displayed. Determine if it exists.
なお、拠点映像間の境目に視線データが存在する場合は、過去10データの内、視線データが収まっている数の多い映像に係る拠点を停留拠点とする。視線データが同数の場合、どちらも停留拠点とせず、それまでの停留判定処理をリセットする。 In addition, when line-of-sight data exists at the boundary between the base images, the base relating to the large number of images in which the line-of-sight data are contained among the past 10 data is taken as the fixed base. If the line-of-sight data has the same number, neither of them is regarded as the station base, and the station determination processing up to that point is reset.
他方、ステップS14で視線データが停留していないと判定した場合(ステップS14、NO)、停留判定処理をリセットする(ステップS113)。 On the other hand, when it is determined in step S14 that the line-of-sight data is not stopped (step S14, NO), the stop determination process is reset (step S113).
次に、ビデオ会議端末4は、ステップS15において確認された停留拠点が前回と同じ停留拠点か否かを判定する(ステップS16)。前回と異なる停留拠点の場合(ステップS16、NO)、ビデオ会議端末4は停留判定をリセットする(ステップS113)。 Next, the video conference terminal 4 determines whether or not the stop base confirmed in step S15 is the same stop base as the previous time (step S16). In the case of the stopping base different from the previous time (step S16, NO), the video conference terminal 4 resets the stopping determination (step S113).
他方、前回つまり1回前の注視判定時と同じ停留拠点の場合(ステップS16、YES)、ビデオ会議端末4は注視端末ID信号が送信中であるか否かを判定する(ステップS17)。 On the other hand, in the case of the same stop base as the last time, that is, the previous gaze determination (step S16, YES), the video conference terminal 4 determines whether or not the gaze terminal ID signal is being transmitted (step S17).
注視端末ID信号が送信中でない場合(ステップS17、NO)、ビデオ会議端末4は停留カウントを「+1」とする(ステップS18)。他方、注視端末ID信号が送信中である場合は(ステップS17、YES)、ビデオ会議端末4は注視判定を行わず、そのまま対象の拠点のビデオ会議端末に注視端末ID信号を送信し続けるものとする(ステップS112)。 When the gaze terminal ID signal is not being transmitted (step S17, NO), the video conference terminal 4 sets the stop count to “+1” (step S18). On the other hand, when the gaze terminal ID signal is being transmitted (step S17, YES), the video conference terminal 4 does not perform the gaze determination and continues to transmit the gaze terminal ID signal to the video conference terminal at the target base as it is. (Step S112).
ステップS18以後、ビデオ会議端末4は停留が3回連続したかどうかの判定をする(ステップS19)。本実施形態では、停留が3回連続した場合に「注視」を判定する。3回未満と判定した場合はステップS12に戻る。この判定により、一定位置に視線データが30回留まっていなくても、ゆっくりと滑らかに視線の対象を追うことも注視であると判定することが可能になる。
After step S18, the video conference terminal 4 determines whether or not the stop has been continued three times (step S19). In the present embodiment, “gazing” is determined when the stop continues three times. If it is determined that the number of times is less than three, the process returns to step S12. By this determination, it is possible to determine that it is also a gaze to follow the target of the line of sight slowly and smoothly even if the line-of-sight data does not stay at a
ビデオ会議端末4は、ステップS18の処理を繰り返し、停留が3回連続で続いたと判定した場合(ステップS19、YES)、「注視」と判定し、その停留拠点を注視拠点に変更する(ステップS110)。 The video conference terminal 4 repeats the process of step S18, and when it is determined that the stop has continued for three consecutive times (step S19, YES), determines that it is "gaze" and changes the stay base to the gaze base (step S110). ).
ビデオ会議端末4は、自分の拠点IDと注視拠点のビデオ会議端末IDを含む注視端末ID信号を生成する(ステップS111)。その後、ビデオ会議端末4は、注視対象のビデオ会議端末に注視端末ID信号を送信する(ステップS112)。 The video conference terminal 4 generates a gaze terminal ID signal including its own base ID and the video conference terminal ID of the gaze base (step S111). Thereafter, the video conference terminal 4 transmits a gaze terminal ID signal to the gaze target video conference terminal (step S112).
なお、停留や注視が起こっている状態で、ステップS14の停留判定において、大きく視線が変化し、停留や注視が終了したと判定された場合(ステップS14、NO)、それらの状態はリセットされる(ステップS113)。 When it is determined that the line of sight changes greatly and the stop and gaze are finished in the stay determination in step S14 while the stay and gaze are occurring (NO in step S14), those states are reset. (Step S113).
また、ビデオ会議端末4は、ステップS113の後、現在注視端末ID信号を送信している状態であるかどうかを判定し(ステップS114)、注視端末ID信号を送信していると判定したとき(ステップS114、YES)、その注視端末ID信号の送信を停止する(ステップS115)。なお、その間は常に、ステップS112での注視端末ID信号は送信され続けているものとする。 Further, after step S113, the video conference terminal 4 determines whether or not it is currently in the state of transmitting the gaze terminal ID signal (step S114), and determines that it is transmitting the gaze terminal ID signal (step S114). In step S114, YES), transmission of the gaze terminal ID signal is stopped (step S115). Note that the gaze terminal ID signal in step S112 is always transmitted during this period.
次に、本実施形態における注視判定処理の一例について図6を参照して説明する。本図は、拠点AにおけるユーザAが画面表示された拠点DにおけるユーザDの撮像に注目している場合の視線データの滞留の状況を示したものである。本図において、「E1」等で示された、数字が付された小円は、映像出力装置9における画面上の視線データが示す位置を表し、小円に付された数字はデータの取得順としている。
Next, an example of gaze determination processing in the present embodiment will be described with reference to FIG. This figure shows the staying state of the line-of-sight data when the user A at the site A is paying attention to the imaging of the user D at the site D displayed on the screen. In the figure, a small circle with a numeral, such as “E1”, represents the position indicated by the line-of-sight data on the screen in the
E1からE2の変化は停留判定の条件1において、停留ではないと判定される。同様に、E3、E4、E5、E6と停留ではないと判定され、E7とE8の変化は上述した停留判定の条件1に該当する。同様にE9、E10〜E16までの変化は停留判定の条件に1該当し、この10データが上述の停留判定の条件2に該当したとすると、視線データE7〜E16が停留しているといえる。また、このときの10データは映像12で示す拠点Dの拠点映像領域内にあるため停留拠点はDとなる。
It is determined that the change from E1 to E2 is not a stop under
次に視線データE17〜E26、E27〜E36も同様に停留拠点はDとなる。ここで、3回連続で停留が起きたので、E37〜E44まで注視しているとみなし、この場合停留判定は行わないものとする。このとき、拠点Aのビデオ会議端末4は、拠点Dのビデオ会議端末に拠点DのIDと自拠点のIDを付した、注視端末ID信号を送信する。 Next, in the line-of-sight data E17 to E26 and E27 to E36, the stop base is D as well. Here, since the stop has occurred three times in succession, it is considered that E37 to E44 are being watched, and in this case, the stop determination is not performed. At this time, the video conference terminal 4 at the site A transmits a gaze terminal ID signal in which the ID of the site D and the ID of its own site are added to the video conference terminal at the site D.
E44からE45の視線データは停留場件の閾値以上の変化をしたので、ここで注視は終了したとする。その際、ビデオ会議端末4は、注視端末ID信号の送信を停止することで、拠点Dのビデオ会議端末に、注視しているタイミングとその長さをリアルタイムに知らせることが可能である。 The gaze data at E44 to E45 has changed by more than the threshold value of the parking lot condition, and it is assumed that the gaze has ended here. At that time, the video conference terminal 4 can notify the video conference terminal of the base D in real time of the watching timing and the length thereof by stopping the transmission of the gaze terminal ID signal.
次に、本実施形態における発話受動通知処理手順について図7を参照して説明する。ここでは、拠点AのユーザAが拠点DのユーザDに向けて発話しているものとし、拠点Dにおける発話受動通知手順を例として説明する。 Next, an utterance passive notification processing procedure according to the present embodiment will be described with reference to FIG. Here, it is assumed that the user A at the site A is speaking toward the user D at the site D, and the passive speech notification procedure at the site D will be described as an example.
まず、拠点Dのビデオ会議端末は、拠点Aのビデオ会議端末4から、映像情報、音声情報の他、注視端末ID信号等を受信する(ステップS21)。 First, the video conference terminal at the site D receives the gaze terminal ID signal and the like from the video conference terminal 4 at the site A in addition to the video information and the audio information (step S21).
次に、拠点Dのビデオ会議端末は、受信した音声データについて、受信データに付された送信元端末IDより、どの拠点の音声なのか解析する(ステップS22)。 Next, the video conference terminal of the base D analyzes the base of the received voice data from the transmission source terminal ID attached to the received data (step S22).
そして、拠点Dのビデオ会議端末は、話者がいるかどうかの話者判定を行う(ステップS23)。拠点Dのビデオ会議端末は、話者がいると判定し(ステップS23、YES)、その話者が発話中であると判定すると、その話者がいる拠点のIDを含む話者ID信号を生成する(ステップS24)。 Then, the video conference terminal of the base D performs speaker determination as to whether or not there is a speaker (step S23). The video conference terminal at the base D determines that there is a speaker (step S23, YES), and when it is determined that the speaker is speaking, generates a speaker ID signal including the ID of the base where the speaker is present (Step S24).
拠点Dのビデオ会議端末は、注視端末ID信号を受信している状態であるとき(ステップS25、YES)、その送信元の拠点と話者ID信号に付されたIDの拠点が一致するかどうかを判定する(ステップS26)。両者が一致すると判定した場合(ステップS26、YES)、拠点Dのビデオ会議端末は、発話受動ID信号を生成する(ステップS27)。 When the video conference terminal of the base D receives the gaze terminal ID signal (YES in step S25), whether the base of the transmission source matches the base of the ID attached to the speaker ID signal Is determined (step S26). When it is determined that the two match (step S26, YES), the video conference terminal at the site D generates an utterance passive ID signal (step S27).
そして、拠点Dのビデオ会議端末は、発話受動通知を開始する(ステップS28)。ここでは、拠点Dのビデオ会議端末は、ビープ音を出力し、ビデオ会議端末の画面内における、発話受動の対象である拠点Aが表示されている拠点映像の枠を赤く表示させることとする(ステップS29)。ステップS29は、発話受動通知が継続されていることを示している。この場合、拠点Aの拠点映像の枠を赤く表示し続けることになる。 Then, the video conference terminal at site D starts utterance passive notification (step S28). Here, the video conference terminal at the site D outputs a beep sound and displays the frame of the site video in which the site A that is the subject of speech passive is displayed in red on the screen of the video conference terminal ( Step S29). Step S29 indicates that the utterance passive notification is continued. In this case, the base image frame of the base A is continuously displayed in red.
次に、拠点Dのビデオ会議端末は、ステップS21に戻り、次の話者判定を行う。まだ話者が発話中である場合(ステップS22⇒ステップS23、YES)、話者ID信号は更新され(ステップS24)、連続で生成され続けることになる。 Next, the video conference terminal at the base D returns to step S21 to perform the next speaker determination. If the speaker is still speaking (step S22⇒step S23, YES), the speaker ID signal is updated (step S24) and continues to be generated continuously.
また、拠点Dのビデオ会議端末は、拠点Aの利用者の視線が大きく変動し、その結果、拠点Aからの注視拠点ID信号を受信しなくなっていた場合(ステップS25、NO)においても、その発話中の発話は拠点Dの利用者に向けたものであるとみなす。すなわち、拠点Dのビデオ会議端末は、ステップS210において、まだ発話受動ID信号を生成し続けているため(ステップS210、YES)、発話受動通知を継続する(ステップS29)。ここで、発話受動ID信号が生成されていな場合(ステップS210、NO)、拠点Dのビデオ会議端末は再びステップS21に戻り、次のデータを受信する(ステップS21)。 Further, the video conference terminal at the site D has a large change in the line of sight of the user at the site A, and as a result, the video conference terminal does not receive the gaze site ID signal from the site A (NO in step S25). The utterance being uttered is considered to be directed to the user at the site D. That is, since the video conference terminal of the base D still generates the utterance passive ID signal in step S210 (step S210, YES), the utterance passive notification is continued (step S29). Here, when the utterance passive ID signal is not generated (step S210, NO), the video conference terminal of the base D returns to step S21 again, and receives the next data (step S21).
拠点Dのビデオ会議端末は、再度各データを受信し、次の判定を行う(ステップS21)。拠点Dのビデオ会議端末は、音声データ解析で一定時間無音状態が続く場合(ステップS22)、話者判定で話者がいないと判定する(ステップS23、NO)。 The video conference terminal at site D receives each data again and makes the next determination (step S21). The video conference terminal at site D determines that there is no speaker in the speaker determination (step S23, NO) when the silent state continues for a certain period of time in the audio data analysis (step S22).
この場合、拠点Dのビデオ会議端末は、発話受動ID信号を停止させ(ステップS211)、発話受動通知を終了する(ステップS212)。また、拠点Dのビデオ会議端末は、この際に画面表示状態を元に戻し、ビープ音を出力することで、拠点DのユーザDに、拠点Aのユーザからの発話に対する答えを、自然に促すことができる。 In this case, the video conference terminal at the site D stops the utterance passive ID signal (step S211), and ends the utterance passive notification (step S212). Also, at this time, the video conference terminal at the site D restores the screen display state to the original state, and naturally prompts the user D at the site D to answer the speech from the user at the site A by outputting a beep sound. be able to.
また、拠点Dのビデオ会議端末は、ステップS26において、話者IDと注視拠点IDが一致しなかった場合は(ステップS26、NO)、自分に向けての発話ではないと判定し、なにもせずにステップS21に戻る。 Further, if the speaker ID and the gaze base ID do not match in step S26 (step S26, NO), the video conference terminal of the base D determines that it is not an utterance directed to itself, Without returning to step S21.
次に、本実施形態における発話受動通知の流れについて図8を参照して説明する。ここでは、拠点AのユーザAが拠点DのユーザDに向けて発言していることを想定し、各拠点のビデオ会議端末で行われる各判定と、ID信号の処理について時系列に説明する。ここで、各機能の処理や伝送遅延等によるレイテンシは起こり得るが、送受信される映像音声データと視線データとの同期は保証されているものとする。 Next, the flow of passive utterance notification in this embodiment will be described with reference to FIG. Here, assuming that the user A at the site A speaks to the user D at the site D, each determination performed at the video conference terminal at each site and the process of the ID signal will be described in time series. Here, latency due to processing of each function, transmission delay, and the like can occur, but it is assumed that synchronization between video / audio data to be transmitted and received and line-of-sight data is guaranteed.
まず、拠点Aのビデオ会議端末4において、ユーザAの視線データが拠点D映像に停留している(ステップS31、これを「停留1」とする。)と、拠点Dのビデオ会議端末において判定される(ステップS41)。ステップS32、ステップS33においても同様に判定されていく。
First, in the video conference terminal 4 of the base A, it is determined in the video conference terminal of the base D that the line-of-sight data of the user A is parked in the base D video (step S31, this is referred to as “
同時に拠点Aのユーザが発話すると、その音声データを受信した拠点Dのビデオ会議端末において、どの拠点の利用者が発話しているのかの話者判定が行われる(ステップS42)。拠点Dのビデオ会議端末において、話者ID信号が生成される(ステップS35)。 At the same time, when a user at the site A speaks, a speaker determination as to which user at the site is speaking is performed at the video conference terminal at the site D that has received the voice data (step S42). A speaker ID signal is generated at the video conference terminal at site D (step S35).
拠点Aにおいて停留が3回連続した際、拠点Dの拠点映像を注視していると判定され(ステップS43)、拠点Aのビデオ会議端末4は、同時に注視拠点ID信号を拠点Dに送信する(ステップ37)。拠点Dのビデオ会議端末4は、注視拠点ID信号を受信する(ステップ38)。このとき、既に話者ID信号が生成されているので、拠点Dのビデオ会議端末は発話受動判定を行う(ステップS44)。 When the stop at the base A continues three times, it is determined that the base video of the base D is being watched (step S43), and the video conference terminal 4 at the base A transmits a watch base ID signal to the base D at the same time ( Step 37). The video conference terminal 4 at the site D receives the gaze site ID signal (step 38). At this time, since the speaker ID signal has already been generated, the video conference terminal at site D performs passive speech determination (step S44).
拠点Dのビデオ会議端末は、注視拠点ID信号と話者ID信号が示す拠点が一致した際、発話受動ID信号を生成する(ステップS39)。また、拠点Dのビデオ会議端末は、発話受動が開始されたことを、ビープ音を出力することでユーザDに通知する(ステップS310)。 The video conference terminal at the site D generates a passive speech ID signal when the gaze site ID signal matches the site indicated by the speaker ID signal (step S39). In addition, the video conference terminal at the site D notifies the user D that the utterance passive has been started by outputting a beep sound (step S310).
その後、拠点Dのビデオ会議端末は、拠点Dにおける画面上に表示されている拠点Aの拠点映像の囲む赤枠を表示させ、発話受動が継続しているということを利用者Dに通知する(ステップS311)。 Thereafter, the video conference terminal of the base D displays the red frame surrounding the base video of the base A displayed on the screen at the base D, and notifies the user D that the speech passive is continuing ( Step S311).
ここで、拠点AのユーザAの視線データが大きく変動し、他の拠点や画面外を見たとき(ステップS36)、拠点Aのビデオ会議端末4は注視拠点ID信号の送信を終了する(ステップS37)。これに伴い、拠点Dにおける注視拠点ID信号の受信も終了する(ステップS38)。一方、拠点Dのビデオ会議端末は、話者ID信号を生成し続けているため(ステップS39)、発話受動通知を終了しない(ステップS311)。 Here, when the line-of-sight data of the user A at the base A fluctuates greatly and looks at another base or out of the screen (step S36), the video conference terminal 4 at the base A ends the transmission of the gaze base ID signal (step S37). Accordingly, the reception of the gaze base ID signal at the base D is also ended (step S38). On the other hand, since the video conference terminal at site D continues to generate the speaker ID signal (step S39), the passive speech notification is not terminated (step S311).
拠点Aにおいて、利用者Aの発話が終了し(ステップS34)、無音状態が一定時間続いたと、拠点Dの話者判定部で判定されると、拠点Dのビデオ会議端末は話者ID信号生成を停止し(ステップS35)、発話受動ID信号の生成も停止する(ステップS39)。 When the speech of the user A ends at the base A (step S34), and it is determined by the speaker determination unit at the base D that the silent state continues for a predetermined time, the video conference terminal at the base D generates the speaker ID signal (Step S35), and the generation of the utterance passive ID signal is also stopped (step S39).
また、拠点Dのビデオ会議端末は、設定しておいた一定時間(以下「設定時間長」とする。)、拠点Aの拠点映像を囲む赤枠表示による発話受動通知(ステップS311)の停止を保留する(ステップS313)。そして、拠点Dのビデオ会議端末は、設定時間長の時間が経過したら、発話受動通知(ステップS311)を停止し、ビープ音を出力することでユーザAの発話が終了したということをユーザDに通知する(ステップS312)。 In addition, the video conference terminal of the base D stops the utterance passive notification (step S311) by the red frame display surrounding the base video of the base A for a set predetermined time (hereinafter referred to as "set time length"). Hold (step S313). When the set time length has elapsed, the video conference terminal at the site D stops the passive utterance notification (step S311) and outputs a beep sound to the user D that the utterance of the user A has ended. Notification is made (step S312).
これにより、拠点Dのユーザは、他拠点のユーザのうち、自分に向けての発話が、誰からされているのかを視覚的に理解することができ、また、その終了タイミングも知ることができるので、自然なタイミングで相手ユーザの発話への返答をすることが可能になる。 As a result, the user at the site D can visually understand who is speaking to him among the users at other sites, and can also know the end timing. Therefore, it becomes possible to reply to the other user's utterance at a natural timing.
以上、本実施形態のビデオ会議システムによれば、ユーザの視線情報を常に追跡し、ユーザが画面内に表示されている、他拠点のユーザの映像を注視しながら発話をしていると判定されたときに、その判定結果に応じて、受信端末で発話者が表示されている領域のみ異なる表示をさせ、発話開始のタイミングと終了のタイミングで通知音を出力させる。これにより、受信端末側のユーザに、自分が誰にいつ発話されているのかを知らせることが可能となる。 As described above, according to the video conference system of the present embodiment, it is determined that the user's line-of-sight information is always tracked and the user is speaking while gazing at the video of the user at the other site displayed on the screen. Depending on the determination result, only the area where the speaker is displayed is displayed differently on the receiving terminal, and the notification sound is output at the start timing and the end timing of the speech. This makes it possible to notify the user on the receiving terminal side who and when he / she is speaking.
また、本実施形態では、拠点双方におけるユーザの視線データを計測せず、発話者側の視線データのみを解析するだけでよく、円滑なコミュニケーションに必要なリアルタイム性に優れている。 Further, in the present embodiment, it is sufficient to analyze only the line-of-sight data on the utterer side without measuring the line-of-sight data of the user at both bases, and it is excellent in real time required for smooth communication.
また、発話長と注視長の差を考慮するため、発話中に発話対象のユーザから目を逸らしても、その発話が終わるまでは、注視対象に向けての発話であると判定され、発話を受けるユーザが、自分に向けての発話であると通知され続けることが可能である。 Also, in order to take account of the difference between the utterance length and the gaze length, even if the user of the utterance target is turned away during the utterance, it is determined that the utterance is directed to the gaze object until the utterance is finished. The receiving user can continue to be notified that the utterance is directed toward him / herself.
なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、上述した本実施形態の情報処理装置及びビデオ会議システムにおける各処理を、ハードウェア、又は、ソフトウェア、あるいは、両者の複合構成を用いて実行することも可能である。 Each of the above-described embodiments is a preferred embodiment of the present invention, and various modifications can be made without departing from the scope of the present invention. For example, each process in the above-described information processing apparatus and video conference system of the present embodiment can be executed using hardware, software, or a combined configuration of both.
なお、ソフトウェアを用いて処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させることが可能である。あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。 In the case of executing processing using software, it is possible to install and execute a program in which a processing sequence is recorded in a memory in a computer incorporated in dedicated hardware. Alternatively, the program can be installed and executed on a general-purpose computer capable of executing various processes.
1 ビデオ会議システム
4 ビデオ会議端末
5 撮像装置
6 カメラ
7 音声入力装置
8 音声出力装置
9 映像出力装置
10 入出力装置群
14 ネットワーク
15 映像入力部
16 データ送信部
17 注目情報生成部
18 音声取得部
21 データ受信部
22 話者判定部
23 話者識別信号生成部
24 発話受動判定部
25 出力部
251 発話受動通知部
DESCRIPTION OF
Claims (12)
前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する発話受動判定手段と、
前記発話受動判定手段により前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段と
を備えることを特徴とする端末。 Imaging information obtained by imaging another user using the other terminal from another terminal connected via a network, voice information emitted in the vicinity of the other terminal, and the other user focusing on the own terminal Receiving means for receiving attention information indicating that
Utterance passive determination means for determining whether or not the other terminal of the transmission source of the voice information matches the other terminal of the transmission source of the attention information;
A terminal comprising: utterance passive notification means for notifying an utterance from the other user who uses the other terminal to the own terminal when it is determined by the utterance passive determination means that the other terminal matches.
前記発話受動通知手段は、前記発話受動判定手段により一致すると判定された前記他端末を使用する他ユーザの前記表示手段により表示される撮像情報を、該他ユーザからの発話受動を自端末のユーザが認識し得る表示態様に変更するよう前記表示手段を制御することを特徴とする請求項1記載の端末。 A display unit configured to display imaging information of the other user received by the reception unit;
The said utterance passive notification means is the user of the terminal of the utterance passive from the other user, the imaging information displayed by the display means of the other user who uses the other terminal determined to match by the utterance passive determination means. The terminal according to claim 1, characterized in that the display means is controlled to change to a display mode that can be recognized.
前記他端末は、
撮像装置により撮像された前記他端末を使用する他ユーザの撮像情報を取得する撮像情報取得手段と、
前記他端末の近傍で発せられた音声情報を取得する音声情報取得手段と、
少なくとも前記自端末から受信した該自端末を使用する自ユーザを撮影した撮像情報を前記他端末以外の他端末から受信した前記他端末以外の他端末を撮影した撮像情報と共に同一画面上に並べて表示する表示手段と、
前記撮像情報取得手段により取得された前記他端末を使用する他ユーザの撮像情報を解析して、前記表示手段により表示された前記自端末を使用する自ユーザの撮像情報に前記他端末を使用する他ユーザが注目していることを示す注目情報を生成する注目情報生成手段と、
前記撮影情報取得手段により取得された前記他端末を使用する他ユーザの撮像情報、前記音声情報取得手段により取得した前記他端末の近傍で発せられた音声情報、前記注目情報生成手段により生成された注目情報を前記自端末に送信する送信手段と
を備え、
前記自端末は、
前記他端末から、該他端末を使用する他ユーザを撮影した撮像情報と、該他端末の近傍で発せられた音声情報と、前記注目情報とを受信する受信手段と、
前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する発話受動判定手段と、
前記発話受動判定手段により前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段と
を備える
ことを特徴とするビデオ会議システム。 A video conference system in which an own terminal and two or more other terminals are connected via a network,
The other terminal is
Imaging information acquisition means for acquiring imaging information of another user who uses the other terminal imaged by the imaging device;
Voice information acquisition means for acquiring voice information emitted near the other terminal;
Displayed on the same screen together with imaging information obtained by imaging at least the other user other than the other terminal received from the other terminal other than the other terminal. Display means to
The imaging information of the other user using the other terminal acquired by the imaging information acquiring means is analyzed, and the other terminal is used for the imaging information of the own user using the own terminal displayed by the display means Attention information generation means for generating attention information indicating that another user is looking at;
Imaging information of another user using the other terminal acquired by the imaging information acquiring means, audio information emitted in the vicinity of the other terminal acquired by the audio information acquiring means, generated by the attention information generating means And sending means for sending attention information to the terminal.
The terminal itself
Receiving means for receiving, from the other terminal, imaging information obtained by imaging the other user who uses the other terminal, voice information emitted in the vicinity of the other terminal, and the attention information;
Utterance passive determination means for determining whether or not the other terminal of the transmission source of the voice information matches the other terminal of the transmission source of the attention information;
A video conference system comprising: utterance passive notification means for notifying an utterance from another user who uses the other terminal to the own terminal when it is determined by the utterance passive determination means that the other terminal matches.
前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する処理と、
前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する処理と
をコンピュータに実行させることを特徴とするプログラム。 From other terminals connected via the network, imaging information obtained by photographing other users who use the other terminals, audio information emitted in the vicinity of the other terminals, and the other users paying attention to the own terminal A process of receiving attention information indicating that information and storing it in the storage unit;
A process of determining whether the other terminal as the transmission source of the voice information and the other terminal as the transmission source of the attention information match;
A program for causing a computer to execute a process of notifying an utterance from another user using the other terminal to the own terminal when it is determined that the other terminals match.
前記他端末は、
撮像装置により撮像された前記他端末を使用する他ユーザの撮像情報を取得して前記他端末の記憶部に記憶する処理と、
前記他端末の近傍で発せられた音声情報を取得して前記他端末の記憶部に記憶する処理と、
少なくとも前記自端末から受信した該自端末を使用する自ユーザを撮影した撮像情報を前記他端末以外の他端末から受信した前記他端末以外の他端末を撮影した撮像情報と共に同一画面上に並べて前記他端末の表示部に表示する処理と、
前記他端末の記憶部に記憶された前記他端末を使用する他ユーザの撮像情報を解析して、前記表示部に表示された前記自端末を使用する自ユーザの撮像情報に前記他端末を使用する他ユーザが注目していることを示す注目情報を生成して前記他端末の記憶部に記憶する処理と、
前記他端末の記憶部に記憶された前記他端末を使用する他ユーザの撮像情報と、前記他端末の近傍で発せられた音声情報と、前記注目情報を前記自端末に送信する処理と
を含み、
前記自端末は、
前記他端末から該他端末を使用する他ユーザを撮影した撮像情報と、該他端末の近傍で発せられた音声情報と、前記注目情報を受信して前記自端末の記憶部に記憶する処理と、
前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する処理と、
前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する処理と
を含むことを特徴とするプログラム。 A computer readable program to be executed by a video conference system in which an own terminal and two or more other terminals are connected via a network,
The other terminal is
A process of acquiring imaging information of another user who uses the other terminal imaged by the imaging device and storing the acquired imaging information in the storage unit of the other terminal;
A process of acquiring voice information emitted in the vicinity of the other terminal and storing it in a storage unit of the other terminal;
The imaging information obtained by imaging at least the own user using the own terminal received from the own terminal is arranged on the same screen along with the imaging information obtained by imaging the other terminal other than the other terminal received from the other terminal other than the other terminal Processing to be displayed on the display unit of the other terminal;
The imaging information of the other user using the other terminal stored in the storage unit of the other terminal is analyzed, and the other terminal is used for the imaging information of the own user using the own terminal displayed on the display unit A process of generating attention information indicating that another user is paying attention and storing the attention information in the storage unit of the other terminal;
It includes processing of transmitting imaging information of another user who uses the other terminal stored in the storage unit of the other terminal, voice information emitted in the vicinity of the other terminal, and the attention information to the own terminal ,
The own terminal is
A process of receiving imaging information obtained by imaging another user using the other terminal from the other terminal, voice information emitted in the vicinity of the other terminal, and the attention information and storing the information in a storage unit of the own terminal ,
A process of determining whether the other terminal as the transmission source of the voice information and the other terminal as the transmission source of the attention information match;
A program including: a process of notifying an utterance from another user who uses the other terminal to the own terminal when it is determined that the other terminal matches.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015120357A JP6550951B2 (en) | 2015-06-15 | 2015-06-15 | Terminal, video conference system, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015120357A JP6550951B2 (en) | 2015-06-15 | 2015-06-15 | Terminal, video conference system, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017005616A JP2017005616A (en) | 2017-01-05 |
| JP6550951B2 true JP6550951B2 (en) | 2019-07-31 |
Family
ID=57752454
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015120357A Expired - Fee Related JP6550951B2 (en) | 2015-06-15 | 2015-06-15 | Terminal, video conference system, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6550951B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE112021006311T5 (en) * | 2020-12-04 | 2023-10-12 | Sony Group Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, PROGRAM AND INFORMATION PROCESSING SYSTEM |
| WO2023233482A1 (en) * | 2022-05-30 | 2023-12-07 | 日本電信電話株式会社 | Conversation support device, conversation support method, and program |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07162532A (en) * | 1993-12-07 | 1995-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Multipoint communication conference Communication support device |
| JP2000184354A (en) * | 1998-12-18 | 2000-06-30 | Fujitsu General Ltd | Image transmission system |
| JP2003244669A (en) * | 2002-02-14 | 2003-08-29 | Matsushita Electric Ind Co Ltd | Video conference system with gaze detection function |
| US8947493B2 (en) * | 2011-11-16 | 2015-02-03 | Cisco Technology, Inc. | System and method for alerting a participant in a video conference |
| EP2642752A1 (en) * | 2012-03-23 | 2013-09-25 | Alcatel Lucent | Method, server, and terminal for conducting a video conference |
-
2015
- 2015-06-15 JP JP2015120357A patent/JP6550951B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2017005616A (en) | 2017-01-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110944143B (en) | Video conference device and video conference method | |
| JP6651989B2 (en) | Video processing apparatus, video processing method, and video processing system | |
| JP4356663B2 (en) | Camera control device and electronic conference system | |
| JP2021107873A (en) | Voice characteristic change system and voice characteristic change method | |
| JP2017118364A (en) | Communication system, communication device and communication program | |
| JP2015126524A (en) | Remote conference program, terminal device, and remote conference method | |
| JP2004129071A (en) | Two-way communication system | |
| JP6544209B2 (en) | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM | |
| WO2018158852A1 (en) | Telephone call system and communication system | |
| JP2000156849A (en) | Portable information terminal | |
| JP6550951B2 (en) | Terminal, video conference system, and program | |
| US12347235B2 (en) | Establishing private communication channels | |
| JP6149433B2 (en) | Video conference device, video conference device control method, and program | |
| JPWO2014192133A1 (en) | Information processing apparatus, information processing method, and information processing program | |
| CN106896917B (en) | Method, device and electronic device for assisting users to experience virtual reality | |
| KR20130096983A (en) | Method and apparatus for processing video information including face | |
| JP6543891B2 (en) | Communication aid device, communication aid system, communication aid method and program | |
| TWI866802B (en) | Intelligent assisting system for video equipment | |
| JP5143114B2 (en) | Preliminary motion detection and transmission method, apparatus and program for speech | |
| JP2025081287A (en) | Information processing system and program | |
| US11928253B2 (en) | Virtual space control system, method for controlling the same, and control program | |
| JP2010004480A (en) | Imaging apparatus, control method thereof and program | |
| US20160142885A1 (en) | Voice call prompting method and device | |
| JP5388032B2 (en) | Remote communication system, control device, control method and program | |
| US20180285632A1 (en) | Information processing apparatus, information processing method, information processing program, and information processing system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180517 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20180706 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190523 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190604 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190617 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6550951 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| LAPS | Cancellation because of no payment of annual fees |