JP7687433B2 - Utterance desire estimation device, utterance desire estimation method, and program - Google Patents
Utterance desire estimation device, utterance desire estimation method, and program Download PDFInfo
- Publication number
- JP7687433B2 JP7687433B2 JP2023561954A JP2023561954A JP7687433B2 JP 7687433 B2 JP7687433 B2 JP 7687433B2 JP 2023561954 A JP2023561954 A JP 2023561954A JP 2023561954 A JP2023561954 A JP 2023561954A JP 7687433 B2 JP7687433 B2 JP 7687433B2
- Authority
- JP
- Japan
- Prior art keywords
- desire
- speak
- user
- speech
- operation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Description
本発明は、リモート会議においてユーザの発話欲求を推定する技術に関する。 The present invention relates to a technology for estimating a user's desire to speak during a remote conference.
Web会議などのリモート会議において、映像の不鮮明さやネットワーク遅延などの影響により、リアルでの対面コミュニケーションと比較して、発話したがっている人(発話欲求のある人)を把握することは困難である。 In remote meetings such as web conferences, it is difficult to identify people who want to speak (people who have a desire to speak) compared to real face-to-face communication due to factors such as blurred video images and network delays.
特許文献1は、カメラ及びマイクからユーザ(リモート会議の参加者)の振る舞いを取得し、ユーザの発話欲求の度合いを算出して表示する技術を開示している。当該技術によれば、各ユーザは誰が発話したがっているかを容易に把握することができる。 Patent Document 1 discloses a technology that obtains the behavior of users (participants in a remote conference) from a camera and microphone, and calculates and displays the degree of the user's desire to speak. This technology allows each user to easily grasp who wants to speak.
しかしながら、リモート会議ではカメラやマイクをオフにすることで回線圧迫や雑音などによるコミュニケーションの阻害を防ぐことがしばしば行われており、映像や音声を使用した発話欲求推定を実施し難いという問題がある。However, in remote meetings, cameras and microphones are often turned off to prevent communication from being hindered by line congestion or noise, making it difficult to estimate the desire to speak using video and audio.
本発明は、映像及び音声情報を利用せずにユーザの発話欲求を推定する技術を提供することを目的とする。 The present invention aims to provide a technology that estimates a user's desire to speak without using video and audio information.
本発明の一態様に係る発話欲求推定装置は、通信ネットワークを介したリモート会議に使用される複数の会議装置のうちの第1の会議装置に設けられ、前記リモート会議中にユーザが前記第1の会議装置に対して行った操作を示す操作情報を生成する操作情報生成部と、前記生成された操作情報に基づいて、前記ユーザが発話を欲求する度合いを示す発話欲求度合いを算出する発話欲求度合い算出部と、前記算出された発話欲求度合いに基づく情報を前記複数の会議装置のうちの第2の会議装置に送信する通信部と、を備える。A speech desire estimation device according to one embodiment of the present invention is provided in a first conference device among a plurality of conference devices used for a remote conference via a communication network, and comprises: an operation information generation unit that generates operation information indicating an operation performed by a user on the first conference device during the remote conference; a speech desire degree calculation unit that calculates a speech desire degree indicating the degree to which the user desires to speak based on the generated operation information; and a communication unit that transmits information based on the calculated speech desire degree to a second conference device among the plurality of conference devices.
本発明によれば、映像及び音声情報を利用せずにユーザの発話欲求を推定する技術が提供される。 The present invention provides a technology for estimating a user's desire to speak without using video and audio information.
以下、図面を参照して本発明の実施形態を説明する。 Below, an embodiment of the present invention is described with reference to the drawings.
実施形態は、異なる場所に存在する複数のユーザが通信ネットワークに接続された複数の会議装置を用いてリモート会議を行う会議システムに関する。一実施形態では、各会議装置は、当該会議装置を使用するユーザの発話欲求を推定する発話欲求推定装置を備える。発話欲求推定装置は、リモート会議中にユーザが会議装置に対して行った操作に基づいてユーザの発話欲求度合いを算出し、算出した発話欲求度合いに基づく情報を他の会議装置に送信する。発話欲求度合いは、ユーザが発話することを欲求する度合い(程度)を示す。各会議装置は、他の会議装置から他のユーザの発話欲求度合いを示す情報を受信し、受信した情報をユーザに提示する。実施形態に係る会議システムによれば、映像及び音声情報を利用せずに各ユーザの発話欲求を推定することが可能となり、各ユーザは他のユーザが発話を望んでいるか否かを容易に判断することが可能となる。その結果、発話の衝突を回避することが可能となる。The embodiment relates to a conference system in which multiple users in different locations hold a remote conference using multiple conference devices connected to a communication network. In one embodiment, each conference device is equipped with an utterance desire estimation device that estimates the utterance desire of the user using the conference device. The utterance desire estimation device calculates the degree of the user's utterance desire based on the operation performed by the user on the conference device during the remote conference, and transmits information based on the calculated utterance desire degree to other conference devices. The utterance desire degree indicates the degree (degree) of the user's desire to speak. Each conference device receives information indicating the utterance desire degree of other users from other conference devices, and presents the received information to the user. According to the conference system of the embodiment, it is possible to estimate the utterance desire of each user without using video and audio information, and each user can easily determine whether or not other users want to speak. As a result, it is possible to avoid collisions in speech.
<第1の実施形態>
[構成]
図1は、第1の実施形態に係る会議システム10を概略的に示している。図1に示すように、会議システム10は、複数のユーザがそれぞれ使用する複数のクライアント11と、通信ネットワーク19を介してクライアント11に接続されたサーバ12と、を備える。通信ネットワーク19は、インターネット、イントラネット、又はインターネットとイントラネットの組み合わせを含んでよい。サーバ12はクライアント11間でデータを中継する。例えば、サーバ12は、通信ネットワーク19を介してクライアント11からデータを受け取り、受け取ったデータを通信ネットワーク19を介して他のクライアント11に転送する。
First Embodiment
[composition]
Fig. 1 is a schematic diagram of a
各クライアント11は、パーソナルコンピュータ(PC)などのコンピュータであり得る。クライアント11は、通信ネットワーク19を介したリモート会議に使用される会議装置に相当する。本実施形態では、クライアント11は、リモート会議アプリケーションを実行することにより会議装置として機能する。他の実施形態では、クライアント11は、ブラウザを使用してサーバ12にアクセスすることにより会議装置として機能してよい。Each
クライアント11は互いに同じ又は同様の構成を有することができる。以下では、代表として1つのクライアント11の構成について説明する。
The
図2は、本実施形態に係るクライアント11の機能構成を概略的に示している。図2に示すように、クライアント11は、制御部21、入力部22、出力部23、通信部24、操作情報生成部25、発話欲求度合い算出部26、及び記憶部29を備える。記憶部29は、操作情報記憶部291及びルール記憶部292を備える。制御部21、操作情報生成部25、及び発話欲求度合い算出部26を処理部27と総称する。制御部21、通信部24、操作情報生成部25、発話欲求度合い算出部26、操作情報記憶部291、及びルール記憶部292は、本実施形態に係る発話欲求推定装置に相当する。
Figure 2 shows a schematic functional configuration of the
制御部21は、クライアント11の動作を制御する。具体的には、制御部21は、入力部22、出力部23、通信部24、操作情報生成部25、発話欲求度合い算出部26、及び記憶部29を制御する。The
入力部22は、ユーザからの入力を受け取り、受け取った入力を制御部21に送出する。図2に示す例では、入力部22は、マウス221、カメラ222、及びマイク223を備える。マウス221は、ユーザがクライアント11を操作することを可能にする。例えば、マウス221は、ユーザがリモート会議アプリケーションにより提供されるユーザインタフェースを操作することを可能にする。マウス221に代えて又は追加して、タッチパッド(トラックパッド)、タッチパネル、キーボードなどを使用してもよい。カメラ222は、ユーザを撮像してユーザの映像を示す映像データを生成する。カメラ222はカメラ222をオンとオフとの間で切り替える物理ボタンを備えていてもよい。マイク223は、ユーザが発した音声を集音してユーザの音声を示す音声データを生成する。マイク223はマイク223をオンとオフとの間で切り替える物理ボタンを備えていてもよい。制御部21は、カメラ222から映像データ及びマイク223から音声データを受け取り、通信部24を介して他のクライアント11に映像データ及び音声データを送信する。The
出力部23は、制御部21により生成された情報をユーザに対して出力する。図2に示す例では、出力部23は、表示装置231及びスピーカ232を備える。表示装置231は、液晶表示装置などのディスプレイであり、制御部21により生成された画像を表示する。例えば、制御部21は、リモート会議アプリケーションにより提供されるユーザインタフェースを含む画像を生成し、表示装置231は、ユーザインタフェースを含む画像を表示する。ユーザインタフェースは、他のユーザの映像を表示する領域を含む。制御部21は、通信部24を介して他のクライアント11から他のユーザの映像データを受信し、ユーザインタフェースに他のユーザの映像を表示するために、受信した映像データをユーザインタフェースに適用する。スピーカ232は、制御部21により供給される音響データに応じた音を発する。例えば、制御部21は、通信部24を介して他のクライアント11から他のユーザの音声データを受信し、スピーカ232が他のユーザの音声を出力するように、受信した音声データをスピーカ232に送出する。The
図3は、リモート会議アプリケーションにより提供されるリモート会議に関するユーザインタフェース30を概略的に示している。図3に示す例では、ユーザインタフェース30は、映像領域31及びコントロールバー32を含む。映像領域31は、他のユーザの映像を表示する領域である。コントロールバー32は、ミュートボタン321、オーディオ設定ボタン322、映像ボタン323、及び映像設定ボタン324を含む。
Figure 3 shows a schematic diagram of a
ミュートボタン321は、音声入力をオン(有効)とオフ(無効)との間で切り替えるためのボタンである。音声入力がオンである状態でミュートボタン321がクリックされると、音声入力がオフに切り替わり、音声入力がオフである状態でミュートボタン321がクリックされると、音声入力がオンに切り替わる。音声入力がオンである状態では、マイク223により得られた音声データが他のクライアント11に送出され、音声入力がオフである状態では、マイク223により得られた音声データは他のクライアント11に送出されない。
The
オーディオ設定ボタン322は、オーディオ関連リストを表示するためのボタンである。オーディオ関連リストは、マイク設定及びスピーカ設定などの複数の項目を含む。マイク設定の項目が選択される(クリックされる)と、マイク223を設定するためのマイク設定画面が表示される。マイク設定画面では、マイク223の音量を調節することが可能である。
The
映像ボタン323は、映像入力をオンとオフとの間で切り替えるためのボタンである。映像入力がオンである状態で映像ボタン323がクリックされると、映像入力がオフに切り替わり、映像入力がオフである状態で映像ボタン323がクリックされると、映像入力がオンに切り替わる。映像入力がオンである状態では、カメラ222により得られた映像データが他のクライアント11に送信され、映像入力がオフである状態では、カメラ222により得られた映像データは他のクライアント11に送信されない。
映像設定ボタン324は、映像関連リストを表示するためのボタンである。映像関連リストは、カメラ切り替え及びカメラ設定などの複数の項目を含む。カメラ設定の項目が選択されると、使用中のカメラ222を設定するためのカメラ設定画面が表示される。カメラ設定画面では、使用中のカメラ222により得られている映像が表示される。
The
図2を再び参照すると、通信部24は、通信ネットワーク19及びサーバ12を介して他のクライアント11と通信する。通信部24は、制御部21から受け取ったリモート会議に関連する情報を他のクライアント11に送信する。例えば、通信部24は、カメラ222により得られた映像データ及びマイク223により得られた音声データを他のクライアント11に送信する。通信部24は、他のクライアント11からリモート会議に関連する情報を受信し、受信した情報を制御部21に送出する。例えば、通信部24は、他のクライアント11から他のクライアント11により得られた映像データ及び音声データを受信する。
Returning to FIG. 2, the
操作情報生成部25は、リモート会議中にユーザにより行われたクライアント11の操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。操作情報は、ユーザがリモート会議中にクライアント11に対して行った操作を示す情報、具体的には、ユーザがリモート会議中にリモート会議アプリケーションにより提供されるユーザインタフェースに対して行った操作を示す情報を含む。記録対象となる操作の例は、ミュートボタン321上へのカーソル配置、音声入力のオフからオンへの切り替え、マイク設定画面の表示、スピーカ設定画面の表示、カメラ設定画面の表示、リモート会議アプリケーションのフォアグラウンドへの移行、リモート会議アプリケーションのバックグラウンドへの移行、発話などを含む。リモート会議アプリケーションがフォアグラウンドで動作している状態は、ユーザがリモート会議アプリケーションを操作できるアクティブな状態を指す。リモート会議アプリケーションがバックグラウンドで動作している状態は、リモート会議アプリケーションは動作しているが、ユーザがリモート会議アプリケーションを操作できない状態を指す。操作情報生成部25は、制御部21から、ユーザにより行われたマウス221の操作を示すマウス操作情報及び表示装置231に表示する画像を示す画面情報を受け取る。操作情報生成部25は、操作情報及び画面情報から、ユーザインタフェースに対する操作を検出することができる。例えば、操作情報生成部25は、操作情報及び画面情報から、ユーザインタフェース上でのカーソルの位置を検出することができる。例えば、操作情報生成部25は、カーソルがミュートボタン321上へ移動してミュートボタン321上に留まっていることを検出し、ミュートボタン321上へのカーソル配置という操作に関する操作情報を生成する。The operation
図4は、操作情報記憶部291に記憶される操作情報の例を概略的に示している。各操作は1つのレコード(エントリ)で管理される。図4に示す例では、各レコードは、データ項目として、識別子(No.)、操作種、開始タイム、終了タイム、継続時間、操作フラグを含む。識別子は操作を識別する情報を示す。例えば識別子は操作が行われた順番を表す。操作種は操作の種類を示す。開始タイムは操作が開始された時間を示す。終了タイムは操作が終了した時間を示す。継続時間は操作が行われた時間長を示す。操作フラグは操作が継続中であるか否かを示す。操作フラグ“-”は操作が終了していることを表し、操作フラグ“○”は操作が継続中であることを表す。
Figure 4 shows a schematic example of operation information stored in the operation
図2を再び参照すると、発話欲求度合い算出部26は、操作情報記憶部291に記憶されている操作情報に基づいて、ユーザの発話欲求度合いを算出する。本実施形態では、0から1までの範囲の値を取り、ユーザが発話を欲求する度合いが高いほど値が大きくなるように、発話欲求度合いを定義する。2 again, the speech desire
本実施形態では、ルールベースで発話欲求度合いを算出する。ルール記憶部292は予め定められた発話欲求推定ルールを記憶する。発話欲求度合い算出部26は、ユーザの発話欲求度合いを算出するために、ルール記憶部292に記憶されている発話欲求推定ルールを参照する。発話欲求推定ルールは、発話欲求と推定される操作の種類を指定する情報を含む。発話欲求と推定される操作の例は、ミュートボタン上へのカーソル配置、音声入力のオフからオンへの切り替え、マイク設定画面表示、カメラ設定画面表示、及びリモート会議アプリケーションのフォアグラウンドへの移行を含む。In this embodiment, the degree of desire to speak is calculated on a rule basis. The
一般に、ユーザがリモート会議で音声入力及び/又は映像入力がオフになっている状態から発話する場合には、以下のような行動を行うことが多い。
(1)ユーザは、現在の発話者の発話が終わった直後に音声入力をオフからオンに切り替えられるようにミュートボタンの上にカーソルを置き、現在の発話者の発話が終わるのを待つ。
(2)ユーザは、ミュートボタンをクリックして音声入力をオフからオンに切り替えたうえで、現在の発話者の発話が終わるのを待つ。
(3)ユーザは、マイク設定画面を表示させ、マイクの音量を確認する。
(4)ユーザは、カメラ設定画面を表示させ、カメラに映る映像を確認する。
(5)ユーザは、リモート会議アプリケーションをフォアグラウンドに復帰させる。
Generally, when a user speaks during a remote conference in a state where audio input and/or video input is turned off, the user often performs the following actions.
(1) The user places the cursor over the mute button so that voice input can be switched from off to on immediately after the current speaker finishes speaking, and waits for the current speaker to finish speaking.
(2) The user clicks the mute button to switch the voice input from off to on, and then waits for the current speaker to finish speaking.
(3) The user displays the microphone settings screen and checks the microphone volume.
(4) The user displays the camera setting screen and checks the image captured by the camera.
(5) The user returns the remote conferencing application to the foreground.
上記のような発話前によく行われる行動(発話の事前行動)が発話欲求と推定される操作として採用される。以下では、発話欲求と推定される操作を対象操作とも称する。ミュートボタン上へのカーソル配置、マイク設定画面表示、及びカメラ設定画面表示は、継続的な対象操作であり、音声入力のオフからオンへの切り替え、及びリモート会議アプリケーションのフォアグラウンドへの移行は、瞬間的な対象操作である。発話欲求度合い算出部26は、対象操作に合致する操作がユーザの直前の発話(ユーザがまだ発話を行っていない場合は、リモート会議への参加時又はリモート会議の開始時)以降に発生した場合にユーザが発話欲求状態にあると推定する。The behaviors that are often performed before speaking as described above (pre-speech behaviors) are adopted as operations that are estimated to indicate a desire to speak. Hereinafter, operations that are estimated to indicate a desire to speak are also referred to as target operations. Placing the cursor on the mute button, displaying the microphone setting screen, and displaying the camera setting screen are continuous target operations, while switching the audio input from off to on and moving the remote conference application to the foreground are momentary target operations. The desire to speak
発話欲求度合い算出部26は、ユーザが直前の発話以降に行った操作のそれぞれについて、操作が発話の事前行動である可能性を示すスコアを算出し、算出したスコアに基づいて発話欲求度合いを算出する。発話欲求推定ルールは、継続的な対象操作のそれぞれについて設定される基準時間を含んでよい。各対象操作の基準時間は操作のスコアを算出するために使用される。一例として、ミュートボタン上へのカーソル配置に関する基準時間は5秒に設定され、マイク設定画面表示に関する基準時間は5秒に設定され、カメラ設定画面表示に関する基準時間は10秒に設定される。The speech desire
操作がミュートボタン上へのカーソル配置などの継続的な対象操作である場合、発話欲求度合い算出部26は、操作の継続時間と対象操作に関する基準時間とから操作のスコアを算出する。例えば、操作の継続時間が対象操作に関する基準時間以上である場合、発話欲求度合い算出部26は操作のスコアを1と決定する。操作の継続時間が対象操作に関する基準時間を下回る場合、発話欲求度合い算出部26は、操作の継続時間と対象操作に関する基準時間との差又は比に基づいて操作のスコアを算出する。操作の継続時間をD、当該操作に一致する対象操作に関する基準時間をR、操作のスコアをSとすると、S=D/Rである。この例において、継続時間Dが2秒であり、基準時間Rが5秒である場合、スコアSは0.4である。なお、スコアは線形関数以外の関数で算出されてもよい。例えば、S=(D/R)2であってもよい。この例において、継続時間Dが2秒であり、基準時間Rが5秒である場合、スコアSは0.16である。
When the operation is a continuous target operation such as placing the cursor on the mute button, the speech desire
例えばユーザが音声入力をオンにするためにカーソルをミュートボタン321に移動させた直後にミュートボタン321をクリックすることがある。ユーザが音声入力をオンにするためにミュートボタン321をクリックした場合には、発話欲求度合い算出部26は、ミュートボタン上へのカーソル配置の継続時間に関わらず、ミュートボタン上へのカーソル配置という操作のスコアを1に決定してもよい。For example, the user may click the
操作がリモート会議アプリケーションのフォアグラウンドへの移行などの瞬間的な対象操作である場合、発話欲求度合い算出部26は、操作のスコアを1に決定する。
If the operation is a momentary target operation, such as moving a remote conference application to the foreground, the desire to speak
操作がいずれの対象操作でもない場合、発話欲求度合い算出部26は、操作のスコアを0に決定する。
If the operation is not one of the target operations, the speech desire
操作間に一定時間以上の空きがある場合には、発話欲求度合い算出部26は、当該期間に1つの操作(操作種“無操作”)が発生したと見なし、その操作のスコアを0に決定してよい。発話欲求推定ルールは上記一定時間を示す情報を含んでよい。If there is a certain amount of time or more between operations, the speech desire
発話欲求度合い算出部26は、操作ごとに算出されたスコアの平均を発話欲求度合いとする。代替として、発話欲求度合い算出部26は、操作ごとに算出されたスコアの荷重平均を発話欲求度合いとして得てもよい。一例として、現時刻の30秒前から現時刻までに発生した操作に関する重みを1とし、現時刻の60秒前から現時刻の30秒前までに発生した操作に関する重みを0.9と、現時刻の90秒前から現時刻の60秒前までに発生した操作に関する重みを0.8などとする。他の例では、ユーザが現在行っている操作に関する重みを1とし、1つ前の操作に関する重みを0.9とし、2つ前の操作に関する重みを0.8などとする。The speech desire
制御部21は、通信部24を介して他のクライアント11に、ユーザの発話欲求度合いに基づくユーザ情報を送信する。例えば、制御部21は、ユーザ情報を他のクライアント11に送信するために通信部24を駆動する。ユーザ情報は、ユーザの発話欲求度合いそのものを含んでよい。代替として、ユーザ情報は、ユーザに発話欲求があることを通知する情報を含んでいてもよい。例えば、制御部21は、発話欲求度合い算出部26により算出された発話欲求度合いが所定の閾値を超えた場合に、他のクライアント11に、ユーザに発話欲求があることを通知する。The
制御部21は、通信部24を介して他のクライアント11から、他のユーザの発話欲求度合いに基づくユーザ情報を受信する。制御部21は、受信したユーザ情報をユーザインタフェースに適用する。ユーザ情報が発話欲求度合いを含む例では、制御部21は、各ユーザの映像に紐づけて各ユーザの発話欲求度合いを表示するようにしてよい。代替として、制御部21は、発話欲求度合いが所定の閾値を超えたユーザの映像を強調するようにしてもよい。例えば、制御部21は、発話欲求度合いが所定の閾値を超えたユーザの映像を赤枠で囲ったり、発話欲求度合いが所定の閾値を超えたユーザの映像に印を付与したりしてよい。The
図5は、クライアント11のハードウェア構成例を概略的に示している。図5に示すように、クライアント11は、ハードウェア構成要素として、図2に示したマウス221、カメラ222、マイク223、表示装置231、及びスピーカ232に加えて、コンピュータ50を備える。
Figure 5 shows a schematic diagram of an example hardware configuration of
コンピュータ50は、CPU(Central Processing Unit)51、RAM(Random Access Memory)52、プログラムメモリ53、ストレージデバイス54、入出力インタフェース55、及び通信インタフェース56を備える。CPU51は、RAM52、プログラムメモリ53、ストレージデバイス54、入出力インタフェース55、及び通信インタフェース56と通信可能に接続される。The
CPU51はプロセッサの一例である。プロセッサとして、他の汎用回路を使用してもよく、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用回路を使用してもよい。The
RAM52はSDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。RAM52はワーキングメモリとしてCPU51により使用される。プログラムメモリ53は、発話欲求推定プログラムを含むリモート会議アプリケーションなど、CPU51により実行されるプログラムを記憶する。プログラムはコンピュータ実行可能命令を含む。プログラムメモリ53として例えばROM(Read Only Memory)が使用される。ストレージデバイス54の一部領域がプログラムメモリ53として使用されてもよい。CPU51は、プログラムメモリ53に記憶されたプログラムをRAM52に展開し、プログラムを解釈及び実行する。リモート会議アプリケーションは、CPU51により実行されると、処理部27に関して説明される一連の処理をCPU51に行わせる。言い換えると、CPU51は、リモート会議アプリケーションに従って、制御部21、操作情報生成部25、及び発話欲求度合い算出部26として機能する。なお、発話欲求推定プログラムはリモート会議アプリケーションとは別のプログラムとして設けられてもよい。発話欲求推定プログラムは、CPU51により実行されると、発話欲求推定に関連する一連の処理をCPU51に行わせる。The
プログラムは、コンピュータで読み取り可能な記録媒体に記憶された状態でコンピュータ50に提供されてよい。この場合、コンピュータ50は、記録媒体からデータを読み出すドライブを備え、記録媒体からプログラムを取得する。記録媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、及び半導体メモリを含む。また、プログラムはネットワークを通じて配布するようにしてもよい。具体的には、プログラムをネットワーク上のサーバに格納し、コンピュータ50がサーバからプログラムをダウンロードするようにしてもよい。The program may be provided to the
ストレージデバイス54は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性メモリを含む。ストレージデバイス54はデータを記憶する。ストレージデバイス54は、記憶部29、具体的には、操作情報記憶部291及びルール記憶部292として機能する。The
入出力インタフェース55は周辺機器と通信するためのインタフェースである。マウス221、カメラ222、マイク223、表示装置231、及びスピーカ232は入出力インタフェース55によりコンピュータ50に接続される。コンピュータ50がノート型PCである例では、カメラ222、マイク223、表示装置231、及びスピーカ232はコンピュータ50に内蔵されたものであり得る。The input/
通信インタフェース56は、通信ネットワーク19に接続される外部装置(例えば図1に示すサーバ12及び他のクライアント11)と通信するためのインタフェースである。通信インタフェース56は、有線モジュール及び/又は無線モジュールを備える。通信インタフェース56は通信部24として機能する。The
[動作]
図6は、図2に示したクライアント11により実行される発話欲求推定方法を概略的に示している。ここでは、現時刻において他のユーザが発話しているものとする。
[Operation]
Fig. 6 shows an outline of a desire to speak estimation method executed by the
図6のステップS61において、操作情報生成部25は、リモート会議中にユーザがクライアント11に対して行った操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。具体的には、操作情報生成部25は、会議アプリケーションにより提供されるユーザインタフェースに対するユーザの操作を示す操作情報を生成する。In step S61 of Fig. 6, the operation
ステップS62において、発話欲求度合い算出部26は、操作情報に基づいてユーザの発話欲求度合いを算出する。例えば、発話欲求度合い算出部26は、操作情報記憶部291に記憶されている操作情報から、リモート会議中におけるユーザによる1つ前の発話の後にユーザがクライアント11に対して行った操作を特定し、操作ごとにスコアを算出し、算出されたスコアから発話欲求度合いを算出する。操作が対象操作のいずれかである場合、発話欲求度合い算出部26は、操作の継続時間Dと対象操作に関する基準時間Rとに基づいて操作のスコアを算出する。発話欲求度合い算出部26は、操作の継続時間Dが対象操作に関する基準時間R以上である場合、スコアを1に決定し、操作の継続時間Dが対象操作種に関する基準時間Rを下回る場合、操作の継続時間Dを対象操作種に関する基準時間Rで割った値を操作のスコアとして得る。操作がいずれの対象操作でもない場合、発話欲求度合い算出部26は、操作のスコアをゼロに決定する。操作間に一定時間の空きがある場合、発話欲求度合い算出部26は、対象操作に該当しない操作が行われたものとみなし、当該操作のスコアをゼロに決定する。続いて、発話欲求度合い算出部26は、検出した操作ごとに算出されたスコアを平均することにより、ユーザの発話欲求度合いを求める。In step S62, the speech desire
ステップS63において、制御部21は、通信部24を介して他のクライアント11に、ステップS62で得られたユーザの発話欲求度合いを含むユーザ情報を送信する。In step S63, the
ステップS61に示す処理は、リモート会議中に、周期的に、例えば1秒間隔で、実行されてよい。ステップS62、S63に示す処理は、リモート会議中且つユーザが発話していない期間中に、周期的に、例えば1秒間隔で、実行されてよい。The process shown in step S61 may be executed periodically, for example at one-second intervals, during the remote conference. The processes shown in steps S62 and S63 may be executed periodically, for example at one-second intervals, during the remote conference and during a period when the user is not speaking.
図4に示す操作情報を参照して、発話欲求度合いの算出について説明する。ここでは、ミュートボタン上へのカーソル配置に関する基準時間は5秒に設定され、マイク設定画面表示に関する基準時間は5秒に設定され、カメラ設定画面表示に関する基準時間は10秒に設定されるものとする。Calculation of the degree of desire to speak will be described with reference to the operation information shown in Figure 4. Here, the reference time for placing the cursor on the mute button is set to 5 seconds, the reference time for displaying the microphone setting screen is set to 5 seconds, and the reference time for displaying the camera setting screen is set to 10 seconds.
発話が終了した14:28:22~14:30:21では、ユーザは何の操作もしておらず、発話欲求度合いはゼロである。14:29:22では、60秒間何の操作も発生しなかったことから、発話欲求度合い算出部26は、1つの操作が発生したと判断し、当該操作のスコアを0と決定する。発話欲求度合いはゼロのままである。
Between 14:28:22 and 14:30:21, when the speech ended, the user did not perform any operation, and the degree of desire to speak is zero. At 14:29:22, no operation occurred for 60 seconds, so the desire to speak
14:30:21でユーザはマイク設定画面を開く。14:30:22では、マイク設定画面表示のスコアが0.2(=1/5)となり、発話欲求度合いは0.1(=(0+0.2)/2))となる。発話欲求度合いSは、14:30:23では0.2となり、14:30:24では0.3となり、14:30:25では0.4となり、14:30:26~14:30:27では0.5となる。At 14:30:21, the user opens the microphone settings screen. At 14:30:22, the score for the microphone settings screen display is 0.2 (= 1/5), and the degree of desire to speak is 0.1 (= (0 + 0.2)/2). The degree of desire to speak S is 0.2 at 14:30:23, 0.3 at 14:30:24, 0.4 at 14:30:25, and 0.5 from 14:30:26 to 14:30:27.
14:30:27でユーザはマイク設定画面を閉じてカメラ設定画面を開く。14:30:27では、カメラ設定画面表示のスコアが0.1(=1/10)となり、発話欲求度合いは0.37(≒(0+1+0.1)/3)となる。発話欲求度合いは、14:30:27では0.4となり、14:30:28では0.43となり、・・、14:30:36では0.63となり、14:30:37~14:31:05では0.67となる。14:30:42でユーザはカメラ設定画面を閉じ、14:30:42~14:31:05まで操作を行わない。At 14:30:27 the user closes the microphone settings screen and opens the camera settings screen. At 14:30:27, the score for the camera settings screen display is 0.1 (= 1/10), and the degree of desire to speak is 0.37 (≒ (0 + 1 + 0.1)/3). The degree of desire to speak is 0.4 at 14:30:27, 0.43 at 14:30:28, ... 0.63 at 14:30:36, and 0.67 from 14:30:37 to 14:31:05. At 14:30:42 the user closes the camera settings screen, and does not perform any operations from 14:30:42 to 14:31:05.
14:31:05でユーザはマウス221を操作してカーソルをミュートボタン321に合わせる。14:31:06では、ミュートボタン上へのカーソル配置のスコアが0.2(=1/5)となり、発話欲求度合いは0.55(≒(0+1+1+0.2)/4)となる。発話欲求度合いは、14:31:07では0.6となり、14:31:08では0.65となり、14:31:09では0.7となり、14:31:10~14:31:13では0.75となる。14:31:13でユーザはミュートボタン321をクリックして発話を開始する。At 14:31:05, the user operates
[効果]
本実施形態では、通信ネットワーク19を介したリモート会議に使用されるクライアント11の各々は、リモート会議中にユーザがクライアント11に対して行った操作を示す操作情報を生成し、操作情報に基づいてユーザの発話欲求度合いを算出し、算出された発話欲求度合いを他のクライアント11に送信する。発話欲求度合いの算出には、ユーザがクライアント11に対して行った操作を示す操作情報が使用される。当該構成によれば、音声及び映像情報を利用せずにユーザの発話欲求を推定することが可能となる。さらに、算出された発話欲求度合いが他のクライアント11に通知される。当該構成によれば、各クライアント11において他のユーザの発話欲求度合いを表示することが可能となる。その結果、各クライアント11のユーザは他のユーザが発話を望んでいるか否かを判断することができるようになり、発話の衝突を回避できるようになる。
[effect]
In this embodiment, each of the
クライアント11は、操作情報からリモート会議中におけるユーザによる1つ前の発話の後にユーザがクライアント11に対して行った操作を特定し、特定された操作ごとに操作が発話の事前行動である可能性を示すスコアを算出し、算出されたスコアから発話欲求度合いを算出する。当該構成によれば、ユーザが発話の事前行動を行ったか否かを評価することが可能となり、ユーザの発話欲求を適切に推定することが可能となる。From the operation information, the
クライアント11は、操作が継続的な対象操作である場合、操作の継続時間と対象操作に関する基準時間との比較に基づいて操作のスコアを算出してよい。当該構成によれば、操作が行われた時間長に応じてスコアを算出することが可能となる。When an operation is a continuous target operation, the
継続的な対象操作は、音声入力をオンとオフとの間で切り替えるミュートボタンへのカーソル配置と、マイクを設定するためのマイク設定画面の表示と、カメラを設定するためのカメラ設定画面の表示と、の少なくとも1つを含んでよい。これらは発話の事前行動の典型例であり、よって、ユーザの発話欲求を適切に推定することが可能となる。The continuous target operation may include at least one of the following: moving the cursor to a mute button that switches the voice input between on and off; displaying a microphone setting screen for setting the microphone; and displaying a camera setting screen for setting the camera. These are typical examples of pre-speech behaviors, and thus it is possible to appropriately estimate the user's desire to speak.
<第2の実施形態>
上述した第1の実施形態では、ルールベースで発話欲求度合いを算出する。第2の実施形態では、機械学習により得られる発話欲求推定モデルを使用して発話欲求度合いを算出する。第2の実施形態では、第1の実施形態と同じ構成要素及び処理についての説明は適宜省略する。
Second Embodiment
In the first embodiment described above, the degree of desire to speak is calculated based on a rule. In the second embodiment, the degree of desire to speak is calculated using a desire to speak estimation model obtained by machine learning. In the second embodiment, the description of the same components and processes as in the first embodiment will be omitted as appropriate.
[構成]
図7は、第2の実施形態に係るクライアント71を概略的に示している。第2の実施形態に係る会議システムは図1に示したものと同じであり、図7に示すクライアント71は図1に示したクライアント11の代替として使用される。図7において、図2に示したものと同様の構成要素に同様の符号を付して、それらについての説明を適宜省略する。
[composition]
Fig. 7 shows a schematic diagram of a
図7に示すように、クライアント71は、制御部21、入力部22、出力部23、通信部24、操作情報生成部25,発話欲求度合い算出部76、学習部78、及び記憶部79を備える。記憶部79は、操作情報記憶部291及びモデル記憶部792を備える。制御部21、操作情報生成部25、発話欲求度合い算出部76、及び学習部78を処理部77と総称する。制御部21、通信部24、操作情報生成部25、発話欲求度合い算出部76、学習部78、操作情報記憶部291、及びモデル記憶部792は、第2の実施形態に係る発話欲求推定装置に相当する。
As shown in Figure 7, the
学習部78は、機械学習により、クライアント71に対する少なくとも1つの操作を示す操作情報を入力として受け取り、発話欲求度合いを表す数値を出力するように構成された発話欲求推定モデルを生成する。学習部78は、操作情報記憶部291に記憶されている操作情報を学習データとして使用して発話欲求推定モデルを学習する。発話欲求推定モデルはニューラルネットワークであってよく、学習はニューラルネットワークを構成するパラメータ(重み及びバイアス)を決定する処理である。The
学習部78は、操作情報記憶部291に記憶されている操作情報から、発話につながる操作情報と発話につながらない操作情報とを生成する。例えば、学習部78は、各発話の直前の所定期間(例えば60秒間)における操作情報を発話につながる操作情報として得る。具体的には、学習部78は、各発話の開始タイムより60秒前の時刻から発話の開始タイムまでの操作情報を発話につながる操作情報として得る。学習部78は、それより前の所定期間(例えば60秒間)における操作情報を発話につながらない操作情報として得る。具体的には、学習部78は、各発話の開始タイムより120秒前の時刻から発話の開始タイムより60秒前の時刻までの操作情報や各発話の開始タイムより180秒前の時刻から発話の開始タイムより120秒前の時刻までの操作情報などを発話につながらない操作情報として得る。The
学習部78は、発話につながる操作情報及び発話につながらない操作情報を発話欲求推定モデルへの入力として使用して発話欲求推定モデルの機械学習を行う。モデル記憶部792は、学習部78により生成された発話欲求推定モデルを記憶する。The
発話欲求度合い算出部76は、発話欲求推定モデルを使用して、操作情報記憶部291に記憶されている操作情報に基づいて、ユーザの発話欲求度合いを算出する。例えば、発話欲求度合い算出部76は、操作情報記憶部291に記憶されている操作情報から、所定期間(例えば60秒間)における操作情報を抽出する。具体的には、発話欲求度合い算出部76は、操作情報記憶部291に記憶されている操作情報から、リモート会議中におけるユーザによる1つ前の発話の後であって現時刻より60秒前の時刻から現時刻までにユーザがクライアント71に対して行った操作を示す操作情報を抽出する。発話欲求度合い算出部76は、抽出された操作情報を発話欲求推定モデルに入力し、発話欲求推定モデルから出力される数値を発話欲求度合いとして得る。The speech desire
発話欲求推定モデルから出力される値の範囲が0から1までの範囲でない場合、発話欲求度合い算出部76は、発話欲求推定モデルから出力される値が0から1までの範囲になるように正規化を行ってよい。If the range of values output from the desire to speak estimation model is not between 0 and 1, the desire to speak
なお、操作情報がある程度蓄積されるまでは、発話欲求推定モデルの学習を行うことができない。このため、操作情報がある程度蓄積されるまでは、発話欲求度合い算出部76は予め用意された発話欲求推定モデル(リモート会議アプリケーションにプリセットされる発話欲求推定モデル)を使用してよい。代替として、発話欲求度合い算出部76は、第1の実施形態で説明したものと同じ方法で発話欲求度合いを算出するようにしてもよい。Note that the speech desire estimation model cannot be trained until a certain amount of operation information has been accumulated. Therefore, until a certain amount of operation information has been accumulated, the speech desire
クライアント71は図5に示したものと同様のハードウェア構成を有することができる。本実施形態に係る発話欲求推定プログラムを含むリモート会議アプリケーションは、CPUにより実行されると、処理部77に関して説明される一連の処理をCPUに行わせる。言い換えると、CPUは、リモート会議アプリケーションに従って、制御部21、通信部24、操作情報生成部25、発話欲求度合い算出部76、学習部78として機能する。The
[動作]
クライアント71により実行される学習方法を説明する。
[Operation]
The learning method executed by the
操作情報生成部25は、リモート会議中にユーザがクライアント71に対して行った操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。The operation
学習部78は、操作情報記憶部291に記憶されている操作情報から、発話につながる操作情報としての複数の第1サンプルと発話につながらない操作情報としての複数の第2サンプルとを含む複数のサンプルを生成する。各サンプルには正解データが付与される。例えば、発話欲求推定モデルの出力層が2つのノードを含む場合、各第1サンプルにはベクトル(1,0)が正解データとして付与され、各第2サンプルにはベクトル(0,1)が正解データとして付与されてよい。The
学習部78は、例えばランダムに、サンプルの中から少なくとも1つのサンプルを選択する。学習部78は、各サンプルを発話欲求推定モデルに入力し、発話欲求推定モデルからの出力データを得る。学習部78は、出力データが正解データに近づくように、発話欲求推定モデルのパラメータを更新する。例えば、目的関数として交差エントロピー誤差を使用し、最適化アルゴリズムとして勾配降下法を使用してよい。The
学習部78は、サンプル選択からパラメータ更新までの処理を繰り替えし実行する。その結果、クライアント71を使用するユーザに適合する発話欲求推定モデルが生成される。The
次に、クライアント71により実行される発話欲求推定方法を説明する。ここでは、発話欲求推定モデルの学習が完了しているものとする。さらに、現時刻において他のユーザが発話しているものとする。Next, we will explain the method of estimating desire to speak executed by the
操作情報生成部25は、リモート会議中にユーザがクライアント71に対して行った操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。The operation
発話欲求度合い算出部76は、モデル記憶部792に記憶されている発話欲求推定モデルを使用して、操作情報記憶部291に記憶されている操作情報に基づいて、ユーザの発話欲求度合いを算出する。例えば、発話欲求度合い算出部26は、操作情報記憶部291に記憶されている操作情報から、現時刻より60秒前の時刻から現時刻までの操作情報を抽出し、抽出された操作情報を発話欲求推定モデルに入力し、発話欲求推定モデルから出力される値を発話欲求度合いとして得る。The speech desire
制御部21は、通信部24を介して他のクライアント11に、発話欲求度合い算出部26により算出されたユーザの発話欲求度合いを含むユーザ情報を送信する。The
[効果]
本実施形態は、第1の実施形態で説明したものと同様の効果を得ることができる。本実施形態では、機械学習により得られる発話欲求推定モデルを使用して発話欲求度合いが算出される。当該構成によれば、ユーザの発話欲求をより適切に推定できることが期待できる。
[effect]
This embodiment can obtain the same effect as that described in the first embodiment. In this embodiment, the degree of desire to speak is calculated using a desire to speak estimation model obtained by machine learning. With this configuration, it is expected that the desire to speak of the user can be more appropriately estimated.
クライアント71は、操作情報記憶部291に記憶されている操作情報を学習データとして使用して発話欲求推定モデルを学習する。当該構成によれば、ユーザに適合した発話欲求推定モデルを得ることが可能となり、ユーザの発話欲求をさらに適切に推定することが可能となる。The
<変形例>
上述した実施形態では、リモート会議はクライアントサーバモデルに基づいて実施される。他の実施形態では、会議システムがサーバを備えず、リモート会議はP2P(peer-to-peer)的にクライアント間で行われてもよい。
<Modification>
In the above-described embodiment, the remote conference is implemented based on a client-server model. In another embodiment, the conference system does not include a server, and the remote conference may be implemented between clients in a peer-to-peer (P2P) manner.
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。さらに、上記実施形態には種々の発明が含まれており、開示される複数の構成要素から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要素からいくつかの構成要素が削除されても、課題が解決でき、効果が得られる場合には、この構成要素が削除された構成が発明として抽出され得る。 Note that the present invention is not limited to the above-described embodiments, and can be modified in various ways in the implementation stage without departing from the gist of the invention. The embodiments may also be implemented in appropriate combination, in which case the combined effects can be obtained. Furthermore, the above-described embodiments include various inventions, and various inventions can be extracted by combinations selected from the multiple components disclosed. For example, if the problem can be solved and the effect can be obtained even if some components are deleted from all the components shown in the embodiments, the configuration from which these components are deleted can be extracted as an invention.
10 …会議システム
11 …クライアント
12 …サーバ
19 …通信ネットワーク
21 …制御部
22 …入力部
221…マウス
222…カメラ
223…マイク
23 …出力部
231…表示装置
232…スピーカ
24 …通信部
25 …操作情報生成部
26 …算出部
27 …処理部
29 …記憶部
291…操作情報記憶部
292…ルール記憶部
30 …ユーザインタフェース
31 …映像領域
32 …コントロールバー
321…ミュートボタン
322…オーディオ設定ボタン
323…映像ボタン
324…映像設定ボタン
50 …コンピュータ
51 …CPU
52 …RAM
53 …プログラムメモリ
54 …ストレージデバイス
55 …入出力インタフェース
56 …通信インタフェース
71 …クライアント
76 …算出部
77 …処理部
78 …学習部
79 …記憶部
792…モデル記憶部
LIST OF
52...RAM
53: program memory 54: storage device 55: input/output interface 56: communication interface 71: client 76: calculation unit 77: processing unit 78: learning unit 79: storage unit 792: model storage unit
Claims (8)
前記リモート会議中にユーザが前記第1の会議装置に対して行った操作を示す操作情報であって、前記操作の種類と前記操作が行われた時間長である継続時間とを表す情報を含む操作情報を生成する操作情報生成部と、
前記生成された操作情報に含まれる前記種類及び継続時間を表す情報に基づいて、前記ユーザが発話を欲求する度合いを示す発話欲求度合いを算出する発話欲求度合い算出部と、
前記算出された発話欲求度合いに基づく情報を前記複数の会議装置のうちの第2の会議装置に送信する通信部と、
を備える発話欲求推定装置。 A desire to speak estimation device provided in a first conference device among a plurality of conference devices used in a remote conference via a communication network,
an operation information generation unit that generates operation information indicating an operation performed by a user on the first conference device during the remote conference, the operation information including information indicating a type of the operation and a duration that is a time length during which the operation was performed ;
a speech desire degree calculation unit that calculates a speech desire degree indicating a degree to which the user desires to speak based on information indicating the type and duration included in the generated operation information;
a communication unit that transmits information based on the calculated desire to speak to a second conference device among the plurality of conference devices;
The speech desire estimation device includes:
請求項1に記載の発話欲求推定装置。 the desire to speak degree calculation unit identifies an operation performed by the user on the first conference device after a previous utterance by the user during the remote conference from the generated operation information, calculates a score indicating a possibility that the operation is a pre-utterance behavior for each of the identified operations, and calculates the desire to speak degree from the calculated score.
The desire to speak estimation device according to claim 1 .
請求項2に記載の発話欲求推定装置。 the speech desire degree calculation unit calculates the score of the specified operation based on a comparison between a duration of the specified operation and a reference time set for the specified operation when the specified operation matches a predetermined operation;
The desire to speak estimation device according to claim 2.
請求項3に記載の発話欲求推定装置。 the predetermined operation includes at least one of: moving a cursor to a mute button for switching an audio input between on and off; displaying a microphone setting screen for setting a microphone; and displaying a camera setting screen for setting a camera.
The desire to speak estimation device according to claim 3.
前記発話欲求度合い算出部は、前記生成された操作情報から、前記リモート会議中における前記ユーザによる1つ前の発話の後に前記ユーザが前記第1の会議装置に対して行った操作を示す操作情報を抽出し、前記抽出された操作情報を前記発話欲求推定モデルに入力し、前記発話欲求推定モデルから出力される数値を前記発話欲求度合いとして得る、
請求項1乃至4のいずれか1項に記載の発話欲求推定装置。 The present invention further includes a speech desire estimation model configured to receive operation information indicating at least one operation as an input and output a numerical value indicating the speech desire degree,
the desire to speak degree calculation unit extracts, from the generated operation information, operation information indicating an operation performed by the user on the first conference device after a previous utterance by the user during the remote conference, inputs the extracted operation information into the desire to speak estimation model, and obtains a numerical value output from the desire to speak estimation model as the desire to speak degree;
The desire to speak estimation device according to any one of claims 1 to 4.
前記リモート会議中にユーザが前記第1の会議装置に対して行った操作を示す操作情報であって、前記操作の種類と前記操作が行われた時間長である継続時間とを表す情報を含む操作情報を生成することと、
前記生成された操作情報に含まれる前記種類及び継続時間を表す情報に基づいて、前記ユーザが発話を欲求する度合いを示す発話欲求度合いを算出することと、
前記算出された発話欲求度合いに基づく情報を前記複数の会議装置のうちの第2の会議装置に送信することと、
を備える発話欲求推定方法。 A method for estimating a desire to speak, which is executed by a first conference device among a plurality of conference devices used in a remote conference via a communication network, comprising:
generating operation information indicating an operation performed by a user on the first conference device during the remote conference, the operation information including information indicating a type of the operation and a duration that is a time length during which the operation was performed ;
Calculating a degree of desire to speak, which indicates a degree to which the user desires to speak, based on information indicating the type and duration included in the generated operation information;
transmitting information based on the calculated desire to speak to a second conference device among the plurality of conference devices;
The method for estimating desire to speak comprises:
A program for causing a computer to function as the desire to speak estimation device according to any one of claims 1 to 6.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/042076 WO2023089662A1 (en) | 2021-11-16 | 2021-11-16 | Speaking desire estimation device, speaking desire estimation method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2023089662A1 JPWO2023089662A1 (en) | 2023-05-25 |
| JP7687433B2 true JP7687433B2 (en) | 2025-06-03 |
Family
ID=86396361
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023561954A Active JP7687433B2 (en) | 2021-11-16 | 2021-11-16 | Utterance desire estimation device, utterance desire estimation method, and program |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20250004699A1 (en) |
| JP (1) | JP7687433B2 (en) |
| WO (1) | WO2023089662A1 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2025049266A (en) * | 2023-09-21 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012244285A (en) | 2011-05-17 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Conference device, conference method, and conference program |
| JP2013183183A (en) | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | Conference device, conference method and conference program |
| JP2017111643A (en) | 2015-12-17 | 2017-06-22 | キヤノンマーケティングジャパン株式会社 | Web conference system, information processing method, and program |
-
2021
- 2021-11-16 JP JP2023561954A patent/JP7687433B2/en active Active
- 2021-11-16 US US18/700,707 patent/US20250004699A1/en not_active Abandoned
- 2021-11-16 WO PCT/JP2021/042076 patent/WO2023089662A1/en not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012244285A (en) | 2011-05-17 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Conference device, conference method, and conference program |
| JP2013183183A (en) | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | Conference device, conference method and conference program |
| JP2017111643A (en) | 2015-12-17 | 2017-06-22 | キヤノンマーケティングジャパン株式会社 | Web conference system, information processing method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| US20250004699A1 (en) | 2025-01-02 |
| JPWO2023089662A1 (en) | 2023-05-25 |
| WO2023089662A1 (en) | 2023-05-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7754248B2 (en) | Systems, methods, and control devices | |
| JP6084654B2 (en) | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model | |
| WO2019099397A1 (en) | System and methods for testing a video conference call using a virtual assistant | |
| JPWO2017168936A1 (en) | Information processing apparatus, information processing method, and program | |
| US20250181310A1 (en) | Source-based sound quality adjustment tool | |
| JP6987969B2 (en) | Network-based learning model for natural language processing | |
| JPWO2018030149A1 (en) | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD | |
| JP7687433B2 (en) | Utterance desire estimation device, utterance desire estimation method, and program | |
| CN114979549A (en) | Privacy protection method, system, equipment and storage medium for online conference | |
| JP7187212B2 (en) | Information processing device, information processing method and information processing program | |
| WO2019026360A1 (en) | Information processing device and information processing method | |
| CN115083412B (en) | Voice interaction method and related device, electronic equipment, storage medium | |
| JP2024092451A (en) | Dialogue support system, dialogue support method, and computer program | |
| JP2013183183A (en) | Conference device, conference method and conference program | |
| JP7152453B2 (en) | Information processing device, information processing method, information processing program, and information processing system | |
| WO2019146199A1 (en) | Information processing device and information processing method | |
| WO2022215361A1 (en) | Information processing device and information processing method | |
| JP2018190070A (en) | Dialog support method, apparatus, and program | |
| JP7561101B2 (en) | Information processing device, information processing method, and information processing program | |
| JP2021125002A (en) | Information processing device, method, and program | |
| JP7142403B1 (en) | Speech processing program, speech processing system and conversational robot | |
| JP7532182B2 (en) | Remote conference support control device, method and program | |
| JP7269269B2 (en) | Information processing device, information processing method, and information processing program | |
| JP7767771B2 (en) | Remote conference system, remote conference method, and remote conference program | |
| JP7670161B2 (en) | Utterance estimation device, utterance estimation method, and utterance estimation program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240311 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250121 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250217 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250422 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250505 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7687433 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |