Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7687433B2 - Utterance desire estimation device, utterance desire estimation method, and program - Google Patents
[go: Go Back, main page]

JP7687433B2 - Utterance desire estimation device, utterance desire estimation method, and program - Google Patents

Utterance desire estimation device, utterance desire estimation method, and program Download PDF

Info

Publication number
JP7687433B2
JP7687433B2 JP2023561954A JP2023561954A JP7687433B2 JP 7687433 B2 JP7687433 B2 JP 7687433B2 JP 2023561954 A JP2023561954 A JP 2023561954A JP 2023561954 A JP2023561954 A JP 2023561954A JP 7687433 B2 JP7687433 B2 JP 7687433B2
Authority
JP
Japan
Prior art keywords
desire
speak
user
speech
operation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023561954A
Other languages
Japanese (ja)
Other versions
JPWO2023089662A1 (en
Inventor
俊一 瀬古
直紀 萩山
真奈 笹川
理香 望月
晴美 齋藤
隆二 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2023089662A1 publication Critical patent/JPWO2023089662A1/ja
Application granted granted Critical
Publication of JP7687433B2 publication Critical patent/JP7687433B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、リモート会議においてユーザの発話欲求を推定する技術に関する。 The present invention relates to a technology for estimating a user's desire to speak during a remote conference.

Web会議などのリモート会議において、映像の不鮮明さやネットワーク遅延などの影響により、リアルでの対面コミュニケーションと比較して、発話したがっている人(発話欲求のある人)を把握することは困難である。 In remote meetings such as web conferences, it is difficult to identify people who want to speak (people who have a desire to speak) compared to real face-to-face communication due to factors such as blurred video images and network delays.

特許文献1は、カメラ及びマイクからユーザ(リモート会議の参加者)の振る舞いを取得し、ユーザの発話欲求の度合いを算出して表示する技術を開示している。当該技術によれば、各ユーザは誰が発話したがっているかを容易に把握することができる。 Patent Document 1 discloses a technology that obtains the behavior of users (participants in a remote conference) from a camera and microphone, and calculates and displays the degree of the user's desire to speak. This technology allows each user to easily grasp who wants to speak.

しかしながら、リモート会議ではカメラやマイクをオフにすることで回線圧迫や雑音などによるコミュニケーションの阻害を防ぐことがしばしば行われており、映像や音声を使用した発話欲求推定を実施し難いという問題がある。However, in remote meetings, cameras and microphones are often turned off to prevent communication from being hindered by line congestion or noise, making it difficult to estimate the desire to speak using video and audio.

日本国特開2013-183183号公報Japanese Patent Application Publication No. 2013-183183

本発明は、映像及び音声情報を利用せずにユーザの発話欲求を推定する技術を提供することを目的とする。 The present invention aims to provide a technology that estimates a user's desire to speak without using video and audio information.

本発明の一態様に係る発話欲求推定装置は、通信ネットワークを介したリモート会議に使用される複数の会議装置のうちの第1の会議装置に設けられ、前記リモート会議中にユーザが前記第1の会議装置に対して行った操作を示す操作情報を生成する操作情報生成部と、前記生成された操作情報に基づいて、前記ユーザが発話を欲求する度合いを示す発話欲求度合いを算出する発話欲求度合い算出部と、前記算出された発話欲求度合いに基づく情報を前記複数の会議装置のうちの第2の会議装置に送信する通信部と、を備える。A speech desire estimation device according to one embodiment of the present invention is provided in a first conference device among a plurality of conference devices used for a remote conference via a communication network, and comprises: an operation information generation unit that generates operation information indicating an operation performed by a user on the first conference device during the remote conference; a speech desire degree calculation unit that calculates a speech desire degree indicating the degree to which the user desires to speak based on the generated operation information; and a communication unit that transmits information based on the calculated speech desire degree to a second conference device among the plurality of conference devices.

本発明によれば、映像及び音声情報を利用せずにユーザの発話欲求を推定する技術が提供される。 The present invention provides a technology for estimating a user's desire to speak without using video and audio information.

図1は、実施形態に係る会議システムを示すブロック図である。FIG. 1 is a block diagram showing a conference system according to an embodiment. 図2は、実施形態に係る発話欲求推定装置を備えるクライアントを示す機能ブロック図である。FIG. 2 is a functional block diagram showing a client including an utterance desire estimation device according to an embodiment. 図3は、実施形態に係るリモート会議アプリケーションのユーザインタフェースを示す図である。FIG. 3 is a diagram illustrating a user interface of the remote conference application according to the embodiment. 図4は、図2に示した操作情報記憶部に記憶される操作情報を示す図である。FIG. 4 is a diagram showing operation information stored in the operation information storage unit shown in FIG. 図5は、実施形態に係る発話欲求推定装置を備えるクライアントのハードウェア構成を示すブロック図である。FIG. 5 is a block diagram showing a hardware configuration of a client including an utterance desire estimation device according to an embodiment. 図6は、実施形態に係る発話欲求推定方法を示すフローチャートである。FIG. 6 is a flowchart illustrating a method for estimating a desire to speak according to the embodiment. 図7は、実施形態に係る発話欲求推定装置を備えるクライアントを示す機能ブロック図である。FIG. 7 is a functional block diagram showing a client including an utterance desire estimation device according to an embodiment.

以下、図面を参照して本発明の実施形態を説明する。 Below, an embodiment of the present invention is described with reference to the drawings.

実施形態は、異なる場所に存在する複数のユーザが通信ネットワークに接続された複数の会議装置を用いてリモート会議を行う会議システムに関する。一実施形態では、各会議装置は、当該会議装置を使用するユーザの発話欲求を推定する発話欲求推定装置を備える。発話欲求推定装置は、リモート会議中にユーザが会議装置に対して行った操作に基づいてユーザの発話欲求度合いを算出し、算出した発話欲求度合いに基づく情報を他の会議装置に送信する。発話欲求度合いは、ユーザが発話することを欲求する度合い(程度)を示す。各会議装置は、他の会議装置から他のユーザの発話欲求度合いを示す情報を受信し、受信した情報をユーザに提示する。実施形態に係る会議システムによれば、映像及び音声情報を利用せずに各ユーザの発話欲求を推定することが可能となり、各ユーザは他のユーザが発話を望んでいるか否かを容易に判断することが可能となる。その結果、発話の衝突を回避することが可能となる。The embodiment relates to a conference system in which multiple users in different locations hold a remote conference using multiple conference devices connected to a communication network. In one embodiment, each conference device is equipped with an utterance desire estimation device that estimates the utterance desire of the user using the conference device. The utterance desire estimation device calculates the degree of the user's utterance desire based on the operation performed by the user on the conference device during the remote conference, and transmits information based on the calculated utterance desire degree to other conference devices. The utterance desire degree indicates the degree (degree) of the user's desire to speak. Each conference device receives information indicating the utterance desire degree of other users from other conference devices, and presents the received information to the user. According to the conference system of the embodiment, it is possible to estimate the utterance desire of each user without using video and audio information, and each user can easily determine whether or not other users want to speak. As a result, it is possible to avoid collisions in speech.

<第1の実施形態>
[構成]
図1は、第1の実施形態に係る会議システム10を概略的に示している。図1に示すように、会議システム10は、複数のユーザがそれぞれ使用する複数のクライアント11と、通信ネットワーク19を介してクライアント11に接続されたサーバ12と、を備える。通信ネットワーク19は、インターネット、イントラネット、又はインターネットとイントラネットの組み合わせを含んでよい。サーバ12はクライアント11間でデータを中継する。例えば、サーバ12は、通信ネットワーク19を介してクライアント11からデータを受け取り、受け取ったデータを通信ネットワーク19を介して他のクライアント11に転送する。
First Embodiment
[composition]
Fig. 1 is a schematic diagram of a conference system 10 according to a first embodiment. As shown in Fig. 1, the conference system 10 includes a plurality of clients 11 each used by a plurality of users, and a server 12 connected to the clients 11 via a communication network 19. The communication network 19 may include the Internet, an intranet, or a combination of the Internet and an intranet. The server 12 relays data between the clients 11. For example, the server 12 receives data from the clients 11 via the communication network 19, and transfers the received data to other clients 11 via the communication network 19.

各クライアント11は、パーソナルコンピュータ(PC)などのコンピュータであり得る。クライアント11は、通信ネットワーク19を介したリモート会議に使用される会議装置に相当する。本実施形態では、クライアント11は、リモート会議アプリケーションを実行することにより会議装置として機能する。他の実施形態では、クライアント11は、ブラウザを使用してサーバ12にアクセスすることにより会議装置として機能してよい。Each client 11 may be a computer such as a personal computer (PC). The client 11 corresponds to a conference device used for a remote conference via the communication network 19. In this embodiment, the client 11 functions as a conference device by executing a remote conference application. In other embodiments, the client 11 may function as a conference device by accessing the server 12 using a browser.

クライアント11は互いに同じ又は同様の構成を有することができる。以下では、代表として1つのクライアント11の構成について説明する。 The clients 11 may have the same or similar configurations. Below, the configuration of one client 11 will be described as a representative example.

図2は、本実施形態に係るクライアント11の機能構成を概略的に示している。図2に示すように、クライアント11は、制御部21、入力部22、出力部23、通信部24、操作情報生成部25、発話欲求度合い算出部26、及び記憶部29を備える。記憶部29は、操作情報記憶部291及びルール記憶部292を備える。制御部21、操作情報生成部25、及び発話欲求度合い算出部26を処理部27と総称する。制御部21、通信部24、操作情報生成部25、発話欲求度合い算出部26、操作情報記憶部291、及びルール記憶部292は、本実施形態に係る発話欲求推定装置に相当する。 Figure 2 shows a schematic functional configuration of the client 11 according to this embodiment. As shown in Figure 2, the client 11 includes a control unit 21, an input unit 22, an output unit 23, a communication unit 24, an operation information generation unit 25, a desire to speak degree calculation unit 26, and a memory unit 29. The memory unit 29 includes an operation information memory unit 291 and a rule memory unit 292. The control unit 21, the operation information generation unit 25, and the desire to speak degree calculation unit 26 are collectively referred to as a processing unit 27. The control unit 21, the communication unit 24, the operation information generation unit 25, the desire to speak degree calculation unit 26, the operation information memory unit 291, and the rule memory unit 292 correspond to the desire to speak estimation device according to this embodiment.

制御部21は、クライアント11の動作を制御する。具体的には、制御部21は、入力部22、出力部23、通信部24、操作情報生成部25、発話欲求度合い算出部26、及び記憶部29を制御する。The control unit 21 controls the operation of the client 11. Specifically, the control unit 21 controls the input unit 22, the output unit 23, the communication unit 24, the operation information generation unit 25, the desire to speak degree calculation unit 26, and the memory unit 29.

入力部22は、ユーザからの入力を受け取り、受け取った入力を制御部21に送出する。図2に示す例では、入力部22は、マウス221、カメラ222、及びマイク223を備える。マウス221は、ユーザがクライアント11を操作することを可能にする。例えば、マウス221は、ユーザがリモート会議アプリケーションにより提供されるユーザインタフェースを操作することを可能にする。マウス221に代えて又は追加して、タッチパッド(トラックパッド)、タッチパネル、キーボードなどを使用してもよい。カメラ222は、ユーザを撮像してユーザの映像を示す映像データを生成する。カメラ222はカメラ222をオンとオフとの間で切り替える物理ボタンを備えていてもよい。マイク223は、ユーザが発した音声を集音してユーザの音声を示す音声データを生成する。マイク223はマイク223をオンとオフとの間で切り替える物理ボタンを備えていてもよい。制御部21は、カメラ222から映像データ及びマイク223から音声データを受け取り、通信部24を介して他のクライアント11に映像データ及び音声データを送信する。The input unit 22 receives input from the user and sends the received input to the control unit 21. In the example shown in FIG. 2, the input unit 22 includes a mouse 221, a camera 222, and a microphone 223. The mouse 221 enables the user to operate the client 11. For example, the mouse 221 enables the user to operate a user interface provided by a remote conference application. A touchpad (trackpad), a touch panel, a keyboard, etc. may be used instead of or in addition to the mouse 221. The camera 222 captures an image of the user and generates video data showing an image of the user. The camera 222 may be provided with a physical button for switching the camera 222 between on and off. The microphone 223 collects a voice emitted by the user and generates audio data showing the user's voice. The microphone 223 may be provided with a physical button for switching the microphone 223 between on and off. The control unit 21 receives video data from the camera 222 and audio data from the microphone 223, and transmits the video data and audio data to another client 11 via the communication unit 24.

出力部23は、制御部21により生成された情報をユーザに対して出力する。図2に示す例では、出力部23は、表示装置231及びスピーカ232を備える。表示装置231は、液晶表示装置などのディスプレイであり、制御部21により生成された画像を表示する。例えば、制御部21は、リモート会議アプリケーションにより提供されるユーザインタフェースを含む画像を生成し、表示装置231は、ユーザインタフェースを含む画像を表示する。ユーザインタフェースは、他のユーザの映像を表示する領域を含む。制御部21は、通信部24を介して他のクライアント11から他のユーザの映像データを受信し、ユーザインタフェースに他のユーザの映像を表示するために、受信した映像データをユーザインタフェースに適用する。スピーカ232は、制御部21により供給される音響データに応じた音を発する。例えば、制御部21は、通信部24を介して他のクライアント11から他のユーザの音声データを受信し、スピーカ232が他のユーザの音声を出力するように、受信した音声データをスピーカ232に送出する。The output unit 23 outputs information generated by the control unit 21 to the user. In the example shown in FIG. 2, the output unit 23 includes a display device 231 and a speaker 232. The display device 231 is a display such as a liquid crystal display device, and displays an image generated by the control unit 21. For example, the control unit 21 generates an image including a user interface provided by a remote conference application, and the display device 231 displays the image including the user interface. The user interface includes an area for displaying images of other users. The control unit 21 receives image data of other users from other clients 11 via the communication unit 24, and applies the received image data to the user interface to display the images of the other users on the user interface. The speaker 232 emits sound according to the acoustic data supplied by the control unit 21. For example, the control unit 21 receives audio data of other users from other clients 11 via the communication unit 24, and sends the received audio data to the speaker 232 so that the speaker 232 outputs the audio of the other users.

図3は、リモート会議アプリケーションにより提供されるリモート会議に関するユーザインタフェース30を概略的に示している。図3に示す例では、ユーザインタフェース30は、映像領域31及びコントロールバー32を含む。映像領域31は、他のユーザの映像を表示する領域である。コントロールバー32は、ミュートボタン321、オーディオ設定ボタン322、映像ボタン323、及び映像設定ボタン324を含む。 Figure 3 shows a schematic diagram of a user interface 30 for a remote conference provided by a remote conference application. In the example shown in Figure 3, the user interface 30 includes a video area 31 and a control bar 32. The video area 31 is an area that displays the video of other users. The control bar 32 includes a mute button 321, an audio settings button 322, a video button 323, and a video settings button 324.

ミュートボタン321は、音声入力をオン(有効)とオフ(無効)との間で切り替えるためのボタンである。音声入力がオンである状態でミュートボタン321がクリックされると、音声入力がオフに切り替わり、音声入力がオフである状態でミュートボタン321がクリックされると、音声入力がオンに切り替わる。音声入力がオンである状態では、マイク223により得られた音声データが他のクライアント11に送出され、音声入力がオフである状態では、マイク223により得られた音声データは他のクライアント11に送出されない。 The mute button 321 is a button for switching the audio input between on (enabled) and off (disabled). When the mute button 321 is clicked while the audio input is on, the audio input is switched off, and when the mute button 321 is clicked while the audio input is off, the audio input is switched on. When the audio input is on, the audio data obtained by the microphone 223 is sent to other clients 11, and when the audio input is off, the audio data obtained by the microphone 223 is not sent to other clients 11.

オーディオ設定ボタン322は、オーディオ関連リストを表示するためのボタンである。オーディオ関連リストは、マイク設定及びスピーカ設定などの複数の項目を含む。マイク設定の項目が選択される(クリックされる)と、マイク223を設定するためのマイク設定画面が表示される。マイク設定画面では、マイク223の音量を調節することが可能である。 The audio settings button 322 is a button for displaying an audio-related list. The audio-related list includes multiple items such as microphone settings and speaker settings. When the microphone settings item is selected (clicked), a microphone settings screen for setting the microphone 223 is displayed. On the microphone settings screen, it is possible to adjust the volume of the microphone 223.

映像ボタン323は、映像入力をオンとオフとの間で切り替えるためのボタンである。映像入力がオンである状態で映像ボタン323がクリックされると、映像入力がオフに切り替わり、映像入力がオフである状態で映像ボタン323がクリックされると、映像入力がオンに切り替わる。映像入力がオンである状態では、カメラ222により得られた映像データが他のクライアント11に送信され、映像入力がオフである状態では、カメラ222により得られた映像データは他のクライアント11に送信されない。 Video button 323 is a button for switching video input between on and off. When video button 323 is clicked while video input is on, the video input is switched off, and when video button 323 is clicked while video input is off, the video input is switched on. When video input is on, video data obtained by camera 222 is transmitted to other clients 11, and when video input is off, video data obtained by camera 222 is not transmitted to other clients 11.

映像設定ボタン324は、映像関連リストを表示するためのボタンである。映像関連リストは、カメラ切り替え及びカメラ設定などの複数の項目を含む。カメラ設定の項目が選択されると、使用中のカメラ222を設定するためのカメラ設定画面が表示される。カメラ設定画面では、使用中のカメラ222により得られている映像が表示される。 The video settings button 324 is a button for displaying a video-related list. The video-related list includes multiple items such as camera switching and camera settings. When the camera settings item is selected, a camera settings screen for setting the camera 222 in use is displayed. On the camera settings screen, the video captured by the camera 222 in use is displayed.

図2を再び参照すると、通信部24は、通信ネットワーク19及びサーバ12を介して他のクライアント11と通信する。通信部24は、制御部21から受け取ったリモート会議に関連する情報を他のクライアント11に送信する。例えば、通信部24は、カメラ222により得られた映像データ及びマイク223により得られた音声データを他のクライアント11に送信する。通信部24は、他のクライアント11からリモート会議に関連する情報を受信し、受信した情報を制御部21に送出する。例えば、通信部24は、他のクライアント11から他のクライアント11により得られた映像データ及び音声データを受信する。 Returning to FIG. 2, the communication unit 24 communicates with the other clients 11 via the communication network 19 and the server 12. The communication unit 24 transmits information related to the remote conference received from the control unit 21 to the other clients 11. For example, the communication unit 24 transmits video data obtained by the camera 222 and audio data obtained by the microphone 223 to the other clients 11. The communication unit 24 receives information related to the remote conference from the other clients 11 and sends the received information to the control unit 21. For example, the communication unit 24 receives from the other clients 11 the video data and audio data obtained by the other clients 11.

操作情報生成部25は、リモート会議中にユーザにより行われたクライアント11の操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。操作情報は、ユーザがリモート会議中にクライアント11に対して行った操作を示す情報、具体的には、ユーザがリモート会議中にリモート会議アプリケーションにより提供されるユーザインタフェースに対して行った操作を示す情報を含む。記録対象となる操作の例は、ミュートボタン321上へのカーソル配置、音声入力のオフからオンへの切り替え、マイク設定画面の表示、スピーカ設定画面の表示、カメラ設定画面の表示、リモート会議アプリケーションのフォアグラウンドへの移行、リモート会議アプリケーションのバックグラウンドへの移行、発話などを含む。リモート会議アプリケーションがフォアグラウンドで動作している状態は、ユーザがリモート会議アプリケーションを操作できるアクティブな状態を指す。リモート会議アプリケーションがバックグラウンドで動作している状態は、リモート会議アプリケーションは動作しているが、ユーザがリモート会議アプリケーションを操作できない状態を指す。操作情報生成部25は、制御部21から、ユーザにより行われたマウス221の操作を示すマウス操作情報及び表示装置231に表示する画像を示す画面情報を受け取る。操作情報生成部25は、操作情報及び画面情報から、ユーザインタフェースに対する操作を検出することができる。例えば、操作情報生成部25は、操作情報及び画面情報から、ユーザインタフェース上でのカーソルの位置を検出することができる。例えば、操作情報生成部25は、カーソルがミュートボタン321上へ移動してミュートボタン321上に留まっていることを検出し、ミュートボタン321上へのカーソル配置という操作に関する操作情報を生成する。The operation information generating unit 25 generates operation information indicating the operation of the client 11 performed by the user during the remote conference, and stores the generated operation information in the operation information storage unit 291. The operation information includes information indicating the operation performed by the user on the client 11 during the remote conference, specifically, information indicating the operation performed by the user on the user interface provided by the remote conference application during the remote conference. Examples of operations to be recorded include placing the cursor on the mute button 321, switching the audio input from off to on, displaying the microphone setting screen, displaying the speaker setting screen, displaying the camera setting screen, moving the remote conference application to the foreground, moving the remote conference application to the background, speaking, etc. The state in which the remote conference application is operating in the foreground refers to an active state in which the user can operate the remote conference application. The state in which the remote conference application is operating in the background refers to a state in which the remote conference application is operating but the user cannot operate the remote conference application. The operation information generating unit 25 receives mouse operation information indicating the operation of the mouse 221 performed by the user and screen information indicating an image to be displayed on the display device 231 from the control unit 21. The operation information generating unit 25 can detect an operation on the user interface from the operation information and the screen information. For example, the operation information generating unit 25 can detect the position of the cursor on the user interface from the operation information and the screen information. For example, the operation information generating unit 25 detects that the cursor moves onto the mute button 321 and remains on the mute button 321, and generates operation information regarding the operation of placing the cursor on the mute button 321.

図4は、操作情報記憶部291に記憶される操作情報の例を概略的に示している。各操作は1つのレコード(エントリ)で管理される。図4に示す例では、各レコードは、データ項目として、識別子(No.)、操作種、開始タイム、終了タイム、継続時間、操作フラグを含む。識別子は操作を識別する情報を示す。例えば識別子は操作が行われた順番を表す。操作種は操作の種類を示す。開始タイムは操作が開始された時間を示す。終了タイムは操作が終了した時間を示す。継続時間は操作が行われた時間長を示す。操作フラグは操作が継続中であるか否かを示す。操作フラグ“-”は操作が終了していることを表し、操作フラグ“○”は操作が継続中であることを表す。 Figure 4 shows a schematic example of operation information stored in the operation information storage unit 291. Each operation is managed by one record (entry). In the example shown in Figure 4, each record includes the following data items: an identifier (No.), operation type, start time, end time, duration, and operation flag. The identifier indicates information that identifies an operation. For example, the identifier indicates the order in which the operation was performed. The operation type indicates the type of operation. The start time indicates the time when the operation started. The end time indicates the time when the operation ended. The duration indicates the length of time the operation was performed. The operation flag indicates whether the operation is ongoing or not. An operation flag of "-" indicates that the operation has ended, and an operation flag of "○" indicates that the operation is ongoing.

図2を再び参照すると、発話欲求度合い算出部26は、操作情報記憶部291に記憶されている操作情報に基づいて、ユーザの発話欲求度合いを算出する。本実施形態では、0から1までの範囲の値を取り、ユーザが発話を欲求する度合いが高いほど値が大きくなるように、発話欲求度合いを定義する。2 again, the speech desire degree calculation unit 26 calculates the user's speech desire degree based on the operation information stored in the operation information storage unit 291. In this embodiment, the speech desire degree is defined as taking a value in the range from 0 to 1, with the value increasing as the user's degree of desire to speak increases.

本実施形態では、ルールベースで発話欲求度合いを算出する。ルール記憶部292は予め定められた発話欲求推定ルールを記憶する。発話欲求度合い算出部26は、ユーザの発話欲求度合いを算出するために、ルール記憶部292に記憶されている発話欲求推定ルールを参照する。発話欲求推定ルールは、発話欲求と推定される操作の種類を指定する情報を含む。発話欲求と推定される操作の例は、ミュートボタン上へのカーソル配置、音声入力のオフからオンへの切り替え、マイク設定画面表示、カメラ設定画面表示、及びリモート会議アプリケーションのフォアグラウンドへの移行を含む。In this embodiment, the degree of desire to speak is calculated on a rule basis. The rule memory unit 292 stores predetermined desire to speak estimation rules. The desire to speak degree calculation unit 26 refers to the desire to speak estimation rules stored in the rule memory unit 292 to calculate the user's degree of desire to speak. The desire to speak estimation rules include information specifying the type of operation that is estimated to be a desire to speak. Examples of operations that are estimated to be a desire to speak include placing the cursor on the mute button, switching the audio input from off to on, displaying a microphone settings screen, displaying a camera settings screen, and transitioning to the foreground of a remote conference application.

一般に、ユーザがリモート会議で音声入力及び/又は映像入力がオフになっている状態から発話する場合には、以下のような行動を行うことが多い。
(1)ユーザは、現在の発話者の発話が終わった直後に音声入力をオフからオンに切り替えられるようにミュートボタンの上にカーソルを置き、現在の発話者の発話が終わるのを待つ。
(2)ユーザは、ミュートボタンをクリックして音声入力をオフからオンに切り替えたうえで、現在の発話者の発話が終わるのを待つ。
(3)ユーザは、マイク設定画面を表示させ、マイクの音量を確認する。
(4)ユーザは、カメラ設定画面を表示させ、カメラに映る映像を確認する。
(5)ユーザは、リモート会議アプリケーションをフォアグラウンドに復帰させる。
Generally, when a user speaks during a remote conference in a state where audio input and/or video input is turned off, the user often performs the following actions.
(1) The user places the cursor over the mute button so that voice input can be switched from off to on immediately after the current speaker finishes speaking, and waits for the current speaker to finish speaking.
(2) The user clicks the mute button to switch the voice input from off to on, and then waits for the current speaker to finish speaking.
(3) The user displays the microphone settings screen and checks the microphone volume.
(4) The user displays the camera setting screen and checks the image captured by the camera.
(5) The user returns the remote conferencing application to the foreground.

上記のような発話前によく行われる行動(発話の事前行動)が発話欲求と推定される操作として採用される。以下では、発話欲求と推定される操作を対象操作とも称する。ミュートボタン上へのカーソル配置、マイク設定画面表示、及びカメラ設定画面表示は、継続的な対象操作であり、音声入力のオフからオンへの切り替え、及びリモート会議アプリケーションのフォアグラウンドへの移行は、瞬間的な対象操作である。発話欲求度合い算出部26は、対象操作に合致する操作がユーザの直前の発話(ユーザがまだ発話を行っていない場合は、リモート会議への参加時又はリモート会議の開始時)以降に発生した場合にユーザが発話欲求状態にあると推定する。The behaviors that are often performed before speaking as described above (pre-speech behaviors) are adopted as operations that are estimated to indicate a desire to speak. Hereinafter, operations that are estimated to indicate a desire to speak are also referred to as target operations. Placing the cursor on the mute button, displaying the microphone setting screen, and displaying the camera setting screen are continuous target operations, while switching the audio input from off to on and moving the remote conference application to the foreground are momentary target operations. The desire to speak degree calculation unit 26 estimates that the user is in a state of desire to speak when an operation that matches the target operation occurs after the user's most recent utterance (or, if the user has not yet spoken, at the time of joining or starting the remote conference).

発話欲求度合い算出部26は、ユーザが直前の発話以降に行った操作のそれぞれについて、操作が発話の事前行動である可能性を示すスコアを算出し、算出したスコアに基づいて発話欲求度合いを算出する。発話欲求推定ルールは、継続的な対象操作のそれぞれについて設定される基準時間を含んでよい。各対象操作の基準時間は操作のスコアを算出するために使用される。一例として、ミュートボタン上へのカーソル配置に関する基準時間は5秒に設定され、マイク設定画面表示に関する基準時間は5秒に設定され、カメラ設定画面表示に関する基準時間は10秒に設定される。The speech desire degree calculation unit 26 calculates a score indicating the possibility that each operation performed by the user since the last utterance is a pre-utterance behavior, and calculates the speech desire degree based on the calculated score. The speech desire estimation rule may include a reference time set for each continuous target operation. The reference time for each target operation is used to calculate the score of the operation. As an example, the reference time for placing the cursor on the mute button is set to 5 seconds, the reference time for displaying the microphone setting screen is set to 5 seconds, and the reference time for displaying the camera setting screen is set to 10 seconds.

操作がミュートボタン上へのカーソル配置などの継続的な対象操作である場合、発話欲求度合い算出部26は、操作の継続時間と対象操作に関する基準時間とから操作のスコアを算出する。例えば、操作の継続時間が対象操作に関する基準時間以上である場合、発話欲求度合い算出部26は操作のスコアを1と決定する。操作の継続時間が対象操作に関する基準時間を下回る場合、発話欲求度合い算出部26は、操作の継続時間と対象操作に関する基準時間との差又は比に基づいて操作のスコアを算出する。操作の継続時間をD、当該操作に一致する対象操作に関する基準時間をR、操作のスコアをSとすると、S=D/Rである。この例において、継続時間Dが2秒であり、基準時間Rが5秒である場合、スコアSは0.4である。なお、スコアは線形関数以外の関数で算出されてもよい。例えば、S=(D/R)であってもよい。この例において、継続時間Dが2秒であり、基準時間Rが5秒である場合、スコアSは0.16である。 When the operation is a continuous target operation such as placing the cursor on the mute button, the speech desire degree calculation unit 26 calculates the operation score from the duration of the operation and the reference time for the target operation. For example, when the duration of the operation is equal to or longer than the reference time for the target operation, the speech desire degree calculation unit 26 determines the operation score as 1. When the duration of the operation is shorter than the reference time for the target operation, the speech desire degree calculation unit 26 calculates the operation score based on the difference or ratio between the operation duration and the reference time for the target operation. If the duration of the operation is D, the reference time for the target operation that matches the operation is R, and the score of the operation is S, then S=D/R. In this example, when the duration D is 2 seconds and the reference time R is 5 seconds, the score S is 0.4. The score may be calculated using a function other than a linear function. For example, S=(D/R) 2 . In this example, when the duration D is 2 seconds and the reference time R is 5 seconds, the score S is 0.16.

例えばユーザが音声入力をオンにするためにカーソルをミュートボタン321に移動させた直後にミュートボタン321をクリックすることがある。ユーザが音声入力をオンにするためにミュートボタン321をクリックした場合には、発話欲求度合い算出部26は、ミュートボタン上へのカーソル配置の継続時間に関わらず、ミュートボタン上へのカーソル配置という操作のスコアを1に決定してもよい。For example, the user may click the mute button 321 immediately after moving the cursor to the mute button 321 to turn on voice input. When the user clicks the mute button 321 to turn on voice input, the speech desire degree calculation unit 26 may determine the score of the operation of placing the cursor on the mute button to be 1, regardless of the duration of the cursor placement on the mute button.

操作がリモート会議アプリケーションのフォアグラウンドへの移行などの瞬間的な対象操作である場合、発話欲求度合い算出部26は、操作のスコアを1に決定する。 If the operation is a momentary target operation, such as moving a remote conference application to the foreground, the desire to speak degree calculation unit 26 determines the score of the operation to be 1.

操作がいずれの対象操作でもない場合、発話欲求度合い算出部26は、操作のスコアを0に決定する。 If the operation is not one of the target operations, the speech desire degree calculation unit 26 determines the score of the operation to be 0.

操作間に一定時間以上の空きがある場合には、発話欲求度合い算出部26は、当該期間に1つの操作(操作種“無操作”)が発生したと見なし、その操作のスコアを0に決定してよい。発話欲求推定ルールは上記一定時間を示す情報を含んでよい。If there is a certain amount of time or more between operations, the speech desire degree calculation unit 26 may determine that one operation (operation type "no operation") has occurred during that period, and may determine the score of that operation to be 0. The speech desire estimation rule may include information indicating the certain amount of time.

発話欲求度合い算出部26は、操作ごとに算出されたスコアの平均を発話欲求度合いとする。代替として、発話欲求度合い算出部26は、操作ごとに算出されたスコアの荷重平均を発話欲求度合いとして得てもよい。一例として、現時刻の30秒前から現時刻までに発生した操作に関する重みを1とし、現時刻の60秒前から現時刻の30秒前までに発生した操作に関する重みを0.9と、現時刻の90秒前から現時刻の60秒前までに発生した操作に関する重みを0.8などとする。他の例では、ユーザが現在行っている操作に関する重みを1とし、1つ前の操作に関する重みを0.9とし、2つ前の操作に関する重みを0.8などとする。The speech desire degree calculation unit 26 sets the average of the scores calculated for each operation as the speech desire degree. Alternatively, the speech desire degree calculation unit 26 may obtain the weighted average of the scores calculated for each operation as the speech desire degree. As an example, the weight for an operation that occurred from 30 seconds before the current time to the current time is set to 1, the weight for an operation that occurred from 60 seconds before the current time to 30 seconds before the current time is set to 0.9, the weight for an operation that occurred from 90 seconds before the current time to 60 seconds before the current time is set to 0.8, etc. In another example, the weight for an operation currently being performed by the user is set to 1, the weight for the previous operation is set to 0.9, and the weight for the operation two operations before is set to 0.8, etc.

制御部21は、通信部24を介して他のクライアント11に、ユーザの発話欲求度合いに基づくユーザ情報を送信する。例えば、制御部21は、ユーザ情報を他のクライアント11に送信するために通信部24を駆動する。ユーザ情報は、ユーザの発話欲求度合いそのものを含んでよい。代替として、ユーザ情報は、ユーザに発話欲求があることを通知する情報を含んでいてもよい。例えば、制御部21は、発話欲求度合い算出部26により算出された発話欲求度合いが所定の閾値を超えた場合に、他のクライアント11に、ユーザに発話欲求があることを通知する。The control unit 21 transmits user information based on the user's degree of desire to speak to other clients 11 via the communication unit 24. For example, the control unit 21 drives the communication unit 24 to transmit the user information to other clients 11. The user information may include the user's degree of desire to speak itself. Alternatively, the user information may include information notifying the user that he or she has a desire to speak. For example, when the degree of desire to speak calculated by the desire to speak degree calculation unit 26 exceeds a predetermined threshold, the control unit 21 notifies the other clients 11 that the user has a desire to speak.

制御部21は、通信部24を介して他のクライアント11から、他のユーザの発話欲求度合いに基づくユーザ情報を受信する。制御部21は、受信したユーザ情報をユーザインタフェースに適用する。ユーザ情報が発話欲求度合いを含む例では、制御部21は、各ユーザの映像に紐づけて各ユーザの発話欲求度合いを表示するようにしてよい。代替として、制御部21は、発話欲求度合いが所定の閾値を超えたユーザの映像を強調するようにしてもよい。例えば、制御部21は、発話欲求度合いが所定の閾値を超えたユーザの映像を赤枠で囲ったり、発話欲求度合いが所定の閾値を超えたユーザの映像に印を付与したりしてよい。The control unit 21 receives user information based on the degree of desire to speak of other users from other clients 11 via the communication unit 24. The control unit 21 applies the received user information to the user interface. In an example in which the user information includes the degree of desire to speak, the control unit 21 may display the degree of desire to speak of each user by linking it to the image of each user. Alternatively, the control unit 21 may highlight the image of a user whose degree of desire to speak exceeds a predetermined threshold. For example, the control unit 21 may surround the image of a user whose degree of desire to speak exceeds a predetermined threshold with a red frame, or may mark the image of a user whose degree of desire to speak exceeds a predetermined threshold.

図5は、クライアント11のハードウェア構成例を概略的に示している。図5に示すように、クライアント11は、ハードウェア構成要素として、図2に示したマウス221、カメラ222、マイク223、表示装置231、及びスピーカ232に加えて、コンピュータ50を備える。 Figure 5 shows a schematic diagram of an example hardware configuration of client 11. As shown in Figure 5, client 11 includes, as hardware components, a computer 50 in addition to the mouse 221, camera 222, microphone 223, display device 231, and speaker 232 shown in Figure 2.

コンピュータ50は、CPU(Central Processing Unit)51、RAM(Random Access Memory)52、プログラムメモリ53、ストレージデバイス54、入出力インタフェース55、及び通信インタフェース56を備える。CPU51は、RAM52、プログラムメモリ53、ストレージデバイス54、入出力インタフェース55、及び通信インタフェース56と通信可能に接続される。The computer 50 includes a CPU (Central Processing Unit) 51, a RAM (Random Access Memory) 52, a program memory 53, a storage device 54, an input/output interface 55, and a communication interface 56. The CPU 51 is communicatively connected to the RAM 52, the program memory 53, the storage device 54, the input/output interface 55, and the communication interface 56.

CPU51はプロセッサの一例である。プロセッサとして、他の汎用回路を使用してもよく、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用回路を使用してもよい。The CPU 51 is an example of a processor. Other general-purpose circuits may be used as the processor, or dedicated circuits such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field-Programmable Gate Array) may be used.

RAM52はSDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。RAM52はワーキングメモリとしてCPU51により使用される。プログラムメモリ53は、発話欲求推定プログラムを含むリモート会議アプリケーションなど、CPU51により実行されるプログラムを記憶する。プログラムはコンピュータ実行可能命令を含む。プログラムメモリ53として例えばROM(Read Only Memory)が使用される。ストレージデバイス54の一部領域がプログラムメモリ53として使用されてもよい。CPU51は、プログラムメモリ53に記憶されたプログラムをRAM52に展開し、プログラムを解釈及び実行する。リモート会議アプリケーションは、CPU51により実行されると、処理部27に関して説明される一連の処理をCPU51に行わせる。言い換えると、CPU51は、リモート会議アプリケーションに従って、制御部21、操作情報生成部25、及び発話欲求度合い算出部26として機能する。なお、発話欲求推定プログラムはリモート会議アプリケーションとは別のプログラムとして設けられてもよい。発話欲求推定プログラムは、CPU51により実行されると、発話欲求推定に関連する一連の処理をCPU51に行わせる。The RAM 52 includes a volatile memory such as an SDRAM (Synchronous Dynamic Random Access Memory). The RAM 52 is used by the CPU 51 as a working memory. The program memory 53 stores a program executed by the CPU 51, such as a remote conference application including a speech desire estimation program. The program includes computer executable instructions. For example, a ROM (Read Only Memory) is used as the program memory 53. A portion of the storage device 54 may be used as the program memory 53. The CPU 51 expands the program stored in the program memory 53 into the RAM 52, and interprets and executes the program. When the remote conference application is executed by the CPU 51, the CPU 51 performs a series of processes described with respect to the processing unit 27. In other words, the CPU 51 functions as the control unit 21, the operation information generation unit 25, and the speech desire degree calculation unit 26 according to the remote conference application. The speech desire estimation program may be provided as a program separate from the remote conference application. When executed by the CPU 51, the desire to speak estimation program causes the CPU 51 to perform a series of processes related to desire to speak estimation.

プログラムは、コンピュータで読み取り可能な記録媒体に記憶された状態でコンピュータ50に提供されてよい。この場合、コンピュータ50は、記録媒体からデータを読み出すドライブを備え、記録媒体からプログラムを取得する。記録媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、及び半導体メモリを含む。また、プログラムはネットワークを通じて配布するようにしてもよい。具体的には、プログラムをネットワーク上のサーバに格納し、コンピュータ50がサーバからプログラムをダウンロードするようにしてもよい。The program may be provided to the computer 50 in a state where it is stored on a computer-readable recording medium. In this case, the computer 50 is equipped with a drive for reading data from the recording medium and acquires the program from the recording medium. Examples of recording media include magnetic disks, optical disks (CD-ROM, CD-R, DVD-ROM, DVD-R, etc.), magneto-optical disks (MO, etc.), and semiconductor memories. The program may also be distributed over a network. Specifically, the program may be stored on a server on the network, and the computer 50 may download the program from the server.

ストレージデバイス54は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性メモリを含む。ストレージデバイス54はデータを記憶する。ストレージデバイス54は、記憶部29、具体的には、操作情報記憶部291及びルール記憶部292として機能する。The storage device 54 includes a non-volatile memory such as a hard disk drive (HDD) or a solid state drive (SSD). The storage device 54 stores data. The storage device 54 functions as the memory unit 29, specifically, as an operation information memory unit 291 and a rule memory unit 292.

入出力インタフェース55は周辺機器と通信するためのインタフェースである。マウス221、カメラ222、マイク223、表示装置231、及びスピーカ232は入出力インタフェース55によりコンピュータ50に接続される。コンピュータ50がノート型PCである例では、カメラ222、マイク223、表示装置231、及びスピーカ232はコンピュータ50に内蔵されたものであり得る。The input/output interface 55 is an interface for communicating with peripheral devices. The mouse 221, the camera 222, the microphone 223, the display device 231, and the speaker 232 are connected to the computer 50 by the input/output interface 55. In an example in which the computer 50 is a notebook PC, the camera 222, the microphone 223, the display device 231, and the speaker 232 may be built into the computer 50.

通信インタフェース56は、通信ネットワーク19に接続される外部装置(例えば図1に示すサーバ12及び他のクライアント11)と通信するためのインタフェースである。通信インタフェース56は、有線モジュール及び/又は無線モジュールを備える。通信インタフェース56は通信部24として機能する。The communication interface 56 is an interface for communicating with external devices (e.g., the server 12 and other clients 11 shown in FIG. 1) connected to the communication network 19. The communication interface 56 includes a wired module and/or a wireless module. The communication interface 56 functions as the communication unit 24.

[動作]
図6は、図2に示したクライアント11により実行される発話欲求推定方法を概略的に示している。ここでは、現時刻において他のユーザが発話しているものとする。
[Operation]
Fig. 6 shows an outline of a desire to speak estimation method executed by the client 11 shown in Fig. 2. Here, it is assumed that another user is currently speaking.

図6のステップS61において、操作情報生成部25は、リモート会議中にユーザがクライアント11に対して行った操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。具体的には、操作情報生成部25は、会議アプリケーションにより提供されるユーザインタフェースに対するユーザの操作を示す操作情報を生成する。In step S61 of Fig. 6, the operation information generating unit 25 generates operation information indicating an operation performed by a user on the client 11 during the remote conference, and stores the generated operation information in the operation information storage unit 291. Specifically, the operation information generating unit 25 generates operation information indicating an operation performed by the user on a user interface provided by the conference application.

ステップS62において、発話欲求度合い算出部26は、操作情報に基づいてユーザの発話欲求度合いを算出する。例えば、発話欲求度合い算出部26は、操作情報記憶部291に記憶されている操作情報から、リモート会議中におけるユーザによる1つ前の発話の後にユーザがクライアント11に対して行った操作を特定し、操作ごとにスコアを算出し、算出されたスコアから発話欲求度合いを算出する。操作が対象操作のいずれかである場合、発話欲求度合い算出部26は、操作の継続時間Dと対象操作に関する基準時間Rとに基づいて操作のスコアを算出する。発話欲求度合い算出部26は、操作の継続時間Dが対象操作に関する基準時間R以上である場合、スコアを1に決定し、操作の継続時間Dが対象操作種に関する基準時間Rを下回る場合、操作の継続時間Dを対象操作種に関する基準時間Rで割った値を操作のスコアとして得る。操作がいずれの対象操作でもない場合、発話欲求度合い算出部26は、操作のスコアをゼロに決定する。操作間に一定時間の空きがある場合、発話欲求度合い算出部26は、対象操作に該当しない操作が行われたものとみなし、当該操作のスコアをゼロに決定する。続いて、発話欲求度合い算出部26は、検出した操作ごとに算出されたスコアを平均することにより、ユーザの発話欲求度合いを求める。In step S62, the speech desire degree calculation unit 26 calculates the speech desire degree of the user based on the operation information. For example, the speech desire degree calculation unit 26 identifies the operation performed by the user on the client 11 after the previous speech by the user during the remote conference from the operation information stored in the operation information storage unit 291, calculates a score for each operation, and calculates the speech desire degree from the calculated score. If the operation is any of the target operations, the speech desire degree calculation unit 26 calculates the score of the operation based on the duration D of the operation and the reference time R for the target operation. If the duration D of the operation is equal to or longer than the reference time R for the target operation, the speech desire degree calculation unit 26 determines the score to be 1, and if the duration D of the operation is shorter than the reference time R for the target operation type, obtains the value obtained by dividing the duration D of the operation by the reference time R for the target operation type as the score of the operation. If the operation is not any of the target operations, the speech desire degree calculation unit 26 determines the score of the operation to be zero. If there is a certain amount of time between operations, the desire to speak degree calculation unit 26 assumes that an operation that does not correspond to the target operation has been performed, and determines the score of the operation to be 0. Next, the desire to speak degree calculation unit 26 calculates the degree of the user's desire to speak by averaging the scores calculated for each detected operation.

ステップS63において、制御部21は、通信部24を介して他のクライアント11に、ステップS62で得られたユーザの発話欲求度合いを含むユーザ情報を送信する。In step S63, the control unit 21 transmits user information including the user's degree of desire to speak obtained in step S62 to other clients 11 via the communication unit 24.

ステップS61に示す処理は、リモート会議中に、周期的に、例えば1秒間隔で、実行されてよい。ステップS62、S63に示す処理は、リモート会議中且つユーザが発話していない期間中に、周期的に、例えば1秒間隔で、実行されてよい。The process shown in step S61 may be executed periodically, for example at one-second intervals, during the remote conference. The processes shown in steps S62 and S63 may be executed periodically, for example at one-second intervals, during the remote conference and during a period when the user is not speaking.

図4に示す操作情報を参照して、発話欲求度合いの算出について説明する。ここでは、ミュートボタン上へのカーソル配置に関する基準時間は5秒に設定され、マイク設定画面表示に関する基準時間は5秒に設定され、カメラ設定画面表示に関する基準時間は10秒に設定されるものとする。Calculation of the degree of desire to speak will be described with reference to the operation information shown in Figure 4. Here, the reference time for placing the cursor on the mute button is set to 5 seconds, the reference time for displaying the microphone setting screen is set to 5 seconds, and the reference time for displaying the camera setting screen is set to 10 seconds.

発話が終了した14:28:22~14:30:21では、ユーザは何の操作もしておらず、発話欲求度合いはゼロである。14:29:22では、60秒間何の操作も発生しなかったことから、発話欲求度合い算出部26は、1つの操作が発生したと判断し、当該操作のスコアを0と決定する。発話欲求度合いはゼロのままである。 Between 14:28:22 and 14:30:21, when the speech ended, the user did not perform any operation, and the degree of desire to speak is zero. At 14:29:22, no operation occurred for 60 seconds, so the desire to speak degree calculation unit 26 determines that one operation occurred and determines the score of that operation as 0. The degree of desire to speak remains zero.

14:30:21でユーザはマイク設定画面を開く。14:30:22では、マイク設定画面表示のスコアが0.2(=1/5)となり、発話欲求度合いは0.1(=(0+0.2)/2))となる。発話欲求度合いSは、14:30:23では0.2となり、14:30:24では0.3となり、14:30:25では0.4となり、14:30:26~14:30:27では0.5となる。At 14:30:21, the user opens the microphone settings screen. At 14:30:22, the score for the microphone settings screen display is 0.2 (= 1/5), and the degree of desire to speak is 0.1 (= (0 + 0.2)/2). The degree of desire to speak S is 0.2 at 14:30:23, 0.3 at 14:30:24, 0.4 at 14:30:25, and 0.5 from 14:30:26 to 14:30:27.

14:30:27でユーザはマイク設定画面を閉じてカメラ設定画面を開く。14:30:27では、カメラ設定画面表示のスコアが0.1(=1/10)となり、発話欲求度合いは0.37(≒(0+1+0.1)/3)となる。発話欲求度合いは、14:30:27では0.4となり、14:30:28では0.43となり、・・、14:30:36では0.63となり、14:30:37~14:31:05では0.67となる。14:30:42でユーザはカメラ設定画面を閉じ、14:30:42~14:31:05まで操作を行わない。At 14:30:27 the user closes the microphone settings screen and opens the camera settings screen. At 14:30:27, the score for the camera settings screen display is 0.1 (= 1/10), and the degree of desire to speak is 0.37 (≒ (0 + 1 + 0.1)/3). The degree of desire to speak is 0.4 at 14:30:27, 0.43 at 14:30:28, ... 0.63 at 14:30:36, and 0.67 from 14:30:37 to 14:31:05. At 14:30:42 the user closes the camera settings screen, and does not perform any operations from 14:30:42 to 14:31:05.

14:31:05でユーザはマウス221を操作してカーソルをミュートボタン321に合わせる。14:31:06では、ミュートボタン上へのカーソル配置のスコアが0.2(=1/5)となり、発話欲求度合いは0.55(≒(0+1+1+0.2)/4)となる。発話欲求度合いは、14:31:07では0.6となり、14:31:08では0.65となり、14:31:09では0.7となり、14:31:10~14:31:13では0.75となる。14:31:13でユーザはミュートボタン321をクリックして発話を開始する。At 14:31:05, the user operates mouse 221 to move the cursor to mute button 321. At 14:31:06, the score for placing the cursor on the mute button is 0.2 (= 1/5), and the degree of desire to speak is 0.55 (≒ (0 + 1 + 1 + 0.2) / 4). The degree of desire to speak is 0.6 at 14:31:07, 0.65 at 14:31:08, 0.7 at 14:31:09, and 0.75 from 14:31:10 to 14:31:13. At 14:31:13, the user clicks mute button 321 to start speaking.

[効果]
本実施形態では、通信ネットワーク19を介したリモート会議に使用されるクライアント11の各々は、リモート会議中にユーザがクライアント11に対して行った操作を示す操作情報を生成し、操作情報に基づいてユーザの発話欲求度合いを算出し、算出された発話欲求度合いを他のクライアント11に送信する。発話欲求度合いの算出には、ユーザがクライアント11に対して行った操作を示す操作情報が使用される。当該構成によれば、音声及び映像情報を利用せずにユーザの発話欲求を推定することが可能となる。さらに、算出された発話欲求度合いが他のクライアント11に通知される。当該構成によれば、各クライアント11において他のユーザの発話欲求度合いを表示することが可能となる。その結果、各クライアント11のユーザは他のユーザが発話を望んでいるか否かを判断することができるようになり、発話の衝突を回避できるようになる。
[effect]
In this embodiment, each of the clients 11 used in a remote conference via the communication network 19 generates operation information indicating an operation performed by the user on the client 11 during the remote conference, calculates the degree of the user's desire to speak based on the operation information, and transmits the calculated degree of desire to speak to the other clients 11. The operation information indicating the operation performed by the user on the client 11 is used to calculate the degree of desire to speak. With this configuration, it is possible to estimate the user's desire to speak without using audio and video information. Furthermore, the calculated degree of desire to speak is notified to the other clients 11. With this configuration, it is possible to display the degree of desire to speak of the other users on each client 11. As a result, the user of each client 11 can determine whether the other users want to speak or not, and speech collisions can be avoided.

クライアント11は、操作情報からリモート会議中におけるユーザによる1つ前の発話の後にユーザがクライアント11に対して行った操作を特定し、特定された操作ごとに操作が発話の事前行動である可能性を示すスコアを算出し、算出されたスコアから発話欲求度合いを算出する。当該構成によれば、ユーザが発話の事前行動を行ったか否かを評価することが可能となり、ユーザの発話欲求を適切に推定することが可能となる。From the operation information, the client 11 identifies an operation performed by the user on the client 11 after the user's previous utterance during the remote conference, calculates a score indicating the possibility that the operation is a pre-utterance action for each identified operation, and calculates the degree of desire to utter from the calculated score. With this configuration, it is possible to evaluate whether the user has performed a pre-utterance action, and it is possible to appropriately estimate the user's desire to utter.

クライアント11は、操作が継続的な対象操作である場合、操作の継続時間と対象操作に関する基準時間との比較に基づいて操作のスコアを算出してよい。当該構成によれば、操作が行われた時間長に応じてスコアを算出することが可能となる。When an operation is a continuous target operation, the client 11 may calculate a score for the operation based on a comparison between the duration of the operation and a reference time for the target operation. This configuration makes it possible to calculate a score according to the length of time the operation is performed.

継続的な対象操作は、音声入力をオンとオフとの間で切り替えるミュートボタンへのカーソル配置と、マイクを設定するためのマイク設定画面の表示と、カメラを設定するためのカメラ設定画面の表示と、の少なくとも1つを含んでよい。これらは発話の事前行動の典型例であり、よって、ユーザの発話欲求を適切に推定することが可能となる。The continuous target operation may include at least one of the following: moving the cursor to a mute button that switches the voice input between on and off; displaying a microphone setting screen for setting the microphone; and displaying a camera setting screen for setting the camera. These are typical examples of pre-speech behaviors, and thus it is possible to appropriately estimate the user's desire to speak.

<第2の実施形態>
上述した第1の実施形態では、ルールベースで発話欲求度合いを算出する。第2の実施形態では、機械学習により得られる発話欲求推定モデルを使用して発話欲求度合いを算出する。第2の実施形態では、第1の実施形態と同じ構成要素及び処理についての説明は適宜省略する。
Second Embodiment
In the first embodiment described above, the degree of desire to speak is calculated based on a rule. In the second embodiment, the degree of desire to speak is calculated using a desire to speak estimation model obtained by machine learning. In the second embodiment, the description of the same components and processes as in the first embodiment will be omitted as appropriate.

[構成]
図7は、第2の実施形態に係るクライアント71を概略的に示している。第2の実施形態に係る会議システムは図1に示したものと同じであり、図7に示すクライアント71は図1に示したクライアント11の代替として使用される。図7において、図2に示したものと同様の構成要素に同様の符号を付して、それらについての説明を適宜省略する。
[composition]
Fig. 7 shows a schematic diagram of a client 71 according to the second embodiment. The conference system according to the second embodiment is the same as that shown in Fig. 1, and the client 71 shown in Fig. 7 is used as an alternative to the client 11 shown in Fig. 1. In Fig. 7, the same components as those shown in Fig. 2 are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.

図7に示すように、クライアント71は、制御部21、入力部22、出力部23、通信部24、操作情報生成部25,発話欲求度合い算出部76、学習部78、及び記憶部79を備える。記憶部79は、操作情報記憶部291及びモデル記憶部792を備える。制御部21、操作情報生成部25、発話欲求度合い算出部76、及び学習部78を処理部77と総称する。制御部21、通信部24、操作情報生成部25、発話欲求度合い算出部76、学習部78、操作情報記憶部291、及びモデル記憶部792は、第2の実施形態に係る発話欲求推定装置に相当する。 As shown in Figure 7, the client 71 includes a control unit 21, an input unit 22, an output unit 23, a communication unit 24, an operation information generation unit 25, a desire to speak degree calculation unit 76, a learning unit 78, and a memory unit 79. The memory unit 79 includes an operation information memory unit 291 and a model memory unit 792. The control unit 21, the operation information generation unit 25, the desire to speak degree calculation unit 76, and the learning unit 78 are collectively referred to as a processing unit 77. The control unit 21, the communication unit 24, the operation information generation unit 25, the desire to speak degree calculation unit 76, the learning unit 78, the operation information memory unit 291, and the model memory unit 792 correspond to the desire to speak estimation device according to the second embodiment.

学習部78は、機械学習により、クライアント71に対する少なくとも1つの操作を示す操作情報を入力として受け取り、発話欲求度合いを表す数値を出力するように構成された発話欲求推定モデルを生成する。学習部78は、操作情報記憶部291に記憶されている操作情報を学習データとして使用して発話欲求推定モデルを学習する。発話欲求推定モデルはニューラルネットワークであってよく、学習はニューラルネットワークを構成するパラメータ(重み及びバイアス)を決定する処理である。The learning unit 78 uses machine learning to generate an utterance desire estimation model configured to receive as input operation information indicating at least one operation on the client 71 and output a numerical value indicating the degree of utterance desire. The learning unit 78 learns the utterance desire estimation model using the operation information stored in the operation information storage unit 291 as learning data. The utterance desire estimation model may be a neural network, and learning is a process of determining parameters (weights and biases) that constitute the neural network.

学習部78は、操作情報記憶部291に記憶されている操作情報から、発話につながる操作情報と発話につながらない操作情報とを生成する。例えば、学習部78は、各発話の直前の所定期間(例えば60秒間)における操作情報を発話につながる操作情報として得る。具体的には、学習部78は、各発話の開始タイムより60秒前の時刻から発話の開始タイムまでの操作情報を発話につながる操作情報として得る。学習部78は、それより前の所定期間(例えば60秒間)における操作情報を発話につながらない操作情報として得る。具体的には、学習部78は、各発話の開始タイムより120秒前の時刻から発話の開始タイムより60秒前の時刻までの操作情報や各発話の開始タイムより180秒前の時刻から発話の開始タイムより120秒前の時刻までの操作情報などを発話につながらない操作情報として得る。The learning unit 78 generates operation information that leads to speech and operation information that does not lead to speech from the operation information stored in the operation information storage unit 291. For example, the learning unit 78 obtains operation information for a predetermined period (e.g., 60 seconds) immediately before each speech as operation information that leads to speech. Specifically, the learning unit 78 obtains operation information from a time 60 seconds before the start time of each speech to the start time of the speech as operation information that leads to speech. The learning unit 78 obtains operation information for a predetermined period (e.g., 60 seconds) before that as operation information that does not lead to speech. Specifically, the learning unit 78 obtains operation information from a time 120 seconds before the start time of each speech to a time 60 seconds before the start time of the speech, operation information from a time 180 seconds before the start time of each speech to a time 120 seconds before the start time of the speech, and the like as operation information that does not lead to speech.

学習部78は、発話につながる操作情報及び発話につながらない操作情報を発話欲求推定モデルへの入力として使用して発話欲求推定モデルの機械学習を行う。モデル記憶部792は、学習部78により生成された発話欲求推定モデルを記憶する。The learning unit 78 performs machine learning of the desire to speak estimation model using operation information that leads to speech and operation information that does not lead to speech as input to the desire to speak estimation model. The model storage unit 792 stores the desire to speak estimation model generated by the learning unit 78.

発話欲求度合い算出部76は、発話欲求推定モデルを使用して、操作情報記憶部291に記憶されている操作情報に基づいて、ユーザの発話欲求度合いを算出する。例えば、発話欲求度合い算出部76は、操作情報記憶部291に記憶されている操作情報から、所定期間(例えば60秒間)における操作情報を抽出する。具体的には、発話欲求度合い算出部76は、操作情報記憶部291に記憶されている操作情報から、リモート会議中におけるユーザによる1つ前の発話の後であって現時刻より60秒前の時刻から現時刻までにユーザがクライアント71に対して行った操作を示す操作情報を抽出する。発話欲求度合い算出部76は、抽出された操作情報を発話欲求推定モデルに入力し、発話欲求推定モデルから出力される数値を発話欲求度合いとして得る。The speech desire degree calculation unit 76 uses the speech desire estimation model to calculate the user's speech desire degree based on the operation information stored in the operation information storage unit 291. For example, the speech desire degree calculation unit 76 extracts operation information for a predetermined period (e.g., 60 seconds) from the operation information stored in the operation information storage unit 291. Specifically, the speech desire degree calculation unit 76 extracts operation information indicating operations performed by the user on the client 71 from the operation information stored in the operation information storage unit 291 after the previous utterance by the user during the remote conference from a time 60 seconds before the current time to the current time. The speech desire degree calculation unit 76 inputs the extracted operation information into the speech desire estimation model and obtains a numerical value output from the speech desire estimation model as the speech desire degree.

発話欲求推定モデルから出力される値の範囲が0から1までの範囲でない場合、発話欲求度合い算出部76は、発話欲求推定モデルから出力される値が0から1までの範囲になるように正規化を行ってよい。If the range of values output from the desire to speak estimation model is not between 0 and 1, the desire to speak degree calculation unit 76 may perform normalization so that the values output from the desire to speak estimation model are in the range from 0 to 1.

なお、操作情報がある程度蓄積されるまでは、発話欲求推定モデルの学習を行うことができない。このため、操作情報がある程度蓄積されるまでは、発話欲求度合い算出部76は予め用意された発話欲求推定モデル(リモート会議アプリケーションにプリセットされる発話欲求推定モデル)を使用してよい。代替として、発話欲求度合い算出部76は、第1の実施形態で説明したものと同じ方法で発話欲求度合いを算出するようにしてもよい。Note that the speech desire estimation model cannot be trained until a certain amount of operation information has been accumulated. Therefore, until a certain amount of operation information has been accumulated, the speech desire degree calculation unit 76 may use a pre-prepared speech desire estimation model (a speech desire estimation model preset in the remote conference application). Alternatively, the speech desire degree calculation unit 76 may calculate the speech desire degree in the same manner as described in the first embodiment.

クライアント71は図5に示したものと同様のハードウェア構成を有することができる。本実施形態に係る発話欲求推定プログラムを含むリモート会議アプリケーションは、CPUにより実行されると、処理部77に関して説明される一連の処理をCPUに行わせる。言い換えると、CPUは、リモート会議アプリケーションに従って、制御部21、通信部24、操作情報生成部25、発話欲求度合い算出部76、学習部78として機能する。The client 71 may have a hardware configuration similar to that shown in Figure 5. When executed by a CPU, the remote conference application including the desire to speak estimation program according to this embodiment causes the CPU to perform a series of processes described with respect to the processing unit 77. In other words, the CPU functions as the control unit 21, the communication unit 24, the operation information generation unit 25, the desire to speak degree calculation unit 76, and the learning unit 78 in accordance with the remote conference application.

[動作]
クライアント71により実行される学習方法を説明する。
[Operation]
The learning method executed by the client 71 will now be described.

操作情報生成部25は、リモート会議中にユーザがクライアント71に対して行った操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。The operation information generation unit 25 generates operation information indicating operations performed by a user on the client 71 during a remote conference, and stores the generated operation information in the operation information storage unit 291.

学習部78は、操作情報記憶部291に記憶されている操作情報から、発話につながる操作情報としての複数の第1サンプルと発話につながらない操作情報としての複数の第2サンプルとを含む複数のサンプルを生成する。各サンプルには正解データが付与される。例えば、発話欲求推定モデルの出力層が2つのノードを含む場合、各第1サンプルにはベクトル(1,0)が正解データとして付与され、各第2サンプルにはベクトル(0,1)が正解データとして付与されてよい。The learning unit 78 generates a plurality of samples including a plurality of first samples as operation information leading to speech and a plurality of second samples as operation information not leading to speech from the operation information stored in the operation information storage unit 291. Correct answer data is assigned to each sample. For example, if the output layer of the speech desire estimation model includes two nodes, the vector (1, 0) may be assigned to each first sample as correct answer data, and the vector (0, 1) may be assigned to each second sample as correct answer data.

学習部78は、例えばランダムに、サンプルの中から少なくとも1つのサンプルを選択する。学習部78は、各サンプルを発話欲求推定モデルに入力し、発話欲求推定モデルからの出力データを得る。学習部78は、出力データが正解データに近づくように、発話欲求推定モデルのパラメータを更新する。例えば、目的関数として交差エントロピー誤差を使用し、最適化アルゴリズムとして勾配降下法を使用してよい。The learning unit 78 selects at least one sample from the samples, for example randomly. The learning unit 78 inputs each sample into the speech desire estimation model and obtains output data from the speech desire estimation model. The learning unit 78 updates parameters of the speech desire estimation model so that the output data approaches the correct answer data. For example, the cross-entropy error may be used as the objective function, and gradient descent may be used as the optimization algorithm.

学習部78は、サンプル選択からパラメータ更新までの処理を繰り替えし実行する。その結果、クライアント71を使用するユーザに適合する発話欲求推定モデルが生成される。The learning unit 78 repeatedly executes the processes from sample selection to parameter update. As a result, a speech desire estimation model that is suitable for the user who uses the client 71 is generated.

次に、クライアント71により実行される発話欲求推定方法を説明する。ここでは、発話欲求推定モデルの学習が完了しているものとする。さらに、現時刻において他のユーザが発話しているものとする。Next, we will explain the method of estimating desire to speak executed by the client 71. Here, we assume that the learning of the desire to speak estimation model has been completed. Furthermore, we assume that another user is currently speaking.

操作情報生成部25は、リモート会議中にユーザがクライアント71に対して行った操作を示す操作情報を生成し、生成した操作情報を操作情報記憶部291に記憶させる。The operation information generation unit 25 generates operation information indicating operations performed by a user on the client 71 during a remote conference, and stores the generated operation information in the operation information storage unit 291.

発話欲求度合い算出部76は、モデル記憶部792に記憶されている発話欲求推定モデルを使用して、操作情報記憶部291に記憶されている操作情報に基づいて、ユーザの発話欲求度合いを算出する。例えば、発話欲求度合い算出部26は、操作情報記憶部291に記憶されている操作情報から、現時刻より60秒前の時刻から現時刻までの操作情報を抽出し、抽出された操作情報を発話欲求推定モデルに入力し、発話欲求推定モデルから出力される値を発話欲求度合いとして得る。The speech desire degree calculation unit 76 uses the speech desire estimation model stored in the model storage unit 792 to calculate the user's speech desire degree based on the operation information stored in the operation information storage unit 291. For example, the speech desire degree calculation unit 26 extracts operation information from the time 60 seconds before the current time to the current time from the operation information stored in the operation information storage unit 291, inputs the extracted operation information to the speech desire estimation model, and obtains the value output from the speech desire estimation model as the speech desire degree.

制御部21は、通信部24を介して他のクライアント11に、発話欲求度合い算出部26により算出されたユーザの発話欲求度合いを含むユーザ情報を送信する。The control unit 21 transmits user information including the user's degree of desire to speak calculated by the desire to speak degree calculation unit 26 to other clients 11 via the communication unit 24.

[効果]
本実施形態は、第1の実施形態で説明したものと同様の効果を得ることができる。本実施形態では、機械学習により得られる発話欲求推定モデルを使用して発話欲求度合いが算出される。当該構成によれば、ユーザの発話欲求をより適切に推定できることが期待できる。
[effect]
This embodiment can obtain the same effect as that described in the first embodiment. In this embodiment, the degree of desire to speak is calculated using a desire to speak estimation model obtained by machine learning. With this configuration, it is expected that the desire to speak of the user can be more appropriately estimated.

クライアント71は、操作情報記憶部291に記憶されている操作情報を学習データとして使用して発話欲求推定モデルを学習する。当該構成によれば、ユーザに適合した発話欲求推定モデルを得ることが可能となり、ユーザの発話欲求をさらに適切に推定することが可能となる。The client 71 learns the desire to speak estimation model using the operation information stored in the operation information storage unit 291 as learning data. With this configuration, it is possible to obtain an utterance desire estimation model suited to the user, and to more appropriately estimate the user's desire to speak.

<変形例>
上述した実施形態では、リモート会議はクライアントサーバモデルに基づいて実施される。他の実施形態では、会議システムがサーバを備えず、リモート会議はP2P(peer-to-peer)的にクライアント間で行われてもよい。
<Modification>
In the above-described embodiment, the remote conference is implemented based on a client-server model. In another embodiment, the conference system does not include a server, and the remote conference may be implemented between clients in a peer-to-peer (P2P) manner.

なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。さらに、上記実施形態には種々の発明が含まれており、開示される複数の構成要素から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要素からいくつかの構成要素が削除されても、課題が解決でき、効果が得られる場合には、この構成要素が削除された構成が発明として抽出され得る。 Note that the present invention is not limited to the above-described embodiments, and can be modified in various ways in the implementation stage without departing from the gist of the invention. The embodiments may also be implemented in appropriate combination, in which case the combined effects can be obtained. Furthermore, the above-described embodiments include various inventions, and various inventions can be extracted by combinations selected from the multiple components disclosed. For example, if the problem can be solved and the effect can be obtained even if some components are deleted from all the components shown in the embodiments, the configuration from which these components are deleted can be extracted as an invention.

10 …会議システム
11 …クライアント
12 …サーバ
19 …通信ネットワーク
21 …制御部
22 …入力部
221…マウス
222…カメラ
223…マイク
23 …出力部
231…表示装置
232…スピーカ
24 …通信部
25 …操作情報生成部
26 …算出部
27 …処理部
29 …記憶部
291…操作情報記憶部
292…ルール記憶部
30 …ユーザインタフェース
31 …映像領域
32 …コントロールバー
321…ミュートボタン
322…オーディオ設定ボタン
323…映像ボタン
324…映像設定ボタン
50 …コンピュータ
51 …CPU
52 …RAM
53 …プログラムメモリ
54 …ストレージデバイス
55 …入出力インタフェース
56 …通信インタフェース
71 …クライアント
76 …算出部
77 …処理部
78 …学習部
79 …記憶部
792…モデル記憶部
LIST OF SYMBOLS 10 Conference system 11 Client 12 Server 19 Communication network 21 Control unit 22 Input unit 221 Mouse 222 Camera 223 Microphone 23 Output unit 231 Display device 232 Speaker 24 Communication unit 25 Operation information generation unit 26 Calculation unit 27 Processing unit 29 Storage unit 291 Operation information storage unit 292 Rule storage unit 30 User interface 31 Video area 32 Control bar 321 Mute button 322 Audio setting button 323 Video button 324 Video setting button 50 Computer 51 CPU
52...RAM
53: program memory 54: storage device 55: input/output interface 56: communication interface 71: client 76: calculation unit 77: processing unit 78: learning unit 79: storage unit 792: model storage unit

Claims (8)

通信ネットワークを介したリモート会議に使用される複数の会議装置のうちの第1の会議装置に設けられる発話欲求推定装置であって、
前記リモート会議中にユーザが前記第1の会議装置に対して行った操作を示す操作情報であって、前記操作の種類と前記操作が行われた時間長である継続時間とを表す情報を含む操作情報を生成する操作情報生成部と、
前記生成された操作情報に含まれる前記種類及び継続時間を表す情報に基づいて、前記ユーザが発話を欲求する度合いを示す発話欲求度合いを算出する発話欲求度合い算出部と、
前記算出された発話欲求度合いに基づく情報を前記複数の会議装置のうちの第2の会議装置に送信する通信部と、
を備える発話欲求推定装置。
A desire to speak estimation device provided in a first conference device among a plurality of conference devices used in a remote conference via a communication network,
an operation information generation unit that generates operation information indicating an operation performed by a user on the first conference device during the remote conference, the operation information including information indicating a type of the operation and a duration that is a time length during which the operation was performed ;
a speech desire degree calculation unit that calculates a speech desire degree indicating a degree to which the user desires to speak based on information indicating the type and duration included in the generated operation information;
a communication unit that transmits information based on the calculated desire to speak to a second conference device among the plurality of conference devices;
The speech desire estimation device includes:
前記発話欲求度合い算出部は、前記生成された操作情報から前記リモート会議中における前記ユーザによる1つ前の発話の後に前記ユーザが前記第1の会議装置に対して行った操作を特定し、前記特定された操作ごとに操作が発話の事前行動である可能性を示すスコアを算出し、前記算出されたスコアから前記発話欲求度合いを算出する、
請求項1に記載の発話欲求推定装置。
the desire to speak degree calculation unit identifies an operation performed by the user on the first conference device after a previous utterance by the user during the remote conference from the generated operation information, calculates a score indicating a possibility that the operation is a pre-utterance behavior for each of the identified operations, and calculates the desire to speak degree from the calculated score.
The desire to speak estimation device according to claim 1 .
前記発話欲求度合い算出部は、前記特定された操作が所定の操作に合致する場合、前記特定された操作の継続時間と前記所定の操作に対して設定される基準時間との比較に基づいて前記特定された操作の前記スコアを算出する、
請求項2に記載の発話欲求推定装置。
the speech desire degree calculation unit calculates the score of the specified operation based on a comparison between a duration of the specified operation and a reference time set for the specified operation when the specified operation matches a predetermined operation;
The desire to speak estimation device according to claim 2.
前記所定の操作は、音声入力をオンとオフとの間で切り替えるミュートボタンへのカーソル配置と、マイクを設定するためのマイク設定画面の表示と、カメラを設定するためのカメラ設定画面の表示と、の少なくとも1つを含む、
請求項3に記載の発話欲求推定装置。
the predetermined operation includes at least one of: moving a cursor to a mute button for switching an audio input between on and off; displaying a microphone setting screen for setting a microphone; and displaying a camera setting screen for setting a camera.
The desire to speak estimation device according to claim 3.
少なくとも1つの操作を示す操作情報を入力として受け取り、前記発話欲求度合いを表す数値を出力するように構成された発話欲求推定モデルをさらに備え、
前記発話欲求度合い算出部は、前記生成された操作情報から、前記リモート会議中における前記ユーザによる1つ前の発話の後に前記ユーザが前記第1の会議装置に対して行った操作を示す操作情報を抽出し、前記抽出された操作情報を前記発話欲求推定モデルに入力し、前記発話欲求推定モデルから出力される数値を前記発話欲求度合いとして得る、
請求項1乃至4のいずれか1項に記載の発話欲求推定装置。
The present invention further includes a speech desire estimation model configured to receive operation information indicating at least one operation as an input and output a numerical value indicating the speech desire degree,
the desire to speak degree calculation unit extracts, from the generated operation information, operation information indicating an operation performed by the user on the first conference device after a previous utterance by the user during the remote conference, inputs the extracted operation information into the desire to speak estimation model, and obtains a numerical value output from the desire to speak estimation model as the desire to speak degree;
The desire to speak estimation device according to any one of claims 1 to 4.
前記生成された操作情報を使用して前記発話欲求推定モデルを学習する学習部をさらに備える請求項5に記載の発話欲求推定装置。 The speech desire estimation device of claim 5 further comprising a learning unit that uses the generated operation information to learn the speech desire estimation model. 通信ネットワークを介したリモート会議に使用される複数の会議装置のうちの第1の会議装置により実行される発話欲求推定方法であって、
前記リモート会議中にユーザが前記第1の会議装置に対して行った操作を示す操作情報であって、前記操作の種類と前記操作が行われた時間長である継続時間とを表す情報を含む操作情報を生成することと、
前記生成された操作情報に含まれる前記種類及び継続時間を表す情報に基づいて、前記ユーザが発話を欲求する度合いを示す発話欲求度合いを算出することと、
前記算出された発話欲求度合いに基づく情報を前記複数の会議装置のうちの第2の会議装置に送信することと、
を備える発話欲求推定方法。
A method for estimating a desire to speak, which is executed by a first conference device among a plurality of conference devices used in a remote conference via a communication network, comprising:
generating operation information indicating an operation performed by a user on the first conference device during the remote conference, the operation information including information indicating a type of the operation and a duration that is a time length during which the operation was performed ;
Calculating a degree of desire to speak, which indicates a degree to which the user desires to speak, based on information indicating the type and duration included in the generated operation information;
transmitting information based on the calculated desire to speak to a second conference device among the plurality of conference devices;
The method for estimating desire to speak comprises:
請求項1乃至6のいずれか1項に記載の発話欲求推定装置としてコンピュータを機能させるためのプログラム。
A program for causing a computer to function as the desire to speak estimation device according to any one of claims 1 to 6.
JP2023561954A 2021-11-16 2021-11-16 Utterance desire estimation device, utterance desire estimation method, and program Active JP7687433B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/042076 WO2023089662A1 (en) 2021-11-16 2021-11-16 Speaking desire estimation device, speaking desire estimation method, and program

Publications (2)

Publication Number Publication Date
JPWO2023089662A1 JPWO2023089662A1 (en) 2023-05-25
JP7687433B2 true JP7687433B2 (en) 2025-06-03

Family

ID=86396361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023561954A Active JP7687433B2 (en) 2021-11-16 2021-11-16 Utterance desire estimation device, utterance desire estimation method, and program

Country Status (3)

Country Link
US (1) US20250004699A1 (en)
JP (1) JP7687433B2 (en)
WO (1) WO2023089662A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2025049266A (en) * 2023-09-21 2025-04-03 ソフトバンクグループ株式会社 system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012244285A (en) 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Conference device, conference method, and conference program
JP2013183183A (en) 2012-02-29 2013-09-12 Nippon Telegr & Teleph Corp <Ntt> Conference device, conference method and conference program
JP2017111643A (en) 2015-12-17 2017-06-22 キヤノンマーケティングジャパン株式会社 Web conference system, information processing method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012244285A (en) 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Conference device, conference method, and conference program
JP2013183183A (en) 2012-02-29 2013-09-12 Nippon Telegr & Teleph Corp <Ntt> Conference device, conference method and conference program
JP2017111643A (en) 2015-12-17 2017-06-22 キヤノンマーケティングジャパン株式会社 Web conference system, information processing method, and program

Also Published As

Publication number Publication date
US20250004699A1 (en) 2025-01-02
JPWO2023089662A1 (en) 2023-05-25
WO2023089662A1 (en) 2023-05-25

Similar Documents

Publication Publication Date Title
JP7754248B2 (en) Systems, methods, and control devices
JP6084654B2 (en) Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model
WO2019099397A1 (en) System and methods for testing a video conference call using a virtual assistant
JPWO2017168936A1 (en) Information processing apparatus, information processing method, and program
US20250181310A1 (en) Source-based sound quality adjustment tool
JP6987969B2 (en) Network-based learning model for natural language processing
JPWO2018030149A1 (en) INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD
JP7687433B2 (en) Utterance desire estimation device, utterance desire estimation method, and program
CN114979549A (en) Privacy protection method, system, equipment and storage medium for online conference
JP7187212B2 (en) Information processing device, information processing method and information processing program
WO2019026360A1 (en) Information processing device and information processing method
CN115083412B (en) Voice interaction method and related device, electronic equipment, storage medium
JP2024092451A (en) Dialogue support system, dialogue support method, and computer program
JP2013183183A (en) Conference device, conference method and conference program
JP7152453B2 (en) Information processing device, information processing method, information processing program, and information processing system
WO2019146199A1 (en) Information processing device and information processing method
WO2022215361A1 (en) Information processing device and information processing method
JP2018190070A (en) Dialog support method, apparatus, and program
JP7561101B2 (en) Information processing device, information processing method, and information processing program
JP2021125002A (en) Information processing device, method, and program
JP7142403B1 (en) Speech processing program, speech processing system and conversational robot
JP7532182B2 (en) Remote conference support control device, method and program
JP7269269B2 (en) Information processing device, information processing method, and information processing program
JP7767771B2 (en) Remote conference system, remote conference method, and remote conference program
JP7670161B2 (en) Utterance estimation device, utterance estimation method, and utterance estimation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250505

R150 Certificate of patent or registration of utility model

Ref document number: 7687433

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350