JP6417652B2 - Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program - Google Patents
Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program Download PDFInfo
- Publication number
- JP6417652B2 JP6417652B2 JP2013204509A JP2013204509A JP6417652B2 JP 6417652 B2 JP6417652 B2 JP 6417652B2 JP 2013204509 A JP2013204509 A JP 2013204509A JP 2013204509 A JP2013204509 A JP 2013204509A JP 6417652 B2 JP6417652 B2 JP 6417652B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- client terminal
- audio data
- synthesized
- transmission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
ネットワークを介して音声を送受信するアプリケーションにおいて、ネットワークの遅延などによる音声の遅延を回復する技術に関する。 The present invention relates to a technique for recovering audio delay due to network delay or the like in an application that transmits and receives audio over a network.
ネットワークを介して音声を送受信するアプリケーションにおいて、ネットワークの揺らぎなどを考慮し、例えば、サーバ上に各クライアントからの上り音声を蓄積するためのキューを用意する場合がある。しかし、キューを持つことにより、キューにデータが蓄積していくことで遅延が増大する状況も発生する。 In an application that transmits and receives audio over a network, for example, a queue for accumulating uplink audio from each client may be prepared on the server in consideration of network fluctuations. However, having a queue also causes a situation in which delay increases as data accumulates in the queue.
クライアントが受信したそれぞれのクライアントの音声から無音を破棄することで遅延を回復するこことが可能であるが、サーバでミキシングする場合、クライアントが受信する下り音声はサーバでミキシングされた1つの音声データとなる。その場合、いずれか1つのクライアントが発話中であれば、そのミキシングした音声は無音ではないため破棄されず、遅延を回復することはできない。 It is possible to recover the delay by discarding silence from the voice of each client received by the client. However, when mixing by the server, the downlink voice received by the client is one voice data mixed by the server. It becomes. In that case, if any one of the clients is speaking, the mixed voice is not silent and is not discarded, and the delay cannot be recovered.
そのため、下り音声をサーバでミキシングしてクライアントに送信する場合には、当該クライアントとサーバ間の下りの通信が揺らぐなどした際に、他のクライアントにはすでに送信済みである音声が、当該クライアントにだけ遅れて送信されるといったことが発生し、その後に受信する音声がすべて遅延する状態を維持してしまうことになる。 For this reason, when downlink audio is mixed and transmitted to a client by a server, when the downlink communication between the client and the server fluctuates, the audio that has already been transmitted to other clients is transmitted to the client. Therefore, a state in which all the audio received thereafter is delayed is maintained.
以上のように遅延が増大すると具体的には以下のような問題が発生する。複数拠点で遠隔会議をしているとした場合、時間の経過とともに音声の遅延が蓄積し、会議の進行に支障が出る場合がある。例えば、相手が発話していないと思い、発話した場合に音声が重複し、聞き取れない可能性がある。また、質問に対する回答が来ていないと思い再度質問するなど、会話が成り立たない可能性がある。 As described above, when the delay increases, specifically, the following problems occur. If a remote conference is performed at multiple locations, audio delays accumulate over time, which may hinder the progress of the conference. For example, when the other party thinks that he / she is not speaking and there is a possibility that the voice is duplicated and cannot be heard. In addition, there is a possibility that the conversation does not hold, for example, the question is asked again because the answer to the question is not received.
特許文献1における通信システムは、音声データを送信装置から受信装置に送信するシステム構成であって、送信側装置は、音声データの音量レベルに基づいて無音状態情報を生成して、送信装置は音声データを蓄積して遅延時間を調整するジッタ吸収バッファと、ジッタ吸収バッファに蓄積されている音声データ量が設定した許容蓄積量を超過した場合に、当該許容蓄積量を増加させ、ジッタ吸収バッファに蓄積されている音声データ量が一定時間、設定した許容蓄積量内である場合に、無音状態を示す音声データを廃棄して、当該許容蓄積量をデフォルト値に戻すジッタバッファ調整部を備えたものである。
The communication system in
しかしながら、特許文献1に記載の技術においては、あくまで送信端末、受信端末が一対一の関係にある場合に限られており、例えば、会議システムのように、一対多の関係であって、また、1つのクライアントから他のクライアントに直接音声データを送るわけではなく、例えば会議サーバにおいて他のクライアント端末の音声データをミキシングしてから、クライアント端末に音声データを送信する場合には対応できない。
However, the technique described in
本発明の目的は、音声データを送信する仕組みにおいて、送信する対象の音声データを変えて遅延を回復することが可能な仕組みを提供することである。 An object of the present invention is a mechanism to send audio data, it is to provide a mechanism capable of restoring a delay by changing the voice data to be transmitted.
本発明は、入力された音声データを所定の単位で情報処理装置に送信するクライアント端末と通信可能な、前記クライアント端末から受信した所定の単位の音声データを、当該音声データの送信元のクライアント端末ごとに合成前音声データ群として蓄積して記憶する蓄積記憶部を備える情報処理装置であって、前記蓄積記憶部に蓄積された、前記クライアント端末ごとの合成前音声データ群から取得された所定の単位の音声データを用いて合成データを生成する合成データ生成手段と、前記合成データ生成手段により生成された前記合成データを、複数のクライアント端末のうち、送信先であるクライアント端末に送信する送信手段と、前記クライアント端末から通知を受け付けた場合には合成に用いない音声データを、前記蓄積記憶部に蓄積された前記クライアント端末ごとの合成前音声データ群から特定する特定手段と、を備え、前記合成データ生成手段は、前記クライアント端末から通知を受け付けた場合には、前記合成前音声データ群において前記特定手段により特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して、前記通知を受け付けたクライアント端末用の合成データを生成することを特徴とする。 According to the present invention, a predetermined unit of audio data received from the client terminal that can communicate with a client terminal that transmits input audio data to an information processing apparatus in a predetermined unit An information processing apparatus including an accumulation storage unit that accumulates and stores as a pre-synthesis audio data group for each of the predetermined data acquired from the pre-synthesis audio data group for each of the client terminals accumulated in the accumulation storage unit Synthetic data generation means for generating synthetic data using unit voice data, and transmission means for transmitting the synthetic data generated by the synthetic data generation means to a client terminal that is a transmission destination among a plurality of client terminals when the audio data is not used for synthesis when receiving a notification from the client terminal, in the accumulation storage unit Comprising specifying means for specifying the pre-combination audio data group for each of the client terminal product, and the synthetic data generating means, when receiving a notification from the client terminal, said in the pre-combination voice data group The voice data not used for the synthesis specified by the specifying unit is skipped , the next voice data to be synthesized is acquired, and the synthesized data for the client terminal that has received the notification is generated.
本発明によれば、音声データを送信する仕組みにおいて、送信する対象の音声データを変えて遅延を回復することが可能な仕組みを提供することができる。 According to the present invention, the mechanism for sending voice data, it is possible to provide a mechanism capable of restoring a delay by changing the voice data to be transmitted.
以下、本発明の実施の形態を、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の実施の形態に係るシステム構成を示す図の一例である。クライアント端末101(複数)と会議サーバ102は、ネットワークを介して接続可能である。
FIG. 1 is an example of a diagram showing a system configuration according to an embodiment of the present invention. The client terminals 101 (multiple) and the
会議システム(図1)においては、会議に参加するユーザのうち、いずれか(便宜上、主催者とする)が、クライアント端末101から会議サーバ102にアクセスして、会議室を予約する。会議室とは、可能の会議スペースであって、後述するところの「招待された参加者」だけが入室可能にすることも可能である。また、フリースペースとして、不特定のユーザが参加できたり、発言はできないが、視聴のみ可能であったりしても良い。
In the conference system (FIG. 1), one of the users participating in the conference (for convenience, the organizer) accesses the
主催者は、会議を特定する会議ID(あるいは会議室ID、部屋番号など)、その会議室を使用する時刻などを決定し、特定の参加者を招待する場合には、会議サーバに登録されている参加者の通知先(例えばメールアドレス)などを用いて、参加を呼びかけるようにしてもよい。特定のユーザのみを参加させるためには、前記通知の中に、当該会議室に入室するためのパスワードを記載可能とする。 The organizer determines the conference ID (or conference room ID, room number, etc.) for identifying the conference, the time to use the conference room, etc., and invites a specific participant to be registered in the conference server. Participant's notification destination (for example, e-mail address) may be used to call for participation. In order to allow only a specific user to participate, a password for entering the conference room can be described in the notification.
ここで、各クライアント端末101a〜cのユーザ(実際の会議参加者)のマイクロフォン(不図示)、による音声データ、あるいはカメラ(不図示)による撮像データは、図4〜図7でそのイメージとして示すように、一旦、会議サーバ102に送信される。例えば音声については各々のクライアント端末101から会議サーバ102に対して、クライアント端末101の個数分の上り音声として送信される。
Here, audio data from a microphone (not shown) of a user (actual conference participant) of each
前述の上り音声は、会議サーバ102で、複数のクライアント端末101から受信した上り音声をミキシングし、他のクライアント端末101に配信する(下り音声データ)。ただ、ミキシングに際して、ある上り音声を送信したクライアント端末101に送り返される下り音声データには、その端末自身の音声をミキシングすることは不要である。
The above uplink voice is mixed by the
ここで、クライアント端末101と会議サーバ102を別筐体として記載しているが、ある1つのクライアント端末101が、会議サーバ102の機能を同じ筐体に構成されるようにしても良い。
Here, although the client terminal 101 and the
なお、本発明の実施形態においては、会議システムを例として説明を進めるが、必ずしも会議システムに限らず、例えばネットワークを介して音声の交換をし、ネットワークの遅延などによりパケット(音声データを含むデータ)の遅延が発生する場合に利用可能な技術として提供する。 In the embodiment of the present invention, the description will be given by taking the conference system as an example. However, the present invention is not necessarily limited to the conference system. For example, voice exchange is performed via a network, and packets (data including voice data are ) Provided as a usable technique when a delay occurs.
図2は、本発明の実施の形態に係るハードウェアの構成を示す図の一例である。図2に示すように、クライアント端末101、会議サーバ102は、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。 CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
FIG. 2 is an example of a diagram illustrating a hardware configuration according to the embodiment of the present invention. As shown in FIG. 2, the client terminal 101 and the
また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。
Further, the
RAM202は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM203あるいは外部メモリ211からRAM202にロードし、ロードしたプログラムを実行することで各種動作を実現する。
The
また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。
The
ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。
The
メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
The
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。
The communication I /
尚、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。
Note that the
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM202にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイルおよび各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明についても後述する。
Various programs to be described later for realizing the present invention are recorded in the
図3は、本発明の実施の形態に係るソフトウェアの機能構成を示す図の一例である。クライアント端末101と会議サーバ102のソフトウェア構成要素と各記憶部、およびそれらの間のデータの受け渡し(端末3から音声データ328等に関連付けられた点線矢印を除く)を図で示したものである。
FIG. 3 is an example of a diagram showing a functional configuration of software according to the embodiment of the present invention. The software components of the client terminal 101 and the
まず、音声データの流れについて概略を説明する。クライアント端末101が、ユーザから音声の入力を受け付けると、音声データに変換され会議サーバ102に送信される。複数のクライアント端末101から会議サーバが受信した音声データは、クライアント端末101ごとに用意されたキューに格納される。あるクライアント端末101に送信される音声データは、当該クライアント端末101自体の音声データ(に対応するキュー)を除き、他のクライアント端末101に対応するキューから音声データを1つずつ取得してミキシングし、クライアント端末101に送信する。ミキシングされた音声データを受信したクライアント端末101は、(当該クライアント端末101自体の音声データはミキシングされていない)他のクライアント端末101のミキシングされた音声データを再生することでユーザは、音声を聴くことが出来る。
First, an outline of the flow of audio data will be described. When the client terminal 101 receives voice input from the user, it is converted into voice data and transmitted to the
クライアント端末101は、音声入力部311において、ユーザが使用するマイクなどの接続機器により音声データの入力を受け付ける。入力を受け付けた音声データは、音声送信部312から、会議サーバ102に送信される。ここで、音声データは、一定のサイズ(例えば、時間を基準として10ミリセカンド分の入力された音声など)に区切られる。以降の説明で「音声データ」と呼ぶ場合には、この一定のサイズに区切られた入力音声のデータを意味することにする。これはあくまで例であり、データのビット数など会議システムでの基準に従うものとする。
In the audio input unit 311, the client terminal 101 receives input of audio data through a connected device such as a microphone used by the user. The audio data that has received the input is transmitted from the audio transmission unit 312 to the
クライアント端末101から送信された音声データ(上り音声データ)は、会議サーバ102の音声受信部321において、受信される。受信した音声データは、ミキシング用音声記憶部326に格納される。ミキシング用音声記憶部326は、会議に参加している各々のクライアント端末101に対応してキューを用意し、ある程度の数の音声データを記憶する。図3においては、ミキシング用音声記憶部326のうち、各々のクライアント端末101に対応してキューの1つ1つの要素を端末1〜端末3に対応して縦方向(例では7つの矩形)に示している。
The audio data (upstream audio data) transmitted from the client terminal 101 is received by the audio receiving unit 321 of the
音声受信時に、上りチェック部322により上り音声データ受信(取得)が原因で、処理の遅延が発生していると判断された場合には、遅延回復処理が行われる。具体的には、この処理は、受信したクライアント端末101ごとに行われ、対応するキューに格納されている音声データの数が、サーバ閾値記憶部327の上り遅延閾値に基づき、所定数を上回っていると判断された場合に、無音データの削除処理をする。 At the time of audio reception, if the uplink check unit 322 determines that processing delay has occurred due to reception (acquisition) of uplink audio data, delay recovery processing is performed. Specifically, this processing is performed for each received client terminal 101, and the number of audio data stored in the corresponding queue exceeds a predetermined number based on the upstream delay threshold of the server threshold storage unit 327. If it is determined that there is, the silence data is deleted.
ここで、各キューに格納される音声データの一単位は1つの矩形に対応するものであり、より詳細には、音声データ328と送信済端末情報329のペアを格納する。音声データ328は、前述のクライアント端末101から受信した音声データである。一方、受信された音声データは、他の端末から受信した音声データとミキシングして、会議サーバ102から、各々のクライアント端末101に送信(ミキシング音声送信部323)される。その際、何らかの状態(例えばネットワークの回線速度の違い)により、送信済のクライアント端末101と、未送信クライアント端末101とが発生する。そこで、後述の遅延回復処理をクライアント端末101ごとに処理できるよう、送信済のクライアント端末101か、未送信のクライアント端末101かの情報を「送信済端末情報329」に記載する。データ構成は如何様でもよく、送信済/未送信のクライアント端末101が識別できればよい。
Here, one unit of audio data stored in each queue corresponds to one rectangle, and more specifically, a pair of audio data 328 and transmitted terminal information 329 is stored. The audio data 328 is audio data received from the client terminal 101 described above. On the other hand, the received audio data is mixed with audio data received from other terminals and transmitted from the
なお、あるクライアント端末101へ送信する音声データのミキシングに際して、もともと当該クライアント端末101から受信した音声データはミキシングする対象から省く。即ち、自分自身以外のクライアント端末101から送られた音声データをミキシングする。 When mixing audio data to be transmitted to a certain client terminal 101, the audio data originally received from the client terminal 101 is omitted from the object to be mixed. That is, the audio data sent from the client terminal 101 other than itself is mixed.
下りチェック部324は、ミキシング音声送信部323がクライアント端末101に音声データを送信する際に、ミキシングすべきクライアント端末101(即ち、送信するクライアント端末101以外のクライアント端末101)関する遅延回復処理をする。具体的には、この処理は、ミキシングする際に、サーバ閾値記憶部327の下り遅延フラグ(クライアント端末101ごとに存在する)が“オン”になっている場合に、各キュー内の無音データをスキップし、次の音声データをミキシングする。 The downlink check unit 324 performs a delay recovery process on the client terminal 101 to be mixed (that is, the client terminal 101 other than the client terminal 101 to be transmitted) when the mixing audio transmission unit 323 transmits the audio data to the client terminal 101. . Specifically, this processing is performed when mixing the silence data in each queue when the downstream delay flag (existing for each client terminal 101) of the server threshold value storage unit 327 is “ON”. Skip and mix the next audio data.
下りチェック部324による遅延回復処理の完了後(遅延回復の必要がないと判定された場合を含む)、ミキシングされたデータは、所定のクライアント端末101に送信される。なお、会議サーバ102の処理において、音声受信部321とミキシング音声送信部323は、同期した処理である必要はない。
After completion of the delay recovery process by the downlink check unit 324 (including a case where it is determined that there is no need for delay recovery), the mixed data is transmitted to a predetermined client terminal 101. In the process of the
クライアント端末101のミキシング音声受信部313においては、会議サーバ102が、当該クライアント端末101以外の音声データをミキシングしたデータを受信し、受信音声記憶部316(キュー)に格納する。その際に、端末閾値記憶部317の再生遅延閾値に基づき、所定数を上回っていると判断された場合に、無音データの削除処理をする。
In the mixing voice receiving unit 313 of the client terminal 101, the
音声再生部315においては、受信音声記憶部316(キュー)からミキシングされた音声を取り出し、再生する。なお、クライアント端末101の処理において、ミキシング音声受信部313と音声再生部315は、同期した処理である必要はない。 The audio reproduction unit 315 takes out the mixed audio from the received audio storage unit 316 (queue) and reproduces it. In the processing of the client terminal 101, the mixing audio reception unit 313 and the audio reproduction unit 315 do not have to be synchronized processing.
音声の遅延回復処理は、クライアント端末101、会議サーバ102の双方で実行される。それぞれの遅延回復処理の概要を、音声データを格納するキューのイメージを用いて図4(クライアント端末101側)、図5〜図7(会議サーバ102側)について説明する。
The audio delay recovery process is executed by both the client terminal 101 and the
図4は、本発明の実施の形態に係るクライアント端末における再生遅延の発生と回復処理を示すイメージの一例を示す図である。図4においては、1)遅延が発生していない状態、2)遅延が発生している状態、3)遅延回復方法、について説明する。なお、図4〜図7で説明する本発明の実施の形態に係わるキューはすべてFIFOとして説明する。まず「遅延が発生していない状態」について1)を用いて説明する。 FIG. 4 is a diagram showing an example of an image showing the occurrence of reproduction delay and recovery processing in the client terminal according to the embodiment of the present invention. In FIG. 4, 1) a state where no delay has occurred, 2) a state where a delay has occurred, and 3) a delay recovery method will be described. Note that all the queues according to the embodiment of the present invention described with reference to FIGS. 4 to 7 are described as FIFOs. First, “a state in which no delay occurs” will be described with reference to 1).
(1)まずクライアント端末101は、会議サーバ102から音声データ(ミキシングされた音声データ)を受信する。
(2)その音声データを受信音声記憶部316に再生する待ち状態のデータとして格納する。
(1) First, the client terminal 101 receives audio data (mixed audio data) from the
(2) The audio data is stored in the received audio storage unit 316 as data in a waiting state for reproduction.
(3)図4の例では、受信した「A1」のみが格納されているが、再生遅延閾値に基づき、所望の範囲の個数であれば遅延とはみなさいとしてよい。キューは、FIFOであり、先に格納された音声データが先に取り出され再生される。 (3) In the example of FIG. 4, only the received “A1” is stored. However, it may be regarded as a delay if the number is within a desired range based on the reproduction delay threshold. The queue is a FIFO, and the previously stored audio data is first extracted and reproduced.
(4)キューの先頭にきた音声データは、音声再生部315により取り出され再生されることにより、当該クライアント端末101のユーザが聞くことが出来る。 (4) The voice data at the head of the queue is taken out and played back by the voice playback unit 315, so that the user of the client terminal 101 can hear it.
以降の図4における説明で、遅延が発生する/しないの違いはあるものの、この(1)〜(4)の流れは同じである。 In the following description of FIG. 4, the flow of (1) to (4) is the same although there is a difference in whether or not a delay occurs.
次に「遅延が発生している状態」について2)を用いて説明する。例えば、ネットワークの遅延などにより複数のパケット(便宜上音声データと同じ記号で表す。例ではA1〜A7の7個)を、ほぼ同時にクライアント端末101にて受信したとする。クライアント端末101のキュー(受信音声記憶部316)には7個の音声データが蓄積され、音声データの再生が遅延することになる。 Next, the “state in which delay occurs” will be described with reference to 2). For example, it is assumed that a plurality of packets (represented by the same symbols as the voice data for convenience. In the example, seven packets A1 to A7) are received at the client terminal 101 almost simultaneously due to network delay or the like. Seven audio data are accumulated in the queue (received audio storage unit 316) of the client terminal 101, and reproduction of the audio data is delayed.
これ以降の処理において、再生のためキューから削除されていく音声データと、受信してキューに格納する音声データは原則として同一のタイミングであるため、遅延の速度は一定になる(自然に遅延が回復することはない、ということ)。 In the subsequent processing, since the audio data that is deleted from the queue for playback and the audio data that is received and stored in the queue are in principle the same timing, the delay speed is constant (naturally there is a delay). It will never recover).
従って、何らかの理由により、再度の遅延が発生すると、その遅延した音声データの総数は、次第に蓄積されていき、最終的には、会議の通話にユーザが違和感を感ずるレベルに達する。すなわち、カメラで撮影した画像が別に送受信されている場合には、発言の画像と音声が著しくずれる、また他のクライアント端末101との発言内容の前後関係がおかしくなってくる、などが考えられる。 Therefore, if another delay occurs for some reason, the total number of the delayed audio data is gradually accumulated, and finally reaches a level at which the user feels uncomfortable with the conference call. That is, when images captured by the camera are transmitted / received separately, it is conceivable that the speech image and sound are significantly different from each other, and the context of speech content with other client terminals 101 is incorrect.
従って、前述の通り、再生遅延閾値に基づき、所望の範囲の個数であれば遅延とはみなさいが、所定の範囲を超えた場合には、再生時の遅延回復処理を行う必要がある。 Therefore, as described above, based on the reproduction delay threshold value, if the number is within a desired range, it is regarded as a delay. However, when the predetermined range is exceeded, it is necessary to perform a delay recovery process during reproduction.
図4の最後に「遅延回復方法」について3)を用いて説明する。すなわち、再生遅延閾値に基づき、所望の範囲の個数を超えたとして、遅延回復処理を行う。キューにある音声データには、A1〜A7の音声データが格納されているが、このうち「()」が付与された音声データ(A2、A4、A5、A6を例えば(A2)と記載したもの)については、「無音データ」であるとする。ここで無音データとは、システム上「音声が含まれていないとみなす音声データ」である。音声データが無音データであるか否かの判定については「特開2000−312223」などにより周知の技術であるため、説明を省略する。 The “delay recovery method” will be described with reference to 3) at the end of FIG. That is, based on the reproduction delay threshold value, delay recovery processing is performed assuming that the number of desired ranges has been exceeded. The audio data in the queue stores the audio data of A1 to A7. Of these, the audio data to which “()” is given (A2, A4, A5, A6 are described as (A2), for example) ) Is “silent data”. Here, the silent data is “voice data that is regarded as not including voice” in the system. The determination as to whether or not the audio data is silent data is a well-known technique disclosed in “Japanese Patent Laid-Open No. 2000-31223” and will not be described.
音声データの再生には、キューの先頭から音声データを1つずつ取得して再生するが、取得する際にキューに格納されている音声データの数をカウントし、その数が、再生遅延閾値に基づき、所望の範囲の個数を超えた場合には、遅延回復処理を開始する。その場合、キューに格納されているすべての音声データを確認し、無音データを削除していく。なお、遅延回復処理は、他の処理に割り込まれることなく一気に処理を行う。 For audio data reproduction, audio data is acquired one by one from the head of the queue and reproduced. The number of audio data stored in the queue is counted at the time of acquisition, and this number is set as a reproduction delay threshold. Based on this, when the number of desired ranges is exceeded, delay recovery processing is started. In that case, all audio data stored in the queue is confirmed, and the silence data is deleted. The delay recovery process is performed at a time without being interrupted by other processes.
図5は、本発明の実施の形態に係る会議サーバにおける、音声情報がキューに格納される状況を示すイメージの一例を示す図である。図5は、遅延が発生していない場合の状態を示す。
(1)まず、会議サーバ102は、クライアント端末101ごとに音声データを受信する。
FIG. 5 is a diagram showing an example of an image showing a situation in which audio information is stored in a queue in the conference server according to the embodiment of the present invention. FIG. 5 shows a state when no delay occurs.
(1) First, the
(2)次に、受信した音声データを、ミキシング用音声記憶部326においてクライアント端末101ごとに用意したキューに格納する。格納する情報は、図3で説明したように音声データ328だけではなく、他のクライアント端末101が当該音声データをミキシングして送信済であるかどうかを、他のクライアント端末101ごとに記憶する送信済端末情報329をも格納する。両者(328、329)を合わせて、便宜上音声情報と呼ぶことにする。キューに積んだ直後の初期状態では、他のいずれのクライアント端末101にも送信していない。なお、この送信済であるか否かの情報は、他のすべてのクライアント端末101の配列を用意したフラグであってもよいし、あるいは送信済端末の一覧、あるいは送信済でない端末の一覧など、いずれのデータ構成であってもよい。 (2) Next, the received audio data is stored in a queue prepared for each client terminal 101 in the mixing audio storage unit 326. The information to be stored is not only the audio data 328 as described with reference to FIG. 3, but also a transmission that stores for each other client terminal 101 whether or not the other client terminal 101 has already mixed and transmitted the audio data. Stored terminal information 329 is also stored. Both (328, 329) are collectively referred to as audio information for convenience. In the initial state immediately after being placed in the queue, it is not transmitted to any other client terminal 101. The information indicating whether or not the transmission has been completed may be a flag prepared with an array of all other client terminals 101, or a list of terminals that have already been transmitted or a list of terminals that have not been transmitted. Any data structure may be used.
(3)次に、各キューの音声データ(キューの先頭の音声情報に含まれる音声データ)を取り出しミキシングする。前述の通り、音声データを送信しようとするクライアント端末101に対応するキューを除き、その他のキューの音声データをミキシングする。
(4)ミキシングした音声データをクライアント端末101に送信する。
(3) Next, the audio data of each queue (audio data included in the audio information at the head of the queue) is extracted and mixed. As described above, the audio data of other queues are mixed except for the queue corresponding to the client terminal 101 to which the audio data is to be transmitted.
(4) The mixed audio data is transmitted to the client terminal 101.
図6は、本発明の実施の形態に係る会議サーバにおける、クライアント端末からの受信状態に基づく遅延状態の発生と回復処理を示すイメージの一例を示す図である。図6では、まず「1)上り音声データ取得(クライアント端末101から会議サーバ102に送信された音声データ取得)が原因で、遅延が発生する状況」を説明する。 FIG. 6 is a diagram showing an example of an image showing the generation and recovery processing of the delay state based on the reception state from the client terminal in the conference server according to the embodiment of the present invention. In FIG. 6, first, “1) a situation in which delay occurs due to acquisition of uplink voice data (acquisition of voice data transmitted from the client terminal 101 to the conference server 102)” will be described.
(1)まず、クライアント端末101Aからは、遅延することなく音声データを受信しているとする。一方、クライアント端末101Bからは、ネットワークの問題などで、7つの音声データ(B1〜B7)を受信する。 (1) First, it is assumed that audio data is received from the client terminal 101A without delay. On the other hand, seven audio data (B1 to B7) are received from the client terminal 101B due to a network problem or the like.
(2)従って、クライアント端末101Aに対応するキューは、1つの音声情報が格納されるが、クライアント端末101Bでは、7つの音声情報が対応するキューに格納する。 (2) Accordingly, one audio information is stored in the queue corresponding to the client terminal 101A, but seven audio information is stored in the corresponding queue in the client terminal 101B.
(3)クライアント端末101Cに送信するためのミキシングは、クライアント端末101A用、B用のキューから取り出した音声データを用いる。クライアント端末101A用のキューからは、音声データ「A7」(「B7」と同じ時間の音声)が取得され用いられるが、クライアント端末101B用のキューからは、音声データ「B1」(「B7」より6単位時間前の音声)が遅延データとして残っている。従って、それぞれ時間のずれた「A7+B1」というミキシング音声データが生成される。 (3) Mixing for transmission to the client terminal 101C uses audio data extracted from the queues for the client terminal 101A and B. From the queue for the client terminal 101A, the voice data “A7” (voice having the same time as “B7”) is acquired and used, but from the queue for the client terminal 101B, the voice data “B1” (from “B7”) is used. (Sound of 6 unit time ago) remains as delay data. Accordingly, mixing audio data of “A7 + B1” with different time is generated.
前述のクライアント端末101における再生の場合と同様に、ミキシングのためキューから削除されていく音声情報と、受信してキューに格納する音声情報は原則として同一の個数であるため、遅延の速度は一定になる(自然に遅延が回復することはない、ということ)。従って、何らかの理由により、クライアント端末101Bから受信する音声データのみに対して遅延が発生すると、その遅延した音声データの総数は、次第に蓄積されていく。 As in the case of reproduction in the client terminal 101 described above, the audio information that is deleted from the queue for mixing and the audio information that is received and stored in the queue are in principle the same number, so the delay speed is constant. (The delay will not recover naturally). Accordingly, when a delay occurs only for the audio data received from the client terminal 101B for some reason, the total number of the delayed audio data is gradually accumulated.
(4)最終的にクライアント端末101に送信された(ミキシングされた)音声データは、ユーザからみて問題と判断されるレベルに達する。即ち、ミキシングされた音声データを受信したクライアント端末101以外のクライアント端末101の音声データがミキシングされているわけだが、時間的なずれがあり、会話が成り立たない可能性もある。 (4) The audio data that is finally transmitted (mixed) to the client terminal 101 reaches a level that is determined to be a problem by the user. That is, the audio data of the client terminals 101 other than the client terminal 101 that has received the mixed audio data is being mixed, but there is a possibility that the conversation may not be established due to a time lag.
次に、前述の遅延に対する「2)遅延回復方法」を説明する。例として1)のようにクライアント端末101Bから受信したキューにおいて、所定の数の範囲を超える音声情報が蓄積されたとする(上り遅延閾値に基づいて判定)。所定の数の範囲を超える音声情報が蓄積されたと判定されると遅延回復処理が開始される。「2)」の図の左側にあるキューには、B1〜B7のうち、無音データに対応する音声情報(「()」が付与されたもの)が4つあるため、これを削除する。無音データかどうかの判定は、クライアント端末101で行い、送信する音声データに付加される。会議サーバ102においては、実際の音声データ内部を解析するのではなく、クライアント端末101から送信された音声データの付加情報により、無音データであるか否かを判定する。ただし、無音データかどうかの判定は会議サーバ102で行ってもよい。なお、会議サーバにおいては、音声データの下り処理(クライアント端末101への音声データ送信)においても、音声データが無音であるか否かを判定する場合があるが、同様とする。残りは右側のキューの通り、3つ(B1、B3、B7)の音声情報が格納されることになる。これらが、すべてのキュー(クライアント端末101ごとに用意されている)ごとに、実行される。なお、遅延回復処理は、他の処理に割り込まれることなく一気に処理を行う。
Next, “2) Delay recovery method” for the above-described delay will be described. As an example, it is assumed that audio information exceeding a predetermined number of ranges is accumulated in the queue received from the client terminal 101B as in 1) (determination based on the uplink delay threshold). When it is determined that audio information exceeding a predetermined number of ranges has been accumulated, delay recovery processing is started. In the queue on the left side of the figure “2)”, there are four pieces of voice information (those assigned “()”) corresponding to silence data among B1 to B7, and these are deleted. Whether the data is silent data is determined by the client terminal 101 and added to the audio data to be transmitted. The
図7は、本発明の実施の形態に係る会議サーバにおける、クライアント端末への送信状態に基づく遅延状態の発生と回復処理を示すイメージの一例を示す図である。図7では、まず「3)下り音声データ取得(会議サーバ102からクライアント端末101へのミキシング音声データ送信)が原因で、遅延が発生する状況」を説明する。
(1)会議サーバ102は、クライアント端末101A、Bの双方から音声データを受信する。
FIG. 7 is a diagram showing an example of an image showing the generation and recovery processing of the delay state based on the transmission state to the client terminal in the conference server according to the embodiment of the present invention. In FIG. 7, first, “3) a situation in which delay occurs due to downlink audio data acquisition (mixed audio data transmission from the
(1) The
(2)各々の対応するキューに、音声情報(音声データと送信済端末情報を関連付けた情報)を格納する。図7の3)では、それぞれ7つの音声情報が格納されている。 (2) Voice information (information in which voice data and transmitted terminal information are associated) is stored in each corresponding queue. In 3) of FIG. 7, seven pieces of audio information are stored.
(3)クライアント端末101ごとの各キューから、音声データを取り出す。各クライアント端末101に送るための音声データをミキシングするため、クライアント端末101ごとに、自分自身を除く他のクライアント端末101のすべての音声データを取り出す。 (3) Extract audio data from each queue for each client terminal 101. In order to mix the audio data to be sent to each client terminal 101, all audio data of the other client terminals 101 other than itself are extracted for each client terminal 101.
(4)次にミキシングした音声データを、クライアント端末101Cに送信する。その際に、ネットワークの状態などにより、遅延が発生することがある。一方、クライアント端末101Bへ送信する音声(クライアント端末101Aとクライアント端末101Cの音声データをミキシングした音声データ)は遅延なく送信できたとする。その場合、クライアント端末101Bには送信済みだが、クライアント端末101Cには未送信のクライアント端末101Aの音声がキューに存在することになる。音声情報の送信済端末情報329に、未送信クライアント端末101が1つでもあれば、キューに格納された音声情報を削除することは出来ない。削除されなくとも、クライアント端末101Bでは、ミキシング/送信で無視されるデータとなるが、クライアント端末101Cでは無視できないため、クライアント端末101Aで再生される音声と、クライアント端末101Cで再生される音声との時間間隔が累積されてきて、徐々に会話の時間的な前後関係が不自然になることも想定される。
次に、図11をもちいて前述の遅延に対する「4)遅延回復方法」を説明する。
(4) Next, the mixed audio data is transmitted to the client terminal 101C. At that time, a delay may occur depending on the state of the network. On the other hand, it is assumed that the voice transmitted to the client terminal 101B (voice data obtained by mixing the voice data of the client terminal 101A and the client terminal 101C) can be transmitted without delay. In this case, the voice of the client terminal 101A that has been transmitted to the client terminal 101B but not transmitted to the client terminal 101C exists in the queue. If there is at least one untransmitted client terminal 101 in the transmitted terminal information 329 of the voice information, the voice information stored in the queue cannot be deleted. Even if the data is not deleted, the data is ignored in the mixing / transmission in the client terminal 101B, but cannot be ignored in the client terminal 101C. Therefore, the audio reproduced at the client terminal 101A and the audio reproduced at the client terminal 101C It is also assumed that time intervals have accumulated and the temporal context of the conversation gradually becomes unnatural.
Next, "4) Delay recovery method" for the above-described delay will be described with reference to FIG.
図11は、図7において遅延が発生した場合の遅延回復方法をキューのイメージを用いて説明する図の一例である。 FIG. 11 is an example of a diagram illustrating a delay recovery method in the case where a delay occurs in FIG. 7 using a queue image.
例としてクライアント端末101Cに送信する音声で遅延が発生している場合(下り遅延フラグにて判断)、クライアント端末101Aおよびクライアント端末101Bの音声をキューから取出しミキシングする際に、無音データをスキップし、無音ではない音声データをミキシングすることで、遅延を回復する。なお、スキップした無音データに未送信端末が存在しない場合はキューから削除される。「4)」の図のキューには、B1〜B7のうち、無音データに対応する音声情報(「()」が付与されたもの)が4つあるため、これをスキップする。これらが、すべてのキュー(クライアント端末101ごとに用意されている)ごとに、実行される。なお、遅延回復処理は、他の処理に割り込まれることなく一気に処理を行う。 As an example, when a delay occurs in the voice transmitted to the client terminal 101C (determined by the downlink delay flag), the silence data is skipped when the voices of the client terminal 101A and the client terminal 101B are taken out from the queue and mixed. Delay is recovered by mixing non-silent audio data. Note that if there is no untransmitted terminal in the skipped silence data, it is deleted from the queue. In the queue of “4)”, there are four pieces of audio information (with “()” added) corresponding to silent data among B1 to B7, and these are skipped. These are executed for every queue (prepared for each client terminal 101). The delay recovery process is performed at a time without being interrupted by other processes.
図8〜図10のフローチャートは、クライアント端末101、または会議サーバ102における遅延に対して、遅延回復の処理を説明するものである。
The flowcharts of FIGS. 8 to 10 explain the delay recovery processing for the delay in the client terminal 101 or the
図8は、本発明の実施の形態に係るクライアント端末における、再生遅延回復処理のフローチャートの一例である。図8のフローチャートの各ステップ(S801〜S813)はクライアント端末101のCPU201により、また、S814〜S815は会議サーバ102のCPU201により実行される。図8のフローチャートは、図4のキューのイメージに対応する。
S801においては、会議サーバから送信されたミキシング済音声データを受け付ける。
FIG. 8 is an example of a flowchart of the reproduction delay recovery process in the client terminal according to the embodiment of the present invention. Each step (S801 to S813) in the flowchart of FIG. 8 is executed by the
In step S801, mixed audio data transmitted from the conference server is received.
S802においては、クライアント端末101の受信音声記憶部316のキューに、前記受信したミキシング済音声データを格納する(エンキュー)。
S803においては、前記キューに格納された音声データの数をカウントする。
In S802, the received mixed voice data is stored in the queue of the received voice storage unit 316 of the client terminal 101 (enqueue).
In step S803, the number of audio data stored in the queue is counted.
S804においては、キューに所定の数の範囲を超える音声データが蓄積されているか判定する(再生遅延閾値に基づいて判定)。 In step S804, it is determined whether audio data exceeding a predetermined number of ranges is accumulated in the queue (determination based on a reproduction delay threshold).
S805においては、所定の数の範囲外音声データが蓄積されたか否かの判定に基づき分岐する。所定の数が範囲内である場合は、NOに進み、S810に進む。所定の数が範囲外である場合には、YESに進み<無音破棄>のルーチンを実行するためS806に進む。 In S805, the process branches based on the determination as to whether or not a predetermined number of out-of-range audio data has been accumulated. When the predetermined number is within the range, the process proceeds to NO and proceeds to S810. If the predetermined number is out of the range, the process proceeds to YES and proceeds to S806 in order to execute the <silent discard> routine.
このS806〜S809の処理は、他の処理に割り込まれることなく一気に処理を行う。ここで、クライアント端末101のキューの全ての音声データについてすべてのチェックを行う。
S806においては、キューの先頭の1つの音声データをデキューする(取り出す)。
S807においては、取り出した音声データが、無音データであるか否かをチェックする。
The processes in S806 to S809 are performed at a time without being interrupted by other processes. Here, all of the audio data in the queue of the client terminal 101 is checked.
In S806, one audio data at the head of the queue is dequeued (taken out).
In S807, it is checked whether or not the extracted audio data is silence data.
S808においては、チェックした音声データが無音であると判定された場合には、そのまま(音声データをキューに戻すことなく)次の音声データをチェックすべくS806に戻る。即ち、無音であると判定された音声データは破棄される。また、チェックした音声データが無音ではないと判定された場合には、S809において、(S806でキューから取り出した)音声データを、再度キューにエンキューする(格納する)。 If it is determined in S808 that the checked audio data is silent, the process returns to S806 to check the next audio data as it is (without returning the audio data to the queue). That is, audio data determined to be silent is discarded. If it is determined that the checked audio data is not silent, the audio data (taken from the queue in S806) is enqueued (stored) again in S809.
前述の通り、キューはFIFOであり、また、S806〜S809の処理は、他の処理に割り込まれることなく、全ての音声データに対して一度ずつ処理を行うため、無音データは全て削除され、図4の3)に記載された左のキューから右のキューのように変わった後でも、残った音声データの時間的順序性は確保される。 As described above, the queue is a FIFO, and the processing of S806 to S809 is performed once for all audio data without being interrupted by other processing, so that all the silent data is deleted. Even after a change from the left cue described in 4-3) to the right cue, the temporal order of the remaining audio data is ensured.
以上で、受信音声記憶部316におけるミキシング音声データを受信したクライアント端末101のキューにおいて遅延が発生した場合には、その遅延回復処理を行った。 As described above, when a delay occurs in the queue of the client terminal 101 that has received the mixed audio data in the received audio storage unit 316, the delay recovery process is performed.
次にS810において、再度、キューに所定の数の範囲を超える音声データが蓄積されているかカウントする。 Next, in S810, it is counted again whether audio data exceeding a predetermined number of ranges is accumulated in the queue.
S811においては、所定の数の範囲を超える音声データが蓄積されているか判定する(再生遅延閾値と同じ値でもよいし、異なる値でもよい)。すなわち、遅延回復処理を完了した結果として十分な効果が得られたか否かを判断する。 In S811, it is determined whether audio data exceeding a predetermined number of ranges has been accumulated (may be the same value as the reproduction delay threshold value or a different value). That is, it is determined whether or not a sufficient effect has been obtained as a result of completing the delay recovery process.
S812においては、所定の数の範囲を超える音声データが蓄積されている場合(YESの場合)には、S813に進む。そうでない場合(NOの場合)には、S801(音声の受信)に戻る。なお、音声の再生は、非同期処理にて実行されおり、遅延回復処理とは無関係であるため、フローチャートとしては図示していない。 In S812, if audio data exceeding a predetermined number of ranges is accumulated (in the case of YES), the process proceeds to S813. If not (NO), the process returns to S801 (sound reception). Note that the audio reproduction is performed by an asynchronous process and is not related to the delay recovery process, and thus is not shown in the flowchart.
S813においては、会議サーバ102に、遅延回復処理の通知を行う。即ち、無音データを削除すると言う方式では、クライアント端末101においては、これ以上の対応は出来ない。従って、その場合は、会議サーバ側にも、遅延回復のための支援を要請することになる。また、会議サーバ102に、遅延回復処理の通知を行った後、S801に戻る。一方、会議サーバ102のS814においては、クライアント端末101のS813からの通知を受け取る。
In step S813, the
S815においては、「下り遅延フラグ」をオンにして、クライアント端末101から回復支援処理の支援要請があることを示す。これにより、会議サーバ102で動作している「下り音声遅延回復」の処理が起動されるようにしても良い。ただし、「下り音声遅延回復」は、クライアント端末101からの要請の有無にかかわらず、独自のルーチンにおける判断で起動されても良い。
以上で、クライアント端末101における遅延回復処理に関するフローチャートの説明を完了する。
In step S815, the “downlink delay flag” is turned on to indicate that there is a request for support for recovery support processing from the client terminal 101. As a result, the “downbound voice delay recovery” process operating in the
This completes the description of the flowchart relating to the delay recovery processing in the client terminal 101.
図9は、本発明の実施の形態に係る会議サーバにおける、クライアント端末からの受信状態に基づく遅延回復処理のフローチャートの一例である。図9のフローチャートの各ステップは会議サーバ102のCPU201により実行される。下記の処理は、会議サーバ102において、クライアント端末101ごとに用意された個々のキューごとに処理される。また、図9のフローチャートで説明する処理は、クライアント端末101から会議サーバ102が受信する音声データなので、上り音声データに関する音声遅延回復処理の説明である。図9のフローチャートは、図5および図6のイメージに対応する。
FIG. 9 is an example of a flowchart of delay recovery processing based on the reception state from the client terminal in the conference server according to the embodiment of the present invention. Each step of the flowchart of FIG. 9 is executed by the
S901においては、クライアント端末101から音声データ(正確には音声データを含む通信用のパケット)を受信する。ここで、フローチャートを1つだけ記載しているが、具体的には、1つの受信部で受け付けて、そのデータから複数あるクライアント端末101のいずれから送信されたデータであるかを判別しても良いし、そもそも、会議サーバ102とクライアント端末101の接続が確立されると“クライアント端末101ごと”に受信部がマルチスレッドで生成されて、特定のクライアント端末101の受信部としてもよい。ただし、S902以降では、受信部でクライアント端末101が識別されているものとして、識別された1つのクライアント端末101に対応する処理とする。
In step S <b> 901, voice data (more precisely, a communication packet including voice data) is received from the client terminal 101. Here, only one flowchart is described, but specifically, even if one receiving unit accepts the data and determines which of the plurality of client terminals 101 transmits the data. In the first place, when the connection between the
S902においては、S901で受信した音声データをミキシング用音声記憶部326の識別された1つのクライアント端末101に対応するキューに、既に音声情報(前述のパケット内の音声データと、前述の送信済端末情報329)が幾つ格納されているかをチェックする。 In step S902, the voice data received in step S901 is already stored in the queue corresponding to the identified client terminal 101 in the mixing voice storage unit 326 in the voice information (the voice data in the packet and the transmitted terminal described above). Check how many pieces of information 329) are stored.
S903においては、前記音声情報の数が、サーバ閾値記憶部327の上り遅延閾値に従って所定数を上回っているか否かを判断する。 In S903, it is determined whether or not the number of the audio information exceeds a predetermined number according to the upstream delay threshold value of the server threshold value storage unit 327.
S904においては、キューにおける音声情報の数が、上り遅延閾値に従って所定数を上回っている、と判定された場合(YESの場合)には、S905に進む。上回っていない、と判定された場合(NOの場合)には、S909に進む。 In S904, when it is determined that the number of audio information in the queue exceeds the predetermined number according to the uplink delay threshold (in the case of YES), the process proceeds to S905. If it is determined that it has not exceeded (NO), the process proceeds to S909.
S909においては、キューに格納された音声情報の数が、上り遅延閾値に従って所定数を上回っていない、即ち、まだ(遅延回復処理をすることなく)音声情報を格納できると判断されるため、キューに格納(エンキュー)して、次の音声受信のためS901に戻る。 In S909, it is determined that the number of audio information stored in the queue does not exceed the predetermined number according to the uplink delay threshold, that is, it is determined that the audio information can still be stored (without performing delay recovery processing). (Enqueue) and return to S901 for the next voice reception.
S905に進んだ場合には、S905からS908の処理を、キューに格納されている全ての音声情報に対して繰り返す。その間、S905からS908のループは抜けない。 When the processing proceeds to S905, the processing from S905 to S908 is repeated for all the audio information stored in the queue. In the meantime, the loop from S905 to S908 does not come off.
上り遅延閾値に従って所定数を上回っている、と判定された場合には、S905において、キューから1つの音声情報を抽出(デキュー。キューから取り出すこと)する。 If it is determined that the predetermined number is exceeded according to the upstream delay threshold, one piece of audio information is extracted (dequeued, taken out from the queue) from the queue in S905.
S906においては、S905において抽出した音声情報に含まれる音声データが、“無音データ”であるか否かを判定する。 S907においては、S905において抽出した音声情報に含まれる音声データが“無音データ”である場合(YESの場合)、S905に戻る。すなわち、デキューした音声情報は無音データであるので、キューに戻さない(削除する)。 In S906, it is determined whether or not the audio data included in the audio information extracted in S905 is “silence data”. In S907, when the audio data included in the audio information extracted in S905 is “silent data” (in the case of YES), the process returns to S905. That is, since the dequeued audio information is silent data, it is not returned (deleted) to the queue.
S908においては、デキューした音声情報は無音データではないので、エンキューする(キューの最後に戻す)。 In S908, since the dequeued audio information is not silence data, it is enqueued (returned to the end of the queue).
これらのS905からS908の処理により、キューの中の無音データの数分だけ音声情報が削減されることにより、音声遅延を削減するという効果を得ることができる。以上で、図9のフローチャートの説明を完了する。 By performing the processing from S905 to S908, the audio information is reduced by the number of silence data in the queue, so that an effect of reducing the audio delay can be obtained. This completes the description of the flowchart in FIG. 9.
図10は、本発明の実施の形態に係るクライアント端末への送信状態に基づく遅延回復処理のフローチャートの一例である。図10のフローチャートの各ステップは会議サーバ102のCPU201により実行される。図10のフローチャートは、会議サーバ102のミキシング用音声記憶部326における複数のクライアント端末101のキューにおける音声情報(に含まれる音声データ)をミキシングして、クライアント端末101に送信する処理である。会議サーバ102からクライアント端末101に送信するため、上り音声データである。図7のキューのイメージに対応する。
FIG. 10 is an example of a flowchart of delay recovery processing based on the transmission state to the client terminal according to the embodiment of the present invention. Each step of the flowchart of FIG. 10 is executed by the
あるクライアント端末101に送信するミキシング音声データに、その端末自身の音声データはミキシングされていない。従って図10のフローチャートで処理するミキシング用音声記憶部326のキューは、送信しようとするクライアント端末101以外のキューに対応するキュー1つずつに対して処理される。
S1001においては、キューから1つの音声情報を抽出する(デキュー)。
S1002においては、図8のS815で“オン”にされる下り遅延フラグをチェックする。
The voice data of the terminal itself is not mixed with the mixed voice data transmitted to a certain client terminal 101. Accordingly, the queues of the mixing audio storage unit 326 processed in the flowchart of FIG. 10 are processed for each queue corresponding to a queue other than the client terminal 101 to be transmitted.
In S1001, one piece of audio information is extracted from the queue (dequeue).
In S1002, the downlink delay flag that is turned “ON” in S815 of FIG. 8 is checked.
S1003においては、下り遅延フラグが“オン”である場合(YESの場合)には、S1004に進む。すなわち、クライアント端末101側から、会議サーバ102側での遅延回復処理が要求されているためである。また、“オフ”である場合(NO)の場合には、S1007に進む。
In S1003, when the downlink delay flag is “ON” (in the case of YES), the process proceeds to S1004. In other words, this is because a delay recovery process on the
なお、S1002において、下り遅延フラグをチェックするのではなく、上り時のチェック(サーバ閾値記憶部327における上り遅延閾値)と同様に、閾値を用いても良い。この閾値を、下り遅延閾値とし、キューにおける音声情報の数が、下り音声閾値に基づいて所定の数に達したらS1003においてS1004(YESの方向)、達していない場合にはS1007に進むようにしても良い。 In S1002, the threshold may be used in the same manner as the check at the time of uplink (uplink delay threshold in the server threshold value storage unit 327) instead of checking the downlink delay flag. This threshold value is set as a downlink delay threshold value, and when the number of audio information in the queue reaches a predetermined number based on the downlink audio threshold value, the process proceeds to S1004 (YES direction) in S1003, and if not, the process proceeds to S1007. .
S1004においては、S1001においてデキューした音声情報に含まれる音声データが、無音データであるか否かをチェックする。 In S1004, it is checked whether or not the audio data included in the audio information dequeued in S1001 is silence data.
S1005においては、S1004においてチェックした音声データが“無音データ”である場合(YESの場合)には、S1006に進み、次の音声情報をキューから取り出して、S1004に戻り処理を繰り返す。この繰り返しにより、“無音データ”を無視した処理が進んでいく。 In S1005, when the audio data checked in S1004 is “silent data” (in the case of YES), the process proceeds to S1006, the next audio information is taken out from the queue, and the process returns to S1004 to repeat the process. By repeating this process, the process of ignoring “silent data” proceeds.
一方、S1004においてチェックした音声データが“無音データ”ではない場合(NOの場合)には、S1007に進み、前述の通りミキシング音声として、S1008によりクライアント端末101に送信する。S1007においては、ミキシングに使用した音声データは、不要なデータとしてキューに戻していない。しかし、実際には、他のクライアント端末101で使用する必要があるかも知れないため、“全てのクライアント端末(この音声データを送信してきたクライアント端末を除く)で、この音声データを送信済みではない”場合には、改めてエンキューする必要がある。 以上で、図10のフローチャートの説明を完了する。 On the other hand, if the sound data checked in S1004 is not “silent data” (NO), the process proceeds to S1007, and is transmitted to the client terminal 101 as mixed sound in S1008 as described above. In S1007, the audio data used for mixing is not returned to the queue as unnecessary data. However, in actuality, since it may be necessary to use it in another client terminal 101, “all client terminals (except for the client terminal that has transmitted this audio data) have not yet transmitted this audio data. In this case, it is necessary to enqueue again. Above, description of the flowchart of FIG. 10 is completed.
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。 It should be noted that the configuration and contents of the various data described above are not limited to this, and it goes without saying that the various data and configurations are configured according to the application and purpose.
以上、一実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 Although one embodiment has been described above, the present invention can take an embodiment as, for example, a system, apparatus, method, program, or recording medium, and specifically includes a plurality of devices. The present invention may be applied to a system including a single device.
また、本発明におけるプログラムは、図8〜図10のフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図8〜図10のフローチャートの処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図8〜図10のフローチャートの各装置の処理方法ごとのプログラムであってもよい。 Further, the program according to the present invention is a program capable of executing the processing method of the flowcharts of FIGS. 8 to 10, and the storage medium of the present invention can execute the processing method of the flowcharts of FIGS. 8 to 10. The program is stored. The program in the present invention may be a program for each processing method of each device in the flowcharts of FIGS.
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。 As described above, a recording medium that records a program that implements the functions of the above-described embodiments is supplied to a system or apparatus, and a computer (or CPU or MPU) of the system or apparatus stores the program stored in the recording medium. It goes without saying that the object of the present invention can also be achieved by executing the reading.
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。 In this case, the program itself read from the recording medium realizes the novel function of the present invention, and the recording medium storing the program constitutes the present invention.
コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。 As a recording medium for supplying a computer program, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a DVD-ROM, a magnetic tape, a nonvolatile memory card, a ROM, an EEPROM, Silicon disks, solid state drives, etc. can be used.
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on an instruction of the program is actually It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the processing and the processing is included.
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, after the program read from the recording medium is written to the memory provided in the function expansion board inserted into the computer or the function expansion unit connected to the computer, the function expansion board is based on the instructions of the program code. It goes without saying that the case where the CPU or the like provided in the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
Further, the present invention may be applied to a system composed of a plurality of devices or an apparatus composed of a single device. Needless to say, the present invention can be applied to a case where the present invention is achieved by supplying a program to a system or apparatus. In this case, by reading a recording medium storing a program for achieving the present invention into the system or apparatus, the system or apparatus can enjoy the effects of the present invention. Furthermore, by downloading and reading a program for achieving the present invention from a server, database, etc. on a network using a communication program, the system or apparatus can enjoy the effects of the present invention.
In addition, all the structures which combined each embodiment mentioned above and its modification are also included in this invention.
101 クライアント端末
102 会議サーバ
103 ネットワーク
311 音声入力部
312 音声送信部
313 ミキシング音声受信部
314 受信音声チェック部
315 音声再生部
316 受信音声記憶部
317 端末閾値記憶部
321 音声受信部
322 上りチェック部
323 ミキシング音声送信部
324 下りチェック部
325 ミキシング部
326 ミキシング用音声記憶部
327 サーバ閾値記憶部
328 音声データ
329 送信済端末情報
101
Claims (15)
前記蓄積記憶部に蓄積された、前記クライアント端末ごとの合成前音声データ群から取得された所定の単位の音声データを用いて合成データを生成する合成データ生成手段と、
前記合成データ生成手段により生成された前記合成データを、複数のクライアント端末のうち、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には合成に用いない音声データを、前記蓄積記憶部に蓄積された前記クライアント端末ごとの合成前音声データ群から特定する特定手段と、
を備え、
前記合成データ生成手段は、前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には、前記合成前音声データ群において前記特定手段により特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して、前記通知を受け付けたクライアント端末用の合成データを生成することを特徴とする情報処理装置。 The voice data of a predetermined unit received from the client terminal that can communicate with the client terminal that transmits the input voice data to the information processing device in a predetermined unit is synthesized for each client terminal that is the transmission source of the voice data. An information processing apparatus including an accumulation storage unit for accumulating and storing as a voice data group,
Synthesized data generating means for generating synthesized data using a predetermined unit of voice data acquired from the pre-synthesized voice data group for each client terminal stored in the storage unit;
Transmission means for transmitting the composite data generated by the composite data generation means to a client terminal that is a transmission destination among a plurality of client terminals;
When receiving notification from the client terminal that there is a delay due to the transmission of the synthesized data, the voice data not used for synthesis is identified from the pre-synthesis voice data group for each client terminal stored in the storage unit Specific means to
With
When the synthesized data generating unit receives a notification from the client terminal that there is a delay due to the transmission of the synthesized data, the synthesized data specified by the identifying unit in the pre-synthesized audio data group is not used for the synthesis An information processing apparatus that skips data, acquires next audio data to be synthesized, and generates synthesized data for the client terminal that has received the notification.
前記送信手段は、送信先のクライアント端末用に生成された合成データを対象のクライアント端末に送信し、
前記特定手段は、前記合成前音声データ群から、前記送信手段による前記合成データの送信による遅延がある場合には合成に用いない音声データを特定し、
前記合成データ生成手段は、前記特定手段により特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して前記クライアント端末用の合成データを生成することを特徴とする請求項1に記載の情報処理装置。 The synthesized data generating means acquires voice data from the pre-synthesis voice data group for each destination client terminal that transmits the synthesized data, and generates the synthesized data for the destination client terminal,
The transmission means transmits the composite data generated for the destination client terminal to the target client terminal,
The specifying means specifies voice data not to be used for synthesis when there is a delay due to the transmission of the synthesized data by the transmission means from the pre-synthesis voice data group,
The synthesized data generation means skips voice data not used for the synthesis specified by the specifying means, acquires next voice data to be synthesized, and generates synthesized data for the client terminal. The information processing apparatus according to claim 1 .
前記蓄積記憶部に蓄積された、前記クライアント端末ごとの合成前音声データ群から取得された所定の単位の音声データを用いて合成データを生成する合成データ生成ステップと、
前記合成データ生成ステップにより生成された前記合成データを、複数のクライアント端末のうち、送信先であるクライアント端末に送信する送信ステップと、
前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には合成に用いない音声データを、前記蓄積記憶部に蓄積された前記クライアント端末ごとの合成前音声データ群から特定する特定ステップと、
を含み、
前記合成データ生成ステップは、前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には、前記合成前音声データ群において前記特定ステップにより特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して、前記通知を受け付けたクライアント端末用の合成データを生成することを特徴とする制御方法。 The voice data of a predetermined unit received from the client terminal that can communicate with the client terminal that transmits the input voice data to the information processing device in a predetermined unit is synthesized for each client terminal that is the transmission source of the voice data. A method for controlling an information processing apparatus including an accumulation storage unit that accumulates and stores audio data as a group of audio data,
A synthesized data generating step for generating synthesized data using a predetermined unit of voice data acquired from the pre-synthesized voice data group for each client terminal stored in the storage unit;
A transmitting step of transmitting the combined data generated by the combined data generating step to a client terminal that is a transmission destination among a plurality of client terminals;
When receiving notification from the client terminal that there is a delay due to the transmission of the synthesized data, the voice data not used for synthesis is identified from the pre-synthesis voice data group for each client terminal stored in the storage unit Specific steps to
Including
In the synthesis data generation step, when a notification that there is a delay due to the transmission of the synthesis data is received from the client terminal, the voice that is not used for the synthesis specified in the specification step in the pre-synthesis voice data group A control method characterized by skipping data, acquiring next voice data to be synthesized, and generating synthesized data for the client terminal that has received the notification.
前記情報処理装置を、
前記蓄積記憶部に蓄積された、前記クライアント端末ごとの合成前音声データ群から取得された所定の単位の音声データを用いて合成データを生成する合成データ生成手段と、
前記合成データ生成手段により生成された前記合成データを、複数のクライアント端末のうち、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には合成に用いない音声データを、前記蓄積記憶部に蓄積された前記クライアント端末ごとの合成前音声データ群から特定する特定手段として機能させ、
前記合成データ生成手段を、前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には、前記合成前音声データ群において前記特定手段により特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して、前記通知を受け付けたクライアント端末用の合成データを生成する手段として機能させるためのプログラム。 The voice data of a predetermined unit received from the client terminal that can communicate with the client terminal that transmits the input voice data to the information processing device in a predetermined unit is synthesized for each client terminal that is the transmission source of the voice data. A program that can be executed by an information processing apparatus including an accumulation storage unit that accumulates and stores audio data as a group of audio data,
The information processing apparatus;
Synthesized data generating means for generating synthesized data using a predetermined unit of voice data acquired from the pre-synthesized voice data group for each client terminal stored in the storage unit;
Transmission means for transmitting the composite data generated by the composite data generation means to a client terminal that is a transmission destination among a plurality of client terminals;
When receiving notification from the client terminal that there is a delay due to the transmission of the synthesized data, the voice data not used for synthesis is identified from the pre-synthesis voice data group for each client terminal stored in the storage unit Function as a specific means to
If the synthesized data generating means receives a notification from the client terminal that there is a delay due to transmission of the synthesized data, the voice that is not used for the synthesis specified by the specifying means in the pre-synthesis voice data group A program for skipping data, acquiring the next voice data to be synthesized, and functioning as means for generating synthesized data for the client terminal that has received the notification.
前記蓄積記憶部に蓄積された、前記クライアント端末ごとの合成前音声データ群から取得された所定の単位の音声データを用いて合成データを生成する合成データ生成手段と、
前記合成データ生成手段により生成された前記合成データを、複数のクライアント端末のうち、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には合成に用いない音声データを、前記蓄積記憶部に蓄積された前記クライアント端末ごとの合成前音声データ群から特定する特定手段と、
を備え、
前記合成データ生成手段は、前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には、前記合成前音声データ群において前記特定手段により特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して、前記通知を受け付けたクライアント端末用の合成データを生成することを特徴とする情報処理システム。 A client terminal that transmits input audio data to the information processing apparatus in a predetermined unit, and a predetermined unit of audio data received from the client terminal, the pre-synthesis audio data group for each client terminal that is the source of the audio data An information processing system including an information processing apparatus including an accumulation storage unit that accumulates and stores as
Synthesized data generating means for generating synthesized data using a predetermined unit of voice data acquired from the pre-synthesized voice data group for each client terminal stored in the storage unit;
Transmission means for transmitting the composite data generated by the composite data generation means to a client terminal that is a transmission destination among a plurality of client terminals;
When receiving notification from the client terminal that there is a delay due to the transmission of the synthesized data, the voice data not used for synthesis is identified from the pre-synthesis voice data group for each client terminal stored in the storage unit Specific means to
With
When the synthesized data generating unit receives a notification from the client terminal that there is a delay due to the transmission of the synthesized data, the synthesized data specified by the identifying unit in the pre-synthesized audio data group is not used for the synthesis An information processing system characterized by skipping data, acquiring next audio data to be synthesized, and generating synthesized data for a client terminal that has received the notification.
前記蓄積記憶部に蓄積された、前記クライアント端末ごとの合成前音声データ群から取得された所定の単位の音声データを用いて合成データを生成する合成データ生成ステップと、
前記合成データ生成ステップにより生成された前記合成データを、複数のクライアント端末のうち、送信先であるクライアント端末に送信する送信ステップと、
前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には合成に用いない音声データを、前記蓄積記憶部に蓄積された前記クライアント端末ごとの合成前音声データ群から特定する特定ステップと、
を含み、
前記合成データ生成ステップは、前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には、前記合成前音声データ群において前記特定ステップにより特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して、前記通知を受け付けたクライアント端末用の合成データを生成することを特徴とする制御方法。 A client terminal that transmits input audio data to the information processing apparatus in a predetermined unit, and a predetermined unit of audio data received from the client terminal, the pre-synthesis audio data group for each client terminal that is the source of the audio data An information processing system control method including an information processing apparatus including an accumulation storage unit that accumulates and stores as
A synthesized data generating step for generating synthesized data using a predetermined unit of voice data acquired from the pre-synthesized voice data group for each client terminal stored in the storage unit;
A transmitting step of transmitting the combined data generated by the combined data generating step to a client terminal that is a transmission destination among a plurality of client terminals;
When receiving notification from the client terminal that there is a delay due to the transmission of the synthesized data, the voice data not used for synthesis is identified from the pre-synthesis voice data group for each client terminal stored in the storage unit Specific steps to
Including
In the synthesis data generation step, when a notification that there is a delay due to the transmission of the synthesis data is received from the client terminal, the voice that is not used for the synthesis specified in the specification step in the pre-synthesis voice data group A control method characterized by skipping data, acquiring next voice data to be synthesized, and generating synthesized data for the client terminal that has received the notification.
前記情報処理システムを、
前記蓄積記憶部に蓄積された、前記クライアント端末ごとの合成前音声データ群から取得された所定の単位の音声データを用いて合成データを生成する合成データ生成手段と、
前記合成データ生成手段により生成された前記合成データを、複数のクライアント端末のうち、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には合成に用いない音声データを、前記蓄積記憶部に蓄積された前記クライアント端末ごとの合成前音声データ群から特定する特定手段として機能させ、
前記合成データ生成手段を、前記クライアント端末から前記合成データの送信による遅延がある旨の通知を受け付けた場合には、前記合成前音声データ群において前記特定手段により特定された前記合成に用いない音声データをスキップし、合成すべき次の音声データを取得して、前記通知を受け付けたクライアント端末用の合成データを生成する手段として機能させるためのプログラム。 A client terminal that transmits input audio data to the information processing apparatus in a predetermined unit, and a predetermined unit of audio data received from the client terminal, the pre-synthesis audio data group for each client terminal that is the source of the audio data A program for controlling an information processing system including an information processing apparatus including an accumulation storage unit that accumulates and stores as
The information processing system;
Synthesized data generating means for generating synthesized data using a predetermined unit of voice data acquired from the pre-synthesized voice data group for each client terminal stored in the storage unit;
Transmission means for transmitting the composite data generated by the composite data generation means to a client terminal that is a transmission destination among a plurality of client terminals;
When receiving notification from the client terminal that there is a delay due to the transmission of the synthesized data, the voice data not used for synthesis is identified from the pre-synthesis voice data group for each client terminal stored in the storage unit Function as a specific means to
If the synthesized data generating means receives a notification from the client terminal that there is a delay due to transmission of the synthesized data, the voice that is not used for the synthesis specified by the specifying means in the pre-synthesis voice data group A program for skipping data, acquiring the next voice data to be synthesized, and functioning as means for generating synthesized data for the client terminal that has received the notification.
前記音声データ群から取得された所定の単位の音声データを、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には送信しない音声データを、前記音声データ群から特定する特定手段と、
を備え、
前記送信手段は、前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には、前記音声データ群から、前記特定手段により特定された音声データをスキップして次の音声データを取得し、前記通知を受け付けたクライアント端末に送信することを特徴とする情報処理装置。 A storage unit that stores and stores a predetermined unit of audio data received from the client terminal as an audio data group that can communicate with a client terminal that transmits the input audio data to the information processing apparatus in a predetermined unit. An information processing apparatus,
Transmitting means for transmitting audio data of a predetermined unit acquired from the audio data group to a client terminal as a transmission destination;
A means for identifying, from the audio data group, audio data that is not transmitted when a notification that there is a delay due to the transmission of the audio data is received from the client terminal;
With
When the transmission unit receives a notification from the client terminal that there is a delay due to the transmission of the audio data, the transmission unit skips the audio data specified by the specifying unit from the audio data group and receives the next audio An information processing apparatus that acquires data and transmits the data to a client terminal that has received the notification.
前記音声データ群から取得された所定の単位の音声データを、送信先であるクライアント端末に送信する送信ステップと、
前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には送信しない音声データを、前記音声データ群から特定する特定ステップと、
含み、
前記送信ステップは、前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には、前記音声データ群から、前記特定ステップにより特定された音声データをスキップして次の音声データを取得し、前記通知を受け付けたクライアント端末に送信することを特徴とする制御方法。 A storage unit that stores and stores a predetermined unit of audio data received from the client terminal as an audio data group that can communicate with a client terminal that transmits the input audio data to the information processing apparatus in a predetermined unit. A method for controlling an information processing apparatus,
Transmitting a predetermined unit of audio data acquired from the audio data group to a client terminal as a transmission destination;
A specific step of identifying, from the audio data group, audio data that is not transmitted when a notification that there is a delay due to transmission of the audio data is received from the client terminal;
Including
When the transmission step receives a notification from the client terminal that there is a delay due to the transmission of the audio data, the audio data specified in the specifying step is skipped from the audio data group and the next audio is skipped. A control method comprising: acquiring data and transmitting the data to a client terminal that has received the notification.
前記情報処理装置を、
前記音声データ群から取得された所定の単位の音声データを、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には送信しない音声データを、前記音声データ群から特定する特定手段として機能させ、
前記送信手段を、前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には、前記音声データ群から、前記特定手段により特定された音声データをスキップして次の音声データを取得し、前記通知を受け付けたクライアント端末に送信する手段として機能させるためのプログラム。 A storage unit that stores and stores a predetermined unit of audio data received from the client terminal as an audio data group that can communicate with a client terminal that transmits the input audio data to the information processing apparatus in a predetermined unit. A program for controlling an information processing apparatus,
The information processing apparatus;
Transmitting means for transmitting audio data of a predetermined unit acquired from the audio data group to a client terminal as a transmission destination;
When notifying that there is a delay due to the transmission of the audio data from the client terminal, the audio data not to be transmitted functions as a specifying unit that specifies from the audio data group,
When the transmission means receives a notification from the client terminal that there is a delay due to the transmission of the audio data, the audio data specified by the specifying means is skipped from the audio data group and the next audio is skipped. A program for obtaining data and functioning as means for transmitting to the client terminal that has received the notification.
前記音声データ群から取得された所定の単位の音声データを、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には送信しない音声データを、前記音声データ群から特定する特定手段と、
を備え、
前記送信手段は、前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には、前記音声データ群から、前記特定手段により特定された音声データをスキップして次の音声データを取得し、前記通知を受け付けたクライアント端末に送信することを特徴とする情報処理システム。 Information processing apparatus comprising: a client terminal that transmits input voice data to an information processing apparatus in a predetermined unit; and a storage unit that stores and stores the predetermined unit of voice data received from the client terminal as a voice data group An information processing system including
Transmitting means for transmitting audio data of a predetermined unit acquired from the audio data group to a client terminal as a transmission destination;
A means for identifying, from the audio data group, audio data that is not transmitted when a notification that there is a delay due to the transmission of the audio data is received from the client terminal;
With
When the transmission unit receives a notification from the client terminal that there is a delay due to the transmission of the audio data, the transmission unit skips the audio data specified by the specifying unit from the audio data group and receives the next audio An information processing system that acquires data and transmits the data to a client terminal that has received the notification.
前記音声データ群から取得された所定の単位の音声データを、送信先であるクライアント端末に送信する送信ステップと、
前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には送信しない音声データを、前記音声データ群から特定する特定ステップと、
を含み、
前記送信ステップは、前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には、前記音声データ群から、前記特定ステップにより特定された音声データをスキップして次の音声データを取得し、前記通知を受け付けたクライアント端末に送信することを特徴とする制御方法。 Information processing apparatus comprising: a client terminal that transmits input voice data to an information processing apparatus in a predetermined unit; and a storage unit that stores and stores the predetermined unit of voice data received from the client terminal as a voice data group A method for controlling an information processing system including:
Transmitting a predetermined unit of audio data acquired from the audio data group to a client terminal as a transmission destination;
A specific step of identifying, from the audio data group, audio data that is not transmitted when a notification that there is a delay due to transmission of the audio data is received from the client terminal;
Including
When the transmission step receives a notification from the client terminal that there is a delay due to the transmission of the audio data, the audio data specified in the specifying step is skipped from the audio data group and the next audio is skipped. A control method comprising: acquiring data and transmitting the data to a client terminal that has received the notification.
前記情報処理システムを、
前記音声データ群から取得された所定の単位の音声データを、送信先であるクライアント端末に送信する送信手段と、
前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には送信しない音声データを、前記音声データ群から特定する特定手段として機能させ、
前記送信手段を、前記クライアント端末から前記音声データの送信による遅延がある旨の通知を受け付けた場合には、前記音声データ群から、前記特定手段により特定された音声データをスキップして次の音声データを取得し、前記通知を受け付けたクライアント端末に送信する手段として機能させるためのプログラム。 Information processing apparatus comprising: a client terminal that transmits input voice data to an information processing apparatus in a predetermined unit; and a storage unit that stores and stores the predetermined unit of voice data received from the client terminal as a voice data group A program for controlling an information processing system including:
The information processing system;
Transmitting means for transmitting audio data of a predetermined unit acquired from the audio data group to a client terminal as a transmission destination;
When notifying that there is a delay due to the transmission of the audio data from the client terminal, the audio data not to be transmitted functions as a specifying unit that specifies from the audio data group,
When the transmission means receives a notification from the client terminal that there is a delay due to the transmission of the audio data, the audio data specified by the specifying means is skipped from the audio data group and the next audio is skipped. A program for obtaining data and functioning as means for transmitting to the client terminal that has received the notification.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013204509A JP6417652B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013204509A JP6417652B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018189747A Division JP6652726B2 (en) | 2018-10-05 | 2018-10-05 | Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2015070515A JP2015070515A (en) | 2015-04-13 |
| JP2015070515A5 JP2015070515A5 (en) | 2017-03-16 |
| JP6417652B2 true JP6417652B2 (en) | 2018-11-07 |
Family
ID=52836787
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013204509A Active JP6417652B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6417652B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10122767B2 (en) * | 2015-05-29 | 2018-11-06 | Nagravision S.A. | Systems and methods for conducting secure VOIP multi-party calls |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2970645B2 (en) * | 1998-03-11 | 1999-11-02 | 日本電信電話株式会社 | Multipoint connection conference system configuration method, multipoint connection conference system, server device and client device, and storage medium storing multipoint connection conference system configuration program |
| US6940826B1 (en) * | 1999-12-30 | 2005-09-06 | Nortel Networks Limited | Apparatus and method for packet-based media communications |
| JP2002077233A (en) * | 2000-08-25 | 2002-03-15 | Matsushita Electric Ind Co Ltd | Real-time information receiver |
| JP2003023499A (en) * | 2001-07-10 | 2003-01-24 | Matsushita Electric Ind Co Ltd | Conference server device and conference system |
| JP2008306541A (en) * | 2007-06-08 | 2008-12-18 | Yamaha Corp | Conference communication controller |
| JP2008099314A (en) * | 2007-11-07 | 2008-04-24 | Fujitsu Ltd | Server and audio signal collection and distribution method |
| JP2012124689A (en) * | 2010-12-08 | 2012-06-28 | Mitsubishi Electric Corp | Communication system, transmission side device, reception side device |
-
2013
- 2013-09-30 JP JP2013204509A patent/JP6417652B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015070515A (en) | 2015-04-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103258379B (en) | For regulating the system and method for overlapping media messages | |
| US10423382B2 (en) | Teleconference recording management system | |
| US8441515B2 (en) | Method and apparatus for minimizing acoustic echo in video conferencing | |
| US12458875B2 (en) | Peer to peer communication system and method | |
| KR101528367B1 (en) | Sound control system and method as the same | |
| US11089164B2 (en) | Teleconference recording management system | |
| JP6417652B2 (en) | Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program | |
| US12243550B2 (en) | Speech image providing method and computing device for performing the same | |
| US20240430365A1 (en) | Systems and methods for improved audio/video conferences | |
| JP6652726B2 (en) | Information processing apparatus, information processing system, information processing apparatus control method, information processing system control method, and program | |
| CN108401126A (en) | Sound sharing means, terminal and sound sharing method | |
| US9350943B2 (en) | Video picker | |
| JP2005269498A (en) | VIDEO CONFERENCE SYSTEM, VIDEO CONFERENCE TERMINAL DEVICE, CONTROL METHOD THEREOF, AND VIDEO CONFERENCE TERMINAL DEVICE CONTROL PROGRAM FOR THE SAME | |
| US20230005202A1 (en) | Speech image providing method and computing device for performing the same | |
| JP2019176375A (en) | Moving image output apparatus, moving image output method, and moving image output program | |
| WO2023032461A1 (en) | Meeting assistance system, meeting assistance method, and meeting assistance program | |
| US12536727B2 (en) | Speech image providing method and computing device for performing the same | |
| US20240282017A1 (en) | Information processing device and information processing method | |
| JP2020098961A (en) | Information processing apparatus, control method thereof, and program | |
| US11470362B1 (en) | Providing audio data for a video frame | |
| JP4531013B2 (en) | Audiovisual conference system and terminal device | |
| CN119211478A (en) | A method, device and equipment for recording audio in a video conference | |
| CN103870234B (en) | A kind of sound mixing method and its device | |
| JP2005311916A (en) | STREAM DATA DISTRIBUTION DEVICE, STREAM DATA DISTRIBUTION METHOD, AND PROGRAM THEREOF | |
| JP2014067074A (en) | Recording system, recording program, and recording method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20150410 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160928 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20161101 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20161101 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170210 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170814 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171003 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171201 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180703 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180703 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180830 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180911 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180924 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6417652 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20181031 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |