JP5572338B2 - Multipoint connection device, multipoint connection method - Google Patents
Multipoint connection device, multipoint connection method Download PDFInfo
- Publication number
- JP5572338B2 JP5572338B2 JP2009148755A JP2009148755A JP5572338B2 JP 5572338 B2 JP5572338 B2 JP 5572338B2 JP 2009148755 A JP2009148755 A JP 2009148755A JP 2009148755 A JP2009148755 A JP 2009148755A JP 5572338 B2 JP5572338 B2 JP 5572338B2
- Authority
- JP
- Japan
- Prior art keywords
- point
- points
- utterance
- code
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、ディジタル化された音声、音楽などの音響信号(以下、本明細書では音声信号ということにする。)を、ディジタル通信網を介して送受信する際に、複数地点の音声信号をミキシングして各地点へ混合信号を配信する多地点接続技術に関する。 The present invention mixes audio signals at a plurality of points when transmitting / receiving digitalized audio signals such as voice and music (hereinafter referred to as audio signals in this specification) via a digital communication network. In addition, the present invention relates to a multipoint connection technology for delivering mixed signals to each point.
パケット通信網をはじめとするディジタル通信網を介し、3地点以上の複数地点間で音声信号を送受信する利用(例えば音声会議である。)が増えている。音声会議システムを構築するためには、多地点接続装置と呼ばれるサーバ装置を通信網上に配置し、複数地点から送られてくる音声信号をミキシングして、各地点に配信する方法が知られている。 The use (for example, a voice conference) of transmitting and receiving voice signals between a plurality of three or more points via a digital communication network such as a packet communication network is increasing. In order to build an audio conference system, a method is known in which a server device called a multipoint connection device is arranged on a communication network, audio signals sent from a plurality of points are mixed, and distributed to each point. Yes.
図1は、3地点で音声会議を行う場合に、多地点接続装置(MCU)100が中核となって各地点間の相互通信が実現することを示す概念図である。図2は、多地点接続装置100に含まれる多地点ミキシング部110の構成例を示している。A、B、C各地点から送られた各音声符号は、それぞれデコーダ112a,112b,112cで、例えばPCM形式のディジタル音声信号に復号される。PCMミキシング部111は、各復号済みディジタル音声信号を用いて、各地点向けの混合信号を作成する。例えば、地点A向けの混合信号は、地点Bと地点Cの信号が混合されたものであり、地点B向けの混合信号は、地点Aと地点Cの信号が混合されたものである。混合信号に自地点信号を含めない理由は、自分の声がエコーとして戻ってくることを防ぐためである。各地点向けの混合信号は、それぞれエンコーダ113a,113b,113cによってエンコードされて、各地点に配信される。
FIG. 1 is a conceptual diagram showing that a multipoint connection device (MCU) 100 serves as a core to realize mutual communication between points when an audio conference is performed at three points. FIG. 2 shows a configuration example of the multipoint mixing unit 110 included in the
このような多地点接続装置100において、デコーダ112a,112b,112cとエンコーダ113a,113b,113cに多くの演算処理が必要になると、多地点接続装置100に多大な負荷がかかることが課題となる。例えば、音声符号化方式として、ITU-T(International Telecommunication Union - Telecommunication Standardization Sector) G.711(非特許文献1参照)が用いられる場合には、デコーダ112a,112b,112c、エンコーダ113a,113b,113cとも、必要な演算処理は少ないため、多地点接続装置100に多大な負荷はかからない。しかし、例えば、音声符号化方式として、広帯域音声符号化方式であるITU-T G.722(非特許文献2参照)が用いられる場合には、G.711を利用する場合に比べて、多くの演算処理が必要となり、結果、1台の多地点接続装置100で処理できる地点数が大幅に減ってしまうという問題につながる。
In such a
このような問題に対して、音声符号化方式として、G.711をコアとするエンベデド符号化方式(スケーラブル符号化方式とも言う。)を用い、多地点接続装置100の処理として、選択ミキシング(パーシャルミキシングとも言う。)を用いる方法が提案されている。この処理の詳細は、非特許文献3および非特許文献4に記載されている。
To deal with such problems, an embedded coding system (also called a scalable coding system) having G.711 as a core is used as a speech coding system, and selective mixing (partial mixing) is performed as processing of the
図3は、非特許文献3に記載されている、選択ミキシングによる多地点接続装置100に含まれる機能構成例である。PCMミキシング部111は図2に示すPCMミキシング部111と同一であるので説明を省略する。各地点から送られてきた音声パケットはそれぞれ、デマルチプレクシング部(deMUX)114a,114b,114cで、G.711ビット(第1音声符号)、拡張ビット(第2音声符号)、制御情報に分離される。各地点に対応するG.711ビットはそれぞれ、G.711デコーダ112a,112b,112cで復号され、PCMミキシング部111で混合された後、G.711エンコーダ113a,113b,113cでエンコードされて、各地点向けのG.711ビットが作成される。
FIG. 3 is a functional configuration example included in the
各地点の音声パケットから分離された拡張ビットはそれぞれ、拡張ビット切替部117に入力される。また、各地点の音声パケットから分離された制御情報は、地点選択部116に入力される。地点選択部116は、各地点の制御情報を用いて、主たる発話地点と、従たる発話地点を時々刻々決定し、拡張ビット切替部117を制御するための制御信号を出力する。仮に、ある時点における主たる発話地点をA、従たる発話地点をBとすると、拡張ビット切替部117は、地点BとC向けには、地点Aの拡張ビットを、地点A向けには地点Bの拡張ビットを出力するように動作する。各地点向けのG.711ビットと拡張ビットはそれぞれ、マルチプレクシング部(MUX)115a,115b,115cでそれぞれ結合されて、各地点に各地点向けの音声パケットが送信される。
The extension bits separated from the voice packet at each point are input to the extension bit switching unit 117, respectively. The control information separated from the voice packet at each point is input to the
なお、図3に示す構成において、G.711符号化方式、およびG.711デコーダ112a,112b,112c、G.711エンコーダ113a,113b,113cは、他の符号化方式、および対応するエンコーダ、デコーダでもよく、一般に、エンコード、デコードにかかる処理量の少ない符号化方式が望ましい。また、拡張ビットは、G.711.1音声符号化方式の場合であればG.711コアレイヤを除く低域拡張レイヤと高域拡張レイヤのための音声符号に相当する。また、制御情報は、音声符号にマルチプレクスされて独立して送られる情報のほか、G.711ビット、G.711デコーダの出力であるPCM音声信号、または拡張ビットを用いて、多地点ミキシング部内で作成される情報などである。一般に、制御情報としては、音声信号(G.711デコーダの出力であるPCM音声を含む)のパワー、音声/非音声区間情報(VADともいう)、有声音/無声音の識別情報などが用いられる。
In the configuration shown in FIG. 3, the G.711 encoding method, the G.711
図3に示すように、音声パケットに含まれる一部の音声符号のみを従来通りにミキシングし、音声パケットに含まれる他の音声符号は、ミキシングしないで時々刻々切り替える選択式として処理とする場合においては、地点選択部および拡張ビット切替部の処理アルゴリズムによって、各地点で再生されるミキシング音声の品質が劣化する可能性がある。 As shown in FIG. 3, in the case where only a part of voice codes included in a voice packet is mixed as usual, and other voice codes included in the voice packet are processed as selection formulas that are switched from moment to moment without being mixed. There is a possibility that the quality of the mixed sound reproduced at each point may deteriorate due to the processing algorithms of the point selection unit and the extension bit switching unit.
また、上記非特許文献3では、VAD情報を用いて、200ms以下の周期での発話地点の切り替えを抑止するアルゴリズムが例示されている。このアルゴリズムでは、頻繁な切り替えによる耳障りなノイズが発生しないというメリットがある反面、発話地点の切り替わり目では、一時的に主たる発話地点の声が、3.4kHz帯域の狭帯域音声として聞こえてしまい、7kHz帯域の広帯域音声と、3.4kHz帯域の狭帯域音声の切り替わり感が目立つという課題があった。 Further, Non-Patent Document 3 exemplifies an algorithm that uses the VAD information to suppress switching of utterance points at a cycle of 200 ms or less. While this algorithm has the merit of not causing annoying noise due to frequent switching, the voice at the main speaking point is temporarily heard as a narrowband sound of 3.4 kHz band at the switching point of the speaking point, 7 kHz There was a problem that the feeling of switching between wideband audio in the band and narrowband audio in the 3.4 kHz band was conspicuous.
そこで本発明は、音質劣化の少ない多地点接続技術を提供することを目的とする。 Accordingly, an object of the present invention is to provide a multipoint connection technique with little deterioration in sound quality.
本発明は、3地点以上の各地点から送られた音声パケットをそれぞれ、パケット化周期よりも短い時間単位(サブフレーム長単位)に分割して、分割音声パケットを出力し[時間方向分割処理]、各地点に対応する分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出し[デマルチプレクシング処理]、各地点に対応する第1音声符号をそれぞれ復号して第1音声信号を出力し[デコーディング処理]、各地点に対応する第1音声信号をミキシングして各地点向けの混合音声信号を出力し[ミキシング処理]、各地点に対応する混合音声信号をそれぞれ符号化して混合音声符号を出力し[エンコーディング処理]、各地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力し[地点選択処理]、各地点のうち制御信号に応じて定まる地点向けとして、各地点に対応する第2音声符号のうち制御信号に応じて定まる第2音声符号を出力し[第2音声符号切替処理]、各地点に対応する混合音声符号と、第2音声符号切替処理で出力された各地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力し[マルチプレクシング処理]、各地点に対応する単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力する[時間方向結合処理]。 The present invention divides voice packets sent from three or more points into time units (subframe length units) shorter than the packetization period, and outputs divided voice packets [time direction division processing]. Then, at least the first voice code and the second voice code are extracted from each of the divided voice packets corresponding to each point [demultiplexing processing], and the first voice code corresponding to each point is decoded to obtain the first voice signal. Output [decoding process], mix the first audio signal corresponding to each point to output a mixed audio signal for each point [mixing process], and encode and mix the mixed audio signal corresponding to each point A voice code is output [encoding process], an utterance point is determined from each point, and a control signal corresponding to the utterance point is output [point selection process] For each point determined according to the control signal, a second speech code determined according to the control signal among the second speech codes corresponding to each point is output [second speech code switching process], and The corresponding mixed speech code and the second speech code corresponding to each point output in the second speech code switching process are combined to output a unit speech packet in subframe length units [multiplexing process]. A plurality of unit voice packets corresponding to the points are combined to output a transmission voice packet having a time unit of a packetization period [time direction combining process].
あるいは、地点選択処理は、各地点に対応する第1音声符号の音響属性を求める音響属性決定処理と、各地点に対応する第1音声符号の音響属性を記憶する処理と、各地点に対応する第1音声符号の現在の音響属性と、各地点に対応する第1音声符号の過去の音響属性とに基づき、各地点の中から現在の発話地点を決定する発話地点決定処理と、決定された発話地点に対応する制御信号を出力する制御信号出力処理を行うようにしてもよい。 Or a point selection process respond | corresponds to each point with the acoustic attribute determination process which calculates | requires the acoustic attribute of the 1st audio | voice code corresponding to each point, the process which memorize | stores the acoustic attribute of the 1st audio | voice code corresponding to each point, and Based on the current acoustic attribute of the first speech code and the past acoustic attribute of the first speech code corresponding to each location, the speech location determination process for determining the current speech location from each location is determined. You may make it perform the control signal output process which outputs the control signal corresponding to an utterance point.
あるいは、地点選択処理は、各地点に対応する第1音声符号の音響属性を求める音響属性決定処理と、各地点に対応する第1音声符号の音響属性に基づき、各地点の中から現在の発話地点を決定する発話地点決定処理と、発話地点を表す情報を記憶する処理と、決定された発話地点に対応する制御信号を出力する制御信号出力処理を行うようにしてもよい。 Alternatively, in the point selection process, based on the acoustic attribute determination process for obtaining the acoustic attribute of the first speech code corresponding to each point and the acoustic attribute of the first speech code corresponding to each point, the current utterance from each point You may be made to perform the utterance point determination process which determines a point, the process which memorize | stores the information showing an utterance point, and the control signal output process which outputs the control signal corresponding to the determined utterance point.
本発明に拠れば、パケット化周期よりも短い時間単位で処理を行い、その後にパケット化周期を持つ音声パケットに回復することから、耳障りなノイズが発生しないことと、広帯域音声と狭帯域音声の切り替わりが目立たないことの両立が可能となり、少ない演算量で、音質劣化の少ない多地点接続技術が実現できる。 According to the present invention, processing is performed in a unit of time shorter than the packetization period, and then the voice packet having the packetization period is recovered, so that no annoying noise is generated and wideband and narrowband voices are not generated. It is possible to achieve both inconspicuous switching, and it is possible to realize a multipoint connection technology with a small amount of calculation and little deterioration in sound quality.
[第1実施形態]
例えば、パケット通信網を介して音声パケットを送受信する場合には、パケット化周期と呼ばれる、1つの音声パケットに入れる音声符号に対応する音声信号の時間長を決めて通信する。一般には、パケット化周期は、10ミリ秒または20ミリ秒とする場合が多い。一方、各音声符号化方式には、エンコード/デコード処理を行う最小時間単位として、フレームと呼ばれる時間長がある。例えば、G.711.1のフレーム長は5ミリ秒である。また、フレーム長は20ミリ秒であるが、内部情報の一部がそれよりも短い時間単位、例えば5ミリ秒に分けることができる構造になっている音声符号化方式もある。このようなフレームよりも短い時間単位は、サブフレームと呼ばれる。
[First Embodiment]
For example, when voice packets are transmitted / received via a packet communication network, communication is performed by determining a time length of a voice signal corresponding to a voice code to be put in one voice packet, called a packetization period. In general, the packetization period is often 10 milliseconds or 20 milliseconds. On the other hand, each audio coding method has a time length called a frame as a minimum time unit for performing encoding / decoding processing. For example, the frame length of G.711.1 is 5 milliseconds. In addition, there is a speech coding scheme in which the frame length is 20 milliseconds, but a part of the internal information can be divided into shorter time units, for example, 5 milliseconds. A time unit shorter than such a frame is called a subframe.
図4に、本発明による第1実施形態の多地点接続装置200の構成例を示す。多地点接続装置200は、図3に示す多地点接続装置100に時間方向分割部120a,120b,120cおよび時間方向結合部121a,121b,121cが付加された構成を持つ。図5に、第1実施形態の多地点接続装置200の処理フローを示す。
In FIG. 4, the structural example of the multipoint connection apparatus 200 of 1st Embodiment by this invention is shown. The multipoint connection device 200 has a configuration in which time
この多地点接続装置200では、まず時間方向分割部120a,120b,120cが、各地点から受信した音声パケットをそれぞれ、可能な限り、パケット化周期よりも短い時間単位(以下、サブフレーム長単位という。)に分割して、分割音声パケットを出力する(ステップS1)。ただし、時間方向分割部120a,120b,120cが分割する処理対象は音声パケットのペイロード(音声情報に関連するデータのまとまり)である。具体的には、時間方向分割部120aは、A地点から受信した音声パケットを、可能な限り、パケット化周期よりも短いサブフレーム長単位に分割して、分割音声パケットを出力する。時間方向分割部120bはB地点から受信した音声パケットに対して、時間方向分割部120cはC地点から受信した音声パケットに対して、時間方向分割部120aと同様の処理を行う。なお、時間方向分割部120a,120b,120cの入力および出力は、それぞれ通信網を介した送受信のための狭義のパケット形式(ヘッダ情報等を含む)である必要はなく、例えば一定の時間単位に区切られた符号列であってもよい。
In this multipoint connection apparatus 200, first, the time
そして、デマルチプレクシング部(deMUX)114a,114b,114cが、各地点に対応するサブフレーム長単位の分割音声パケットをそれぞれ、G.711ビット(第1音声符号)、拡張ビット(第2音声符号)、制御情報に分離する(ステップS2)。具体的には、デマルチプレクシング部114aは、A地点に対応するサブフレーム長単位の分割音声パケットをそれぞれ、G.711ビット、拡張ビット、制御情報に分離する。デマルチプレクシング部114bは、B地点に対応するサブフレーム長単位の分割音声パケットそれぞれに対して、デマルチプレクシング部114cは、C地点に対応するサブフレーム長単位の分割音声パケットそれぞれに対して、デマルチプレクシング部114aと同様の処理を行う。
Then, the demultiplexing units (deMUX) 114a, 114b, and 114c convert the divided speech packets in units of subframe length corresponding to each point into G.711 bits (first speech code) and extension bits (second speech code), respectively. ) And separated into control information (step S2). Specifically, the
各地点に対応するG.711ビットはそれぞれ、G.711デコーダ112a,112b,112cで復号され(ステップS3)、PCMミキシング部111(図2参照)で混合された後(ステップS4)、G.711エンコーダ113a,113b,113cでエンコードされて、各地点向けのG.711ビットが作成される(ステップS5)。
The G.711 bits corresponding to each point are decoded by the G.711
すなわち、G.711デコーダ112a,112b,112cは、デマルチプレクシング部114a,114b,114cから送られてきたサブフレーム長単位の各G.711ビットをそれぞれ、例えばPCM形式のディジタル音声信号(第1音声信号)に復号する。具体的には、G.711デコーダ112aは、デマルチプレクシング部114aから送られてきたサブフレーム長単位の各G.711ビットを、PCM形式のディジタル音声信号に復号する。G.711デコーダ112bは、デマルチプレクシング部114bから送られてきたサブフレーム長単位の各G.711ビットに対して、G.711デコーダ112cは、デマルチプレクシング部114cから送られてきたサブフレーム長単位の各G.711ビットに対して、G.711デコーダ112aと同様の処理を行う。
In other words, the G.711
そして、PCMミキシング部111は、サブフレーム長単位の各復号済みディジタル音声信号を用いて、各地点向けの混合音声信号を作成する。この例であれば、地点A向けの混合音声信号は地点Bと地点Cの各復号済みディジタル音声信号が混合されたものであり、地点B向けの混合音声信号は地点Aと地点Cの各復号済みディジタル音声信号が混合されたものであり、地点C向けの混合音声信号は地点Aと地点Bの各復号済みディジタル音声信号が混合されたものである。混合信号に自地点信号を含めない理由は、既述のとおり、自分の声がエコーとして戻ってくることを防ぐためである。なお、各地点向けの混合音声信号の作成方法に限定はなく、例えばPCMミキシング部111が図2に示す構成を持つ場合、地点Bと地点Cの各復号済みディジタル音声信号が混合されたもの(地点A向けの混合音声信号)は、地点Aと地点Bと地点Cの各復号済みディジタル音声信号が混合されたものから地点Aの復号済みディジタル音声信号を差し引いて作成される。同様に、地点Aと地点Cの各復号済みディジタル音声信号が混合されたもの(地点B向けの混合音声信号)は、地点Aと地点Bと地点Cの各復号済みディジタル音声信号が混合されたものから地点Bの復号済みディジタル音声信号を差し引いて作成され、地点Aと地点Bの各復号済みディジタル音声信号が混合されたもの(地点C向けの混合音声信号)は、地点Aと地点Bと地点Cの各復号済みディジタル音声信号が混合されたものから地点Cの復号済みディジタル音声信号を差し引いて作成される。また、このように全地点の各復号済みディジタル音声信号を混合した総合混合信号から目的地点の復号済みディジタル音声信号を差し引いて、当該目的地点向けの混合音声信号を作成する作成方法に限定されず、目的地点以外の各地点の各復号済みディジタル音声信号を混合して当該目的地点向けの混合音声信号を作成してもよい。
Then, the
次いでG.711エンコーダ113a,113b,113cは、各地点向けのサブフレーム長単位の混合音声信号をそれぞれG.711エンコードして、混合音声符号を出力する。具体的には、G.711エンコーダ113aは、サブフレーム長単位の地点A向けの各混合音声信号をG.711エンコードしてG.711ビット(混合音声符号)を出力する。G.711エンコーダ113bは、サブフレーム長単位の地点B向けの各混合音声信号に対して、G.711エンコーダ113cは、サブフレーム長単位の地点C向けの各混合音声信号に対して、G.711エンコーダ113aと同様の処理を行う。
Next, the G.711
各地点に対応する制御情報はそれぞれ、地点選択部116に入力される。地点選択部116は、各地点の制御情報を用いて、主たる発話地点と従たる発話地点を時々刻々決定し、拡張ビット切替部117を制御するための制御信号を出力する(ステップS6)。制御信号は、発話地点に対応して生成される信号である。拡張ビットは、既述のとおり、G.711.1音声符号化方式の場合であればG.711コアレイヤを除く低域拡張レイヤと高域拡張レイヤのための音声符号に相当する。また制御情報は、サブフレーム長単位の分割音声パケットにマルチプレクスされて独立して送られる情報のほか、G.711ビット、G.711デコーダの出力であるPCM音声信号、または拡張ビットを用いて、多地点ミキシング部内で作成される情報などでもよい。例えば、制御情報としては、音声信号(G.711デコーダの出力であるPCM音声を含む)のパワー、音声/非音声区間情報(VAD)、有声音/無声音の識別情報などが用いられる。
Control information corresponding to each point is input to the
地点選択部116からの制御信号に基づいて、拡張ビット切替部117は、拡張ビット切替部117に入力された各地点に対応する拡張ビットのうち出力地点に対応する拡張ビットを選択し、マルチプレクシング部(MUX)115a,115b,115cのうち出力地点に対応するマルチプレクシング部に対して選択された拡張ビットを出力する(ステップS7)。この処理は出力地点に対応して行われる。つまり、拡張ビット切替部117は、各地点のうち制御信号に応じて定まる地点向けとして、各地点に対応する拡張ビットのうち制御信号に応じて定まる拡張ビットを出力する。
Based on the control signal from the
例えば、出力地点が主たる発話地点である場合、拡張ビット切替部117は、従たる発話地点の拡張ビットを選択し、主たる発話地点に対応するマルチプレクシング部に選択された拡張ビットを出力する。出力地点が主たる発話地点以外の発話地点である場合、拡張ビット切替部117は、主たる発話地点の拡張ビットを選択し、当該出力地点に対応するマルチプレクシング部に選択された拡張ビットを出力する。
具体例として、ある時点における主たる発話地点をA、従たる発話地点をBとすると、地点選択部116からの制御信号に基づいて、拡張ビット切替部117の第1切替制御部117aは、出力地点Aに対応する拡張ビットとして地点Bの拡張ビットを選択し、拡張ビット切替部117の第2切替制御部117bは、出力地点Aに対応するマルチプレクシング部に選択された拡張ビットを出力する。また、地点選択部116からの制御信号に基づいて、拡張ビット切替部117の第1切替制御部117aは、出力地点BとCに対応する拡張ビットとして地点Aの拡張ビットを選択し、拡張ビット切替部117の第2切替制御部117bは、出力地点BとCに対応する各マルチプレクシング部に選択された拡張ビットを出力する。
For example, when the output point is the main utterance point, the extension bit switching unit 117 selects the extension bit of the subordinate utterance point and outputs the selected extension bit to the multiplexing unit corresponding to the main utterance point. When the output point is an utterance point other than the main utterance point, the extension bit switching unit 117 selects the extension bit of the main utterance point and outputs the selected extension bit to the multiplexing unit corresponding to the output point.
As a specific example, assuming that the main utterance point at a certain point is A and the subordinate utterance point is B, the first
そして、マルチプレクシング部(MUX)115a,115b,115cは、対応する地点向けのG.711ビット(混合音声符号)と拡張ビット(第2音声符号)をそれぞれ結合して、サブフレーム長単位の単位音声パケットを出力する(ステップS8)。つまり、マルチプレクシング部115aは、G.711エンコーダ113aが出力した地点A向けのサブフレーム長単位のG.711ビットと拡張ビット切替部117が出力した拡張ビット(この例では従たる発話地点Bの拡張ビット)を結合して、サブフレーム長単位の単位音声パケットを出力する。同様に、マルチプレクシング部115bは、G.711エンコーダ113bが出力した地点B向けのG.711ビットと拡張ビット切替部117が出力した拡張ビット(この例では主たる発話地点Aの拡張ビット)を結合して、サブフレーム長単位の単位音声パケットを出力し、マルチプレクシング部115cは、G.711エンコーダ113cが出力した地点C向けのG.711ビットと拡張ビット切替部117が出力した拡張ビット(この例では主たる発話地点Aの拡張ビット)を結合して、サブフレーム長単位の単位音声パケットを出力する。なお、サブフレーム長単位の単位音声パケットは、音声情報に関連するデータのまとまり(ペイロード)であり、通信網を介した送受信のための狭義のパケット形式である必要はない。
The multiplexing units (MUX) 115a, 115b, and 115c combine the G.711 bit (mixed speech code) and the extension bit (second speech code) for the corresponding points, respectively, and unit the subframe length. A voice packet is output (step S8). That is, the
次いで、時間方向結合部121a,121b,121cは、マルチプレクシング部115a,115b,115cが出力した、サブフレーム長単位の複数の単位音声パケットを時間方向で結合して、パケット化周期の時間単位を持つ送信用音声パケットを各出力地点に向けて出力する(ステップS9)。つまり、時間方向結合部121aは、マルチプレクシング部115aが出力した、サブフレーム長単位の複数の単位音声パケットを時間方向で結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力地点Aに向けて出力する。同様に、時間方向結合部121bは、マルチプレクシング部115bが出力した、サブフレーム長単位の複数の単位音声パケットを時間方向で結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力地点Bに向けて出力し、時間方向結合部121cは、マルチプレクシング部115cが出力した、サブフレーム長単位の複数の単位音声パケットを時間方向で結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力地点Cに向けて出力する。なお、時間方向で単位音声パケットを結合する処理において、単純に単位音声パケットを時間順に並べる結合方法に限定されず、単位音声パケット内あるいは単位音声パケット間で符号(レイヤ)を入れ替えてもよい。例えば、各単位音声パケットに含まれるG.711ビットを時間方向に連結したものと、各単位音声パケットに含まれる拡張ビットを時間方向に連結したものとを結合して、パケット化周期の時間単位を持つ送信用音声パケットを生成してもよい。
Next, the time
[第2実施形態]
図6に、本発明による第2実施形態の多地点接続装置300の構成例を示す。図7に、第2実施形態の多地点接続装置300の処理フローを示す。多地点接続装置300は、図4に示す多地点接続装置200と異なり、地点選択部116の替わりに制御情報計算・地点選択部116pを備えている。デマルチプレクシング部114a,114b,114cと制御情報計算・地点選択部116p以外の各機能の処理および手順は第1実施形態と同じであるから、重複説明に替えてこれを援用する。以下、制御情報計算・地点選択部116pの処理を主題として説明する。
[Second Embodiment]
In FIG. 6, the structural example of the multipoint connection apparatus 300 of 2nd Embodiment by this invention is shown. FIG. 7 shows a processing flow of the multipoint connection apparatus 300 of the second embodiment. Unlike the multipoint connection device 200 shown in FIG. 4, the multipoint connection device 300 includes a control information calculation / point selection unit 116 p instead of the
時間方向分割部120a,120b,120cが、音声パケットをサブフレーム長単位に分割すると、分割音声パケットに含まれる地点選択部116のための制御情報がサブフレーム長単位の制御に対応していない場合がある。つまり、第1実施形態では、デマルチプレクシング部(deMUX)114a,114b,114cが、各地点に対応するサブフレーム長単位の分割音声パケットをそれぞれ、G.711ビット、拡張ビット、制御情報に分離したが、サブフレーム長単位の制御情報を得られない場合がある(ステップS2a)。第2実施形態はこのような状況に対応する形態であり、制御情報計算・地点選択部116pがG.711ビットを利用して発話地点を決定して、制御信号を生成する(ステップS6a)。
When the time
制御情報計算・地点選択部116pの各機能構成例およびその処理フローを図8−図15に示す。
<構成例1>
図8に、制御情報計算・地点選択部116pの構成例1を示す。図9に、制御情報計算・地点選択部116pの構成例1の処理フローを示す。パワー計算部1161a,1161b,1161cは、サブフレーム長単位で入力された各地点のG.711ビットから、サブフレーム長単位のパワーを計算する(ステップS6a11)。パワーは、G.711ビットをG.711デコーダでデコードしたPCM信号の二乗和によって求めることができる。または、パワーの代替値として、上記PCM信号の絶対値の平均や、G.711ビットから正負符号を除いた1サンプル毎のコードの平均値を用いてもよい(以下、総称してパワーという。)。発話地点決定部1162は、各地点のパワーを比較して、パワーが最も大きい地点を主たる発話地点、二番目にパワーが大きい地点を従たる発話地点として決定し、これらを表す情報を出力する(ステップS6a12)。制御信号出力部1163は、発話地点決定部1162から与えられた主たる発話地点と従たる発話地点の情報を用いて、拡張ビット切替部117を制御するための制御信号を出力する(ステップS6a13)。
Each functional configuration example of the control information calculation / point selection unit 116p and its processing flow are shown in FIGS.
<Configuration example 1>
FIG. 8 shows a configuration example 1 of the control information calculation / point selection unit 116p. FIG. 9 shows a processing flow of Configuration Example 1 of the control information calculation / point selection unit 116p. The
<構成例2>
図10は、制御情報計算・地点選択部116pの構成例2を示す。図11に、制御情報計算・地点選択部116pの構成例2の処理フローを示す。
この構成例2は、図8に示す構成例1の機能構成に加えて、各地点に対応するメモリ1164a,1164b,1164cを含む。発話地点決定部1162とメモリ1164a,1164b,1164c以外の各機能の処理は構成例1と同じであるから、重複説明に替えてこれを援用する。
<Configuration example 2>
FIG. 10 shows a configuration example 2 of the control information calculation / point selection unit 116p. FIG. 11 shows a processing flow of the configuration example 2 of the control information calculation / point selection unit 116p.
Configuration example 2 includes
パワー計算部1161a,1161b,1161cによってサブフレーム毎に計算された各地点のパワーは、メモリ1164a,1164b,1164cに一時蓄積される(ステップS6a2)。発話地点決定部1162は、各地点に対応する現在のサブフレームのパワーのほか、メモリ1164a,1164b,1164cに蓄積されている各地点に対応するサブフレームのパワーの時系列を用いて、主たる発話地点と従たる発話地点を決定し、これらを表す情報を出力する(ステップS6a22)。例えば、各地点に対応する現在のサブフレームのパワー値について各地点間の差が閾値よりも小さいときには、この大小関係に、1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係を加味して、主たる発話地点と従たる発話地点を決定する。あるいは、1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係が、各地点に対応する現在のサブフレームのパワー値についての各地点間の大小関係よりも顕著である場合は、1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係に基づいて主たる発話地点と従たる発話地点を決定してもよい。あるいは、各地点に対応する現在のサブフレームのパワー値と1サブフレーム前の各地点に対応するパワー値の平均について各地点間で大小比較をして、主たる発話地点と従たる発話地点を決定してもよい。
The power at each point calculated for each subframe by the
<構成例3>
図12は、制御情報計算・地点選択部116pの構成例3を示す。図13に、制御情報計算・地点選択部116pの構成例3の処理フローを示す。
この構成例3は、図8に示す構成例1の機能構成に加えて、主従を決定された発話地点に対応するメモリ1165a,1165bを含む。発話地点決定部1162とメモリ1165a,1165b以外の各機能の処理は構成例1と同じであるから、重複説明に替えてこれを援用する。
<Configuration example 3>
FIG. 12 shows a configuration example 3 of the control information calculation / point selection unit 116p. FIG. 13 shows a processing flow of configuration example 3 of the control information calculation / point selection unit 116p.
This configuration example 3 includes
構成例3では、発話地点決定部1162が決定した主従の各発話地点に関する情報がメモリ1165a,1165bに一時蓄積される(ステップS6a3)。発話地点決定部1162は、メモリ1165a,1165bから取得した1サブフレーム前の主従の各発話地点に関する情報に応じて、主従の各発話地点を決定するための決定基準を変更し、当該基準の下、各地点に対応する現在のサブフレームのパワーを用いて主たる発話地点と従たる発話地点を決定し、これらを表す情報を出力する(ステップS6a32)。
In the configuration example 3, information regarding each master / slave utterance point determined by the utterance
主従の各発話地点を決定する処理では先に主たる発話地点を決定してから従たる発話の決定を行うところ、発話地点決定部1162は、まず、メモリ1165aから取得した1サブフレーム前の主たる発話地点に関する情報に応じて、主たる発話地点を決定するための決定基準を変更し、当該基準の下、各地点に対応する現在のサブフレームのパワーを用いて主たる発話地点を決定し、これを表す情報を出力する。
In the process of determining the main and subordinate utterance points, the main utterance point is determined first and then the subordinate utterance is determined. First, the utterance
例えば、1サブフレーム前の主たる発話地点が地点Aで、現在のサブフレームについて各地点のパワーのうち地点Aのパワーが最大であれば、引き続き主たる発話地点を地点Aとする。1サブフレーム前の主たる発話地点が地点Aで、現在のサブフレームについて各地点のパワーのうち地点Bのパワーが最大であれば、単純に主たる発話地点を地点Bとする図8に示す構成例1と異なり、例えば、現在のサブフレームについて地点Bのパワーが地点Aのパワーよりもα倍以上大きい場合は主たる発話地点を地点Bに変更するが、地点Bのパワーのほうが大きくても地点Aのパワーのα倍に満たない場合は、主たる発話地点を地点Aのまま変更しないという処理を行う(ただし、αは正の実数であり通常1よりも大きい正数である。)。 For example, if the main utterance point one subframe before is the point A and the power of the point A is the maximum among the powers of the respective points in the current subframe, the main utterance point is continuously set as the point A. If the main utterance point one subframe before is point A, and the power at point B is the maximum among the powers at each point in the current subframe, the configuration example shown in FIG. 1, for example, when the power at the point B is greater than α times the power at the point A for the current subframe, the main utterance point is changed to the point B, but even if the power at the point B is larger, the point A If the power is less than α times the power, the processing is performed such that the main utterance point remains unchanged at point A (where α is a positive real number and is usually a positive number larger than 1).
この処理は、主たる発話地点の継続は容易に、主たる発話地点の変更には高いハードルを設けることを意味し、必要以上に頻繁に発話地点が切り替わることを防ぐ効果がある。また、或る一地点が主たる発話地点として判定されたサブフレームが長時間継続するほど、他の地点に主たる発話地点が切り替わるハードルをより高くするルールも採用可能である。例えば、連続する4サブフレームで同じ地点が主たる発話地点とされた場合は、発話地点の切り替わりに次のサブフレームでβ倍以上のパワー差を必要とするという制約を課すことが許される。このβはαと別個独立に設定される正の実数であり、通常はαよりも大きい値とされる。 This process means that continuation of the main utterance point is easy and a high hurdle is provided for changing the main utterance point, and there is an effect of preventing the utterance point from being switched more frequently than necessary. It is also possible to employ a rule that raises the hurdle for switching the main utterance point to another point as the subframe determined as a main utterance point continues for a longer time. For example, when the same point is set as a main utterance point in four consecutive subframes, it is allowed to impose a restriction that a power difference of β times or more is required in the next subframe for switching the utterance point. This β is a positive real number set independently of α, and is usually a value larger than α.
また、上述の主たる発話地点を決定する処理に続いて、発話地点決定部1162は、メモリ1165bから取得した1サブフレーム前の従たる発話地点に関する情報に応じて、従たる発話地点を決定するための決定基準を変更し、当該基準の下、各地点に対応する現在のサブフレームのパワーを用いて従たる発話地点を決定し、これを表す情報を出力する。
Further, following the process of determining the main utterance point described above, the utterance
例えば、≪1≫上述の主たる発話地点を決定する処理において、1サブフレーム前の従たる発話地点Bが主たる発話地点に昇格しなかった場合、次のような処理を行う。1サブフレーム前の従たる発話地点が地点Bで、現在のサブフレームについて各地点のパワーのうち地点Bのパワーが上述の処理で決定された主たる発話地点を除いて最大である場合、引き続き従たる発話地点を地点Bとする。1サブフレーム前の従たる発話地点が地点Bで、現在のサブフレームについて各地点のパワーのうち地点Cのパワーが上述の処理で決定された主たる発話地点を除いて最大である場合、単純に従たる発話地点を地点Cとする図8に示す構成例1と異なり、例えば、現在のサブフレームについて地点Cのパワーが地点Bのパワーよりもγ倍以上大きい場合は従たる発話地点を地点Cに変更するが、地点Cのパワーのほうが大きくても地点Bのパワーのγ倍に満たない場合は、従たる発話地点を地点Bのまま変更しないという処理を行う(ただし、γは正の実数であり通常1よりも大きい正数である。)。 For example, << 1 >> In the above-described process for determining the main utterance point, when the subordinate utterance point B one subframe before is not promoted to the main utterance point, the following process is performed. If the secondary utterance point one subframe before is the point B and the power of the point B among the power of each point for the current subframe is the highest except for the main utterance point determined by the above-described processing, it will continue to follow. Let the utterance point be point B. If the sub utterance point one subframe before is the point B and the power of the point C is the maximum except for the main utterance point determined in the above process among the powers of each point for the current sub frame, simply Unlike the configuration example 1 shown in FIG. 8 in which the subordinate utterance point is the point C, for example, when the power of the point C is larger than the power of the point B by γ times or more in the current subframe, the subordinate utterance point is set to the point C. However, if the power at point C is larger than γ times the power at point B, the subordinate utterance point is not changed as it is at point B (where γ is a positive real number). And is usually a positive number greater than 1.)
≪2≫上述の主たる発話地点を決定する処理において、1サブフレーム前の従たる発話地点Bが主たる発話地点に昇格した場合、次のような処理を行う。1サブフレーム前の主たる発話地点Aを1サブフレーム前の従たる発話地点とみなして、前述の場合≪1≫と同様の処理を行う。すなわち、1サブフレーム前の従たる発話地点が地点Aであり、現在のサブフレームについて各地点のパワーのうち地点Aのパワーが上述の処理で決定された主たる発話地点を除いて最大である場合、従たる発話地点を地点Aとする。1サブフレーム前の従たる発話地点が地点Aであり、現在のサブフレームについて各地点のパワーのうち地点Cのパワーが上述の処理で決定された主たる発話地点を除いて最大である場合、単純に従たる発話地点を地点Cとする図8に示す構成例1と異なり、例えば、現在のサブフレームについて地点Cのパワーが地点Aのパワーよりもγ倍以上大きい場合は従たる発話地点を地点Cに変更するが、地点Cのパワーのほうが大きくても地点Aのパワーのγ倍に満たない場合は、従たる発話地点を地点Aとするという処理を行う(ただし、γは正の実数であり通常1よりも大きい正数である。)。 << 2 >> In the above-described process of determining the main utterance point, when the subordinate utterance point B one subframe before is promoted to the main utterance point, the following process is performed. The main utterance point A one subframe before is regarded as a sub utterance point one subframe before, and the same processing as << 1 >> is performed in the above case. That is, when the subordinate utterance point one subframe before is the point A and the power of the point A among the powers of the respective points in the current subframe is the maximum except for the main utterance point determined by the above-described processing. The subordinate utterance point is designated as point A. If the sub utterance point one subframe before is the point A, and the power of the point C is the maximum except for the main utterance point determined in the above process among the powers of the respective points in the current subframe, the simple Unlike the configuration example 1 shown in FIG. 8 in which the utterance point conforming to is the point C, for example, if the power at the point C is more than γ times greater than the power at the point A for the current subframe, the utterance point according to Change to C, but if the power at point C is greater than γ times the power at point A, a process is performed in which the subordinate utterance point is point A (where γ is a positive real number) Yes, usually a positive number greater than 1.)
なお、場合≪2≫において、1サブフレーム前の主たる発話地点Aを1サブフレーム前の従たる発話地点とみなして現在のサブフレームの従たる発話地点を決定する上述の処理に替えて、次のような処理を行ってもよい。すなわち、メモリ1165bの蓄積内容をクリアし、現在のサブフレームの従たる発話地点を、構成例1で説明した処理と同様に、現在のサブフレームのパワーを用いて決定する。
In the case of << 2 >>, the main utterance point A one subframe before is regarded as a sub utterance point one subframe before, and the following processing is performed to determine the sub utterance point subordinate to the current subframe. You may perform a process like this. That is, the content stored in the
このように、従たる発話地点の決定処理についても、主たる発話地点の決定処理と同様に、従たる発話地点の継続を容易にし、従たる発話地点の変更には高いハードルを設けることで、必要以上に頻繁に発話地点が切り替わることを防ぐようにしてもよい。また、或る一地点が従たる発話地点として判定されたサブフレームが長時間継続するほど、他の地点に従たる発話地点が切り替わるハードルをより高くするルールも採用可能である。例えば、連続する4サブフレームで同じ地点が従たる発話地点とされた場合は、発話地点の切り替わりに次のサブフレームでθ倍以上のパワー差を必要とするという制約を課すことが許される。このθはγと別個独立に設定される正の実数であり、通常はγよりも大きい値とされる。 In this way, the process for determining the subordinate utterance point is also necessary for the process of determining the subordinate utterance point by making it easy to continue the subordinate utterance point and providing a high hurdle for changing the subordinate utterance point. As described above, the utterance point may be prevented from being frequently switched. It is also possible to employ a rule that increases the hurdle for switching the utterance point according to another point as the subframe determined as the utterance point followed by one point continues for a longer time. For example, in the case where the same spot is followed by the same spot in four consecutive subframes, it is allowed to impose a restriction that a power difference of θ times or more is required in the next subframe for switching the talk spot. This θ is a positive real number that is set independently of γ, and is usually larger than γ.
なお、構成例3において、従たる発話地点を決定するための決定基準を変更することは必須ではなく、この場合、メモリ1165bは不要である(つまり、従たる発話地点は構成例1に準拠して決定される。)。
In the configuration example 3, it is not essential to change the determination criteria for determining the subordinate utterance point. In this case, the
<構成例4>
図14は、制御情報計算・地点選択部116pの構成例4を示す。図15に、制御情報計算・地点選択部116pの構成例4の処理フローを示す。
この構成例4は、図10に示す構成例2の機能構成と図12に示す構成例3の機能構成との複合形態である。各機能の処理は構成例2および構成例3の説明によって既に明らかであるから、重複説明に替えてこれを援用する。
<Configuration example 4>
FIG. 14 shows a configuration example 4 of the control information calculation / point selection unit 116p. FIG. 15 shows a process flow of the configuration example 4 of the control information calculation / point selection unit 116p.
Configuration example 4 is a composite form of the functional configuration of configuration example 2 shown in FIG. 10 and the functional configuration of configuration example 3 shown in FIG. Since the processing of each function has already been clarified by the description of the configuration example 2 and the configuration example 3, this is used instead of the duplicate description.
構成例4は、発話地点決定部1162が、各地点に対応する現在のサブフレームのパワーと、メモリ1164a,1164b,1164cに蓄積されている各地点に対応する各サブフレームのパワーの時系列と、メモリ1165a,1165bに蓄積されている主従の各発話地点に関する情報とを用いて、現在のサブフレームにおける主従の各発話地点の決定を行い、これらを表す情報を出力する(ステップS6a4)。この決定処理として、まず構成例2による決定処理を行い、次いで構成例3による決定処理を行う二段階方式や、まず構成例3による決定処理を行い、次いで構成例2による決定処理を行う二段階方式や、構成例2による決定アルゴリズムと構成例3による決定アルゴリズムを融合させた決定処理などが実施できる。例えば、1サブフレーム前の主たる発話地点が地点Aである場合、連続する直前の2サブフレームについて地点Bのパワーが最大となった場合に主たる発話地点を地点Bに切り替えるという決定処理が行われる。
In the configuration example 4, the utterance
なお、構成例4において、従たる発話地点を決定するための決定基準を変更することは必須ではなく、この場合、メモリ1165bは不要である(つまり、従たる発話地点は構成例1または構成例2に準拠して決定される。)。
In the configuration example 4, it is not essential to change the determination criterion for determining the subordinate utterance point. In this case, the
上述の各実施形態では、音声符号化方式としてG.711.1を採用したがこれに限定されず、他の音声符号化方式であってもよい。また、第2実施形態では制御情報としてのパワーをG.711ビットを利用して計算し、このパワーを利用して発話地点を決定したが、このような処理に限定されない。制御情報として音声信号(G.711デコーダの出力であるPCM音声を含む)のパワー、音声/非音声区間情報(VAD)、有声音/無声音の識別情報などの音響属性を、G.711デコーダの出力であるPCM音声信号や拡張ビットから求める処理としてもよい。 In each of the above-described embodiments, G.711.1 is adopted as the speech encoding method, but the present invention is not limited to this, and other speech encoding methods may be used. In the second embodiment, power as control information is calculated using G.711 bits, and an utterance point is determined using this power. However, the present invention is not limited to such processing. As the control information, acoustic attributes such as the power of voice signals (including PCM voice output from the G.711 decoder), voice / non-voice section information (VAD), voiced / unvoiced voice identification information, etc. It is good also as a process calculated | required from the output PCM audio | voice signal and an extension bit.
例えばコンピュータによって多地点接続装置を実現する場合であれば、実施形態に係わる多地点接続装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部〔これらは、単純な中継基地局として多地点接続装置を実現する場合には必ずしも必要ではない。〕、多地点接続装置の外部に通信可能な通信装置(例えばモデム)が接続可能な通信部、DSP〔CPUでも良い。またキャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)、ROM(Read Only Memory)やハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、DSP、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、多地点接続装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。 For example, if the multipoint connection device is realized by a computer, the multipoint connection device according to the embodiment includes an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected [these are simple relays. This is not always necessary when a multipoint connection apparatus is realized as a base station. ] A communication unit that can be connected to a communication device (for example, a modem) that can communicate with the outside of the multipoint connection device, DSP [CPU may be used. A cache memory or the like may be provided. ] RAM (Random Access Memory), ROM (Read Only Memory), and external storage devices such as hard disks, as well as the input unit, output unit, communication unit, DSP, RAM, ROM, data between the external storage devices It is equipped with a bus that is connected so that it can be exchanged. If necessary, the multipoint connection device may be provided with a device (drive) that can read and write a storage medium such as a CD-ROM.
多地点接続装置の外部記憶装置には、多地点接続のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔例えばプログラムを読み出し専用記憶装置であるROMに記憶させておく形態も許される。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMなどに適宜に記憶される。 The external storage device of the multipoint connection device stores a program for multipoint connection and data necessary for processing of the program [for example, the program is stored in a ROM which is a read-only storage device. Form is also allowed. ]. Further, data obtained by the processing of these programs is appropriately stored in a RAM or the like.
具体的には、外部記憶装置には、3地点以上の各地点から送られた音声パケットをそれぞれ、パケット化周期よりも短いサブフレーム長単位に分割して、分割音声パケットを出力するためのプログラム、各地点に対応する分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出すためのプログラム、各地点に対応する第1音声符号をそれぞれ復号して第1音声信号を出力するためのプログラム、各地点に対応する第1音声信号をミキシングして各地点向けの混合音声信号を出力するためのプログラム、各地点に対応する混合音声信号をそれぞれ符号化して混合音声符号を出力するためのプログラム、各地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力するためのプログラム、各地点のうち制御信号に応じて定まる地点向けとして、各地点に対応する第2音声符号のうち制御信号に応じて定まる第2音声符号を出力するためのプログラム、各地点に対応する混合音声符号と、第2音声符号切替処理で出力された各地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力するためのプログラム、各地点に対応する単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力するためのプログラムが記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。 Specifically, in the external storage device, a program for dividing a voice packet transmitted from each of three or more points into subframe length units shorter than the packetization period and outputting a divided voice packet A program for extracting at least the first voice code and the second voice code from each of the divided voice packets corresponding to each point, and for decoding the first voice code corresponding to each point and outputting the first voice signal A program for mixing a first audio signal corresponding to each point and outputting a mixed audio signal for each point, and for encoding a mixed audio signal corresponding to each point and outputting a mixed audio code Program, a program for determining the utterance point from each point, and outputting a control signal corresponding to the utterance point, out of each point A program for outputting a second speech code determined according to a control signal among second speech codes corresponding to each point, a mixed speech code corresponding to each point, and a second code for a point determined according to the control signal A program for combining the second speech code corresponding to each point output in the speech code switching process to output a unit speech packet in units of subframe length, and combining a plurality of unit speech packets corresponding to each point A program for outputting a voice packet for transmission having a time unit of a packetization period is stored. In addition, a control program for controlling processing based on these programs is also stored as appropriate.
実施形態に係る多地点接続装置では、外部記憶装置〔あるいはROMなど〕に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、DSPで解釈実行・処理される。その結果、DSPが所定の機能(時間方向分割部、デマルチプレクシング部、デコーダ、ミキシング部、エンコーダ、地点選択部、第2音声符号切替部(拡張ビット切替部)、マルチプレクシング部、時間方向結合部)を実現することで、多地点接続が実現される。 In the multipoint connection device according to the embodiment, each program stored in an external storage device (or ROM, etc.) and data necessary for processing each program are read into the RAM as necessary, and interpreted and executed by the DSP. It is processed. As a result, the DSP has predetermined functions (time direction division unit, demultiplexing unit, decoder, mixing unit, encoder, point selection unit, second speech code switching unit (extension bit switching unit), multiplexing unit, time direction combination. Multi-point connection is realized.
このほか本発明である多地点接続装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記多地点接続装置・方法において説明した処理は、記載の順に従って時系列に実行される趣旨ではなく、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 In addition, the multipoint connection apparatus / method according to the present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the gist of the present invention. In addition, the processing described in the above multipoint connection apparatus / method is not performed in chronological order according to the description order, but is performed in parallel or individually as required by the processing capability of the apparatus that performs the processing or as necessary. It may be.
また、上記多地点接続装置における処理機能をコンピュータによって実現する場合、多地点接続装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記多地点接続装置における処理機能がコンピュータ上で実現される。 When the processing functions in the multipoint connection apparatus are realized by a computer, the processing contents of the functions that the multipoint connection apparatus should have are described by a program. And the processing function in the said multipoint connection apparatus is implement | achieved on a computer by running this program with a computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、多地点接続装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the multipoint connection apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (12)
各上記地点に対応する上記分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出すデマルチプレクシング部と、
各上記地点に対応する上記第1音声符号をそれぞれ復号して第1音声信号を出力するデコーダと、
各上記地点に対応する上記第1音声信号をミキシングして各上記地点向けの混合音声信号を出力するミキシング部と、
各上記地点に対応する上記混合音声信号をそれぞれ符号化して混合音声符号を出力するエンコーダと、
各上記地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力する地点選択部と、
各上記地点のうち上記制御信号に応じて定まる地点向けとして、各上記地点に対応する上記第2音声符号のうち上記制御信号に応じて定まる第2音声符号を出力する第2音声符号切替部と、
各上記地点に対応する上記混合音声符号と、上記第2音声符号切替部が出力した各上記地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力するマルチプレクシング部と、
各上記地点に対応する上記単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力する時間方向結合部と
を含み、
上記地点選択部は、
各上記地点に対応する上記第1音声信号の二乗和、または、上記第1音声信号の絶対値の平均、または、上記第1音声符号から正負符号を除いたサンプル毎のコードの平均値のいずれか(以下、パワーという)を求める音響属性決定部と、
各上記地点に対応する上記パワーに対して決定基準を適用して、各上記地点の中から現在の発話地点を決定する発話地点決定部と、
発話地点を表す情報を記憶するメモリと、
決定された発話地点に対応する制御信号を出力する制御信号出力部とを含み、
上記決定基準は、
上記パワーが最大の地点が上記メモリから取得した1サブフレーム前の主たる発話地点と同一の地点である場合に、上記1サブフレーム前の主たる発話地点と同一の地点を現在のサブフレームの主たる発話地点であると決定する、上記パワーに対する決定基準よりも、
上記パワーが最大の地点が上記1サブフレーム前の主たる発話地点と異なる地点である場合に、上記1サブフレーム前の主たる発話地点と異なる地点を現在のサブフレームの主たる発話地点であると決定する、上記パワーに対する決定基準の方が高い、ものであり、
上記発話地点決定部は、上記決定基準の下で、発話地点を決定する
ことを特徴とする多地点接続装置。 A time direction division unit that divides each voice packet transmitted from each of three or more points into time units shorter than the packetization period (hereinafter referred to as subframe length units) and outputs divided voice packets;
A demultiplexing unit that extracts at least a first speech code and a second speech code from each of the divided speech packets corresponding to each of the points;
A decoder for decoding the first audio code corresponding to each of the points and outputting a first audio signal;
A mixing unit that mixes the first audio signal corresponding to each of the points and outputs a mixed audio signal for each of the points;
An encoder that encodes the mixed speech signal corresponding to each of the points and outputs a mixed speech code;
A point selection unit that determines a speech point from each of the above points and outputs a control signal corresponding to the speech point;
A second voice code switching unit for outputting a second voice code determined according to the control signal among the second voice codes corresponding to the points, for a point determined according to the control signal among the points; ,
Multiplex that outputs a unit voice packet in units of subframe length by combining the mixed voice code corresponding to each point and the second voice code corresponding to each point output from the second voice code switching unit. Cushing part,
Combining a plurality of the unit voice packets corresponding to each of the points, and outputting a voice packet for transmission having a time unit of a packetization period,
The point selection part
Either the sum of squares of the first audio signal corresponding to each point, the average of the absolute values of the first audio signal, or the average value of the code for each sample excluding the positive / negative code from the first audio code (Hereinafter referred to as power) acoustic attribute determination unit,
Applying a decision criterion to the power corresponding to each of the above points, an utterance point determining unit that determines the current utterance point from among the above points,
A memory for storing information representing an utterance point;
A control signal output unit that outputs a control signal corresponding to the determined utterance point,
The above decision criteria are:
If the power is a maximum point which is a main utterance location identical to the location of the previous one subframe obtained from the memory, mainly a main utterance location same point and the previous upper Symbol 1 sub frame of the current sub-frame Rather than the decision criteria for the above power, which is determined to be the utterance point,
If the power is a maximum point is the point different from the main utterance location before the 1 sub-frame, a point different from the main utterance location before the upper Symbol 1 subframe to be the primary utterance location of the current subframe determined The decision criterion for the power is higher ,
The utterance point determination unit determines an utterance point under the determination criterion.
或る一地点が主たる発話地点として判定されたサブフレームが長時間継続するほど、上記パワーが最大の地点が1サブフレーム前の主たる発話地点と異なる地点である場合の上記決定基準を高める
ことを特徴とする多地点接続装置。 The multipoint connection device according to claim 1,
More certain one point to subframe lasts long it is determined as the main utterance location, to enhance the decision criteria when the power is the maximum point of a different point as the main utterance location of the previous subframe A multipoint connection device characterized by.
上記決定基準は、
現在のサブフレームについて各上記地点に対応するパワーのうち最大のパワーが、1サブフレーム前の主たる発話地点に対応するパワーのα倍以上(ただし、αは1よりも大きい正数とする)である場合は主たる発話地点を当該最大のパワーに対応する地点に変更し、α倍に満たない場合は主たる発話地点を1サブフレーム前の主たる発話地点のまま変更しない、ものである
ことを特徴とする多地点接続装置。 The multipoint connection device according to claim 1,
The above decision criteria are:
The maximum power among the power corresponding to each of the above points for the current subframe is not less than α times the power corresponding to the main utterance point one subframe before (where α is a positive number greater than 1). In some cases, the main utterance point is changed to a point corresponding to the maximum power, and if it is less than α times, the main utterance point is not changed as the main utterance point one subframe before. Multipoint connection device.
上記決定基準は、
現在のサブフレームについて各上記地点に対応するパワーのうち最大のパワーが、
1サブフレーム前の主たる発話地点に対応するパワーのα倍以上(αは1よりも大きい正数とする)[ただし、当該1サブフレーム前までの連続する複数のサブフレームで同じ地点が主たる発話地点とされた場合には、β倍以上(βは上記αよりも大きい正数とする)とする]である場合は主たる発話地点を当該最大のパワーに対応する地点に変更し、
α倍に満たない場合は主たる発話地点を1サブフレーム前の主たる発話地点のまま変更しない、ものである
ことを特徴とする多地点接続装置。 In the multipoint connection device according to claim 2,
The above decision criteria are:
The maximum power among the power corresponding to each of the above points for the current subframe is
More than α times the power corresponding to the main utterance point one subframe before (α is a positive number larger than 1) [However, the same utterance is the main point in a plurality of consecutive subframes up to the previous subframe. If it is a point, it is β times or more (β is a positive number larger than α). If it is, the main utterance point is changed to a point corresponding to the maximum power,
A multipoint connection device characterized by not changing the main utterance point as the main utterance point one subframe before when the number is less than α times.
各上記地点に対応する上記分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出すデマルチプレクシング部と、
各上記地点に対応する上記第1音声符号をそれぞれ復号して第1音声信号を出力するデコーダと、
各上記地点に対応する上記第1音声信号をミキシングして各上記地点向けの混合音声信号を出力するミキシング部と、
各上記地点に対応する上記混合音声信号をそれぞれ符号化して混合音声符号を出力するエンコーダと、
各上記地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力する地点選択部と、
各上記地点のうち上記制御信号に応じて定まる地点向けとして、各上記地点に対応する上記第2音声符号のうち上記制御信号に応じて定まる第2音声符号を出力する第2音声符号切替部と、
各上記地点に対応する上記混合音声符号と、上記第2音声符号切替部が出力した各上記地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力するマルチプレクシング部と、
各上記地点に対応する上記単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力する時間方向結合部と
を含み、
上記地点選択部は、
各上記地点に対応する上記第1音声信号の二乗和、または、上記第1音声信号の絶対値の平均、または、上記第1音声符号から正負符号を除いたサンプル毎のコードの平均値のいずれか(以下、パワーという)を求める音響属性決定部と、
各上記地点に対応する上記パワーを記憶するメモリと、
各上記地点に対応する現在の上記パワーと、上記メモリに記憶された各上記地点に対応する過去の上記パワーとに基づき、各上記地点の中から現在の発話地点を決定する発話地点決定部と、
決定された発話地点に対応する制御信号を出力する制御信号出力部と
を含み、
上記発話地点決定部は、
各地点に対応する現在のサブフレームのパワー値について各地点間の差が閾値よりも小さいときには、1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係を上記決定に加味する
ことを特徴とする多地点接続装置。 A time direction division unit that divides each voice packet transmitted from each of three or more points into time units shorter than the packetization period (hereinafter referred to as subframe length units) and outputs divided voice packets;
A demultiplexing unit that extracts at least a first speech code and a second speech code from each of the divided speech packets corresponding to each of the points;
A decoder for decoding the first audio code corresponding to each of the points and outputting a first audio signal;
A mixing unit that mixes the first audio signal corresponding to each of the points and outputs a mixed audio signal for each of the points;
An encoder that encodes the mixed speech signal corresponding to each of the points and outputs a mixed speech code;
A point selection unit that determines a speech point from each of the above points and outputs a control signal corresponding to the speech point;
A second voice code switching unit for outputting a second voice code determined according to the control signal among the second voice codes corresponding to the points, for a point determined according to the control signal among the points; ,
Multiplex that outputs a unit voice packet in units of subframe length by combining the mixed voice code corresponding to each point and the second voice code corresponding to each point output from the second voice code switching unit. Cushing part,
Combining a plurality of the unit voice packets corresponding to each of the points, and outputting a voice packet for transmission having a time unit of a packetization period,
The point selection part
Either the sum of squares of the first audio signal corresponding to each point, the average of the absolute values of the first audio signal, or the average value of the code for each sample excluding the positive / negative code from the first audio code (Hereinafter referred to as power) acoustic attribute determination unit,
A memory for storing the power corresponding to each of the points;
An utterance point determination unit that determines a current utterance point from among the points based on the current power corresponding to the points and the past power corresponding to the points stored in the memory; ,
A control signal output unit that outputs a control signal corresponding to the determined utterance point,
The utterance point determination unit
When the difference between the points regarding the power value of the current subframe corresponding to each point is smaller than the threshold, the magnitude relationship between the points regarding the power value corresponding to each point before one subframe is added to the above determination. A multipoint connection device characterized by:
各上記地点に対応する上記分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出すデマルチプレクシング部と、
各上記地点に対応する上記第1音声符号をそれぞれ復号して第1音声信号を出力するデコーダと、
各上記地点に対応する上記第1音声信号をミキシングして各上記地点向けの混合音声信号を出力するミキシング部と、
各上記地点に対応する上記混合音声信号をそれぞれ符号化して混合音声符号を出力するエンコーダと、
各上記地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力する地点選択部と、
各上記地点のうち上記制御信号に応じて定まる地点向けとして、各上記地点に対応する上記第2音声符号のうち上記制御信号に応じて定まる第2音声符号を出力する第2音声符号切替部と、
各上記地点に対応する上記混合音声符号と、上記第2音声符号切替部が出力した各上記地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力するマルチプレクシング部と、
各上記地点に対応する上記単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力する時間方向結合部と
を含み、
上記地点選択部は、
各上記地点に対応する上記第1音声信号の二乗和、または、上記第1音声信号の絶対値の平均、または、上記第1音声符号から正負符号を除いたサンプル毎のコードの平均値のいずれか(以下、パワーという)を求める音響属性決定部と、
各上記地点に対応する上記パワーを記憶するメモリと、
各上記地点に対応する現在の上記パワーと、上記メモリに記憶された各上記地点に対応する過去の上記パワーとに基づき、各上記地点の中から現在の発話地点を決定する発話地点決定部と、
決定された発話地点に対応する制御信号を出力する制御信号出力部と
を含み、
上記発話地点決定部は、
1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係が、各地点に対応する現在のサブフレームのパワー値についての各地点間の大小関係よりも顕著である場合は、1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係に基づいて、主たる発話地点を決定する
ことを特徴とする多地点接続装置。 A time direction division unit that divides each voice packet transmitted from each of three or more points into time units shorter than the packetization period (hereinafter referred to as subframe length units) and outputs divided voice packets;
A demultiplexing unit that extracts at least a first speech code and a second speech code from each of the divided speech packets corresponding to each of the points;
A decoder for decoding the first audio code corresponding to each of the points and outputting a first audio signal;
A mixing unit that mixes the first audio signal corresponding to each of the points and outputs a mixed audio signal for each of the points;
An encoder that encodes the mixed speech signal corresponding to each of the points and outputs a mixed speech code;
A point selection unit that determines a speech point from each of the above points and outputs a control signal corresponding to the speech point;
A second voice code switching unit for outputting a second voice code determined according to the control signal among the second voice codes corresponding to the points, for a point determined according to the control signal among the points; ,
Multiplex that outputs a unit voice packet in units of subframe length by combining the mixed voice code corresponding to each point and the second voice code corresponding to each point output from the second voice code switching unit. Cushing part,
Combining a plurality of the unit voice packets corresponding to each of the points, and outputting a voice packet for transmission having a time unit of a packetization period,
The point selection part
Either the sum of squares of the first audio signal corresponding to each point, the average of the absolute values of the first audio signal, or the average value of the code for each sample excluding the positive / negative code from the first audio code (Hereinafter referred to as power) acoustic attribute determination unit,
A memory for storing the power corresponding to each of the points;
An utterance point determination unit that determines a current utterance point from among the points based on the current power corresponding to the points and the past power corresponding to the points stored in the memory; ,
A control signal output unit that outputs a control signal corresponding to the determined utterance point,
The utterance point determination unit
When the magnitude relationship between the points for the power value corresponding to each point before one subframe is more significant than the magnitude relationship between the points for the power value of the current subframe corresponding to each point, A multipoint connection apparatus, wherein a main utterance point is determined based on a magnitude relationship between points with respect to a power value corresponding to each point before one subframe.
各上記地点に対応する上記分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出すデマルチプレクシングステップと、
各上記地点に対応する上記第1音声符号をそれぞれ復号して第1音声信号を出力するデコーディングステップと、
各上記地点に対応する上記第1音声信号をミキシングして各上記地点向けの混合音声信号を出力するミキシングステップと、
各上記地点に対応する上記混合音声信号をそれぞれ符号化して混合音声符号を出力するエンコーディングステップと、
各上記地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力する地点選択ステップと、
各上記地点のうち上記制御信号に応じて定まる地点向けとして、各上記地点に対応する上記第2音声符号のうち上記制御信号に応じて定まる第2音声符号を出力する第2音声符号切替ステップと、
各上記地点に対応する上記混合音声符号と、上記第2音声符号切替ステップで出力された各上記地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力するマルチプレクシングステップと、
各上記地点に対応する上記単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力する時間方向結合ステップと
を有し、
上記地点選択ステップは、
各上記地点に対応する上記第1音声信号の二乗和、または、上記第1音声信号の絶対値の平均、または、上記第1音声符号から正負符号を除いたサンプル毎のコードの平均値のいずれか(以下、パワーという)を求める音響属性決定ステップと、
各上記地点に対応する上記パワーに対して決定基準を適用して、各上記地点の中から現在の発話地点を決定する発話地点決定ステップと、
発話地点を表す情報をメモリに記憶する記憶ステップと、
決定された発話地点に対応する制御信号を出力する制御信号出力ステップとを有し、
上記決定基準は、
上記パワーが最大の地点が上記メモリから取得した1サブフレーム前の主たる発話地点と同一の地点である場合に、上記1サブフレーム前の主たる発話地点と同一の地点を現在のサブフレームの主たる発話地点であると決定する、上記パワーに対する決定基準よりも、
上記パワーが最大の地点が上記1サブフレーム前の主たる発話地点と異なる地点である場合に、上記1サブフレーム前の主たる発話地点と異なる地点を現在のサブフレームの主たる発話地点であると決定する、上記パワーに対する決定基準の方が高い、ものであり、
上記発話地点決定ステップでは、上記決定基準の下で、発話地点を決定する
ことを特徴とする多地点接続方法。 A time direction division step of dividing a voice packet transmitted from each of three or more points into time units shorter than the packetization period (hereinafter referred to as subframe length units) and outputting divided voice packets;
A demultiplexing step of extracting at least a first speech code and a second speech code from each of the divided speech packets corresponding to each of the points;
A decoding step of decoding the first speech code corresponding to each of the points and outputting a first speech signal;
Mixing the first audio signal corresponding to each point to output a mixed audio signal for each point; and
An encoding step of encoding the mixed audio signal corresponding to each of the points and outputting a mixed audio code;
A point selection step of determining a speech point from each of the above points and outputting a control signal corresponding to the speech point;
A second voice code switching step for outputting a second voice code determined according to the control signal among the second voice codes corresponding to the points, for a point determined according to the control signal among the points; ,
The mixed speech code corresponding to each of the points and the second speech code corresponding to each of the points output in the second speech code switching step are combined to output a unit speech packet in subframe length units. A multiplexing step;
Combining a plurality of the unit voice packets corresponding to each of the points, and outputting a voice packet for transmission having a time unit of a packetization period, and a time direction combining step,
The point selection step is
Either the sum of squares of the first audio signal corresponding to each point, the average of the absolute values of the first audio signal, or the average value of the code for each sample excluding the positive / negative code from the first audio code (Hereinafter referred to as power) acoustic attribute determination step,
Applying a decision criterion to the power corresponding to each of the above points, and determining an utterance point determining step for determining a current utterance point from among the above points;
A storage step of storing information representing the utterance point in a memory;
A control signal output step for outputting a control signal corresponding to the determined utterance point,
The above decision criteria are:
If the power is a maximum point which is a main utterance location identical to the location of the previous one subframe obtained from the memory, mainly a main utterance location same point and the previous upper Symbol 1 sub frame of the current sub-frame Rather than the decision criteria for the above power, which is determined to be the utterance point,
If the power is a maximum point is the point different from the main utterance location before the 1 sub-frame, a point different from the main utterance location before the upper Symbol 1 subframe to be the primary utterance location of the current subframe determined The decision criterion for the power is higher ,
In the utterance point determination step, the utterance point is determined under the determination criterion.
或る一地点が主たる発話地点として判定されたサブフレームが長時間継続するほど、上記パワーが最大の地点が1サブフレーム前の主たる発話地点と異なる地点である場合の上記決定基準を高める
ことを特徴とする多地点接続方法。 The multipoint connection method according to claim 7,
More certain one point to subframe lasts long it is determined as the main utterance location, to enhance the decision criteria when the power is the maximum point of a different point as the main utterance location of the previous subframe A multipoint connection method characterized by
上記決定基準は、
現在のサブフレームについて各上記地点に対応するパワーのうち最大のパワーが、1サブフレーム前の主たる発話地点に対応するパワーのα倍以上(ただし、αは1よりも大きい正数とする)である場合は主たる発話地点を当該最大のパワーに対応する地点に変更し、α倍に満たない場合は主たる発話地点を1サブフレーム前の主たる発話地点のまま変更しない、ものである
ことを特徴とする多地点接続方法。 The multipoint connection method according to claim 7,
The above decision criteria are:
The maximum power among the power corresponding to each of the above points for the current subframe is not less than α times the power corresponding to the main utterance point one subframe before (where α is a positive number greater than 1). In some cases, the main utterance point is changed to a point corresponding to the maximum power, and if it is less than α times, the main utterance point is not changed as the main utterance point one subframe before. Multipoint connection method to do.
上記決定基準は、
現在のサブフレームについて各上記地点に対応するパワーのうち最大のパワーが、
1サブフレーム前の主たる発話地点に対応するパワーのα倍以上(αは1よりも大きい正数とする)[ただし、当該1サブフレーム前までの連続する複数のサブフレームで同じ地点が主たる発話地点とされた場合には、β倍以上(βは上記αよりも大きい正数とする)とする]である場合は主たる発話地点を当該最大のパワーに対応する地点に変更し、
α倍に満たない場合は主たる発話地点を1サブフレーム前の主たる発話地点のまま変更しない、ものである
ことを特徴とする多地点接続方法。 The multipoint connection method according to claim 8, wherein
The above decision criteria are:
The maximum power among the power corresponding to each of the above points for the current subframe is
More than α times the power corresponding to the main utterance point one subframe before (α is a positive number larger than 1) [However, the same utterance is the main point in a plurality of consecutive subframes up to the previous subframe. If it is a point, it is β times or more (β is a positive number larger than α). If it is, the main utterance point is changed to a point corresponding to the maximum power,
A multipoint connection method characterized by not changing the main utterance point as the main utterance point one subframe before if it is less than α times.
各上記地点に対応する上記分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出すデマルチプレクシングステップと、
各上記地点に対応する上記第1音声符号をそれぞれ復号して第1音声信号を出力するデコーディングステップと、
各上記地点に対応する上記第1音声信号をミキシングして各上記地点向けの混合音声信号を出力するミキシングステップと、
各上記地点に対応する上記混合音声信号をそれぞれ符号化して混合音声符号を出力するエンコーディングステップと、
各上記地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力する地点選択ステップと、
各上記地点のうち上記制御信号に応じて定まる地点向けとして、各上記地点に対応する上記第2音声符号のうち上記制御信号に応じて定まる第2音声符号を出力する第2音声符号切替ステップと、
各上記地点に対応する上記混合音声符号と、上記第2音声符号切替ステップで出力された各上記地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力するマルチプレクシングステップと、
各上記地点に対応する上記単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力する時間方向結合ステップと
を有し、
上記地点選択ステップは、
各上記地点に対応する上記第1音声信号の二乗和、または、上記第1音声信号の絶対値の平均、または、上記第1音声符号から正負符号を除いたサンプル毎のコードの平均値のいずれか(以下、パワーという)を求める音響属性決定ステップと、
各上記地点に対応する上記パワーをメモリに記憶する記憶ステップと、
各上記地点に対応する現在の上記パワーと、上記メモリに記憶された各上記地点に対応する過去の上記パワーとに基づき、各上記地点の中から現在の発話地点を決定する発話地点決定ステップと、
決定された発話地点に対応する制御信号を出力する制御信号出力ステップと
を有し、
上記発話地点決定ステップでは、
各地点に対応する現在のサブフレームのパワー値について各地点間の差が閾値よりも小さいときには、1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係を上記決定に加味する
ことを特徴とする多地点接続方法。 A time direction division step of dividing a voice packet transmitted from each of three or more points into time units shorter than the packetization period (hereinafter referred to as subframe length units) and outputting divided voice packets;
A demultiplexing step of extracting at least a first speech code and a second speech code from each of the divided speech packets corresponding to each of the points;
A decoding step of decoding the first speech code corresponding to each of the points and outputting a first speech signal;
Mixing the first audio signal corresponding to each point to output a mixed audio signal for each point; and
An encoding step of encoding the mixed audio signal corresponding to each of the points and outputting a mixed audio code;
A point selection step of determining a speech point from each of the above points and outputting a control signal corresponding to the speech point;
A second voice code switching step for outputting a second voice code determined according to the control signal among the second voice codes corresponding to the points, for a point determined according to the control signal among the points; ,
The mixed speech code corresponding to each of the points and the second speech code corresponding to each of the points output in the second speech code switching step are combined to output a unit speech packet in subframe length units. A multiplexing step;
Combining a plurality of the unit voice packets corresponding to each of the points, and outputting a voice packet for transmission having a time unit of a packetization period, and a time direction combining step,
The point selection step is
Either the sum of squares of the first audio signal corresponding to each point, the average of the absolute values of the first audio signal, or the average value of the code for each sample excluding the positive / negative code from the first audio code (Hereinafter referred to as power) acoustic attribute determination step,
A storage step of storing the power corresponding to each of the points in a memory;
An utterance point determination step for determining a current utterance point from among the points based on the current power corresponding to the points and the past power corresponding to the points stored in the memory; ,
A control signal output step for outputting a control signal corresponding to the determined utterance point,
In the above utterance point determination step,
When the difference between the points regarding the power value of the current subframe corresponding to each point is smaller than the threshold, the magnitude relationship between the points regarding the power value corresponding to each point before one subframe is added to the above determination. A multipoint connection method characterized by:
各上記地点に対応する上記分割音声パケットそれぞれから、少なくとも第1音声符号と第2音声符号を取り出すデマルチプレクシングステップと、
各上記地点に対応する上記第1音声符号をそれぞれ復号して第1音声信号を出力するデコーディングステップと、
各上記地点に対応する上記第1音声信号をミキシングして各上記地点向けの混合音声信号を出力するミキシングステップと、
各上記地点に対応する上記混合音声信号をそれぞれ符号化して混合音声符号を出力するエンコーディングステップと、
各上記地点の中から発話地点を決定して、当該発話地点に対応する制御信号を出力する地点選択ステップと、
各上記地点のうち上記制御信号に応じて定まる地点向けとして、各上記地点に対応する上記第2音声符号のうち上記制御信号に応じて定まる第2音声符号を出力する第2音声符号切替ステップと、
各上記地点に対応する上記混合音声符号と、上記第2音声符号切替ステップで出力された各上記地点に対応する第2音声符号とを結合して、サブフレーム長単位の単位音声パケットを出力するマルチプレクシングステップと、
各上記地点に対応する上記単位音声パケットを複数結合して、パケット化周期の時間単位を持つ送信用音声パケットを出力する時間方向結合ステップと
を有し、
上記地点選択ステップは、
各上記地点に対応する上記第1音声信号の二乗和、または、上記第1音声信号の絶対値の平均、または、上記第1音声符号から正負符号を除いたサンプル毎のコードの平均値のいずれか(以下、パワーという)を求める音響属性決定ステップと、
各上記地点に対応する上記パワーを記憶するメモリと、
各上記地点に対応する現在の上記パワーと、上記メモリに記憶された各上記地点に対応する過去の上記パワーとに基づき、各上記地点の中から現在の発話地点を決定する発話地点決定ステップと、
決定された発話地点に対応する制御信号を出力する制御信号出力ステップと
を有し、
上記発話地点決定ステップでは、
1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係が、各地点に対応する現在のサブフレームのパワー値についての各地点間の大小関係よりも顕著である場合は、1サブフレーム前の各地点に対応するパワー値についての各地点間の大小関係に基づいて、主たる発話地点を決定する
ことを特徴とする多地点接続方法。 A time direction division step of dividing a voice packet transmitted from each of three or more points into time units shorter than the packetization period (hereinafter referred to as subframe length units) and outputting divided voice packets;
A demultiplexing step of extracting at least a first speech code and a second speech code from each of the divided speech packets corresponding to each of the points;
A decoding step of decoding the first speech code corresponding to each of the points and outputting a first speech signal;
Mixing the first audio signal corresponding to each point to output a mixed audio signal for each point; and
An encoding step of encoding the mixed audio signal corresponding to each of the points and outputting a mixed audio code;
A point selection step of determining a speech point from each of the above points and outputting a control signal corresponding to the speech point;
A second voice code switching step for outputting a second voice code determined according to the control signal among the second voice codes corresponding to the points, for a point determined according to the control signal among the points; ,
The mixed speech code corresponding to each of the points and the second speech code corresponding to each of the points output in the second speech code switching step are combined to output a unit speech packet in subframe length units. A multiplexing step;
Combining a plurality of the unit voice packets corresponding to each of the points, and outputting a voice packet for transmission having a time unit of a packetization period, and a time direction combining step,
The point selection step is
Either the sum of squares of the first audio signal corresponding to each point, the average of the absolute values of the first audio signal, or the average value of the code for each sample excluding the positive / negative code from the first audio code (Hereinafter referred to as power) acoustic attribute determination step,
A memory for storing the power corresponding to each of the points;
An utterance point determination step for determining a current utterance point from among the points based on the current power corresponding to the points and the past power corresponding to the points stored in the memory; ,
A control signal output step for outputting a control signal corresponding to the determined utterance point,
In the above utterance point determination step,
When the magnitude relationship between the points for the power value corresponding to each point before one subframe is more significant than the magnitude relationship between the points for the power value of the current subframe corresponding to each point, A multipoint connection method, wherein a main utterance point is determined based on a magnitude relationship between points with respect to a power value corresponding to each point before one subframe.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009148755A JP5572338B2 (en) | 2009-06-23 | 2009-06-23 | Multipoint connection device, multipoint connection method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009148755A JP5572338B2 (en) | 2009-06-23 | 2009-06-23 | Multipoint connection device, multipoint connection method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011009845A JP2011009845A (en) | 2011-01-13 |
| JP5572338B2 true JP5572338B2 (en) | 2014-08-13 |
Family
ID=43566034
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009148755A Active JP5572338B2 (en) | 2009-06-23 | 2009-06-23 | Multipoint connection device, multipoint connection method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5572338B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021097405A (en) * | 2019-12-16 | 2021-06-24 | ライン プラス コーポレーションLINE Plus Corporation | Server for multi-party call system and method of operating the same |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4033840B2 (en) * | 2004-02-12 | 2008-01-16 | 日本電信電話株式会社 | Audio mixing method, audio mixing apparatus, audio mixing program, and recording medium recording the same |
| JP4709734B2 (en) * | 2006-12-01 | 2011-06-22 | 日本電信電話株式会社 | Speaker selection device, speaker selection method, speaker selection program, and recording medium recording the same |
-
2009
- 2009-06-23 JP JP2009148755A patent/JP5572338B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011009845A (en) | 2011-01-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| AU2006272127B2 (en) | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding | |
| KR102075361B1 (en) | Audio encoder for encoding multichannel signals and audio decoder for decoding encoded audio signals | |
| JP5883561B2 (en) | Speech encoder using upmix | |
| RU2677580C2 (en) | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals | |
| JP4685925B2 (en) | Adaptive residual audio coding | |
| JP5173795B2 (en) | Scalable encoding apparatus and scalable encoding method | |
| US9489962B2 (en) | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method | |
| CN101091206B (en) | Audio encoding device and audio encoding method | |
| EP3664087B1 (en) | Time-domain stereo coding and decoding method, and related product | |
| WO2007105586A1 (en) | Coding device and coding method | |
| JPWO2007043642A1 (en) | Scalable encoding apparatus, scalable decoding apparatus, and methods thereof | |
| EP3664088B1 (en) | Audio coding mode determination | |
| BRPI0606387B1 (en) | DECODER, AUDIO PLAYBACK, ENCODER, RECORDER, METHOD FOR GENERATING A MULTI-CHANNEL AUDIO SIGNAL, STORAGE METHOD, PARACODIFYING A MULTI-CHANNEL AUDIO SIGN, AUDIO TRANSMITTER, RECEIVER MULTI-CHANNEL, AND METHOD OF TRANSMITTING A MULTI-CHANNEL AUDIO SIGNAL | |
| JP4033840B2 (en) | Audio mixing method, audio mixing apparatus, audio mixing program, and recording medium recording the same | |
| CN101989429B (en) | Transcoding method, device, equipment and system | |
| WO2007063910A1 (en) | Scalable coding apparatus and scalable coding method | |
| EP1719115A1 (en) | Parametric multi-channel coding with improved backwards compatibility | |
| JP2010213350A (en) | Relay device | |
| JP5572338B2 (en) | Multipoint connection device, multipoint connection method | |
| JP2002221994A (en) | Method and apparatus for assembling packet of code string of voice signal, method and apparatus for disassembling packet, program for executing these methods, and recording medium for recording program thereon | |
| JP4859925B2 (en) | Audio signal decoding method and apparatus | |
| JP4512016B2 (en) | Stereo signal encoding apparatus, stereo signal encoding method, program, and recording medium | |
| US7346503B2 (en) | Transmitter and receiver for speech coding and decoding by using additional bit allocation method | |
| EP3657498B1 (en) | Coding method for time-domain stereo parameter, and related product | |
| WO2007010844A1 (en) | Relay device, communication terminal, signal decoder, signal processing method, and signal processing program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120521 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130821 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130917 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131115 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140415 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140527 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140624 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140630 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5572338 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |