Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6503752B2 - AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM - Google Patents
[go: Go Back, main page]

JP6503752B2 - AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM - Google Patents

AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM Download PDF

Info

Publication number
JP6503752B2
JP6503752B2 JP2015008305A JP2015008305A JP6503752B2 JP 6503752 B2 JP6503752 B2 JP 6503752B2 JP 2015008305 A JP2015008305 A JP 2015008305A JP 2015008305 A JP2015008305 A JP 2015008305A JP 6503752 B2 JP6503752 B2 JP 6503752B2
Authority
JP
Japan
Prior art keywords
sound
field effect
audio signal
position information
sound field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015008305A
Other languages
Japanese (ja)
Other versions
JP2016134767A (en
Inventor
雄太 湯山
雄太 湯山
良太郎 青木
良太郎 青木
加納 真弥
真弥 加納
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2015008305A priority Critical patent/JP6503752B2/en
Priority to EP16151918.6A priority patent/EP3048818B1/en
Priority to US15/001,446 priority patent/US9883317B2/en
Priority to CN201610036844.0A priority patent/CN105812991B/en
Publication of JP2016134767A publication Critical patent/JP2016134767A/en
Application granted granted Critical
Publication of JP6503752B2 publication Critical patent/JP6503752B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

この発明は、オーディオ信号に種々の処理を行うオーディオ信号処理装置に関する。   The present invention relates to an audio signal processing apparatus that performs various processes on an audio signal.

従来から、聴取環境において所望の音場を形成する音場支援装置が知られている(例えば特許文献1を参照)。音場支援装置は、複数チャンネルのオーディオ信号を合成して、合成後のオーディオ信号に所定のパラメータを畳み込むことにより、擬似反射音(音場効果音)を生成する。   BACKGROUND ART Conventionally, a sound field support device that forms a desired sound field in a listening environment is known (see, for example, Patent Document 1). The sound field support apparatus synthesizes audio signals of a plurality of channels, and convolutes a predetermined parameter into the synthesized audio signal to generate a pseudo reflection sound (sound field sound effect).

一方、近年ではコンテンツに付加されたオブジェクト情報による音像定位の方式が普及している。オブジェクト情報は、各オブジェクト(音源)の位置を示す情報が含まれている。   On the other hand, in recent years, a method of sound image localization by object information added to contents has become widespread. The object information includes information indicating the position of each object (sound source).

特開2001−186599号公報JP 2001-186599 A

音場効果は、オブジェクト情報による音像定位の方式には最適化されていない。例えば、音場効果は、音源がセリフ等の音声の場合には抑えることが好ましいため、音楽等の成分が多く含まれることの多いフロント信号やサラウンド信号の寄与率が高く、セリフ等の成分が多く含まれていることの多いセンタ信号の寄与率が低くなるようになっている。   The sound field effect is not optimized for the method of sound image localization by object information. For example, since it is preferable to suppress the sound field effect when the sound source is voice such as speech, the contribution ratio of the front signal or surround signal often containing many components such as music is high, and the component such as speech is The contribution ratio of the center signal, which is often included, is reduced.

この状況において、例えばあるオブジェクトが、前方から後方に移動する場合、当該オブジェクトの音像定位位置が前方から後方に変化するにつれて急激に音場効果が増強される場合もある。   In this situation, for example, when an object moves from front to back, the sound field effect may be rapidly enhanced as the sound image localization position of the object changes from front to back.

そこで、この発明は、オブジェクト毎に最適な音場を形成するオーディオ信号処理装置を提供することを目的とする。   An object of the present invention is to provide an audio signal processing apparatus that forms an optimal sound field for each object.

この発明のオーディオ信号処理装置は、複数チャンネルのオーディオ信号が含まれたコンテンツを入力する入力手段と、前記コンテンツに含まれる音源の位置情報を取得する取得手段と、各チャンネルのオーディオ信号にそれぞれ音場効果を付与して音場効果音を生成する音場効果音生成部と、を備えている。   An audio signal processing apparatus according to the present invention includes an input unit for inputting content including audio signals of a plurality of channels, an acquiring unit for acquiring position information of a sound source included in the content, and sound for each channel of audio signals. And a sound field sound effect generating unit that generates a sound field sound effect by applying a field effect.

そして、オーディオ信号処理装置は、前記位置情報に基づいて、前記音場効果音生成部において付与する音場効果を制御する制御部を備えている。   And an audio signal processing apparatus is provided with the control part which controls the sound field effect provided in the said sound field sound effect production | generation part based on the said positional information.

音場効果音生成部は、例えば各チャンネルのオーディオ信号に、位置情報に応じた個別のフィルタ係数を畳み込むことで音場効果を付与する。あるいは、音場効果音生成部は、各チャンネルのオーディオ信号をそれぞれ所定のゲインで合成して音場効果音を生成し、制御部は、位置情報に基づいて音場効果音生成部における各チャンネルのゲインを制御する。   The sound field effect sound generation unit imparts a sound field effect by, for example, convoluting an individual filter coefficient according to the position information to the audio signal of each channel. Alternatively, the sound field effect sound generation unit synthesizes the audio signal of each channel with a predetermined gain to generate a sound field effect sound, and the control unit generates each sound channel sound effect generator based on the position information. Control the gain of

オーディオ信号処理装置は、各チャンネルの音場効果音への寄与率を固定するのではなく、オブジェクトの位置変化によって各チャンネルの寄与率を動的に設定するため、オブジェクトの移動に応じた最適な音場効果音が生成される。   Since the audio signal processing device dynamically sets the contribution ratio of each channel according to the change in position of the object instead of fixing the contribution ratio to the sound field sound effect of each channel, the optimum according to the movement of the object Sound field sound effects are generated.

例えば、あるオブジェクトが聴取位置の前方に位置する場合、フロントチャンネルの寄与率を高く設定し、当該オブジェクトが後方に移動するにつれてフロントチャンネルの寄与率を低くするとともにサラウンドチャンネルの寄与率を高くする。これにより、オブジェクトの音像定位位置が前方から後方に変化した場合でも急激に音場効果が増強されることがなくなる。   For example, when an object is located in front of the listening position, the contribution of the front channel is set high, and as the object moves backward, the contribution of the front channel is reduced and the contribution of the surround channel is increased. As a result, even when the sound image localization position of the object changes from the front to the rear, the sound field effect is not rapidly enhanced.

なお、前記音場効果音生成部は、第1音場効果音生成部と第2音場効果音生成部とを備え、前記第1音場効果音生成部は、所定のパラメータに基づいて各チャンネルのオーディオ信号にそれぞれ音場効果を付与して音場効果音を生成する処理を行い、前記第2音場効果音生成部は、前記制御部の制御に基づいて、各チャンネルのオーディオ信号にそれぞれ音場効果を付与する処理を行うことも可能である。   The sound field effect sound generation unit includes a first sound field effect sound generation unit and a second sound field effect sound generation unit, and the first sound field effect sound generation unit is configured based on a predetermined parameter. A process of giving a sound field effect to the audio signal of each channel to generate a sound field sound effect is performed, and the second sound field sound effect generating unit generates an audio signal of each channel based on the control of the control unit. It is also possible to perform processing for applying a sound field effect.

この場合、従来のように各チャンネルの寄与率を固定した音場効果音を生成しながらも、各オブジェクトについて音源の位置に応じた最適な寄与率を設定した音場効果音が生成される。   In this case, a sound field effect sound is generated in which an optimum contribution rate according to the position of the sound source is set for each object while generating a sound field effect sound with a fixed contribution rate of each channel as in the prior art.

また、前記取得手段は、帯域毎の音源の位置情報を取得し、前記制御部は、前記帯域毎の音源の位置情報に基づいて、前記音場効果音生成部におけるパラメータを設定することも可能である。   Further, the acquisition unit may acquire position information of a sound source for each band, and the control unit may set parameters in the sound field sound effect generator based on the position information of the sound source for each band. It is.

例えば、低域に主成分があるオブジェクトである場合、低域用に用意したパラメータ(フィルタ係数)で音場効果音を生成する。   For example, in the case of an object having a main component in the low band, the sound field sound effect is generated with the parameters (filter coefficients) prepared for the low band.

また、前記取得手段は、前記音源の種類を示す情報をさらに取得し、前記制御部は、前記音源の種類を示す情報に基づいて、音源の種類毎に異なるゲイン設定を行うことも可能である。   Furthermore, the acquisition unit may further acquire information indicating the type of the sound source, and the control unit may perform different gain settings for each type of the sound source based on the information indicating the type of the sound source. .

例えば、オブジェクトがセリフである場合、当該セリフのオブジェクトに対応するチャンネルの寄与率を低く抑える。これにより、例えば前方から後方に移動する話者がいるコンテンツであっても、話者の音声が不必要に響くことなく、適切な音場が形成される。   For example, when the object is a speech, the contribution of the channel corresponding to the object of the speech is suppressed low. As a result, for example, even if the content includes a speaker moving from the front to the rear, an appropriate sound field is formed without the speaker's voice unnecessarily resonating.

この発明によれば、オブジェクト毎に最適な音場を形成することができる。   According to the present invention, an optimum sound field can be formed for each object.

聴取環境の模式図である。It is a schematic diagram of a listening environment. 第1実施形態に係るオーディオ信号処理装置のブロック図である。It is a block diagram of the audio signal processing device concerning a 1st embodiment. DSPおよびCPUの機能的構成を示したブロック図である。It is a block diagram showing functional composition of DSP and CPU. 第1実施形態の変形例に係るDSPの機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of DSP concerning the modification of 1st Embodiment. 第2実施形態の変形例に係るDSPの機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of DSP concerning the modification of 2nd Embodiment. 分析部の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of an analysis part. 第1実施形態(または第2実施形態)の変形例1に係るオーディオ信号処理部14の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the audio signal processing part 14 which concerns on the modification 1 of 1st Embodiment (or 2nd Embodiment). 第3実施形態に係る聴取環境の模式図である。It is a schematic diagram of the listening environment which concerns on 3rd Embodiment. 第3実施形態におけるオーディオ信号処理装置のブロック図である。It is a block diagram of the audio signal processing apparatus in 3rd Embodiment.

(第1実施形態)
図1は、第1実施形態における聴取環境の模式図であり、図2は、第1実施形態におけるオーディオ信号処理装置1のブロック図である。本実施形態では、一例として平面視して正方形状の部屋内において、中心位置が聴取位置となっている聴取環境を示す。聴取位置の周囲には、複数のスピーカ(この例では、5つのスピーカ21L、スピーカ21R、スピーカ21C、スピーカ21SL、およびスピーカ21SR)が設置されている。スピーカ21Lは、聴取位置の前方左側、スピーカ21Rは、聴取位置の前方右側、スピーカ21Cは、聴取位置の前方中央、スピーカ21SLは、聴取位置の後方左側、スピーカ21SRは、聴取位置の後方右側に設置されている。スピーカ21L、スピーカ21R、スピーカ21C、スピーカ21SL、およびスピーカ21SRは、それぞれオーディオ信号処理装置1に接続されている。
First Embodiment
FIG. 1 is a schematic view of a listening environment in the first embodiment, and FIG. 2 is a block diagram of an audio signal processing apparatus 1 in the first embodiment. In the present embodiment, as an example, a listening environment is shown in which the central position is a listening position in a square-shaped room in plan view. Around the listening position, a plurality of speakers (in this example, five speakers 21L, speakers 21R, speakers 21C, speakers 21SL, and speakers 21SR) are installed. The speaker 21L is on the front left side of the listening position, the speaker 21R is on the front right side of the listening position, the speaker 21C is on the front center of the listening position, the speaker 21SL is on the rear left side of the listening position, and the speaker 21SR is on the rear right of the listening position is set up. The speaker 21L, the speaker 21R, the speaker 21C, the speaker 21SL, and the speaker 21SR are connected to the audio signal processing device 1, respectively.

オーディオ信号処理装置1は、入力部11、デコーダ12、レンダラ13、オーディオ信号処理部14、D/Aコンバータ15、アンプ(AMP)16、CPU17、ROM18、およびRAM19を備えている。   The audio signal processing apparatus 1 includes an input unit 11, a decoder 12, a renderer 13, an audio signal processing unit 14, a D / A converter 15, an amplifier (AMP) 16, a CPU 17, a ROM 18 and a RAM 19.

CPU17は、ROM18に記憶されている動作用プログラム(ファームウェア)をRAM19に読み出し、オーディオ信号処理装置1を統括的に制御する。   The CPU 17 reads an operation program (firmware) stored in the ROM 18 into the RAM 19 and centrally controls the audio signal processing apparatus 1.

入力部11は、HDMI(登録商標)等のインタフェースを有する。入力部11は、プレーヤ等からコンテンツデータを入力し、デコーダ12に出力する。   The input unit 11 has an interface such as HDMI (registered trademark). The input unit 11 receives content data from a player or the like and outputs the content data to the decoder 12.

デコーダ12は、例えばDSPからなり、コンテンツデータをデコードし、オーディオ信号を抽出する。なお、本実施形態においては、オーディオ信号は特に記載がない限り全てデジタルオーディオ信号として説明する。   The decoder 12 is, for example, a DSP, decodes content data, and extracts an audio signal. In the present embodiment, audio signals are all described as digital audio signals unless otherwise specified.

デコーダ12は、入力されたコンテンツデータがオブジェクトベース方式に対応するものである場合、オブジェクト情報を抽出する。オブジェクトベース方式は、コンテンツに含まれるオブジェクト(音源)を、独立したオーディオ信号として格納したものである。オブジェクトベース方式は、後段のレンダラ13によって当該オブジェクトのオーディオ信号を各チャンネルのオーディオ信号に分配することで(オブジェクト単位での)音像定位を行うものである。したがって、オブジェクト情報には、各オブジェクトの位置情報、およびレベル等の情報が含まれている。   The decoder 12 extracts object information when the input content data corresponds to the object-based method. The object-based method stores an object (sound source) included in content as an independent audio signal. In the object-based method, sound image localization (in object units) is performed by distributing the audio signal of the object to the audio signal of each channel by the renderer 13 in the subsequent stage. Therefore, the object information includes information such as position information and level of each object.

レンダラ13は、例えばDSPからなり、オブジェクト情報に含まれている各オブジェクトの位置情報に基づいて、音像定位処理を行う。すなわち、レンダラ13は、各オブジェクトの位置情報に対応する位置に音像が定位するように、デコーダ12から出力される各オブジェクトのオーディオ信号を各チャンネルのオーディオ信号に所定のゲインで分配する。このようにして、チャンネルベース方式のオーディオ信号が生成される。生成された各チャンネルのオーディオ信号は、オーディオ信号処理部14に出力される。   The renderer 13 is, for example, a DSP, and performs sound image localization processing based on position information of each object included in the object information. That is, the renderer 13 distributes the audio signal of each object output from the decoder 12 to the audio signal of each channel with a predetermined gain so that the sound image is localized at the position corresponding to the position information of each object. Thus, a channel based audio signal is generated. The generated audio signal of each channel is output to the audio signal processing unit 14.

オーディオ信号処理部14は、例えばDSPからなり、CPU17の設定に応じて、入力された各チャンネルのオーディオ信号に所定の音場効果を付与する処理を行う。   The audio signal processing unit 14 is formed of, for example, a DSP, and performs a process of applying a predetermined sound field effect to the input audio signal of each channel according to the setting of the CPU 17.

音場効果は、例えば入力されたオーディオ信号から生成される擬似反射音からなる。生成された擬似反射音は、元のオーディオ信号に加算されて出力される。   The sound field effect consists of, for example, pseudo reflections generated from the input audio signal. The generated pseudo reflection sound is added to the original audio signal and output.

図3は、オーディオ信号処理部14およびCPU17の機能的構成を示したブロック図である。オーディオ信号処理部14は、機能的に、加算処理部141、音場効果音生成部142、および加算処理部143を備えている。   FIG. 3 is a block diagram showing the functional configuration of the audio signal processing unit 14 and the CPU 17. The audio signal processing unit 14 functionally includes an addition processing unit 141, a sound effect sound generation unit 142, and an addition processing unit 143.

加算処理部141は、各チャンネルのオーディオ信号を所定のゲインで合成して、モノラル信号にミックスダウンする。各チャンネルのゲインは、CPU17における制御部171により設定される。一般的に、音源がセリフ等の音声の場合には音場効果を抑えることが好ましいため、音楽等の成分が多く含まれることの多いフロントチャンネルやサラウンドチャンネルのゲインは高く、セリフ等の成分が多く含まれることの多いセンタチャンネルのゲインは低く設定されている。   The addition processing unit 141 combines the audio signals of the respective channels with a predetermined gain and mixes them down into a monaural signal. The gain of each channel is set by the control unit 171 in the CPU 17. Generally, when the sound source is speech such as speech, it is preferable to suppress the sound field effect, so the gain of the front channel or surround channel often containing many components such as music is high, and the component such as speech is The center channel gain, which is often included, is set low.

音場効果音生成部142は、例えばFIRフィルタからなり、入力されたオーディオ信号に所定のインパルス応答を示すパラメータ(フィルタ係数)を畳み込むことで、擬似反射音を生成する。また、音場効果音生成部142は、生成した擬似反射音を各チャンネルに分配する処理を行う。フィルタ係数および分配比率は、CPU17における制御部171により設定される。   The sound effect sound generation unit 142 is, for example, an FIR filter, and generates pseudo-reflected sound by convolving a parameter (filter coefficient) indicating a predetermined impulse response with the input audio signal. Further, the sound effect sound generation unit 142 performs processing of distributing the generated pseudo reflection sound to each channel. The filter coefficient and the distribution ratio are set by the control unit 171 in the CPU 17.

CPU17は、機能的に、制御部171とオブジェクト情報取得部172とを備えている。制御部171は、ROM18に記憶された音場効果情報に基づいて、音場効果音生成部142に、上記フィルタ係数、および各チャンネルへの分配比率等を設定する。   The CPU 17 functionally includes a control unit 171 and an object information acquisition unit 172. The control unit 171 sets the filter coefficient, the distribution ratio to each channel, and the like in the sound effect sound generation unit 142 based on the sound effect information stored in the ROM 18.

音場効果情報は、ある音響空間で発生する反射音群のインパルス応答、および反射音群の音源位置を示す情報を含むものである。例えば、スピーカ21Lおよびスピーカ21SLに、所定の遅延量および所定のゲイン比率(例えば1:1)でオーディオ信号を供給すると、聴取位置の左側に擬似反射音を生成することができる。音場効果情報は、例えば前方上方側の音場を演出するプレゼンス音場用の設定や、サラウンド側の音場を演出するサラウンド音場用の設定がある。選択する音場効果情報は、オーディオ信号処理装置1において1つに固定されていてもよいが、映画館やコンサートホール等、ユーザが所望する音響空間の指定を受け付けて、受け付けた音響空間に対応する音場効果情報を選択するようにしてもよい。   The sound field effect information includes information indicating an impulse response of a reflected sound group generated in a certain acoustic space and a sound source position of the reflected sound group. For example, when an audio signal is supplied to the speaker 21L and the speaker 21SL with a predetermined delay amount and a predetermined gain ratio (for example, 1: 1), pseudo reflected sound can be generated on the left side of the listening position. The sound field effect information includes, for example, settings for a presence sound field that produces a sound field on the upper front side and settings for a surround sound field that produces a sound field on the surround side. The sound field effect information to be selected may be fixed to one in the audio signal processing device 1, but the specification of the sound space desired by the user, such as a movie theater or a concert hall, is received and corresponds to the received sound space. Sound field effect information to be selected may be selected.

以上のようにして、音場効果音が生成され、加算処理部141において各チャンネルに加算される。その後、各チャンネルのオーディオ信号は、D/Aコンバータ15においてアナログ信号に変換され、アンプ16で増幅された後に各スピーカに出力される。これにより、聴取位置の周囲にコンサートホール等の所定の音響空間を模した音場が形成される。   As described above, a sound effect sound is generated and added to each channel in the addition processing unit 141. Thereafter, the audio signal of each channel is converted to an analog signal in the D / A converter 15, amplified by the amplifier 16, and output to each speaker. Thereby, a sound field imitating a predetermined acoustic space such as a concert hall is formed around the listening position.

そして、本実施形態のオーディオ信号処理装置1は、デコーダ12で抽出されたオブジェクト情報をオブジェクト情報取得部172が取得し、オブジェクト毎に最適な音場を形成する。制御部171は、オブジェクト情報取得部172が取得したオブジェクト情報に含まれている位置情報に基づいて、加算処理部141の各チャンネルのゲインを設定する。これにより、制御部171は、音場効果音生成部142における各チャンネルのゲインを制御する。   Then, in the audio signal processing device 1 of the present embodiment, the object information acquisition unit 172 acquires the object information extracted by the decoder 12, and forms an optimal sound field for each object. The control unit 171 sets the gain of each channel of the addition processing unit 141 based on the position information included in the object information acquired by the object information acquisition unit 172. Thus, the control unit 171 controls the gain of each channel in the sound field effect sound generation unit 142.

例えば、時刻t=1のときに聴取位置の前方にオブジェクトが存在し、当該オブジェクトが時刻t=2のときに聴取位置付近に移動し、時刻t=3のときに聴取位置の後方に移動すると仮定する。制御部171は、時刻t=1のとき、フロントチャンネルのゲインを最大に設定し、加算処理部141のサラウンドチャンネルのゲインを最小に設定する。制御部171は、時刻t=2のとき、加算処理部141のフロントチャンネルのゲインおよびサラウンドチャンネルのゲインを同じ程度に設定する。その後、制御部171は、時刻t=3のとき、加算処理部141のサラウンドチャンネルのゲインを最大に設定し、フロントチャンネルのゲインを最小に設定する。   For example, if there is an object in front of the listening position at time t = 1, the object moves near the listening position at time t = 2, and moves behind the listening position at time t = 3 Assume. At time t = 1, the control unit 171 sets the gain of the front channel to the maximum, and sets the gain of the surround channel of the addition processing unit 141 to the minimum. At time t = 2, the control unit 171 sets the gain of the front channel of the addition processing unit 141 and the gain of the surround channel to the same degree. Thereafter, at time t = 3, the control unit 171 sets the surround channel gain of the addition processing unit 141 to the maximum, and sets the front channel gain to the minimum.

このように、オーディオ信号処理装置1は、移動するオブジェクトに対応して加算処理部141の各チャンネルのゲインを動的に変化させることで、形成される音場を動的に変化させることができる。よって、聴取者は、より立体感のある音場効果を得ることができる。   As described above, the audio signal processing device 1 can dynamically change the formed sound field by dynamically changing the gain of each channel of the addition processing unit 141 in response to the moving object. . Thus, the listener can obtain a more three-dimensional sound field effect.

なお、本実施形態では、説明を容易にするために5つのスピーカ21L、スピーカ21R、スピーカ21C、スピーカ21SL、およびスピーカ21SRが設置され、5チャンネルのオーディオ信号を処理する例を示したが、スピーカの数およびチャンネルの数はこの例に限るものではない。実際には立体的な音像定位および音場効果を実現するために、高さの異なる位置にさらに多数のスピーカを設置することが好ましい。   In the present embodiment, five speakers 21L, 21R, 21C, 21SL, and 21SR are provided to facilitate the description, and an example of processing five channels of audio signals is shown. The number of channels and the number of channels are not limited to this example. In practice, in order to realize three-dimensional sound image localization and sound field effects, it is preferable to install a larger number of speakers at different heights.

なお、上述の例では、取得した位置情報に基づいたゲインで各チャンネルのオーディオ信号を合成し、所定のインパルス応答を示すパラメータ(フィルタ係数)を畳み込むことで、擬似反射音を生成する処理を行ったが、各チャンネルのオーディオ信号に個別のフィルタ係数を畳み込むことで音場効果を付与する処理を行ってもよい。この場合、ROM18には、オブジェクトの位置に応じた複数のフィルタ係数を記憶しておき、制御部171は、取得した位置情報に基づいて、ROM18から対応するフィルタ係数を読み出して音場効果音生成部142に設定する。また、制御部171は、取得した位置情報に基づいたゲインで各チャンネルのオーディオ信号を合成し、かつ取得した位置情報に基づいてROM18から対応するフィルタ係数を読み出して音場効果音生成部142に設定する処理を行ってもよい。   In the above example, the audio signal of each channel is synthesized with a gain based on the acquired position information, and a parameter (filter coefficient) indicating a predetermined impulse response is convoluted to generate a pseudo-reflected sound. However, sound field effects may be provided by convolving individual filter coefficients with the audio signal of each channel. In this case, the ROM 18 stores a plurality of filter coefficients corresponding to the position of the object, and the control unit 171 reads the corresponding filter coefficients from the ROM 18 based on the acquired position information to generate sound field sound effects. Set in section 142. In addition, the control unit 171 synthesizes the audio signal of each channel with the gain based on the acquired position information, reads the corresponding filter coefficient from the ROM 18 based on the acquired position information, and outputs it to the sound field effect sound generation unit 142 You may perform the process to set.

(第2実施形態)
次に、図4は、第2実施形態に係るオーディオ信号処理装置1Bの構成を示すブロック図である。図2に示した第1実施形態に係るオーディオ信号処理装置1と共通する構成については同一の符号を付し、説明を省略する。また、第2実施形態に係る聴取環境は、図1に示した第1実施形態に係る聴取環境と同様である。
Second Embodiment
Next, FIG. 4 is a block diagram showing a configuration of an audio signal processing device 1B according to a second embodiment. The same components as those of the audio signal processing apparatus 1 according to the first embodiment shown in FIG. The listening environment according to the second embodiment is the same as the listening environment according to the first embodiment shown in FIG.

オーディオ信号処理装置1Bにおけるオーディオ信号処理部14は、図3に示した機能に加えて、分析部91の機能を備えている。実際には、分析部91は、別のハードウェア(DSP)として実現されるものであるが、第2実施形態では説明のため、オーディオ信号処理部14の機能として実現されるものとする。また、分析部91は、CPU17によるソフトウェアで実現することも可能である。   The audio signal processing unit 14 in the audio signal processing device 1B has a function of an analysis unit 91 in addition to the functions shown in FIG. Actually, the analysis unit 91 is realized as another hardware (DSP), but in the second embodiment, it is assumed to be realized as a function of the audio signal processing unit 14 for the sake of explanation. The analysis unit 91 can also be realized by software by the CPU 17.

分析部91は、各チャンネルのオーディオ信号を分析することにより、コンテンツに含まれているオブジェクト情報を抽出する。すなわち、第2実施形態のオーディオ信号処理装置1Bでは、CPU17がデコーダ12からオブジェクト情報を取得しない(取得できない)場合に、各チャンネルのオーディオ信号を分析することでオブジェクト情報を推定するものである。   The analysis unit 91 extracts the object information included in the content by analyzing the audio signal of each channel. That is, in the audio signal processing device 1B of the second embodiment, when the CPU 17 does not acquire (cannot acquire) the object information from the decoder 12, the object information is estimated by analyzing the audio signal of each channel.

図5は、分析部91の機能的構成を示すブロック図である。分析部91は、帯域分割部911と計算部912とを備えている。帯域分割部911は、各チャンネルのオーディオ信号を所定の周波数帯域に分割する。この例では、低域(LPF)、中域(BPF)、および高域(HPF)の3つの帯域に分割する例を示す。ただし、分割する帯域は3つに限るものではない。帯域分割された各チャンネルのオーディオ信号は、計算部912に入力される。   FIG. 5 is a block diagram showing a functional configuration of the analysis unit 91. As shown in FIG. The analysis unit 91 includes a band division unit 911 and a calculation unit 912. The band division unit 911 divides the audio signal of each channel into predetermined frequency bands. In this example, an example of dividing into three bands of low band (LPF), middle band (BPF), and high band (HPF) is shown. However, the band to be divided is not limited to three. The audio signal of each channel divided into bands is input to the calculation unit 912.

計算部912は、分割された各帯域において、チャンネル間の相互相関を算出する。算出された相互相関は、CPU17のオブジェクト情報取得部172に入力される。また、計算部912は、各チャンネルのオーディオ信号のレベルを検出するレベル検出部としても機能する。各チャンネルのオーディオ信号のレベル情報もオブジェクト情報取得部172に入力される。   The calculation unit 912 calculates cross-correlations between channels in each of the divided bands. The calculated cross correlation is input to the object information acquisition unit 172 of the CPU 17. The calculating unit 912 also functions as a level detecting unit that detects the level of the audio signal of each channel. The level information of the audio signal of each channel is also input to the object information acquisition unit 172.

オブジェクト情報取得部172は、入力された相関値および各チャンネルのオーディオ信号のレベル情報に基づいて、オブジェクトの位置を推定する。   The object information acquisition unit 172 estimates the position of the object based on the input correlation value and the level information of the audio signal of each channel.

例えば、図6(A)に示すように、低域(Low)におけるLチャンネルとSLチャンネルの相関値が高く(所定の閾値を超え)、図6(B)に示すように、低域(Low)におけるLチャンネルのレベルおよびSLチャンネルのレベルが高い(所定の閾値を超える)場合、図6(C)に示すように、スピーカ21Lおよびスピーカ21SLの間にオブジェクトが存在するものとする。   For example, as shown in FIG. 6A, the correlation value between the L channel and the SL channel in the low band (Low) is high (above a predetermined threshold), and as shown in FIG. When the L channel level and the SL channel level in (1) are high (above a predetermined threshold), it is assumed that an object is present between the speaker 21L and the speaker 21SL as shown in FIG. 6 (C).

また、高域(High)においては、相関の高いチャンネルは存在しないが、中域(Mid)のCチャンネルにおいて高レベルのオーディオ信号が入力されている。したがって、図6(C)に示すように、スピーカ21Cの付近にもオブジェクトが存在するものとする。   Also, in the high band (High), there is no channel with high correlation, but a high level audio signal is input in the mid band (Mid) C channel. Therefore, as shown in FIG. 6C, it is assumed that an object is present near the speaker 21C.

この場合、制御部171は、図3における加算処理部141に設定するゲインについて、LチャンネルのゲインおよびSLチャンネルのゲインを同じ程度(0.5:0.5)に設定するとともに、Cチャンネルのゲインを最大(1)に設定する。他のチャンネルのゲインは、最小に設定される。これにより、各オブジェクトの位置に応じた最適な寄与率を設定した音場効果音が生成される。   In this case, the control unit 171 sets the gain of the L channel and the gain of the SL channel to the same degree (0.5: 0.5) for the gains set in the addition processing unit 141 in FIG. Set the gain to maximum (1). The gains of the other channels are set to minimum. As a result, a sound effect sound with an optimum contribution rate set in accordance with the position of each object is generated.

ただし、Cチャンネルにおける高レベルの信号は、セリフ等の音声に関するものである可能性があるため、制御部171は、オブジェクトの種類に関する情報も参照してゲインを設定することが好ましい。オブジェクトの種類に関する情報については、後述する。   However, since the high level signal in the C channel may be related to voice such as speech, it is preferable that the control unit 171 set the gain by also referring to information on the type of the object. Information on the type of object will be described later.

また、このとき、制御部171は、帯域毎に設定された音場効果情報をROM18から読み出し、帯域毎に個別のパラメータ(フィルタ係数)を音場効果音生成部142に設定することが好ましい。例えば低域については残響時間が短く、高域については残響時間が長くなるように設定される。   At this time, it is preferable that the control unit 171 reads out the sound field effect information set for each band from the ROM 18 and sets an individual parameter (filter coefficient) in the sound field sound generation unit 142 for each band. For example, the reverberation time is short for the low band, and the reverberation time is long for the high band.

なお、チャンネルの数が多いほど、オブジェクトの位置は、正確に推定することができる。この例では、各スピーカが全て同じ高さに配置され、5チャンネルのオーディオ信号の相関値を算出する例を示しているが、実際には立体的な音像定位および音場効果を実現するために、高さの異なる位置にさらに多数のスピーカを設置し、さらに多数のチャンネル間の相関値を算出するため、音源の位置はほぼ一意に決定することが可能である。   As the number of channels increases, the position of the object can be estimated more accurately. In this example, all the speakers are arranged at the same height, and an example of calculating the correlation value of the audio signal of five channels is shown, but in reality, in order to realize three-dimensional sound image localization and sound field effect The position of the sound source can be almost uniquely determined in order to install more speakers at different heights and calculate the correlation value between the more channels.

なお、この実施形態においては、帯域毎に各チャンネルのオーディオ信号を分割して、帯域毎にオブジェクトの位置情報を取得する例を示したが、帯域毎にオブジェクトの位置情報を取得する構成は、本発明において必須の構成ではない。   In this embodiment, the audio signal of each channel is divided for each band to obtain the position information of the object for each band. However, the configuration for acquiring the position information of the object for each band is as follows. It is not an essential configuration in the present invention.

(変形例1)
次に、図7は、第1実施形態(または第2実施形態)の変形例1に係るオーディオ信号処理部14の機能的構成を示すブロック図である。変形例1に係るオーディオ信号処理部14は、加算処理部141A、第1音場効果音生成部142A、加算処理部141B、第2音場効果音生成部142B、および加算処理部143を備えている。なお、加算処理部141Bおよび第2音場効果音生成部142Bは、それぞれ実際には別のハードウェア(DSP)として構成されるが、この例では説明のため、それぞれオーディオ信号処理部14の機能として実現されるものとする。
(Modification 1)
Next, FIG. 7 is a block diagram showing a functional configuration of the audio signal processing unit 14 according to the first modification of the first embodiment (or the second embodiment). The audio signal processing unit 14 according to the first modification includes an addition processing unit 141A, a first sound effect sound generation unit 142A, an addition processing unit 141B, a second sound effect sound generation unit 142B, and an addition processing unit 143. There is. Although the addition processing unit 141B and the second sound field effect sound generation unit 142B are actually configured as separate hardware (DSP), in this example, the functions of the audio signal processing unit 14 are described for the sake of explanation. It shall be realized as

加算処理部141Aは、各チャンネルのオーディオ信号を所定のゲインで合成して、モノラル信号にミックスダウンする。各チャンネルのゲインは、固定されている。例えば、上述したように、フロントチャンネルやサラウンドチャンネルのゲインは高く、センタチャンネルのゲインは低く設定されている。   The addition processing unit 141A combines the audio signals of the respective channels with a predetermined gain and mixes them down into a monaural signal. The gain of each channel is fixed. For example, as described above, the gains of the front and surround channels are set high, and the gains of the center channel are set low.

第1音場効果音生成部142Aは、入力されたオーディオ信号に所定のインパルス応答を示すパラメータ(フィルタ係数)を畳み込むことで、擬似反射音を生成する。また、第1音場効果音生成部142Aは、生成した擬似反射音を各チャンネルに分配する処理を行う。フィルタ係数および分配比率は、制御部171により設定される。図3の例と同様に、映画館やコンサートホール等、ユーザが所望する音響空間の指定を受け付けて、受け付けた音響空間に対応する音場効果情報を選択するようにしてもよい。   The first sound field effect sound generation unit 142A generates a pseudo-reflected sound by convolving a parameter (filter coefficient) indicating a predetermined impulse response into the input audio signal. Further, the first sound field effect sound generation unit 142A performs a process of distributing the generated pseudo reflection sound to each channel. The filter coefficient and the distribution ratio are set by the control unit 171. As in the example of FIG. 3, it is possible to receive designation of an acoustic space desired by the user, such as a movie theater or a concert hall, and select sound field effect information corresponding to the received acoustic space.

一方、制御部171は、オブジェクト情報取得部172が取得したオブジェクト情報に含まれている位置情報に基づいて、加算処理部141Bの各チャンネルのゲインを設定する。これにより、制御部171は、第2音場効果音生成部142Bにおける各チャンネルのゲインを制御する。   On the other hand, the control unit 171 sets the gain of each channel of the addition processing unit 141B based on the position information included in the object information acquired by the object information acquisition unit 172. Thus, the control unit 171 controls the gain of each channel in the second sound field effect sound generation unit 142B.

第1音場効果音生成部142Aで生成された音場効果音と、第2音場効果音生成部142Bで生成された音場効果音と、は、それぞれ加算処理部143で各チャンネルのオーディオ信号に加算される。   The sound field effect sound generated by the first sound field sound effect generator 142A and the sound field sound effect generated by the second sound field sound effect generator 142B are audio of each channel in the addition processor 143. It is added to the signal.

よって、変形例に係るオーディオ信号処理部14では、従来のように各チャンネルの寄与率を固定した音場効果音を生成しながらも、各オブジェクトの位置に応じた最適な寄与率を設定した音場効果音が生成される。   Therefore, while the audio signal processing unit 14 according to the modification generates the sound effect sound with the contribution ratio of each channel fixed as in the prior art, the sound in which the optimum contribution ratio according to the position of each object is set A field sound effect is generated.

(変形例2)
次に、第1実施形態(または第2実施形態)の変形例2に係るオーディオ信号処理装置について説明する。変形例2に係るオーディオ信号処理部14およびCPU17は、図3に示した構成(または図7に示した構成)と同様の機能的構成を備えている。ただし、変形例2に係るオブジェクト情報取得部172は、オブジェクト情報として、位置情報に加えて、オブジェクトの種類を示す情報を取得する。
(Modification 2)
Next, an audio signal processing apparatus according to a second modification of the first embodiment (or the second embodiment) will be described. The audio signal processing unit 14 and the CPU 17 according to the second modification have the same functional configuration as the configuration shown in FIG. 3 (or the configuration shown in FIG. 7). However, the object information acquisition unit 172 according to the second modification acquires, as object information, information indicating the type of object in addition to the position information.

オブジェクトの種類を示す情報は、例えばセリフ、楽器、効果音、等の音源の種類を示す情報である。オブジェクトの種類を示す情報は、コンテンツデータに含まれている場合には、デコーダ12が抽出するが、分析部91における計算部912により推定することも可能である。   The information indicating the type of object is, for example, information indicating the type of sound source such as a speech, a musical instrument, a sound effect, or the like. When the information indicating the type of the object is included in the content data, the decoder 12 extracts the information, but the information can also be estimated by the calculation unit 912 in the analysis unit 91.

例えば、分析部91における帯域分割部911は、入力されたオーディオ信号から、第1フォルマント(200Hz〜500Hz)、および第2フォルマント(2kHz〜3kHz)の帯域を抽出する。仮に、入力信号成分にセリフに関する成分が多く含まれる場合、またはセリフに関する成分しか含まれていない場合には、これら第1フォルマントおよび第2フォルマントの成分が他の帯域よりも多く含まれる。   For example, the band division unit 911 in the analysis unit 91 extracts the bands of the first formant (200 Hz to 500 Hz) and the second formant (2 kHz to 3 kHz) from the input audio signal. If the input signal component contains a large amount of components related to serif or only the component related to serif, the components of the first formant and the second formant are contained more than in the other bands.

したがって、オブジェクト情報取得部172は、全周波数帯域の平均レベルに比べて、これら第1フォルマントまたは第2フォルマントの成分のレベルが高い場合、オブジェクトの種類がセリフであると判断する。   Therefore, when the level of the component of the first formant or the second formant is higher than the average level of the entire frequency band, the object information acquisition unit 172 determines that the type of the object is a serif.

制御部171は、オブジェクトの種類に基づいて加算処理部141(または加算処理部141B)のゲインを設定する。例えば、図6(C)に示したように、聴取位置の左側にオブジェクトが存在し、当該オブジェクトの種類がセリフである場合に、LチャンネルおよびSLチャンネルのゲインを低く設定する。また、図6(C)に示したように、聴取位置の前方にオブジェクトが存在し、当該オブジェクトの種類がセリフである場合に、Cチャンネルのゲインを低く設定する。   The control unit 171 sets the gain of the addition processing unit 141 (or the addition processing unit 141B) based on the type of object. For example, as shown in FIG. 6C, when there is an object on the left side of the listening position and the type of the object is a speech, the gains of the L channel and the SL channel are set low. Further, as shown in FIG. 6C, when the object is present in front of the listening position and the type of the object is a speech, the gain of the C channel is set low.

(変形例3)
第2実施形態の変形例3として、オーディオ信号処理装置1Bは、推定したオブジェクトの位置情報を用いて、表示部(不図示)にオブジェクトの位置を表示させることができる。これにより、ユーザは、音源の移動を視覚的に把握することができる。映画等のコンテンツの場合は、既に映像として表示部に音源に対応するものが表示されている場合が多いが、表示されている映像は主観的な視野である。そこで、オーディオ信号処理装置1Bは、例えば自身の位置を中心とした俯瞰図としてオブジェクトの位置を表示させることもできる。
(Modification 3)
As a modification 3 of the second embodiment, the audio signal processing apparatus 1B can display the position of an object on a display unit (not shown) using the estimated position information of the object. Thereby, the user can visually grasp the movement of the sound source. In the case of content such as a movie, there are many cases where the display unit has already displayed a video corresponding to a sound source, but the displayed video is a subjective visual field. Therefore, the audio signal processing device 1B can also display the position of the object as, for example, an overhead view centering on its own position.

(第3実施形態)
次に、図8(A)および図8(B)は、第3実施形態に係る聴取環境の模式図であり、図9は、第3実施形態におけるオーディオ信号処理装置1Cのブロック図である。第3実施形態に係るオーディオ信号処理装置1Cは、図2に示したオーディオ信号処理装置1と同一のハードウェア構成を備えているが、さらにユーザインタフェース(I/F)81を備えている。
Third Embodiment
Next, FIGS. 8A and 8B are schematic views of a listening environment according to the third embodiment, and FIG. 9 is a block diagram of an audio signal processing device 1C according to the third embodiment. The audio signal processing device 1C according to the third embodiment has the same hardware configuration as the audio signal processing device 1 shown in FIG. 2, but further includes a user interface (I / F) 81.

ユーザI/F81は、ユーザの操作を受け付けるインタフェースであり、例えばオーディオ信号処理装置の筐体に設けられたスイッチ、タッチパネル、またはリモコン等からなる。ユーザは、ユーザI/F81を介して、聴取環境の変更指示として、所望する音響空間を指定する。   The user I / F 81 is an interface for receiving user's operation, and is formed of, for example, a switch, a touch panel, or a remote control provided in a housing of the audio signal processing apparatus. The user designates a desired sound space as a change instruction of the listening environment via the user I / F 81.

CPU17の制御部171は、当該音響空間の指定を受け付けて、ROM18から指定された音響空間に対応する音場効果情報を読み出す。そして、制御部171は、当該音場効果情報に基づくフィルタ係数および各チャンネルへの分配比率等をオーディオ信号処理部14に設定する。   The control unit 171 of the CPU 17 receives the specification of the sound space, and reads the sound field effect information corresponding to the specified sound space from the ROM 18. Then, the control unit 171 sets, in the audio signal processing unit 14, a filter coefficient based on the sound field effect information, a distribution ratio to each channel, and the like.

さらに、制御部171は、オブジェクト情報取得部172で取得したオブジェクトの位置情報を、読み出した音場効果情報に対応する位置に変換し、レンダラ13に変換後の位置情報を出力することで、オブジェクトを再配置する。   Furthermore, the control unit 171 converts the position information of the object acquired by the object information acquisition unit 172 into a position corresponding to the read sound field effect information, and outputs the converted position information to the renderer 13 to obtain an object. Relocate

すなわち、制御部171は、例えば大コンサートホールの音響空間の指定を受け付けた場合、聴取位置から遠い位置にオブジェクトの位置を再配置することで、当該大コンサートホールの規模に相当する位置に各オブジェクトを再配置する。レンダラ13は、制御部171から入力される位置情報に基づいて、音像定位処理を行う。   That is, for example, when the control unit 171 receives specification of the acoustic space of the large concert hall, the control unit 171 rearranges the position of the object at a position far from the listening position to obtain each object at a position corresponding to the scale of the large concert hall. Relocate The renderer 13 performs sound image localization processing based on the position information input from the control unit 171.

例えば、図8(A)に示すように、聴取位置の前方右側にオブジェクト51Rが配置され、聴取位置の前方左側にオブジェクト51Lが配置されている場合において、制御部171は、図8(B)に示すように、大コンサートホールの音響空間の指定を受け付けた場合、聴取位置から離れた位置にオブジェクト51Rおよびオブジェクト51Lを再配置する。これにより、選択された音響空間の音場環境だけでなく、直接音に相当する音源の位置も実際の音響空間に近づけることができる。   For example, as illustrated in FIG. 8A, when the object 51R is disposed on the front right side of the listening position and the object 51L is disposed on the front left side of the listening position, the control unit 171 illustrated in FIG. As shown in FIG. 5, when the specification of the acoustic space of the large concert hall is received, the object 51R and the object 51L are rearranged at a position away from the listening position. Thus, not only the sound field environment of the selected acoustic space, but also the position of the sound source corresponding to the direct sound can be brought close to the actual acoustic space.

また、制御部171は、オブジェクトの移動についても、選択された音響空間の規模に対応する移動量に変換する。例えば、演劇等では、演者は、動的に移動しながらセリフを発する。制御部171は、例えば大ホールの音響空間の指定を受け付けた場合、デコーダ12で抽出されるオブジェクトの移動量を大きくして、演者に対応するオブジェクトの位置を再配置する。これにより、演者がその場所で演じているような臨場感を与えることができる。   The control unit 171 also converts the movement of the object into a movement amount corresponding to the size of the selected acoustic space. For example, in a play etc., the performer emits words while moving dynamically. For example, when the specification of the acoustic space of the large hole is received, the control unit 171 increases the movement amount of the object extracted by the decoder 12 and rearranges the position of the object corresponding to the performer. This can give the immersive feeling that the performer plays at the place.

また、ユーザI/F81は、聴取環境の変更指示として、聴取位置の指定を受け付けることも可能である。ユーザは、例えば、大ホールの音響空間を選択した後、さらに、ホールの中で、舞台のすぐ前の位置、2階席(斜め上から舞台を見下ろす位置)、出口付近の舞台から遠い位置等の聴取位置を選択する。   The user I / F 81 can also receive designation of a listening position as a change instruction of the listening environment. For example, after selecting the acoustic space of the large hall, the user further positions in front of the stage in the hall, the second floor (position obliquely overlooking the stage), a position far from the stage near the exit, etc. Select the listening position of.

制御部171は、指定された聴取位置に応じて、各オブジェクトを再配置する。例えば、舞台のすぐ前の位置に聴取位置が指定された場合、オブジェクトの位置を聴取位置に近い位置に再配置し、舞台から遠い位置に聴取位置が指定された場合には、オブジェクトの位置を聴取位置から遠い位置に再配置する。また、例えば、2階席の位置が聴取位置として指定された場合(斜め上から舞台を見下ろす位置)、聴取者から見て斜め位置にオブジェクトの位置を再配置する。   The control unit 171 rearranges each object according to the designated listening position. For example, when the listening position is specified at a position immediately in front of the stage, the position of the object is rearranged near the listening position, and when the listening position is specified at a position far from the stage, the position of the object is set. Relocate far from the listening position. Also, for example, when the position of the second floor is designated as a listening position (a position looking down on the stage from diagonally above), the position of the object is rearranged at an oblique position as viewed from the listener.

また、聴取位置の指定を受け付ける場合、各位置における実際の音場(間接音の到来タイミングおよび方向)を測定し、音場効果情報としてROM18に格納しておくことが好ましい。制御部171は、指定された聴取位置に対応する音場効果情報をROM18から読み出す。これにより、舞台のすぐ前の位置における音場、舞台から遠い位置における音場等を再現することができる。   Further, when the designation of the listening position is received, it is preferable to measure the actual sound field (the arrival timing and direction of the indirect sound) at each position and store it in the ROM 18 as sound field effect information. The control unit 171 reads from the ROM 18 sound field effect information corresponding to the designated listening position. Thereby, it is possible to reproduce the sound field at a position immediately in front of the stage, the sound field at a position far from the stage, and the like.

なお、音場効果情報は、実際の音響空間における全ての位置で測定する必要はない。例えば、舞台のすぐ前の位置では、直接音が大きくなり、舞台から遠い位置では間接音が大きくなる。したがって、例えばホール中央の聴取位置が選択された場合には、舞台のすぐ前の位置における測定結果に対応する音場効果情報と舞台から遠い位置に置ける測定結果に対応する音場効果情報とを平均化することで、ホール中央の聴取位置に対応する音場効果情報を補間することもできる。   Note that the sound field effect information does not have to be measured at all positions in the actual acoustic space. For example, in the position immediately in front of the stage, the direct sound is loud, and in the position far from the stage, the indirect sound is loud. Therefore, for example, when the listening position at the center of the hall is selected, the sound field effect information corresponding to the measurement result immediately before the stage and the sound field effect information corresponding to the measurement result at a position far from the stage By averaging, the sound field effect information corresponding to the listening position at the center of the hole can also be interpolated.

(応用例)
応用例に係るオーディオ信号処理装置1Bは、ユーザが装着する端末に設けられたジャイロセンサ等を用いて、ユーザの向いている方向に関する情報を取得する。制御部171は、ユーザの向いている方向に応じて各オブジェクトを再配置する。
(Application example)
The audio signal processing device 1B according to the application example acquires information on the direction in which the user is facing, using a gyro sensor or the like provided on a terminal worn by the user. The control unit 171 rearranges each object according to the direction in which the user is facing.

例えば、制御部171は、聴取者が右側を向いている場合、聴取者から見て左側の位置にオブジェクトの位置を再配置する。   For example, when the listener points to the right, the control unit 171 rearranges the position of the object at the position on the left as viewed from the listener.

また、応用例に係るオーディオ信号処理装置1BのROM18は、方向毎の音場効果情報を記憶している。制御部171は、聴取者の向いている方向に応じてROM18から音場効果情報を読み出し、オーディオ信号処理部14に設定する。これにより、ユーザは、あたかもその場所に居るような実在感を得ることができる。   Further, the ROM 18 of the audio signal processing device 1B according to the application example stores sound field effect information for each direction. The control unit 171 reads out the sound field effect information from the ROM 18 in accordance with the direction in which the listener is facing, and sets the information in the audio signal processing unit 14. Thus, the user can obtain a sense of realism as if he were at the place.

1,1B,1C…オーディオ信号処理装置
11…入力部
12…デコーダ
13…レンダラ
14…オーディオ信号処理部
15…D/Aコンバータ
17…CPU
18…ROM
19…RAM
21C,21L,21R,21SL,21SR…スピーカ
51L,51R…オブジェクト
91…分析部
141,141A,141B…加算処理部
142…音場効果音生成部
142A…第1音場効果音生成部
142B…第2音場効果音生成部
143…加算処理部
171…制御部
172…オブジェクト情報取得部
911…帯域分割部
912…相関計算部
1, 1B, 1C ... audio signal processing apparatus 11 ... input unit 12 ... decoder 13 ... renderer 14 ... audio signal processing unit 15 ... D / A converter 17 ... CPU
18: ROM
19 ... RAM
21C, 21L, 21R, 21SL, 21SR ... speaker 51L, 51R ... object 91 ... analysis unit 141, 141A, 141B ... addition processing unit 142 ... sound field effect sound generating unit 142A ... first sound field effect sound generating unit 142B ... first item 2 sound field effect sound generation unit 143 ... addition processing unit 171 ... control unit 172 ... object information acquisition unit 911 ... band division unit 912 ... correlation calculation unit

Claims (8)

複数チャンネルのオーディオ信号が含まれたコンテンツを入力する入力手段と、
前記コンテンツに含まれる音源の位置情報を取得する取得手段と、
聴取環境毎の音場効果音の位置を示す音場効果情報に基づいて、各チャンネルのオーディオ信号にそれぞれ音場効果を付与して前記音場効果音を生成する音場効果音生成部と、
を備えたオーディオ信号処理装置であって、
前記取得手段が各時刻における前記位置情報を取得し、前記位置情報に基づいて、前記音場効果音生成部において付与する各時刻における音場効果を制御する制御部を備え
前記コンテンツは、前記音源の位置情報を音源毎に独立して格納し、
前記制御部は、前記音場効果情報の前記聴取環境に応じて前記音源の位置情報に含まれる音源毎の位置を変換し、前記音源毎の音像定位すべき位置を再配置することを特徴とするオーディオ信号処理装置。
Input means for inputting content including audio signals of a plurality of channels;
Acquisition means for acquiring position information of a sound source included in the content;
Based on the sound effect information indicating the position of the listening environment every sound effect sound, a sound effect sound generator for generating the sound field effect tone to each imparting sound effects to the audio signals of each channel,
An audio signal processing device comprising:
The acquisition unit acquires the position information at each time, and the control unit controls the sound field effect at each time given by the sound field sound effect generation unit based on the position information ;
The content independently stores the position information of the sound source for each sound source,
The control unit converts the position of each sound source included in the position information of the sound source according to the listening environment of the sound field effect information, and rearranges the position to be sound image localized for each sound source. Audio signal processing device.
前記音場効果音生成部は、各チャンネルのオーディオ信号をそれぞれ所定のゲインで合成して前記音場効果音を生成し、
前記制御部は、前記位置情報に基づいて前記音場効果音生成部における各チャンネルのゲインを制御することを特徴とする請求項1に記載のオーディオ信号処理装置。
The sound field effect sound generation unit synthesizes the audio signals of the respective channels with a predetermined gain to generate the sound field effect sound,
The audio signal processing apparatus according to claim 1, wherein the control unit controls the gain of each channel in the sound field effect sound generation unit based on the position information.
前記音場効果音生成部は、第1音場効果音生成部と第2音場効果音生成部とを備え、
前記第1音場効果音生成部は、所定のパラメータに基づいて各チャンネルのオーディオ信号にそれぞれ音場効果を付与して音場効果音を生成する処理を行い、
前記第2音場効果音生成部は、前記制御部の制御に基づいて、各チャンネルのオーディオ信号にそれぞれ音場効果を付与する処理を行う請求項1または請求項2に記載のオーディオ信号処理装置。
The sound field sound effect generation unit includes a first sound field sound effect generation unit and a second sound field sound effect generation unit.
The first sound field effect sound generation unit performs processing of generating sound field effect sound by applying sound field effects to audio signals of respective channels based on predetermined parameters,
3. The audio signal processing device according to claim 1, wherein the second sound field effect sound generation unit performs processing to apply a sound field effect to the audio signal of each channel based on the control of the control unit. .
前記取得手段は、帯域毎の音源の位置情報を取得し、
前記制御部は、前記帯域毎の音源の位置情報に基づいて、前記音場効果音生成部におけるパラメータを設定する請求項1乃至請求項のいずれかに記載のオーディオ信号処理装置。
The acquisition means acquires position information of a sound source for each band,
The audio signal processing apparatus according to any one of claims 1 to 3 , wherein the control unit sets a parameter in the sound field effect sound generation unit based on position information of a sound source for each band.
前記取得手段は、前記音源の種類を示す情報をさらに取得し、
前記制御部は、前記音源の種類を示す情報に基づいて、音源の種類毎に異なるゲイン設定を行う請求項1乃至請求項のいずれかに記載のオーディオ信号処理装置。
The acquisition means further acquires information indicating the type of the sound source,
The audio signal processing apparatus according to any one of claims 1 to 4 , wherein the control unit sets different gains for each type of sound source based on information indicating the type of the sound source.
複数チャンネルのオーディオ信号が含まれたコンテンツを入力する入力処理と、
前記コンテンツに含まれる音源の位置情報を取得する取得処理と、
聴取環境毎の音場効果音の位置を示す音場効果情報に基づいて、各チャンネルのオーディオ信号にそれぞれ音場効果を付与して前記音場効果音を生成する音場効果音生成処理と、
前記取得処理で各時刻における前記位置情報を取得し、前記位置情報に基づいて、前記音場効果音生成処理において付与する各時刻における音場効果を制御する制御処理と、
を行なうことを特徴とするオーディオ信号処理方法であって、
前記コンテンツは、前記音源の位置情報を音源毎に独立して格納し、
前記制御処理は、前記音場効果情報の前記聴取環境に応じて前記音源の位置情報に含まれる音源毎の位置を変換し、前記音源毎の音像定位すべき位置を再配置するオーディオ信号処理方法
Input processing for inputting content including audio signals of multiple channels;
Acquisition processing for acquiring position information of a sound source included in the content;
Based on the sound effect information indicating the position of the listening environment every sound effect sound, a sound effect sound generating process of generating the sound field effect tone to impart sound effects respectively on the audio signals of each channel,
A control process of acquiring the position information at each time in the acquisition process, and controlling a sound field effect at each time to be applied in the sound field effect sound generation process based on the position information;
The An audio signal processing method characterized by performing,
The content independently stores the position information of the sound source for each sound source,
The control process converts the position of each sound source included in the position information of the sound source according to the listening environment of the sound field effect information, and rearranges the position to be sound image localized for each sound source .
複数チャンネルのオーディオ信号が含まれたコンテンツを入力する入力処理と、
前記コンテンツに含まれる音源の位置情報を取得する取得処理と、
聴取環境毎の音場効果音の位置を示す音場効果情報に基づいて、各チャンネルのオーディオ信号にそれぞれ音場効果を付与して前記音場効果音を生成する音場効果音生成処理と、
前記取得処理で各時刻における前記位置情報を取得し、前記位置情報に基づいて、前記音場効果音生成処理において付与する各時刻における音場効果を制御する制御処理と、
をオーディオ信号処理装置に実行させることを特徴とするプログラムであって、
前記コンテンツは、前記音源の位置情報を音源毎に独立して格納し、
前記制御処理は、前記音場効果情報の前記聴取環境に応じて前記音源の位置情報に含まれる音源毎の位置を変換し、前記音源毎の音像定位すべき位置を再配置するプログラム
Input processing for inputting content including audio signals of multiple channels;
Acquisition processing for acquiring position information of a sound source included in the content;
Based on the sound effect information indicating the position of the listening environment every sound effect sound, a sound effect sound generating process of generating the sound field effect tone to impart sound effects respectively on the audio signals of each channel,
A control process of acquiring the position information at each time in the acquisition process, and controlling a sound field effect at each time to be applied in the sound field effect sound generation process based on the position information;
A program that causes an audio signal processing device to execute
The content independently stores the position information of the sound source for each sound source,
The control processing is a program for converting a position for each sound source included in position information of the sound source according to the listening environment of the sound field effect information, and rearranging a position to be sound image localization for each sound source .
オーディオ信号処理装置と、複数のスピーカと、を備えたオーディオシステムであって、
前記オーディオ信号処理装置は、
複数チャンネルのオーディオ信号が含まれたコンテンツを入力する入力手段と、
前記コンテンツに含まれる音源の位置情報を取得する取得手段と、
聴取環境毎の音場効果音の位置を示す音場効果情報に基づいて、各チャンネルのオーディオ信号にそれぞれ音場効果を付与して前記音場効果音を生成する音場効果音生成部と、
前記取得手段が各時刻における前記位置情報を取得し、前記位置情報に基づいて、前記音場効果音生成部において付与する各時刻における音場効果を制御する制御部と、を備え
前記コンテンツは、前記音源の位置情報を音源毎に独立して格納し、
前記制御部は、前記音場効果情報の前記聴取環境に応じて前記音源の位置情報に含まれる音源毎の位置を変換し、前記音源毎の音像定位すべき位置を再配置することを特徴とするオーディオシステム。
An audio system comprising an audio signal processing device and a plurality of speakers, the audio system comprising:
The audio signal processing device
Input means for inputting content including audio signals of a plurality of channels;
Acquisition means for acquiring position information of a sound source included in the content;
Based on the sound effect information indicating the position of the listening environment every sound effect sound, a sound effect sound generator for generating the sound field effect tone to each imparting sound effects to the audio signals of each channel,
And a control unit configured to obtain the position information at each time and to control a sound field effect at each time given by the sound field sound effect generation unit based on the position information ;
The content independently stores the position information of the sound source for each sound source,
The control unit converts the position of each sound source included in the position information of the sound source according to the listening environment of the sound field effect information, and rearranges the position to be sound image localized for each sound source. Audio system.
JP2015008305A 2015-01-20 2015-01-20 AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM Active JP6503752B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015008305A JP6503752B2 (en) 2015-01-20 2015-01-20 AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM
EP16151918.6A EP3048818B1 (en) 2015-01-20 2016-01-19 Audio signal processing apparatus
US15/001,446 US9883317B2 (en) 2015-01-20 2016-01-20 Audio signal processing apparatus
CN201610036844.0A CN105812991B (en) 2015-01-20 2016-01-20 Audio signal processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015008305A JP6503752B2 (en) 2015-01-20 2015-01-20 AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM

Publications (2)

Publication Number Publication Date
JP2016134767A JP2016134767A (en) 2016-07-25
JP6503752B2 true JP6503752B2 (en) 2019-04-24

Family

ID=56434700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015008305A Active JP6503752B2 (en) 2015-01-20 2015-01-20 AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM

Country Status (1)

Country Link
JP (1) JP6503752B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7088408B2 (en) * 2019-03-25 2022-06-21 ヤマハ株式会社 Audio signal processing equipment, audio signal processing system and audio signal processing method
JP7326824B2 (en) * 2019-04-05 2023-08-16 ヤマハ株式会社 Signal processing device and signal processing method
US11638111B2 (en) * 2019-11-01 2023-04-25 Meta Platforms Technologies, Llc Systems and methods for classifying beamformed signals for binaural audio playback
CN113641329B (en) * 2021-08-10 2025-03-25 广州艾美网络科技有限公司 Sound effect configuration method and device, smart speaker, computer equipment and storage medium

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000152399A (en) * 1998-11-12 2000-05-30 Yamaha Corp Sound field effect controller
JP2007158527A (en) * 2005-12-01 2007-06-21 Sony Corp Signal processing apparatus, signal processing method, reproduction apparatus, and recording apparatus
JP4780057B2 (en) * 2007-08-06 2011-09-28 ヤマハ株式会社 Sound field generator
JP5577787B2 (en) * 2009-05-14 2014-08-27 ヤマハ株式会社 Signal processing device
JP5533282B2 (en) * 2010-06-03 2014-06-25 ヤマハ株式会社 Sound playback device
JP2014045282A (en) * 2012-08-24 2014-03-13 Nippon Hoso Kyokai <Nhk> Reverberation adding device, reverberation adding program
JP6204683B2 (en) * 2013-04-05 2017-09-27 日本放送協会 Acoustic signal reproduction device, acoustic signal creation device
JP6204682B2 (en) * 2013-04-05 2017-09-27 日本放送協会 Acoustic signal reproduction device
JP6227295B2 (en) * 2013-06-25 2017-11-08 日本放送協会 Spatial sound generator and program thereof

Also Published As

Publication number Publication date
JP2016134767A (en) 2016-07-25

Similar Documents

Publication Publication Date Title
EP3048818B1 (en) Audio signal processing apparatus
US8199921B2 (en) Sound field controlling device
JP5672748B2 (en) Sound field control device
US7369663B2 (en) Method of creating reverberation by estimation of impulse response
JP4913140B2 (en) Apparatus and method for controlling multiple speakers using a graphical user interface
TW201246060A (en) Audio spatialization and environment simulation
JP4893789B2 (en) Sound field control device
JP6503752B2 (en) AUDIO SIGNAL PROCESSING DEVICE, AUDIO SIGNAL PROCESSING METHOD, PROGRAM, AND AUDIO SYSTEM
JP4234103B2 (en) Apparatus and method for determining impulse response and apparatus and method for providing speech
JP6550756B2 (en) Audio signal processor
JP6798561B2 (en) Signal processing equipment, signal processing methods and programs
JP2014517600A (en) Apparatus, method and computer program for generating a stereo output signal for providing additional output channels
JP2012235456A (en) Voice signal processing device, and voice signal processing program
JP7524614B2 (en) SOUND SIGNAL PROCESSING METHOD, SOUND SIGNAL PROCESSING APPARATUS, AND SOUND SIGNAL PROCESSING PROGRAM
JP6326743B2 (en) Information processing apparatus, AV receiver, and program
JP6227295B2 (en) Spatial sound generator and program thereof
JP4464064B2 (en) Reverberation imparting device and reverberation imparting program
JP6056842B2 (en) Sound field control device
JPWO2006009004A1 (en) Sound reproduction system
KR20210151792A (en) Information processing apparatus and method, reproduction apparatus and method, and program
JP6641693B2 (en) Audio signal processing equipment
JP7524613B2 (en) SOUND SIGNAL PROCESSING METHOD, SOUND SIGNAL PROCESSING APPARATUS, AND SOUND SIGNAL PROCESSING PROGRAM
JP6161962B2 (en) Audio signal reproduction apparatus and method
JP2005051801A (en) Sound image localization apparatus
JP2008258675A (en) Sound image localization processing device or the like

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190311

R151 Written notification of patent or utility model registration

Ref document number: 6503752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350