JP4587941B2 - Speech correction system and adaptive filter used therefor - Google Patents
Speech correction system and adaptive filter used therefor Download PDFInfo
- Publication number
- JP4587941B2 JP4587941B2 JP2005333680A JP2005333680A JP4587941B2 JP 4587941 B2 JP4587941 B2 JP 4587941B2 JP 2005333680 A JP2005333680 A JP 2005333680A JP 2005333680 A JP2005333680 A JP 2005333680A JP 4587941 B2 JP4587941 B2 JP 4587941B2
- Authority
- JP
- Japan
- Prior art keywords
- correction data
- audio sound
- identification information
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
本発明は音声補正システムおよびこれに用いる適応フィルタに関し、特に、複数の音声が混在した混合音声から特定の音声を抑圧するシステムに用いて好適なものである。 The present invention relates to a sound correction system and an adaptive filter used therefor, and is particularly suitable for use in a system that suppresses specific sound from mixed sound in which a plurality of sounds are mixed.
最近の車両の殆どには、オーディオ装置、エアーコンディショナ、ナビゲーション装置など各種の電子機器が搭載されている。また、最近では、これらの電子機器を操作する際の片手運転等を回避するために、電子機器の操作を音声認識により行えるようにしたシステムも提供されている。この音声認識技術を用いれば、運転者は、ハンドルから手を離すことなく(リモートコントローラや操作パネル等の操作部を手動で操作せずに)各種電子機器の操作を行うことができる。 Most recent vehicles are equipped with various electronic devices such as an audio device, an air conditioner, and a navigation device. Recently, in order to avoid one-handed operation or the like when operating these electronic devices, a system is also provided that allows the electronic devices to be operated by voice recognition. By using this voice recognition technology, the driver can operate various electronic devices without removing his / her hands from the steering wheel (without manually operating an operation unit such as a remote controller or an operation panel).
音声認識システムは通常、ユーザが発声した特定の単語や熟語、簡単な命令文などをマイクから入力し、それを発話コマンドとして認識する。そして、認識した発話コマンドに応じた処理を実行するようになっている。ここで、オーディオ装置の出力音声がある中でユーザがコマンドを発声すると、マイクには話者音声の他にオーディオ音声も入力され、音声認識にとってオーディオ音声が雑音となるため、話者音声の認識率が低下してしまう。 A voice recognition system usually inputs a specific word, idiom or simple command sentence uttered by a user from a microphone and recognizes it as an utterance command. And the process according to the recognized utterance command is performed. Here, when the user utters a command in the presence of the output sound of the audio device, the audio sound is also input to the microphone in addition to the speaker sound, and the audio sound becomes noise for speech recognition. The rate will drop.
そこで、マイクより入力した混合音声(話者音声とオーディオ音声)からオーディオ音声のみを抑圧するASC(Audio Sound Cancellation)システムが提供されている。一般に、ASCシステムを実現するために、適応フィルタが用いられることが多い。適応フィルタのアルゴリズムとしては、N−LMS(Normalized-LMS)アルゴリズムが用いられることが多い。 Accordingly, an ASC (Audio Sound Cancellation) system is provided that suppresses only audio sound from mixed sound (speaker sound and audio sound) input from a microphone. In general, an adaptive filter is often used to realize an ASC system. An N-LMS (Normalized-LMS) algorithm is often used as an adaptive filter algorithm.
図5は、適応フィルタを用いた従来のASCシステムの概略構成を示す図である。図5において、101はオーディオ音声を出力するスピーカ、102は音声を入力するマイク、103は適応フィルタ、104は減算器である。マイク102は、音声認識処理のために備えている話者音声入力用のものであるが、オーディオ装置でオーディオソースが再生されていると、話者音声だけでなく、スピーカ101から出力されるオーディオ音声もマイク102から入力される。
FIG. 5 is a diagram showing a schematic configuration of a conventional ASC system using an adaptive filter. In FIG. 5, 101 is a speaker for outputting audio sound, 102 is a microphone for inputting sound, 103 is an adaptive filter, and 104 is a subtractor. The
適応フィルタ103は、そのアルゴリズムがN−LMSアルゴリズムの場合、制御対象のリファレンス信号として入力されるオーディオ音声x(n)を次に示す(式1−1)〜(式1−3)(以下、特に区別しないときはこれらをまとめて(式1)と記す)に従って補正する。なお、(式1)はオーディオ音声x(n)が1チャンネルの場合の演算式を示している。
When the algorithm is the N-LMS algorithm, the
この(式1)中において、w(n),α(n),e(n),x(n)は全て行列であり、右肩の“T”は転置行列であることを示し、右肩の“−1”は逆行列であることを示す。また、Lは適応フィルタのタップ長、μはステップサイズパラメータを示す。ステップサイズパラメータとは、フィルタ係数の修正の大きさを示すものであり、適応処理の収束を制御するためのパラメータである。このステップサイズパラメータμが乗算される“α(n)×e(n)”を修正項と呼ぶ。本明細書では、修正項に含まれるα(n)を「修正用データ」と呼ぶことにする。 In this (Formula 1), w (n), α (n), e (n), and x (n) are all matrices, and “T” on the right shoulder indicates a transposed matrix. “−1” in FIG. 4 indicates an inverse matrix. L represents the tap length of the adaptive filter, and μ represents the step size parameter. The step size parameter indicates the magnitude of correction of the filter coefficient, and is a parameter for controlling the convergence of the adaptive process. “Α (n) × e (n)” multiplied by the step size parameter μ is called a correction term. In this specification, α (n) included in the correction term is referred to as “correction data”.
減算器104は、マイク102より入力されたオーディオ音声と話者音声との混合音声d(n)から、適応フィルタ103より出力される補正後のオーディオ音声y(n)を引くことによって誤差e(n)を演算し、話者音声のみを抽出する。減算器104によって抽出された話者音声は、図示しない音声認識エンジンに供給される。これにより、発話コマンドに対応した処理が実行される。
The
適応フィルタ103には、リファレンス信号演算部103a、更新フィルタ係数算出部103b、音声補正フィルタ103cが備えられている。リファレンス信号演算部103aは、リファレンス信号として入力されるオーディオ音声x(n)を(式1−2)のように演算して、修正用データα(n)を算出する。更新フィルタ係数算出部103bは、N−LMSアルゴリズムに従って(式1−1)の演算を行い、減算器104から出力される誤差e(n)のパワーが最小となるように動作して音声補正フィルタ103cのフィルタ係数w(n)を同定する。
The
音声補正フィルタ103cは、更新フィルタ係数算出部103bにより決定されたフィルタ係数w(n)を用いて、制御対象となるオーディオ音声x(n)に対してフィルタ演算をする。具体的には、スピーカ101からマイク102に伝達されるオーディオ音声の伝達関数と同一の伝達関数を制御対象のオーディオ音声x(n)に対して与えることにより、補正されたオーディオ音声y(n)を得る。この音声補正フィルタ103cより出力されるフィルタ制御後のオーディオ音声y(n)は、減算器104に供給され、ここで演算された誤差e(n)が更新フィルタ係数算出部103bにフィードバックされる。
The
以上のようなASCシステムは、オーディオ音声をミュートせずに音声認識を可能とするための技術であり、快適な音声HI(Human Interface)を実現する上で必要不可欠である。ところが、オーディオ音声の性質は個々のソースによって違い、しかも非定常である。このような性質の信号を扱う際には、リファレンス信号演算部103aで算出される修正用データα(n)とそれを用いた更新フィルタ係数算出部103bのN−LMSアルゴリズムとの制御が、ASCシステムの性能を良好に保つ上で有効である。
The ASC system as described above is a technique for enabling voice recognition without muting the audio voice, and is indispensable for realizing a comfortable voice HI (Human Interface). However, the nature of audio speech varies from source to source and is non-stationary. When handling a signal having such a property, control of the correction data α (n) calculated by the reference
しかしながら、ASCシステムの性能を良好に保つためには、高いサンプリング周波数でフィルタ係数を細かく(タップ数を多く)求める必要があり、その演算量は大きなものとなる。特に、オーディオ音声がマルチチャンネル化されている場合には、演算量は非常に大きくなってしまう。 However, in order to keep the performance of the ASC system good, it is necessary to obtain the filter coefficient finely (with a large number of taps) at a high sampling frequency, and the amount of calculation becomes large. In particular, when the audio sound is multi-channeled, the amount of calculation becomes very large.
なお、所要の係数データをあらかじめ計算してフィルタ係数データベースに蓄積しておき、このデータベースから係数データを読み出して制御用フィルタのタップ係数として設定するようにした技術が提案されている(例えば、特許文献1参照)。この特許文献1に記載の技術をASCシステムに適用すれば、フィルタ係数の算出にかかる演算量を大幅に削減することが可能となる。
しかしながら、上記特許文献1に記載のフィルタ係数は、車種に応じた音場特性を作るためのものであり、入力されるオーディオ音声の内容によらず固定のものである。これに対して、ASCシステムの場合は、上述したように制御対象となるオーディオ音声x(n)の性質が個々のソースによって違い、時間的にも非定常である。また、オーディオ音声x(n)を再生している環境も、その時々で変化する。そのため、フィルタ係数は、オーディオ音声x(n)の変化する性質や環境等に合わせて随時変更していかなければならない。したがって、特許文献1に記載の技術をASCシステムにそのまま適用することはできない。
However, the filter coefficient described in
本発明は、このような問題を解決するために成されたものであり、ASCシステムで使用する適応フィルタのフィルタ係数の算出にかかる演算量を削減できるようにすることを目的とする。 The present invention has been made to solve such a problem, and an object of the present invention is to reduce the amount of calculation required for calculating the filter coefficient of an adaptive filter used in an ASC system.
上記した課題を解決するために、本発明では、制御対象となるオーディオ音声に基づいて修正用データをあらかじめ算出してデータベースとして記憶しておき、実際に制御対処となるオーディオ音声が再生されているときに、そのオーディオ音声に該当する修正用データをデータベースから読み出して、制御対象のオーディオ音声のタイムコードに同期させて出力する。そして、このようにして出力された修正用データを用いて、適応アルゴリズムによりフィルタ係数を求め、求めたフィルタ係数を用いてオーディオ音声のフィルタリング処理を行う。 In order to solve the above-described problems, in the present invention, correction data is calculated in advance based on the audio sound to be controlled and stored as a database, and the audio sound that is actually used for control is reproduced. Sometimes, the correction data corresponding to the audio sound is read from the database and output in synchronization with the time code of the audio sound to be controlled. Then, using the correction data output in this way, a filter coefficient is obtained by an adaptive algorithm, and audio sound filtering processing is performed using the obtained filter coefficient.
上記のように構成した本発明によれば、少なくとも修正用データについてはあらかじめ算出されたものがデータベースとして蓄積されており、これを読み出して利用することができるので、実際に制御対処となるオーディオ音声が再生されているときに修正用データをリアルタイムに求める必要がなくなる。しかも、その読み出した修正用データに対して適応アルゴリズムが適用されて、制御対象となるオーディオ音声の性質やその時々の環境に応じたフィルタ係数がリアルタイムに求められる。したがって、本発明をASCシステムに適用した場合でも、少ない演算量で適応フィルタの適切なフィルタ係数を算出することができる。 According to the present invention configured as described above, at least correction data that has been calculated in advance is stored as a database and can be read and used. It is no longer necessary to obtain correction data in real time when is being played. In addition, an adaptive algorithm is applied to the read correction data, and filter coefficients corresponding to the properties of the audio sound to be controlled and the circumstances at that time are obtained in real time. Therefore, even when the present invention is applied to the ASC system, it is possible to calculate an appropriate filter coefficient of the adaptive filter with a small amount of calculation.
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本発明の適応フィルタおよび音声補正システムを実施したASCシステムの構成例を示す図である。図1に示すように、本実施形態のASCシステムは、車載用のユーザ端末100と、車外に設置されたデータバンク装置(サーバ装置)200とを備え、ユーザ端末100とデータバンク装置200とが通信ネットワークを介して相互に接続可能に構成されている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a configuration example of an ASC system that implements an adaptive filter and a sound correction system of the present invention. As shown in FIG. 1, the ASC system of the present embodiment includes an in-
ユーザ端末100の構成において、1は音源であり、例えばオーディオデータが格納されたCD(Compact Disc)、DVD(Digital Versatile Disk)、ハードディスク、半導体メモリ、MD(Mini Disc)などの記録媒体により構成されている。音源1のオーディオデータは、図2に示すように、オーディオデータの経過時間を表すタイムコード毎に格納されている。ここで、タイムコードは、トラックの先頭からの経過時間を表すコードであっても良いし、音源1の先頭からの連続した経過時間を表すコードであっても良い。
In the configuration of the
2はオーディオソース再生部であり、例えばCDプレーヤ、DVDプレーヤ、MP3プレーヤ、MDプレーヤにより構成される。このオーディオソース再生部2は、制御対象となるオーディオ音声(リファレンス信号)x(n)を音源1から再生して出力する。また、オーディオソース再生部2は、オーディオ音声x(n)の経過時間を表すタイムコードを音源1から再生して出力する。
3はスピーカであり、オーディオソース再生部2により再生されたオーディオ音声x(n)を出力する。4は音声を入力するマイクである。このマイク4は、元々は音声認識処理のために備えている話者音声入力用のものであるが、オーディオソース再生部2によって音源1の再生が行われていると、話者音声だけでなく、スピーカ3から出力されるオーディオ音声もマイク4から入力される。
Reference numeral 3 denotes a speaker, which outputs the audio sound x (n) reproduced by the audio
5は更新フィルタ係数算出部、6は音声補正フィルタ、7は減算器であり、更新フィルタ係数算出部5および音声補正フィルタ6は本実施形態による適応フィルタの一部を構成している。本実施形態の適応フィルタは、そのアルゴリズムがN−LMSアルゴリズムの場合、制御対象のオーディオ音声x(n)を上述した(式1)と同様のアルゴリズムに従って補正する。
更新フィルタ係数算出部5は、後述するような手順で取得される修正用データα(n)を用いて、例えばN−LMSアルゴリズムに従って(式1−1)の演算を行い、減算器7からフィードバックされる誤差e(n)のパワーが最小となるように動作して音声補正フィルタ6のフィルタ係数w(n)を同定する。この更新フィルタ係数算出部5は、本発明のフィルタ係数算出部に相当する。
The update filter
音声補正フィルタ6は、本発明のフィルタ処理部に相当するものであり、更新フィルタ係数算出部5により求められたフィルタ係数w(n)を用いて、制御対象となるオーディオ音声x(n)に対してフィルタリング処理を行う。具体的には、スピーカ3からマイク4に伝達されるオーディオ音声の伝達関数と同一の伝達関数を制御対象のオーディオ音声x(n)に対して与えることにより、補正されたオーディオ音声y(n)を得る。
The audio correction filter 6 corresponds to the filter processing unit of the present invention, and uses the filter coefficient w (n) obtained by the update filter
音声補正フィルタ6より出力されるフィルタ制御後のオーディオ音声y(n)は、減算器7に供給される。減算器7は、マイク4より入力されたオーディオ音声と話者音声との混合音声d(n)から、音声補正フィルタ6より出力される補正後のオーディオ音声y(n)を引くことによって誤差e(n)を演算し、話者音声のみを抽出する。減算器7によって抽出された話者音声は、図示しない音声認識エンジンに供給される。また、誤差e(n)は更新フィルタ係数算出部5にフィードバックされる。
The audio sound y (n) after the filter control output from the sound correction filter 6 is supplied to the subtractor 7. The subtracter 7 subtracts the corrected audio sound y (n) output from the sound correction filter 6 from the mixed sound d (n) of the audio sound and the speaker sound input from the
8はオーディオトラック情報抽出部であり、音源1に記録されている制御対象のオーディオ音声からオーディオトラック情報を抽出する。このオーディオトラック情報抽出部8は、本発明の識別情報抽出部に相当する。また、抽出するオーディオトラック情報は、オーディオ音声を識別するための情報を含んでおり、本発明によるオーディオ音声の識別情報に相当する。
9は要求送信部であり、オーディオトラック情報抽出部8により抽出されたオーディオトラック情報を通信ネットワークを介してデータバンク装置200に送信し、当該オーディオトラック情報により示されるオーディオ音声に該当する修正用データα(n)の取得を要求する。10は修正用データ取得部であり、要求送信部9からデータバンク装置200に送信されたオーディオトラック情報に応じて当該データバンク装置200から応答として返されてくる修正用データα(n)を取得する。
A
11は修正用データ出力部であり、修正用データ取得部10により取得された修正用データα(n)を保持しておく。そして、制御対象となるオーディオ音声x(n)の経過時間を表すタイムコードをオーディオソース再生部2より取得し、そのタイムコードにより表される経過時間に同期させて修正用データα(n)を更新フィルタ係数算出部5に逐次出力する。すなわち、後述するように、修正用データ取得部10により取得される修正用データα(n)にはタイムコードが紐付けされている。修正用データ出力部11は、オーディオソース再生部2からタイムコードを取得する毎に、そのタイムコードに該当する修正用データα(n)を更新フィルタ係数算出部5に順次出力する。更新フィルタ係数算出部5は、修正用データ出力部11から出力される修正用データα(n)を用いて、上述の(式1−1)に従って音声補正フィルタ6のフィルタ係数w(n)を求める。
一方、データバンク装置200の構成において、21は修正用データDB(データベース)であり、音声補正フィルタ6のフィルタ係数を求める際に必要な修正用データα(n)であって、制御対象となるオーディオ音声x(n)に基づいてあらかじめ算出された修正用データα(n)を、オーディオ音声の識別情報(例えば、オーディオトラック情報)と共に蓄積する。この修正用データDB21は、本発明の修正用データ記憶部に相当する。
On the other hand, in the configuration of the
上述の(式1−2)から分かるように、修正用データα(n)を求める演算式の中には、ステップサイズパラメータμや誤差e(n)の項は含まれておらず、制御対象となるオーディオ音声x(n)のみから修正用データα(n)を求めることができる。したがって、修正用データα(n)は、オーディオ音声x(n)のみから特定可能なデータであり、実際にオーディオ音声x(n)が再生されているときの環境等に応じて値を更新する必要がないものである。 As can be seen from the above (Equation 1-2), the arithmetic expression for obtaining the correction data α (n) does not include the term of the step size parameter μ and the error e (n). The correction data α (n) can be obtained only from the audio sound x (n). Therefore, the correction data α (n) is data that can be specified only from the audio sound x (n), and the value is updated according to the environment when the audio sound x (n) is actually reproduced. It is not necessary.
そこで、本実施形態では、音源1をあらかじめ入手してオーディオ音声x(n)から修正用データα(n)を算出しておき、これを修正用データDB21に蓄積しておく。これを、様々な音源1のオーディオ音声x(n)について行っておくのが好ましい。その際、どの修正用データα(n)がどのオーディオ音声x(n)から求めたものであるかを後から識別できるようにするために、修正用データα(n)をオーディオ音声x(n)の識別情報と紐付けて修正用データDB21に格納する。
Therefore, in the present embodiment, the
図3は、1つのオーディオ音声x(n)から求めた修正用データα(n)の例を示す図である。図3に示すように、修正用データα(n)は、オーディオ音声x(n)のタイムコードと紐付けして修正用データDB21に格納されている。すなわち、図2に示すようなタイムコード毎のオーディオデータに対して、(式1−2)に示す演算をそれぞれ行い、その結果得られるタイムコード毎の修正用データα(n)をタイムコードと紐付けして修正用データDB21に蓄積する。
FIG. 3 is a diagram illustrating an example of the correction data α (n) obtained from one audio sound x (n). As shown in FIG. 3, the correction data α (n) is stored in the
22は修正用データ読出部であり、要求送信部9から修正用データα(n)の取得要求が送られてきたときに、それに応答して、取得要求に含まれるオーディオトラック情報により示されるオーディオ音声に該当する修正用データα(n)を修正用データDB21から読み出す。そして、読み出した修正用データα(n)を、通信ネットワークを介してユーザ端末100に送信する。
以上詳しく説明したように、本実施形態によれば、制御対象となるオーディオ音声から修正用データα(n)を事前に算出してデータベース化しておき、実際にオーディオ音声を再生するときには、データベース内の修正用データα(n)を利用して適応フィルタの更新を行うようにしたので、ASCシステムでオーディオ音声のみを抑圧する処理を行う際に、少なくとも修正用データα(n)を求める演算を省略することができ、演算量を削減することができる。しかも、固定のフィルタ係数を使うのではなく、適応アルゴリズムに従ってフィルタ係数を適宜更新するので、制御対象となるオーディオ音声の性質やその時々の環境に応じたフィルタ係数をリアルタイムに求めることができ、ASCシステムの性能を良好に保つことができる。 As described above in detail, according to the present embodiment, the correction data α (n) is calculated in advance from the audio sound to be controlled and stored in a database, and when the audio sound is actually reproduced, Since the adaptive filter is updated by using the correction data α (n), the calculation for at least the correction data α (n) is performed when the ASC system performs the process of suppressing only the audio sound. This can be omitted, and the amount of calculation can be reduced. In addition, since the filter coefficients are appropriately updated according to the adaptive algorithm instead of using the fixed filter coefficients, the filter coefficients corresponding to the properties of the audio sound to be controlled and the circumstances at that time can be obtained in real time. The system performance can be kept good.
なお、上記実施形態では、音源1からオーディオデータを再生する度に、外部のデータバンク装置200と通信をして修正用データα(n)を取得する例について説明したが、本発明はこれに限定されない。例えば、ユーザ端末100側にローカルのデータ記憶部(例えば、ハードディスク)を持ち、データバンク装置200から最初に取得した修正用データα(n)を当該ローカルのデータ記憶部に保存する。そして、同じオーディオデータを2回目以降に再生するときには、当該ローカルのデータ記憶部から修正用データα(n)を読み出して利用するようにしても良い。この場合は、ローカルのデータ記憶部に修正用データα(n)がないときにのみ、外部のデータバンク装置200と通信する。
In the above-described embodiment, the example in which the correction data α (n) is acquired by communicating with the external
また、ユーザ端末100の外部にデータバンク装置200を用意するのではなく、修正用データDB21および修正用データ読出部22自体をユーザ端末100が備えるようにしても良い。このようにする場合、修正用データDB21に修正用データα(n)を最初に記録するために、ユーザ端末100は図5のリファレンス信号演算部103aを更に備える必要があるが、このリファレンス信号演算部103aによって修正用データα(n)を演算しなければならないのは、最初にオーディオデータを再生するときのみである。すなわち、オーディオソース再生部2により再生されたオーディオ音声x(n)について最初に算出した修正用データα(n)を修正用データDB21に保存することにより、同じオーディオ音声x(n)を2回目以降に再生するときには、修正用データDB21から修正用データα(n)を読み出して利用することができる。
Instead of preparing the
また、上記実施形態では、更新フィルタ係数算出部5の適応アルゴリズムがN−LMSアルゴリズムである場合を例にとって説明したが、本発明はこれに限定されない。例えば、射影アルゴリズムやRLS(Recursive Least Square)アルゴリズムであっても良い。射影アルゴリズムの場合は、制御対象のリファレンス信号として入力されるオーディオ音声x(n)を次に示す(式2)に従って補正する。
In the above embodiment, the case where the adaptive algorithm of the update filter
上記(式2)において、β(n)は修正用データであり、これもオーディオ音声x(n)のみから求められる。したがって、この修正用データβ(n)をオーディオ音声x(n)から事前に求めて修正用データDB21にデータベース化しておき、実際にオーディオ音声を再生するときには、データベース内の修正用データβ(n)を利用して適応フィルタの更新を行うようにする。
In the above (Formula 2), β (n) is correction data, which is also obtained from only the audio sound x (n). Therefore, the correction data β (n) is obtained in advance from the audio sound x (n) and stored in the
同様に、RLSアルゴリズムの場合は、制御対象のリファレンス信号として入力されるオーディオ音声x(n)を次に示す(式3)に従って補正する。(式3)において、γ(n)は修正用データであり、これもオーディオ音声x(n)のみから求められる。したがって、この修正用データγ(n)をオーディオ音声x(n)から事前に求めて修正用データDB21にデータベース化しておき、実際にオーディオ音声を再生するときには、データベース内の修正用データγ(n)を利用して適応フィルタの更新を行うようにする。
Similarly, in the case of the RLS algorithm, the audio sound x (n) input as the reference signal to be controlled is corrected according to the following (Equation 3). In (Equation 3), γ (n) is correction data, which is also obtained only from the audio sound x (n). Accordingly, the correction data γ (n) is obtained in advance from the audio sound x (n) and stored in the
また、上記実施形態では、修正用データDB21から修正用データα(n)を取得するのに、識別情報としてオーディオトラック情報を用いる例について説明したが、これに加えて、ASCシステムが実装されている車両の車種情報(本発明によるタップ長の識別情報に相当する)を利用するようにしても良い。適応フィルタのタップ長Lは、当該適応フィルタが実装される車両の大きさに応じて、ASCシステムの性能を良好に保つために要求される値が変わる。すなわち、車両が大きいほど適応フィルタのタップ長Lは長くするのが好ましい。
In the above embodiment, the example in which the audio track information is used as the identification information to acquire the correction data α (n) from the
オーディオトラック情報の他に車種情報も利用してASCシステムを構成する場合、ASCシステムは図4のように構成される。なお、この図4において、図1に示した構成要素と同一の機能を有する構成要素には同一の符号を付している。図4に示すASCシステムは、制御対象となるオーディオ音声x(n)が再生される車両の車種情報を取得する車種情報取得部12(本発明の識別情報取得部に相当する)を更に備えている。ここで言う車種情報は、少なくとも車両の大きさが分かる情報であれば良い(具体的な寸法でなく、大きさのランクが分かれば良い)。この車種情報は、例えば、図示しないナビゲーション装置の内部メモリに保存されているものを利用する。 When the ASC system is configured using the vehicle type information in addition to the audio track information, the ASC system is configured as shown in FIG. In FIG. 4, components having the same functions as those shown in FIG. 1 are denoted by the same reference numerals. The ASC system shown in FIG. 4 further includes a vehicle type information acquisition unit 12 (corresponding to the identification information acquisition unit of the present invention) that acquires the vehicle type information of the vehicle on which the audio sound x (n) to be controlled is reproduced. Yes. The vehicle type information referred to here may be information that at least indicates the size of the vehicle (it is only necessary to know the rank of the size, not the specific size). As this vehicle type information, for example, information stored in an internal memory of a navigation device (not shown) is used.
車種情報取得部12は、例えば図示しないナビゲーション装置から車種情報を取得し、それを要求送信部9に出力する。要求送信部9は、オーディオトラック情報抽出部8から出力されるオーディオトラック情報と車種情報取得部12から出力される車種情報とを通信ネットワークを介してデータバンク装置200に送信し、当該オーディオトラック情報および車種情報により示される修正用データα(n)の取得を要求する。
The vehicle type
修正用データDB21には、制御対象となるオーディオ音声に基づいて異なるタップ長L用に算出された修正用データα(n)を、オーディオ音声の識別情報および車種情報と共に蓄積する。すなわち、上述した図1の実施形態では、1つのオーディオ音声x(n)から1つの修正用データα(n)を求めて修正用データDB21に格納していたが、図4の実施形態では、1つのオーディオ音声x(n)から異なるタップ長L用に複数の修正用データα(n)を求め、どの修正用データα(n)がどのオーディオ音声x(n)から求めたもので、どの車種用(どのタップ長L用)のものであるかを後から識別できるようにするために、修正用データα(n)をオーディオ音声x(n)の識別情報および車種情報と紐付けて修正用データDB21に格納する。
In the
修正用データ読出部22は、ユーザ端末100の要求送信部9より送られてくるオーディオトラック情報および車種情報に基づいて、当該オーディオトラック情報および車種情報に該当する修正用データα(n)を修正用データ記憶部21から読み出す。そして、読み出した修正用データα(n)をユーザ端末100に送信する。修正用データ取得部10は、修正用データ読出部22より送られてきた修正用データα(n)を取得し、修正用データ出力部11に出力する。
Based on the audio track information and the vehicle type information sent from the
なお、ここでは車種情報を用いているが、これに限定されない。例えば、車種とタップ長との対応関係を示したテーブル情報を用意しておき、このテーブル情報を参照することによって車種情報をタップ長情報に置き換えて使用するようにしても良い。 In addition, although vehicle type information is used here, it is not limited to this. For example, table information indicating the correspondence between the vehicle type and the tap length may be prepared, and the vehicle type information may be replaced with the tap length information by referring to this table information.
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。 In addition, each of the above-described embodiments is merely an example of actualization in carrying out the present invention, and the technical scope of the present invention should not be construed in a limited manner. In other words, the present invention can be implemented in various forms without departing from the spirit or main features thereof.
本発明は、例えば、マイクより入力した混合音声からオーディオ音声のみを抑圧するASCシステムに有用である。 The present invention is useful for, for example, an ASC system that suppresses only audio sound from mixed sound input from a microphone.
5 更新フィルタ係数算出部
6 音声補正フィルタ
7 減算器
8 オーディオトラック情報抽出部
9 要求送信部
10 修正用データ取得部
11 修正用データ出力部
12 車種情報取得部
21 修正用データDB
22 修正用データ読出部
100 ユーザ端末
200 データバンク装置
DESCRIPTION OF
22 data reading unit for
Claims (3)
上記制御対象となるオーディオ音声から上記識別情報を抽出する識別情報抽出部と、
上記識別情報抽出部により抽出された識別情報に該当する修正用データを上記修正用データ記憶部から取得する修正用データ取得部と、
上記制御対象となるオーディオ音声の経過時間を表すタイムコードを取得し、上記修正用データ取得部により取得された修正用データを上記タイムコードにより表される経過時間に同期させて出力する修正用データ出力部と、
上記修正用データ出力部から出力される修正用データを用いて上記適応フィルタのフィルタ係数を求めるフィルタ係数算出部と、
上記フィルタ係数算出部により求められたフィルタ係数を用いて、上記制御対象となるオーディオ音声に対してフィルタリング処理を行うフィルタ処理部とを備えたことを特徴とする音声補正システム。 A correction data storage unit that stores correction data necessary for obtaining the filter coefficient of the adaptive filter, the correction data calculated based on the audio sound to be controlled, together with the identification information of the audio sound;
An identification information extraction unit that extracts the identification information from the audio sound to be controlled;
A correction data acquisition unit that acquires correction data corresponding to the identification information extracted by the identification information extraction unit from the correction data storage unit;
Correction data for obtaining a time code representing the elapsed time of the audio sound to be controlled and outputting the correction data acquired by the correction data acquisition unit in synchronization with the elapsed time represented by the time code An output section;
A filter coefficient calculation unit for obtaining a filter coefficient of the adaptive filter using the correction data output from the correction data output unit;
An audio correction system comprising: a filter processing unit that performs a filtering process on the audio sound to be controlled using the filter coefficient obtained by the filter coefficient calculating unit.
上記制御対象となるオーディオ音声が再生される車両の車種に応じたタップ長の識別情報を取得する識別情報取得部を備え、
上記修正用データ取得部は、上記識別情報抽出部により抽出されたオーディオ音声の識別情報および上記識別情報取得部により取得されたタップ長の識別情報に基づいて、当該識別情報に該当する修正用データを上記修正用データ記憶部から取得することを特徴とする請求項1に記載の音声補正システム。 In the correction data storage unit, correction data calculated for different tap lengths based on the audio sound to be controlled is stored together with the identification information of the audio sound and the identification information of the tap length,
An identification information acquisition unit that acquires identification information of a tap length according to the vehicle type of the vehicle on which the audio sound to be controlled is reproduced;
The correction data acquisition unit is a correction data corresponding to the identification information based on the identification information of the audio sound extracted by the identification information extraction unit and the identification information of the tap length acquired by the identification information acquisition unit. The sound correction system according to claim 1, wherein the sound correction system is acquired from the correction data storage unit.
上記制御対象となるオーディオ音声の経過時間を表すタイムコードを取得し、上記修正用データ取得部により取得された修正用データを上記タイムコードにより表される経過時間に同期させて出力する修正用データ出力部と、
上記修正用データ出力部から出力される修正用データを用いてフィルタ係数を求めるフィルタ係数算出部と、
上記フィルタ係数算出部により求められたフィルタ係数を用いて、上記制御対象となるオーディオ音声に対してフィルタリング処理を行うフィルタ処理部とを備えたことを特徴とする適応フィルタ。 The correction data calculated based on the audio sound to be controlled corresponds to the identification information extracted from the audio sound to be controlled from the correction data storage unit stored together with the identification information of the audio sound. A correction data acquisition unit for acquiring correction data;
Correction data for obtaining a time code representing the elapsed time of the audio sound to be controlled and outputting the correction data acquired by the correction data acquisition unit in synchronization with the elapsed time represented by the time code An output section;
A filter coefficient calculation unit for obtaining a filter coefficient using the correction data output from the correction data output unit;
An adaptive filter comprising: a filter processing unit that performs a filtering process on the audio sound to be controlled using the filter coefficient obtained by the filter coefficient calculation unit.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005333680A JP4587941B2 (en) | 2005-11-18 | 2005-11-18 | Speech correction system and adaptive filter used therefor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005333680A JP4587941B2 (en) | 2005-11-18 | 2005-11-18 | Speech correction system and adaptive filter used therefor |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007140102A JP2007140102A (en) | 2007-06-07 |
| JP4587941B2 true JP4587941B2 (en) | 2010-11-24 |
Family
ID=38203042
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005333680A Expired - Lifetime JP4587941B2 (en) | 2005-11-18 | 2005-11-18 | Speech correction system and adaptive filter used therefor |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4587941B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8103504B2 (en) * | 2006-08-28 | 2012-01-24 | Victor Company Of Japan, Limited | Electronic appliance and voice signal processing method for use in the same |
| JP6594721B2 (en) * | 2015-09-28 | 2019-10-23 | アルパイン株式会社 | Speech recognition system, gain setting system, and computer program |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3616523B2 (en) * | 1999-06-22 | 2005-02-02 | 沖電気工業株式会社 | Echo canceller |
| JP2001022380A (en) * | 1999-07-07 | 2001-01-26 | Alpine Electronics Inc | Noise/audio sound canceler |
| JP2002182687A (en) * | 2000-12-15 | 2002-06-26 | Alpine Electronics Inc | Noise reduction device for on-vehicle voice recognition, data delivery system for this device, and server |
-
2005
- 2005-11-18 JP JP2005333680A patent/JP4587941B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007140102A (en) | 2007-06-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7698133B2 (en) | Noise reduction device | |
| JP4209247B2 (en) | Speech recognition apparatus and method | |
| JP2005195895A (en) | Noise removing device, voice recognition device, and car navigation device | |
| JP2012042957A (en) | Voice processing system and method | |
| JP2005165066A (en) | Speech recognition system, data processor, and its data processing method and program | |
| JPWO2007132690A1 (en) | Audio data summary reproduction apparatus, audio data summary reproduction method, and audio data summary reproduction program | |
| US9832299B2 (en) | Background noise reduction in voice communication | |
| JP2010156826A (en) | Acoustic control device | |
| JP2014240940A (en) | Dictation support device, method and program | |
| MX2007015446A (en) | Multi-sensory speech enhancement using a speech-state model. | |
| JP2005070430A (en) | Speech output device and method | |
| JP4587941B2 (en) | Speech correction system and adaptive filter used therefor | |
| US12586597B2 (en) | Enhanced audio file generator | |
| US11425517B2 (en) | Conversation support system, method and program for the same | |
| JP2005509906A (en) | A device for editing text in a given window | |
| JP2006330170A (en) | Recorded document creation support system | |
| JP2008078955A (en) | Audio device, and method of compensating sound quality of audio device | |
| JP7487772B2 (en) | Method for generating communication environment, device for generating communication environment, and program | |
| WO2024232876A1 (en) | Machine learning based robust voice communication via head-worn device | |
| JP4924652B2 (en) | Voice recognition device and car navigation device | |
| JP4769086B2 (en) | Voice quality conversion dubbing system and program | |
| JP3927155B2 (en) | Dialog recording apparatus and dialog recording program | |
| JP4817949B2 (en) | In-vehicle machine | |
| CN112544088B (en) | Sound pickup and amplification device, method thereof, and recording medium | |
| JP4094523B2 (en) | Echo canceling apparatus, method, echo canceling program, and recording medium recording the program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080325 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100820 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100907 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4587941 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140917 Year of fee payment: 4 |