JP4645866B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 - Google Patents
ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 Download PDFInfo
- Publication number
- JP4645866B2 JP4645866B2 JP2000238891A JP2000238891A JP4645866B2 JP 4645866 B2 JP4645866 B2 JP 4645866B2 JP 2000238891 A JP2000238891 A JP 2000238891A JP 2000238891 A JP2000238891 A JP 2000238891A JP 4645866 B2 JP4645866 B2 JP 4645866B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- digital audio
- pitch
- class
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はPCM(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【0002】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル/アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル/アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【0003】
かかるオーバサンプリング処理では、通常、線形一次(直線)補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【0004】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもA/D変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【0005】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【0006】
本発明は以上の点を考慮してなされたもので、ディジタル信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【0007】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ディジタルオーディオ信号のピッチを検出し、当該検出したピッチに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【0008】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【0009】
図1においてオーディオ信号処理装置10は、ディジタルオーディオ信号(以下これをオーディオデータと呼ぶ)のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【0010】
すなわち、オーディオ信号処理装置10において、ピッチ検出部11は入力端子TINから供給された図2又は図3に示す入力オーディオデータD10のピッチ(基本周波数)を例えば入力オーディオデータD10の自己相関に基づいて検出する。
【0011】
すなわちピッチ検出部11は、入力オーディオデータD10について、例えば時間軸領域に分割してなる種々の範囲ごとに自己相関値を検出し、当該自己相関値が所定の閾値よりも大きいときピッチが有ると判断する。そしてピッチ検出部11はピッチが有る場合のピッチ周期PITT 及びピッチサイズとその位置をピッチクラスとする。例えば、入力オーディオデータD10が図2に示すような波形を有している場合、ピッチ検出部11はカレントピッチPIT2に対してその前後に隣接する位置に前ピッチPIT1及び後ろピッチPIT3を検出する。因みに、ピッチ検出部11が検出する前ピッチPIT1及び後ろピッチPIT3は必ずしもカレントピッチPIT2に隣接するとは限らず、カレントピッチPIT2から所定距離離れている場合もある。
【0012】
ピッチ検出部11はカレントピッチPIT2に対応する前ピッチPIT1及び後ろピッチPIT3を検出すると、これらを切り出すための切り出し制御信号CONT11を可変クラス分類部抽出部12及び可変予測演算部抽出部13に供給する。
【0013】
可変クラス分類部抽出部12は切り出し制御信号CONT11に基づいて、前ピッチPIT1に対応するクラスタップCL1、カレントピッチPIT2に対応するクラスタップCL2及び後ろタップPIT3に対応するクラスタップCL3を入力オーディオデータD10から切り出し、これらをクラスタップデータD12としてクラス分類部14に供給する。
【0014】
クラス分類部14は、クラス分類抽出部12において切り出されたクラスタップについて、各ピッチ(前ピッチPIT1、カレントピッチPIT2及び後ろタップPIT3)ごとに個別に、又はこれらを統合し、そのクラスタップを圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、クラスタップデータD12の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0015】
ADRC回路部はクラスタップデータD12に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0016】
具体的には、オーディオ波形上の6つの8ビットのデータ(クラスタップ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つのクラスタップに対して1ビットの量子化を実行すると、6つのクラスタップを6ビットで表すことができ、26 =64クラスに分類することができる。
【0017】
ここで、ADRC回路部は、切り出された領域内のクラスタップ(オーディオ波形)のダイナミックレンジをDR、ビット割り当をm、各クラスタップのデータレベルをL、量子化コードをQとすると、次式、
【0018】
【数1】
【0019】
に従って、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。なお、(1)式において{ }は小数点以下の切り捨て処理を意味する。かくして6つのクラスタップが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0020】
このようにして圧縮されたオーディオ波形データ(クラスタップ)をそれぞれqn (n=1〜6)とすると、クラス分類部14に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データqn に基づいて、次式、
【0021】
【数2】
【0022】
に示す演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出すると共に、当該算出されたクラスタップデータD12に基づくクラスコードclass をクラスコードデータD14として予測係数メモリ15に供給する。このクラスコードclass は、予測係数メモリ15から予測係数を読み出す際の読み出しアドレスを示す。因みに(2)式において、nは圧縮されたオーディオ波形データ(クラスタップ)qn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0023】
このようにして、クラス分類部14はクラス分類部抽出部12において入力オーディオデータD10から切り出されたクラスタップのクラスコード classを生成し、これをクラスコードデータD14として予測係数メモリ15に供給する。
【0024】
予測係数メモリ15には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部14から供給されるクラスコードデータD14に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットw1 〜wn が読み出され、予測演算部16に供給される。
【0025】
予測演算部16は、予測演算部抽出部13においてピッチ検出部11から供給される切り出し制御信号CONT11に応じて切り出された予測演算しようとするオーディオ波形データ(予測タップ)D13(x1 〜xn )と、予測係数w1 〜wn に対して、次式
【0026】
【数3】
【0027】
に示す積和演算を行うことにより、予測結果y′を得る。この予測値y′が、音質が改善されたオーディオデータD16として予測演算部16から出力される。
【0028】
因みに、ピッチ検出部11において入力オーディオデータD10にピッチが無いと判断した場合、ピッチ検出部11は前ピッチPIT1や後ろピッチPIT3を用いることなく、図3に示すようにカレントデータ近傍のオーディオ波形のレベルを切り出すための制御信号CONT11を可変クラス分類部抽出部12及び可変予測演算部抽出部13に供給することにより、カレントデータ近傍のオーディオ波形によりクラス分類及び予測演算を行う。
【0029】
なお、オーディオ信号処理装置10の構成として図1について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図4に示すコンピュータ構成の装置を用いる。すなわち、図4において、オーディオ信号処理装置10は、バスBUSを介してCPU21、ROM(Read Only Memory)22、予測係数メモリ15を構成するRAM(Random Access Memory)15、及び各回路部がそれぞれ接続された構成を有し、CPU11はROM22に格納されている種々のプログラムを実行することにより、図1について上述した各機能ブロック(ピッチ検出部11、クラス分類部抽出部12、予測演算部抽出部13、クラス分類部14及び予測演算部16)として動作するようになされている。
【0030】
また、オーディオ信号処理装置10にはネットワークとの間で通信を行う通信インターフェース24、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ28を有し、ネットワーク経由又は外部記憶媒体から図1について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置25のハードディスクに読み込んみ、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【0031】
ユーザは、キーボードやマウス等の入力手段26を介して種々のコマンドを入力することにより、CPU21に対して図1について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置10はデータ入出力部27を介して音質を向上させようとするオーディオデータ(入力オーディオデータ)D10を入力し、当該入力オーディオデータD10に対してクラス分類適用処理を施した後、音質が向上したオーディオデータD16をデータ入出力部27を介して外部に出力し得るようになされている。
【0032】
因みに、図5はオーディオ信号処理装置10におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置10はステップSP11から当該処理手順に入ると、続くステップSP12において入力オーディオデータD10のピッチをピッチ検出部11において算出する。
【0033】
この算出されたピッチ(前ピッチPIT1、カレントピッチPIT2、後ろピッチPIT3)はオーティオ波形のクラス分類を一段と確実にするためのもであり、オーディオ信号処理装置10は、ステップSP13においてピッチに応じたクラスタップの切り出しを行った後、ステップSP14においてクラス分類部14によりクラスタップ(オーディオ波形)をクラス分類する。そしてオーディオ信号処理装置10は、クラス分類の結果得られたクラスコードを用いて予測係数メモリ15から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置10はクラスコードに対応した予測係数を読み出すことにより、このときのオーディオ波形の特徴に合致した予測係数を用いることができる。
【0034】
予測係数メモリ15から読み出された予測係数は、ステップSP15において予測演算部16の予測演算に用いられる。これにより、入力オーディオデータD10はそのピッチに応じたクラスタップにより得られたクラスコードを用いて予測演算され、所望とするオーディオデータD16に変換される。かくして入力オーディオデータD10はその音質が改善されたオーディオデータD16に変換され、オーディオ信号処理装置10はステップSP16に移って当該処理手順を終了する。
【0035】
次に、図1について上述した予測係数メモリ15に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【0036】
図6において、学習回路30は、高音質の教師オーディオデータD30を生徒信号生成フィルタ37に受ける。生徒信号生成フィルタ37は、間引き率設定信号D39により設定された間引き率で教師オーディオデータD30を所定時間ごとに所定サンプル間引くようになされている。
【0037】
この場合、生徒信号生成フィルタ37における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置10で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置10においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ37ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置10において入力オーディオデータD10の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ37ではデータサンプルを欠落させる間引き処理を行うようになされている。
【0038】
かくして、生徒信号生成フィルタ37は教師オーディオデータ30から所定の間引き処理により生徒オーディオデータD37を生成し、これをピッチ検出部31、クラス分類部抽出部32及び予測演算部抽出部33にそれぞれ供給する。
【0039】
ピッチ検出部31は生徒信号生成フィルタ37から供給された生徒オーディオデータD37について、図2及び図3について上述したピッチ(基本周波数)を生徒オーディオデータD37の自己相関に基づいて検出する。
【0040】
そしてピッチ検出部31はカレントピッチPIT2に対応する前ピッチPIT1及び後ろピッチPIT3を検出すると、これらを切り出すための切り出し制御信号CONT31を可変クラス分類部抽出部32及び可変予測演算部抽出部33に供給する。
【0041】
可変クラス分類部抽出部32は切り出し制御信号CONT31に基づいて、前ピッチPIT1に対応するクラスタップCL1、カレントピッチPIT2に対応するクラスタップCL2及び後ろタップPIT3に対応するクラスタップCL3を生徒オーディオデータD37から切り出し、これらをクラスタップデータD32としてクラス分類部34に供給する。
【0042】
クラス分類部34は、クラス分類抽出部32において切り出されたクラスタップについて、当該クラスタップを圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、クラスタップデータD32の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0043】
ADRC回路部はクラスタップデータD32に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0044】
具体的には、包絡線波形上の6つの8ビットのデータ(クラスタップ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つのクラスタップに対して1ビットの量子化を実行すると、6つのクラスタップを6ビットで表すことができ、26 =64クラスに分類することができる。
【0045】
ここで、ADRC回路部は、切り出された領域内のクラスタップ(オーディオ波形)のダイナミックレンジをDR、ビット割り当をm、各クラスタップのデータレベルをL、量子化コードをQとして、上述の(1)式と同様の演算により、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。かくしてオーディオ波形上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0046】
このようにして圧縮されたオーディオ波形データ(クラスタップ)をそれぞれqn (n=1〜6)とすると、クラス分類部34に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データqn に基づいて、上述の(2)式と同様の演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass をクラスコードデータD34として予測係数算出部36に供給する。因みに(2)式において、nは圧縮されたオーディオ波形データ(クラスタップ)qn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0047】
このようにして、クラス分類部34はクラスコードデータD34を生成し、これを予測係数算出部36に供給する。また、予測係数算出部36には、予測演算部抽出部33においてピッチ検出部11から供給される切り出し制御信号CONT11に応じて切り出された予測演算しようとするオーディオ波形データ(予測タップ)D13(x1 〜xn )が供給される。
【0048】
予測係数算出部36は、クラス分類部34から供給されたクラスコードclass と、各クラスコードclass 毎に切り出された予測タップD33と、入力端TINから供給された高音質の教師オーディオデータD30とを用いて、正規方程式を立てる。
【0049】
すなわち、生徒オーディオデータD37のnサンプルのレベルをそれぞれx1 、x2 、……、xn として、それぞれにpビットのADRCを行った結果の量子化データをq1 、……、qn とする。このとき、この領域のクラスコードclass ′を上述の(2)式のように定義する。そして、上述のように生徒オーディオデータD37のレベルをそれぞれ、x1 、x2 、……、xn とし、高音質の教師オーディオデータD30のレベルをyとしたとき、クラスコード毎に、予測係数w1 、w2 、……、wn によるnタップの線形推定式を設定する。これを次式、
【0050】
【数4】
【0051】
とする。学習前は、wn が未定係数である。
【0052】
学習回路30では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がMの場合、上述の(4)式に従って、次式、
【0053】
【数5】
【0054】
が設定される。但しk=1、2、……Mである。
【0055】
M>nの場合、予測係数w1 、……wn は一意的に決まらないので、誤差ベクトルeの要素を次式、
【0056】
【数6】
【0057】
によって定義し(但し、k=1、2、……、M)、次式、
【0058】
【数7】
【0059】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【0060】
ここで、(7)式によるwn の偏微分係数を求める。この場合、次式、
【0061】
【数8】
【0062】
を「0」にするように、各wn (n=1〜6)を求めれば良い。
【0063】
そして、次式、
【0064】
【数9】
【0065】
【数10】
【0066】
のように、Xij、Yi を定義すると、(8)式は行列を用いて次式、
【0067】
【数11】
【0068】
として表される。
【0069】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではn=6である。
【0070】
全ての学習用データ(教師オーディオデータD30、クラスコードclass 、予測タップD33)の入力が完了した後、予測係数算出部36は各クラスコードclass に上述の(11)式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Wn について解き、各クラスコード毎に、予測係数を算出する。予測係数算出部36は、算出された各予測係数(D36)を予測係数メモリ15に書き込む。
【0071】
このような学習を行った結果、予測係数メモリ15には、量子化データq1 、……、q6 で規定されるパターン毎に、高音質のオーディオデータyを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ15は、図1について上述したオーディオ信号処理装置10において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【0072】
このように、学習回路30は、オーディオ信号処理装置10において補間処理を行う程度を考慮して、生徒信号生成フィルタ37で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置10における補間処理のための予測係数を生成することができる。
【0073】
以上の構成において、オーディオ信号処理装置10は、入力オーディオデータD10のピッチをピッチ検出部11において検出することにより、入力オーディオデータD10のうち、特に規則性を持った波形部分を抽出することができる。
【0074】
かかる規則性を持った波形部分(ピッチ)は、例えば人間の声では同じ音素であっても個人毎に異なり、この部分を正確に切り出してクラス分類することにより、個人毎に異なるオーディオ波形の特徴が一段と明確にクラス分けされる。
【0075】
このように、オーディオ波形の特徴を明確にクラス分けし、当該クラス分類結果に基づく予測演算を行うことにより、オーディオ波形の再現性が向上し、音質の向上が図られる。
【0076】
以上の構成によれば、ピッチの検出結果に基づいてタップの切り出し範囲を制御するようにしたことにより、入力オーディオデータD10を一段と高音質のオーディオデータD16に変換することができる。
【0077】
なお上述の実施の形態においては、オーディオ信号処理装置10及び学習回路30において、ピッチ検出部11、31で検出されたピッチサイズとその位置とをピッチクラスとして可変クラス分類部抽出部12、32に供給する場合について述べたが、本発明はこれに限らず、例えば図1及び図6との対応部分に同一の符号を付して示す図7及び図8に示すように、ピッチ検出部11′、31′で検出されたピッチ数をピッチクラスデータD11、D31としてクラス分類部14′及び34′に供給するようにしても良い。
【0078】
この場合、クラス分類部14′及び34′は、可変クラス分類部抽出部12から供給されるピッチクラスデータD11、D31と同様の時間領域に分割されたクラスタップデータD12、D32のクラスコードclass と、ピッチクラスデータD11、D31のクラスコードCLASS とを対応させて統合したクラスコードデータ(class ′)D14、D34を生成する。
【0079】
このようにピッチ検出部11′、31′で検出されたピッチ数をピッチクラスデータD11、D31としてクラス分類部14′及び34′に供給するようにすれば、クラス分類の頻度を一段と多くすることができ、かくして、クラス分類された結果に基づく予測係数を用いて入力オーディオデータの予測演算を行うオーディオ信号処理装置10は、一段と高音質のオーディオデータに変換することができる。
【0080】
また上述の実施の形態においては、オーディオ波形のピッチを検出する方法として自己相関を用いる場合について述べたが、本発明はこれに限らず、例えばオーディオ波形に対してフーリエ変換を施すケプストラム分析やパターン認識等、他の種々の方法を適用することができる。
【0081】
また上述の実施の形態においては、入力オーディオデータD10の時間軸領域の波形について、ピッチ検出及びクラス分類を行う場合について述べたが、本発明はこれに限らず、周波数領域に展開してピッチ検出、クラス分類を行うようにしても良い。
【0082】
また上述の実施の形態においては、クラス分類のためのタップの切り出しサイズと、予測演算用のタップの切り出し領域とを同一サイズとした場合について述べたが、本発明はこれに限らず、クラス分類用のタップの切り出しサイズと予測演算用のタップの切り出しサイズは異なるようにしても良く、さらには、ピッチ検出部11において検出された自己相関の強さに応じて切り出しサイズを変化させるようにしても良い。この場合、例えば自己相関が強い程切り出しサイズを大きくすることができる。
【0083】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法等の種々の予測方式を適用することができる。
【0084】
また上述の実施の形態においては、クラス分類部14においてADRCにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化(DPCM:Differrential Pulse Code Modulation) 又はベクトル量子化(VQ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【0085】
また上述の実施の形態においては、学習回路30の生徒信号生成フィルタ37において教師オーディオデータD30から所定サンプルを間引く場合について述べたが、本発明はこれに限らず、例えばビット数を間引く等、他の種々の方法を適用することができる。
【0086】
【発明の効果】
上述のように本発明によれば、ディジタルオーディオ信号のピッチを検出し、当該検出したピッチに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図1】本発明によるディジタル信号処理装置の構成を示すブロック図である。
【図2】ディジタルオーディオ信号のピッチの説明に供する信号波形図である。
【図3】ピッチの無いディジタルオーディオ信号の処理の説明に供する信号波形図である。
【図4】オーディオ信号処理装置の構成を示すブロック図である。
【図5】オーディオ信号変換処理手順を示すフローチャートである。
【図6】本発明による学習装置の構成を示すブロック図である。
【図7】他の実施の形態によるディジタル信号処理装置の構成を示すブロック図である。
【図8】他の実施の形態による学習装置の構成を示すブロック図である。
【符号の説明】
10……オーディオ信号処理装置、11、31……ピッチ検出部、14、34……クラス分類部、15……予測係数メモリ、16……予測演算部、36……予測係数算出部、37……生徒信号生成フィルタ。
Claims (8)
- ディジタルオーディオ信号を変換するディジタル信号処理装置において、
上記ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいてそのクラスを分類するクラス分類手段と、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
を具えることを特徴とするディジタル信号処理装置。 - 上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
ことを特徴とする請求項1に記載のディジタル信号処理装置。 - ディジタルオーディオ信号を変換するディジタル信号処理方法において、
上記ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を具えることを特徴とするディジタル信号処理方法。 - 上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
ことを特徴とする請求項3に記載のディジタル信号処理方法。 - ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいてそのクラスを分類するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を具えることを特徴とする学習装置。 - ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を具えることを特徴とする学習方法。 - 上記ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。 - 所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000238891A JP4645866B2 (ja) | 2000-08-02 | 2000-08-02 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000238891A JP4645866B2 (ja) | 2000-08-02 | 2000-08-02 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002049395A JP2002049395A (ja) | 2002-02-15 |
| JP4645866B2 true JP4645866B2 (ja) | 2011-03-09 |
Family
ID=18730522
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000238891A Expired - Fee Related JP4645866B2 (ja) | 2000-08-02 | 2000-08-02 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4645866B2 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4596196B2 (ja) | 2000-08-02 | 2010-12-08 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
| JP4596197B2 (ja) | 2000-08-02 | 2010-12-08 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
| JP4538705B2 (ja) | 2000-08-02 | 2010-09-08 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
| JP4748113B2 (ja) * | 2007-06-04 | 2011-08-17 | ソニー株式会社 | 学習装置および学習方法、並びにプログラムおよび記録媒体 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61262800A (ja) * | 1985-05-17 | 1986-11-20 | 富士通株式会社 | 音声符号化方式 |
| JPS62102294A (ja) * | 1985-10-30 | 1987-05-12 | 株式会社日立製作所 | 音声符号化方式 |
| US5012517A (en) * | 1989-04-18 | 1991-04-30 | Pacific Communication Science, Inc. | Adaptive transform coder having long term predictor |
| JP3002299B2 (ja) * | 1991-08-06 | 2000-01-24 | シャープ株式会社 | 音声符号化装置 |
| JP3400055B2 (ja) * | 1993-12-25 | 2003-04-28 | ソニー株式会社 | 画像情報変換装置及び画像情報変換方法並びに画像処理装置及び画像処理方法 |
| JP3794505B2 (ja) * | 1995-03-22 | 2006-07-05 | ソニー株式会社 | 信号変換装置及び信号変換方法 |
| JP3856244B2 (ja) * | 1995-04-20 | 2006-12-13 | ソニー株式会社 | 信号変換装置及び信号変換方法 |
| JP3946812B2 (ja) * | 1997-05-12 | 2007-07-18 | ソニー株式会社 | オーディオ信号変換装置及びオーディオ信号変換方法 |
| JP4131303B2 (ja) * | 1998-09-11 | 2008-08-13 | ソニー株式会社 | 画像変換装置および方法、学習装置および方法、画像変換システム、並びに記録媒体 |
-
2000
- 2000-08-02 JP JP2000238891A patent/JP4645866B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002049395A (ja) | 2002-02-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH08335100A (ja) | ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム | |
| US5673364A (en) | System and method for compression and decompression of audio signals | |
| WO1985005514A1 (en) | Signal processing system | |
| CN112767955A (zh) | 音频编码方法及装置、存储介质、电子设备 | |
| JP4596196B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| JP4645866B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| JP4596197B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| JP4645867B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| JP4645868B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| JP4645869B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| CN118016080B (zh) | 一种音频处理方法、音频处理器及相关装置 | |
| JPH07199997A (ja) | 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法 | |
| JPH10247093A (ja) | オーディオ情報分類装置 | |
| JP4538705B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| US20070011001A1 (en) | Apparatus for predicting the spectral information of voice signals and a method therefor | |
| JP4538704B2 (ja) | ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体 | |
| JPH03233500A (ja) | 音声合成方式およびこれに用いる装置 | |
| JPH06202695A (ja) | 音声信号処理装置 | |
| JPH07334189A (ja) | 音声情報分析装置 | |
| JP2000132195A (ja) | 信号符号化装置及び方法 | |
| JP3271966B2 (ja) | 符号化装置及び符号化方法 | |
| Cheung | Application of CVSD with delayed decision to narrowband/wideband tandem | |
| RU2022107245A (ru) | Формат со множественным запаздыванием для кодирования звука | |
| WO1997016821A1 (en) | Method and system for compressing a speech signal using nonlinear prediction | |
| JPH07248799A (ja) | 音声符号化復号化方法および装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070216 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090929 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091203 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100108 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101111 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101124 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |