JP4645866B2

JP4645866B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP4645866B2
Application number: JP2000238891A
Authority: JP
Inventors: 哲二郎近藤; 勉渡辺
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2011-03-09
Anticipated expiration: 2020-08-02
Also published as: JP2002049395A

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【０００２】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル／アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル／アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【０００３】
かかるオーバサンプリング処理では、通常、線形一次（直線）補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【０００４】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもＡ／Ｄ変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【０００５】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【０００６】
本発明は以上の点を考慮してなされたもので、ディジタル信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【０００７】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ディジタルオーディオ信号のピッチを検出し、当該検出したピッチに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【０００８】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【０００９】
図１においてオーディオ信号処理装置１０は、ディジタルオーディオ信号（以下これをオーディオデータと呼ぶ）のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【００１０】
すなわち、オーディオ信号処理装置１０において、ピッチ検出部１１は入力端子Ｔ_INから供給された図２又は図３に示す入力オーディオデータＤ１０のピッチ（基本周波数）を例えば入力オーディオデータＤ１０の自己相関に基づいて検出する。
【００１１】
すなわちピッチ検出部１１は、入力オーディオデータＤ１０について、例えば時間軸領域に分割してなる種々の範囲ごとに自己相関値を検出し、当該自己相関値が所定の閾値よりも大きいときピッチが有ると判断する。そしてピッチ検出部１１はピッチが有る場合のピッチ周期ＰＩＴ_T及びピッチサイズとその位置をピッチクラスとする。例えば、入力オーディオデータＤ１０が図２に示すような波形を有している場合、ピッチ検出部１１はカレントピッチＰＩＴ２に対してその前後に隣接する位置に前ピッチＰＩＴ１及び後ろピッチＰＩＴ３を検出する。因みに、ピッチ検出部１１が検出する前ピッチＰＩＴ１及び後ろピッチＰＩＴ３は必ずしもカレントピッチＰＩＴ２に隣接するとは限らず、カレントピッチＰＩＴ２から所定距離離れている場合もある。
【００１２】
ピッチ検出部１１はカレントピッチＰＩＴ２に対応する前ピッチＰＩＴ１及び後ろピッチＰＩＴ３を検出すると、これらを切り出すための切り出し制御信号ＣＯＮＴ１１を可変クラス分類部抽出部１２及び可変予測演算部抽出部１３に供給する。
【００１３】
可変クラス分類部抽出部１２は切り出し制御信号ＣＯＮＴ１１に基づいて、前ピッチＰＩＴ１に対応するクラスタップＣＬ１、カレントピッチＰＩＴ２に対応するクラスタップＣＬ２及び後ろタップＰＩＴ３に対応するクラスタップＣＬ３を入力オーディオデータＤ１０から切り出し、これらをクラスタップデータＤ１２としてクラス分類部１４に供給する。
【００１４】
クラス分類部１４は、クラス分類抽出部１２において切り出されたクラスタップについて、各ピッチ（前ピッチＰＩＴ１、カレントピッチＰＩＴ２及び後ろタップＰＩＴ３）ごとに個別に、又はこれらを統合し、そのクラスタップを圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、クラスタップデータＤ１２の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００１５】
ＡＤＲＣ回路部はクラスタップデータＤ１２に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００１６】
具体的には、オーディオ波形上の６つの８ビットのデータ（クラスタップ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つのクラスタップに対して１ビットの量子化を実行すると、６つのクラスタップを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００１７】
ここで、ＡＤＲＣ回路部は、切り出された領域内のクラスタップ（オーディオ波形）のダイナミックレンジをＤＲ、ビット割り当をｍ、各クラスタップのデータレベルをＬ、量子化コードをＱとすると、次式、
【００１８】
【数１】

【００１９】
に従って、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。なお、（１）式において｛｝は小数点以下の切り捨て処理を意味する。かくして６つのクラスタップが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００２０】
このようにして圧縮されたオーディオ波形データ（クラスタップ）をそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データｑ_nに基づいて、次式、
【００２１】
【数２】

【００２２】
に示す演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出すると共に、当該算出されたクラスタップデータＤ１２に基づくクラスコードclass をクラスコードデータＤ１４として予測係数メモリ１５に供給する。このクラスコードclass は、予測係数メモリ１５から予測係数を読み出す際の読み出しアドレスを示す。因みに（２）式において、ｎは圧縮されたオーディオ波形データ（クラスタップ）ｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００２３】
このようにして、クラス分類部１４はクラス分類部抽出部１２において入力オーディオデータＤ１０から切り出されたクラスタップのクラスコード classを生成し、これをクラスコードデータＤ１４として予測係数メモリ１５に供給する。
【００２４】
予測係数メモリ１５には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部１４から供給されるクラスコードデータＤ１４に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットｗ₁〜ｗ_nが読み出され、予測演算部１６に供給される。
【００２５】
予測演算部１６は、予測演算部抽出部１３においてピッチ検出部１１から供給される切り出し制御信号ＣＯＮＴ１１に応じて切り出された予測演算しようとするオーディオ波形データ（予測タップ）Ｄ１３（ｘ₁〜ｘ_n）と、予測係数ｗ₁〜ｗ_nに対して、次式
【００２６】
【数３】

【００２７】
に示す積和演算を行うことにより、予測結果ｙ′を得る。この予測値ｙ′が、音質が改善されたオーディオデータＤ１６として予測演算部１６から出力される。
【００２８】
因みに、ピッチ検出部１１において入力オーディオデータＤ１０にピッチが無いと判断した場合、ピッチ検出部１１は前ピッチＰＩＴ１や後ろピッチＰＩＴ３を用いることなく、図３に示すようにカレントデータ近傍のオーディオ波形のレベルを切り出すための制御信号ＣＯＮＴ１１を可変クラス分類部抽出部１２及び可変予測演算部抽出部１３に供給することにより、カレントデータ近傍のオーディオ波形によりクラス分類及び予測演算を行う。
【００２９】
なお、オーディオ信号処理装置１０の構成として図１について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図４に示すコンピュータ構成の装置を用いる。すなわち、図４において、オーディオ信号処理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ(Read Only Memory)２２、予測係数メモリ１５を構成するＲＡＭ(Random Access Memory)１５、及び各回路部がそれぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２２に格納されている種々のプログラムを実行することにより、図１について上述した各機能ブロック（ピッチ検出部１１、クラス分類部抽出部１２、予測演算部抽出部１３、クラス分類部１４及び予測演算部１６）として動作するようになされている。
【００３０】
また、オーディオ信号処理装置１０にはネットワークとの間で通信を行う通信インターフェース２４、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ２８を有し、ネットワーク経由又は外部記憶媒体から図１について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置２５のハードディスクに読み込んみ、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【００３１】
ユーザは、キーボードやマウス等の入力手段２６を介して種々のコマンドを入力することにより、ＣＰＵ２１に対して図１について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置１０はデータ入出力部２７を介して音質を向上させようとするオーディオデータ（入力オーディオデータ）Ｄ１０を入力し、当該入力オーディオデータＤ１０に対してクラス分類適用処理を施した後、音質が向上したオーディオデータＤ１６をデータ入出力部２７を介して外部に出力し得るようになされている。
【００３２】
因みに、図５はオーディオ信号処理装置１０におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置１０はステップＳＰ１１から当該処理手順に入ると、続くステップＳＰ１２において入力オーディオデータＤ１０のピッチをピッチ検出部１１において算出する。
【００３３】
この算出されたピッチ（前ピッチＰＩＴ１、カレントピッチＰＩＴ２、後ろピッチＰＩＴ３）はオーティオ波形のクラス分類を一段と確実にするためのもであり、オーディオ信号処理装置１０は、ステップＳＰ１３においてピッチに応じたクラスタップの切り出しを行った後、ステップＳＰ１４においてクラス分類部１４によりクラスタップ（オーディオ波形）をクラス分類する。そしてオーディオ信号処理装置１０は、クラス分類の結果得られたクラスコードを用いて予測係数メモリ１５から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置１０はクラスコードに対応した予測係数を読み出すことにより、このときのオーディオ波形の特徴に合致した予測係数を用いることができる。
【００３４】
予測係数メモリ１５から読み出された予測係数は、ステップＳＰ１５において予測演算部１６の予測演算に用いられる。これにより、入力オーディオデータＤ１０はそのピッチに応じたクラスタップにより得られたクラスコードを用いて予測演算され、所望とするオーディオデータＤ１６に変換される。かくして入力オーディオデータＤ１０はその音質が改善されたオーディオデータＤ１６に変換され、オーディオ信号処理装置１０はステップＳＰ１６に移って当該処理手順を終了する。
【００３５】
次に、図１について上述した予測係数メモリ１５に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【００３６】
図６において、学習回路３０は、高音質の教師オーディオデータＤ３０を生徒信号生成フィルタ３７に受ける。生徒信号生成フィルタ３７は、間引き率設定信号Ｄ３９により設定された間引き率で教師オーディオデータＤ３０を所定時間ごとに所定サンプル間引くようになされている。
【００３７】
この場合、生徒信号生成フィルタ３７における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置１０で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置１０においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ３７ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置１０において入力オーディオデータＤ１０の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ３７ではデータサンプルを欠落させる間引き処理を行うようになされている。
【００３８】
かくして、生徒信号生成フィルタ３７は教師オーディオデータ３０から所定の間引き処理により生徒オーディオデータＤ３７を生成し、これをピッチ検出部３１、クラス分類部抽出部３２及び予測演算部抽出部３３にそれぞれ供給する。
【００３９】
ピッチ検出部３１は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７について、図２及び図３について上述したピッチ（基本周波数）を生徒オーディオデータＤ３７の自己相関に基づいて検出する。
【００４０】
そしてピッチ検出部３１はカレントピッチＰＩＴ２に対応する前ピッチＰＩＴ１及び後ろピッチＰＩＴ３を検出すると、これらを切り出すための切り出し制御信号ＣＯＮＴ３１を可変クラス分類部抽出部３２及び可変予測演算部抽出部３３に供給する。
【００４１】
可変クラス分類部抽出部３２は切り出し制御信号ＣＯＮＴ３１に基づいて、前ピッチＰＩＴ１に対応するクラスタップＣＬ１、カレントピッチＰＩＴ２に対応するクラスタップＣＬ２及び後ろタップＰＩＴ３に対応するクラスタップＣＬ３を生徒オーディオデータＤ３７から切り出し、これらをクラスタップデータＤ３２としてクラス分類部３４に供給する。
【００４２】
クラス分類部３４は、クラス分類抽出部３２において切り出されたクラスタップについて、当該クラスタップを圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、クラスタップデータＤ３２の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００４３】
ＡＤＲＣ回路部はクラスタップデータＤ３２に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００４４】
具体的には、包絡線波形上の６つの８ビットのデータ（クラスタップ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つのクラスタップに対して１ビットの量子化を実行すると、６つのクラスタップを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００４５】
ここで、ＡＤＲＣ回路部は、切り出された領域内のクラスタップ（オーディオ波形）のダイナミックレンジをＤＲ、ビット割り当をｍ、各クラスタップのデータレベルをＬ、量子化コードをＱとして、上述の（１）式と同様の演算により、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。かくしてオーディオ波形上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００４６】
このようにして圧縮されたオーディオ波形データ（クラスタップ）をそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データｑ_nに基づいて、上述の（２）式と同様の演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass をクラスコードデータＤ３４として予測係数算出部３６に供給する。因みに（２）式において、ｎは圧縮されたオーディオ波形データ（クラスタップ）ｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００４７】
このようにして、クラス分類部３４はクラスコードデータＤ３４を生成し、これを予測係数算出部３６に供給する。また、予測係数算出部３６には、予測演算部抽出部３３においてピッチ検出部１１から供給される切り出し制御信号ＣＯＮＴ１１に応じて切り出された予測演算しようとするオーディオ波形データ（予測タップ）Ｄ１３（ｘ₁〜ｘ_n）が供給される。
【００４８】
予測係数算出部３６は、クラス分類部３４から供給されたクラスコードclass と、各クラスコードclass 毎に切り出された予測タップＤ３３と、入力端Ｔ_INから供給された高音質の教師オーディオデータＤ３０とを用いて、正規方程式を立てる。
【００４９】
すなわち、生徒オーディオデータＤ３７のｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_nとして、それぞれにｐビットのＡＤＲＣを行った結果の量子化データをｑ₁、……、ｑ_nとする。このとき、この領域のクラスコードclass ′を上述の（２）式のように定義する。そして、上述のように生徒オーディオデータＤ３７のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nとし、高音質の教師オーディオデータＤ３０のレベルをｙとしたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定する。これを次式、
【００５０】
【数４】

【００５１】
とする。学習前は、ｗ_nが未定係数である。
【００５２】
学習回路３０では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がＭの場合、上述の（４）式に従って、次式、
【００５３】
【数５】

【００５４】
が設定される。但しｋ＝１、２、……Ｍである。
【００５５】
Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは一意的に決まらないので、誤差ベクトルｅの要素を次式、
【００５６】
【数６】

【００５７】
によって定義し（但し、ｋ＝１、２、……、Ｍ）、次式、
【００５８】
【数７】

【００５９】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【００６０】
ここで、（７）式によるｗ_nの偏微分係数を求める。この場合、次式、
【００６１】
【数８】

【００６２】
を「０」にするように、各ｗ_n（ｎ＝１〜６）を求めれば良い。
【００６３】
そして、次式、
【００６４】
【数９】

【００６５】
【数１０】

【００６６】
のように、Ｘ_ij、Ｙ_iを定義すると、（８）式は行列を用いて次式、
【００６７】
【数１１】

【００６８】
として表される。
【００６９】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではｎ＝６である。
【００７０】
全ての学習用データ（教師オーディオデータＤ３０、クラスコードclass 、予測タップＤ３３）の入力が完了した後、予測係数算出部３６は各クラスコードclass に上述の（１１）式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Ｗ_nについて解き、各クラスコード毎に、予測係数を算出する。予測係数算出部３６は、算出された各予測係数（Ｄ３６）を予測係数メモリ１５に書き込む。
【００７１】
このような学習を行った結果、予測係数メモリ１５には、量子化データｑ₁、……、ｑ₆で規定されるパターン毎に、高音質のオーディオデータｙを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ１５は、図１について上述したオーディオ信号処理装置１０において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【００７２】
このように、学習回路３０は、オーディオ信号処理装置１０において補間処理を行う程度を考慮して、生徒信号生成フィルタ３７で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置１０における補間処理のための予測係数を生成することができる。
【００７３】
以上の構成において、オーディオ信号処理装置１０は、入力オーディオデータＤ１０のピッチをピッチ検出部１１において検出することにより、入力オーディオデータＤ１０のうち、特に規則性を持った波形部分を抽出することができる。
【００７４】
かかる規則性を持った波形部分（ピッチ）は、例えば人間の声では同じ音素であっても個人毎に異なり、この部分を正確に切り出してクラス分類することにより、個人毎に異なるオーディオ波形の特徴が一段と明確にクラス分けされる。
【００７５】
このように、オーディオ波形の特徴を明確にクラス分けし、当該クラス分類結果に基づく予測演算を行うことにより、オーディオ波形の再現性が向上し、音質の向上が図られる。
【００７６】
以上の構成によれば、ピッチの検出結果に基づいてタップの切り出し範囲を制御するようにしたことにより、入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１６に変換することができる。
【００７７】
なお上述の実施の形態においては、オーディオ信号処理装置１０及び学習回路３０において、ピッチ検出部１１、３１で検出されたピッチサイズとその位置とをピッチクラスとして可変クラス分類部抽出部１２、３２に供給する場合について述べたが、本発明はこれに限らず、例えば図１及び図６との対応部分に同一の符号を付して示す図７及び図８に示すように、ピッチ検出部１１′、３１′で検出されたピッチ数をピッチクラスデータＤ１１、Ｄ３１としてクラス分類部１４′及び３４′に供給するようにしても良い。
【００７８】
この場合、クラス分類部１４′及び３４′は、可変クラス分類部抽出部１２から供給されるピッチクラスデータＤ１１、Ｄ３１と同様の時間領域に分割されたクラスタップデータＤ１２、Ｄ３２のクラスコードclass と、ピッチクラスデータＤ１１、Ｄ３１のクラスコードCLASS とを対応させて統合したクラスコードデータ（class ′）Ｄ１４、Ｄ３４を生成する。
【００７９】
このようにピッチ検出部１１′、３１′で検出されたピッチ数をピッチクラスデータＤ１１、Ｄ３１としてクラス分類部１４′及び３４′に供給するようにすれば、クラス分類の頻度を一段と多くすることができ、かくして、クラス分類された結果に基づく予測係数を用いて入力オーディオデータの予測演算を行うオーディオ信号処理装置１０は、一段と高音質のオーディオデータに変換することができる。
【００８０】
また上述の実施の形態においては、オーディオ波形のピッチを検出する方法として自己相関を用いる場合について述べたが、本発明はこれに限らず、例えばオーディオ波形に対してフーリエ変換を施すケプストラム分析やパターン認識等、他の種々の方法を適用することができる。
【００８１】
また上述の実施の形態においては、入力オーディオデータＤ１０の時間軸領域の波形について、ピッチ検出及びクラス分類を行う場合について述べたが、本発明はこれに限らず、周波数領域に展開してピッチ検出、クラス分類を行うようにしても良い。
【００８２】
また上述の実施の形態においては、クラス分類のためのタップの切り出しサイズと、予測演算用のタップの切り出し領域とを同一サイズとした場合について述べたが、本発明はこれに限らず、クラス分類用のタップの切り出しサイズと予測演算用のタップの切り出しサイズは異なるようにしても良く、さらには、ピッチ検出部１１において検出された自己相関の強さに応じて切り出しサイズを変化させるようにしても良い。この場合、例えば自己相関が強い程切り出しサイズを大きくすることができる。
【００８３】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法等の種々の予測方式を適用することができる。
【００８４】
また上述の実施の形態においては、クラス分類部１４においてＡＤＲＣにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化（ＤＰＣＭ:Differrential Pulse Code Modulation) 又はベクトル量子化（ＶＱ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【００８５】
また上述の実施の形態においては、学習回路３０の生徒信号生成フィルタ３７において教師オーディオデータＤ３０から所定サンプルを間引く場合について述べたが、本発明はこれに限らず、例えばビット数を間引く等、他の種々の方法を適用することができる。
【００８６】
【発明の効果】
上述のように本発明によれば、ディジタルオーディオ信号のピッチを検出し、当該検出したピッチに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図１】本発明によるディジタル信号処理装置の構成を示すブロック図である。
【図２】ディジタルオーディオ信号のピッチの説明に供する信号波形図である。
【図３】ピッチの無いディジタルオーディオ信号の処理の説明に供する信号波形図である。
【図４】オーディオ信号処理装置の構成を示すブロック図である。
【図５】オーディオ信号変換処理手順を示すフローチャートである。
【図６】本発明による学習装置の構成を示すブロック図である。
【図７】他の実施の形態によるディジタル信号処理装置の構成を示すブロック図である。
【図８】他の実施の形態による学習装置の構成を示すブロック図である。
【符号の説明】
１０……オーディオ信号処理装置、１１、３１……ピッチ検出部、１４、３４……クラス分類部、１５……予測係数メモリ、１６……予測演算部、３６……予測係数算出部、３７……生徒信号生成フィルタ。

Claims

ディジタルオーディオ信号を変換するディジタル信号処理装置において、
上記ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいてそのクラスを分類するクラス分類手段と、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
を具えることを特徴とするディジタル信号処理装置。
上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
ことを特徴とする請求項１に記載のディジタル信号処理装置。
ディジタルオーディオ信号を変換するディジタル信号処理方法において、
上記ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を具えることを特徴とするディジタル信号処理方法。
上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
ことを特徴とする請求項３に記載のディジタル信号処理方法。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいてそのクラスを分類するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を具えることを特徴とする学習装置。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を具えることを特徴とする学習方法。
上記ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいてそのクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。