JP3967571B2 - Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program - Google Patents
Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program Download PDFInfo
- Publication number
- JP3967571B2 JP3967571B2 JP2001278292A JP2001278292A JP3967571B2 JP 3967571 B2 JP3967571 B2 JP 3967571B2 JP 2001278292 A JP2001278292 A JP 2001278292A JP 2001278292 A JP2001278292 A JP 2001278292A JP 3967571 B2 JP3967571 B2 JP 3967571B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- waveform
- gain
- pitch
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、文字データ等から音声波形を合成する音声合成装置、当該音声合成装置による音声合成に用いられる音源波形を生成する音源波形生成装置、音源波形生成方法および音源波形生成処理を行うためのプログラムに関する。
【0002】
【従来の技術】
従来より、人工的に音声を作り出す音声合成技術が種々提案されている。これらの音声合成技術では、音声の生成過程を声帯音源の生成、声道による調音といった2つの過程の組み合わせと考え、これらを工学モデルとして近似することにより音声合成を実現している。すなわち、声帯音源波形を生成し、当該音源波形に声道による調音に対応するフィルタ処理等を施すことにより音声波形を生成しているのである。例えば、線形予測分析(LPC:Linear Predictive Coding)を利用した音声合成装置は、有声音源および無声音源からなる音源波形発生装置と、声道フィルタとを備えており、音源波形発生装置の発したパルス波形に対し、声道フィルタが発音すべき内容に応じたフィルタリングを施すことにより発音すべき音声に対応する音声波形を合成している。
【0003】
【発明が解決しようとする課題】
ところで、上記のような音声合成に用いられる音源波形発生装置は、発生すべき音声に応じたピッチ情報およびゲイン情報に忠実にしたがったパルス波形をフレーム単位で生成し、このフレーム単位で生成したパルス波形を音源波形として声道フィルタに出力している。しかしながら、ピッチ情報等に忠実にしたがって生成される音源波形は画一的であるため、この音源波形を用いて生成した音声には、実際の人が発する音声の自然さが失われたものとなる虞が高い。すなわち、実際の人が発する音声の声帯波形は、ピッチやゲイン等に不規則な微妙なゆらぎを含んでおり、このようなゆらぎ方やゆらぎの度合いによって「しわがれ声」や「だみ声」といったふうに称される特徴のある声が発せられることもある(「しわがれ声と称されない声でも、微妙なゆらぎはあり、人の発する声には程度の差はあるけれども、微妙なしわがれ度合いを含んでいるといえる)。これに対し、上記のようなピッチ情報等にしたがってフレーム単位で画一的な、つまりフレーム内においてピッチやゲインにゆらぎ等のない音源波形には、上記のような「自然さ」を印象付けるような要素(微妙なゆらぎ等)が含まれていない。このため、このような音源波形を基にして生成された音声は、「自然さ」のない音声になってしまう虞が高いのである。
【0004】
上記のような「自然さ」が欠落してしまうといった問題を解消するために、音源波形生成装置の生成した画一的なパルス波形に乱数等を用いてピッチやゲインにゆらぎを付与するといった方法も考えられる。しかしながら、このように乱数等を用いてゆらぎを付与した場合にも、そのゆらぎは人工的に付与されたものであり、このゆらぎが付与された音源波形を基に生成した音声に「自然さ」を持たせることができるとは限らず、かえって不自然な音声となってしまうこともある。
【0005】
本発明は、上記の事情を考慮してなされたものであり、より自然な印象を聴取者に与えることができる音声を合成する音声合成装置、音声合成装置に用いられる音源波形生成装置、音源波形生成方法、およびプログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
上述した課題を解決するために、本発明に係る音源波形生成装置は、音声波形を合成する際に用いられる音源波形を生成する装置であって、予め設定されたピッチの範囲毎に、予め定義された音声のしわがれ度に対応した、波形のピッチ、ゲインもしくは両者を補正するための複数の補正情報を記憶する記憶手段と、生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたピッチ情報に対応する範囲において、該入力されるしわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した該補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成する波形生成手段とを具備することを特徴としている。
また、本発明に係る音源波形生成装置は、音声波形を合成する際に用いられる音源波形を生成する装置であって、予め設定されたゲインの範囲毎に、予め定義された音声のしわがれ度に対応した、波形のピッチ、ゲインもしくは両者を補正するための複数の補正情報を記憶する記憶手段と、生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたゲイン情報に対応する範囲において、該入力されるしわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した該補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成する波形生成手段とを具備することを特徴とする。
【0007】
この構成では、音声合成に用いる音源波形を生成する際に、発音内容に応じて入力されるピッチ情報およびゲイン情報に忠実にしたがった波形ではなく、予め記憶手段に記憶されている補正情報に基づいて補正した音源波形を生成することができる。したがって、予め人の発した音声等の解析結果に応じて作成したピッチやゲインを補正するための情報を記憶手段に記憶させておくことができ、当該補正情報を利用することでより自然なピッチやゲインのゆらぎを含んだ音源波形を生成することができる。
【0008】
また、本発明に係る音声合成装置は、予め設定されたピッチの範囲または予め設定されたレベルの範囲毎に、予め定義された音声のしわがれ度に対応した、波形のピッチ、ゲインもしくは両者を補正するための補正情報を複数記憶する記憶手段と、発音すべき音声内容に基づいてピッチ情報、ゲイン情報およびしわがれ度情報を取得する情報取得手段と、前記情報取得手段によって取得されたピッチ情報またはゲイン情報に対応する前記範囲において、前記しわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した補正情報に基づいて前記情報取得手段によって取得された前記ピッチ情報および前記ゲイン情報を補正することにより音源波形を生成する波形生成手段と、前記波形生成手段によって生成された音源波形に対し、前記発音すべき音声内容にしたがったフィルタリングを施すことにより音声波形を合成する合成手段とを具備することを特徴とする。
【0009】
また、本発明に係る音源波形生成方法は、音声波形を合成する際に用いられる音源波形を生成する方法であって、予め設定されたピッチの範囲または予め設定されたレベルの範囲毎に、予め定義された音声のしわがれ度に対応した、波形のピッチ、ゲインもしくは両者を補正するための複数の補正情報を記憶手段に記憶させるとともに、生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたピッチ情報またはゲイン情報に対応する前記範囲において、該入力されるしわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成することを特徴とする。
【0010】
また、本発明に係るプログラムは、コンピュータを、予め設定されたピッチの範囲または予め設定されたレベルの範囲毎に、予め定義された音声のしわがれ度に対応した、波形のピッチ、ゲインもしくは両者を補正するための複数の補正情報を記憶した記憶手段から前記補正情報を読み出す手段と、生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたピッチ情報またはゲイン情報に対応する前記範囲において、該入力されるしわがれ度情報に対応した補正情報を前記読み出す手段によって読み出し、読み出した補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成する波形生成手段として機能させる。
【0011】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。
A.音声合成装置
まず、図1は本発明の一実施形態に係る音源波形生成装置を備えた音声合成装置の構成を示すブロック図である。同図に示すように、本実施形態において説明する音声合成装置100は、LPC合成技術を利用した音声合成装置であり、音声素片データベース(DB)10と、パラメータ決定部20と、音源波形生成装置30と、合成フィルタ40とを備えている。なお、本実施形態に係る音源波形生成装置30は、LPC合成技術を利用した音声合成装置に限らず、音源波形生成装置を構成要素とする様々な音声合成装置に適用することができる。
【0012】
この音声合成装置100においては、パラメータ決定部20には、発音対象となる言葉等を示した文書データが入力される。パラメータ決定部20は、入力される文書データ等に対して文書解析を行い、単語の読みやアクセント等の解析結果を得る。パラメータ決定部20は、音声素片データベース10の記憶内容を参照し、上記文書解析結果から、音声波形の合成に用いる種々のパラメータをフレーム毎に決定する。1フレームは、例えば5msecや10msecであり、当該フレーム間隔毎に上記文書解析結果に応じた特徴パラメータを取得し、取得した特徴パラメータを音源波形生成装置30や合成フィルタ40に出力する。
【0013】
音声素片データベース10には、予め人の発した音声波形を分析することにより得られた声帯音源波形、および声道による調音に関する種々の特徴パラメータが音素毎、あるいは音素および複数音素からなる音素連鎖毎に記憶されている。ここで、音声素片データベース10に記憶される特徴パラメータとしては、声帯音源波形に関するパラメータとして、ピッチ情報およびゲイン情報があり、調音に関するパラメータとしては声道特性情報等がある。パラメータ決定部20は、上記のような文書解析結果から、多数の音素等毎に記憶されている種々の特徴パラメータの中から特定の音素等に対応付けて記憶されている特徴パラメータを取得する。パラメータ決定部20は、上記のように文書解析結果に応じた特徴パラメータを取得すると、取得したピッチ情報およびゲイン情報を音源波形生成装置30に、声道特性情報を合成フィルタ40に出力する。また、パラメータ決定部20は、上記の文書解析結果に応じて有声音区間と無声音区間とを識別し、有声音区間であるか無声音区間であるかを示す有声・無声情報を音源波形生成装置30に出力する。
【0014】
また、本実施形態においては、図2に示すように、パラメータ決定部20に供給される文書データ中にその文書データによって示される文書を構成する音素、単語、文節等の所定の単位(図示の例では、単語単位)毎に、発音すべき声のしわがれ度合いを示すしわがれ度合いデータが含まれており、パラメータ決定部20は、このデータを参照してしわがれ度合いを示すしわがれ度情報H(補正度合い情報)を音源波形生成装置30に出力する。すなわち、パラメータ決定部20は、発音すべき音声に応じてフレーム間隔毎にピッチ情報P、ゲイン情報G、しわがれ度情報Hおよび声道特性情報を音源波形生成装置30や合成フィルタ40に出力するのである。
【0015】
図1に戻り、音源波形生成装置30は、パラメータ決定部20から供給されるフレーム間隔毎に供給されるピッチ情報P、ゲイン情報G、しわがれ度情報Hおよび有声・無声情報に基づいて音源波形を生成する。なお、音源波形生成装置30についての詳細は後述する。
【0016】
合成フィルタ40は、音源波形生成装置30から出力される音源波形に対し、パラメータ決定部20から供給される声道特性情報に応じたフィルタ処理を施し、処理後の波形を音声波形として出力する。このような音声波形がD/A変換器、アンプを介してスピーカに供給されることにより、人工的な音声が発音されるようになっている。本実施形態における音声合成装置は、音源波形生成装置30に特徴を有しており、合成フィルタ40等は従来の一般的なLPC合成技術を用いた音声合成装置と同様であるため、その詳細な説明を省略する。
【0017】
B.音源波形生成装置
以上が音声合成装置100の全体構成であり、以下、音源波形生成装置30について詳細に説明する。図1に示すように、音源波形生成装置30は、無声音源波形生成装置31と、有声音源波形生成装置32とを有しており、上記パラメータ決定部20からフレーム間隔毎に供給されるピッチ情報P、ゲイン情報G、しわがれ度情報Hおよび有声・無声情報に基づいて音源波形を生成する。
【0018】
無声音源波形生成装置31は、パラメータ決定部20から供給される有声・無声情報が無声区間であることを示している場合に、音源波形生成装置30から出力すべき音源波形を出力する。より具体的には、パラメータ決定部20から供給されるゲイン情報Gに応じたゲインの白色雑音波形を出力する。
【0019】
有声音源波形生成装置32は、有声音区間において音源波形生成装置30から出力される音源波形を生成する波形生成装置であり、パルス生成部33と、補正情報データベース34と、連続離散変換部35とを有している。パルス生成部33は、パラメータ決定部20からフレーム間隔毎に供給されるピッチ情報Pおよびゲイン情報Gにしたがってパルス波形を生成する。本実施形態においてパルス生成部33は、ピッチ情報Pおよびゲイン情報Gに忠実にしたがったパルス波形を生成するのではなく、補正情報データベース34の記憶内容を参照し、パラメータ決定部20から供給されるしわがれ度情報Hに基づいて、ピッチ情報Pおよびゲイン情報Gにしたがったパルス波形を補正するようになっている。
【0020】
補正情報データベース34には、上述したパルス生成部33によるパルス波形の生成に用いられる情報(補正情報)が格納されている。図3に示すように、補正情報データベース34には、複数のしわがれ度を表す値毎、図示の例では、「0.2」、「0.4」、「0.6」、「0.8」、「1.0」といったしわがれ度の値毎に用意された補正用テンプレートが格納されている。複数のしわがれ度を表す値毎に用意された補正用テンプレートには、Δゲイン情報、Δゲイン平均情報、Δピッチ情報、テンプレート時間情報とが含まれている。
【0021】
Δゲイン情報は、上述したようにパラメータ決定部20から供給されるピッチ情報Pおよびゲイン情報Gにしたがったパルス波形に含まれるパルスの各々のゲインを個別に補正するための情報であり、具体的には各パルスの補正ゲイン量(dB)を示す情報である。ここで、補正ゲイン量を示す情報は多数用意されており、その各々がフレーム開始時からの経過時間tと対応付けて記憶されている。したがって、あるフレームのパルス波形におけるフレーム開始時間から時間t1経過後に生成されるパルスのゲインは、時間t1に対応付けられた補正ゲイン量分だけ補正され、時間t2経過後に生成されるパルスのゲインは、時間t2に対応付けられた補正ゲイン量分だけ補正されるといった具合に補正されることになる。
Δゲイン平均情報は、上記各補正ゲイン量の平均値を示す情報である。
【0022】
Δピッチ情報は、パラメータ決定部20から供給されるピッチ情報Pにしたがったパルスの生成時間間隔を補正するための情報である。より具体的には、パラメータ決定部20から供給されるピッチ情報Pに忠実にしたがった時間間隔でパルス波形を生成する場合においてピッチ情報Pが周波数Fで表される時には、各パルスはFの逆数で表される時間間隔毎に生成されることになる。Δピッチ情報は、このようなピッチ情報Pに忠実にしたがった(1/F)時間間隔で生成される各パルスの生成タイミングを補正するための情報である。Δピッチ情報も、上記Δゲイン情報と同様、多数用意されており、その各々がフレーム開始時からの経過時間tと対応付けて、つまり数列として記憶されている。したがって、ピッチ情報Pに忠実にしたがった場合にあるフレームのパルス波形の時間t1経過後に生成されるべきパルスの生成タイミングは、上記数列の時間t1に対応付けられた補正量分だけ補正され、時間t2経過後に生成されるべきパルスの生成タイミングは、時間t2に対応付けられた補正量分だけ補正されるといった具合に補正されることになる。ここで、Δピッチ情報としては、生成タイミングをずらす時間情報を記憶するようにしてもよいし、該時間を逆数で表した周波数情報を記憶するようにしてもよいし、該周波数をセント値に変換した情報を記憶するようにしてもよい。なお、以下の説明においては、Δピッチ情報が周波数を表す情報であることとする。
【0023】
テンプレート時間情報は、しわがれ度を示す値毎に用意されたテンプレートの時間を示す情報である。上述したようにΔゲイン情報に含まれる各ゲイン補正量や、Δピッチ情報に含まれる各ピッチの補正量は、各々時間tに対応付けられているが、この時間tが取り得る値は、当該テンプレート時間情報に示される値の範囲内となる。すなわち、図3に示す例において、しわがれ度が「0.2」のテンプレートの場合、0≦t≦T1となる。なお、各しわがれ度毎に用意されるテンプレートの時間長、つまりテンプレート時間情報は異なっていてもよいし、全て同じであってもよい。
【0024】
「しわがれ度」を表す値は、しわがれ度合いを示す値であり、その値が大きくなるほどしわがれ度合いが大きいことを示している。上記のようなΔゲイン情報、Δゲイン平均情報、Δピッチ情報およびテンプレート時間情報を含むテンプレートは、このようなしわがれ度合いを表す値毎に用意されているのである。
【0025】
次に、上記のようなしわがれ度合い毎に用意されるテンプレートの作成方法について説明する。まず、発声者がある音素を一定の時間にわたって一定の音高および強さで発声し、該発声音を録音する。発声者はこのような発声を「しわがれ度合い」が各々異なる声(異なる発声者でもよい)で5回行い、各々の録音結果から上記のように異なるしわがれ度に対応したテンプレートを作成する。
【0026】
ここで、当該テンプレートは音源波形生成装置30によって発せられる音源波形、すなわち人が発する声帯波形(声道による調音前の波形)をモデル化するためのものであるため、各しわがれ度合いに対応した声の録音結果から声帯波形部分を抽出し、該抽出した声帯波形のピッチ、ゲイン等の微妙なゆらぎを解析する。ここで、録音した音声波形から声帯波形を抽出する方法としては、LPCモデルに基づくカルマンフィルタを使用するといった公知の方法を用いることができる。そして、抽出した声帯波形の解析結果に基づき、該結果に示されるピッチやゲインの微妙なゆらぎを再現できるようなΔピッチ情報、Δゲイン情報等を含むテンプレートを作成する。より具体的には、当該声帯波形の平均ピッチ、平均ゲインを求め、該平均ゲインとの差分を求めることで、Δピッチ情報やΔゲイン情報を得ることができる。このようなテンプレート作成を上記のようにしわがれ度合いの異なる5回の録音結果の各々について行うことにより、上記補正情報データベース34に格納する5つのしわがれ度に応じたテンプレートを作成することができる。
【0027】
なお、補正情報データベース34には、「0.2」、「0.4」、「0.6」、「0.8」、「1.0」といったしわがれ度を表す数値に応じたテンプレートを格納している。ここで、しわがれ度が「0.2」に対応するテンプレートは、5回の発声のうち最もしわがれ度合いが少ないと思われる声の解析結果に基づいて作成され、「1.0」に対応するテンプレートは最もしわがれ度合いの大きいと思われる声の解析結果に基づいて作成されることになる。
【0028】
また、上述したように発声した音声の録音結果に基づいてテンプレートを作成する方法以外にも次のような方法でテンプレートを作成することもできる。すなわち、上記方法においては、音声波形からカルマンフィルタ等を用いて声帯波形を抽出していたが、発声者の喉頭に電極を設け、当該発声者によるしわがれ度合いの異なる5回の発声の際に当該電極によって検出される振動を声帯波形として抽出するようにしてもよい。より具体的には、発声時に電極に微弱な電流を流し、声帯の開閉に伴って変化する抵抗値を検出することにより、声帯の振動を検出し、該抽出した声帯波形を解析してテンプレートを作成するようにしてもよい。
【0029】
以上が補正情報データベース34に格納される情報の作成方法であり、パルス生成部33は、このような補正情報データベース34に格納される情報に基づいて、パラメータ決定部20から供給されるピッチ情報Pおよびゲイン情報Gに忠実にしたがったパルス波形を補正し、補正後の波形を連続離散変換部35に出力するのである。
【0030】
次に、図4を参照しながら、パルス生成部33による補正情報データベース34に格納される情報に基づく補正を含んだ音源波形の生成処理内容について説明する。パルス生成部33は、フレーム間隔毎にパラメータ決定部20から供給されるピッチ情報Pおよびゲイン情報Gに基づいて仮パルス列を生成する。例えば先頭フレームAについてピッチ情報Pとしてf1、ゲイン情報Gとしてg1が供給され、次のフレームBについてピッチ情報Pとしてf2、ゲイン情報Gとしてg2が供給された場合には、パルス生成部33によって図4に示すような仮パルス列を生成する。
【0031】
同図の上段に示すように、先頭のフレームAについては、ピッチ情報P(=f1)およびゲイン情報G(=g1)に忠実に従い、等しい時間間隔a毎に、ゲインg1のパルスを生成する。ここで、a=1/f1である。
【0032】
次に、上記先頭のフレームAに続くフレームBについても、上記フレームAと同様、ピッチ情報Pおよびゲイン情報Gに忠実にしたがったパルス列を生成するようにしてもよいが、本実施形態では各フレーム間のピッチ変動を滑らかにし、より自然な音声波形を生成するために、先頭以外のフレームについては、前のフレームのピッチと現在のフレームのピッチとを直線補間したピッチを用いて仮パルス列を生成する。
【0033】
より具体的には、前のフレーム(ここでは、フレームA)の最後に発生させたパルスの発生時刻をLT、時刻をt、現在のフレームの終端の時刻とLTとの差をTfとすると、後続フレームBのパルス生成時間間隔dTは以下の式で求められる。
【数1】
【0034】
フレームBにおいてパルスを生成する毎に、上記式により前パルスとの時間間隔dTを求め、前パルスの生成時刻からdT経過後に次のパルスを生成し、この結果、図4の上段に示すパルス列が生成されるのである。図示の場合、フレームBのピッチ情報Pに示されるf2が前フレームAのピッチ情報Pに示されるf1より小さいので、図示のようにフレームBにおけるパルス生成時間間隔が徐々に大きくなっていくことになる。すなわち、図4の下段に示すように、フレームBの終端においてピッチがf2となるように、直線的にピッチが変動するようになっているのである。
【0035】
パルス生成部33は、以上のようにしてパラメータ決定部20からフレーム間隔毎に供給されるピッチ情報Pおよびゲイン情報Gに基づいて仮パルス列を生成すると、当該仮パルス列(波形)を、パラメータ決定部20から供給されるしわがれ度情報Hに基づいて補正することになる。以下、このようなしわがれ度情報Hに基づく仮パルス列に対する補正処理の内容について図5および図6を参照しながら説明する。なお、以下においては、先頭フレームAについてしわがれ度情報h1が供給され、次のフレームBについてしわがれ度情報h2(h1と異なる)が供給された場合における補正処理の内容について説明することとする。
【0036】
図5に示すように、フレームAについては、しわがれ度情報h1が供給されているので、パルス生成部33は、補正情報データベース34に格納されたh1に対応するテンプレートを参照し、フレームAに含まれる各パルスのゲインを補正する。ここで、h1=0.4の場合には、補正情報データベース34(図3参照)の「しわがれ度」=「0.4」に対応付けられたテンプレートにおけるΔゲイン情報dG2(t)がフレームAにおけるパルスのゲイン補正に用いられる。したがって、フレームAの開始時からt1経過後のパルスに生成されるゲインg1は、dG2(t1)分だけ補正される(図中の黒点から×印に補正される。以下のパルスについても、補正前のゲインを黒点、補正後のゲインを×印で示す)。同様に、t2経過後に生成されるパルスのゲインg1は、dG2(t2)分だけ補正され、t3経過後に生成されるパルスのゲインg1は、dG2(t3)分だけ補正される。以降のタイミングで生成されるパルスについても、フレーム開始時からの経過時刻に応じたゲイン補正量分だけ補正される。
【0037】
次に、フレームBについては、しわがれ度h2が供給されているので、パルス生成部33は、補正情報データベース34に格納されたh2に対応するテンプレートを参照し、フレームBに含まれる各パルスのゲインを補正する。ここで、h1=0.6の場合には、補正情報データベース34の「しわがれ度」=「0.6」に対応付けられたテンプレートにおけるΔゲイン情報dG3(t)がフレームBにおけるパルスのゲイン補正に用いられる。したがって、フレームBの開始時からt8経過後のパルスに生成されるゲインg2は、dG3(t8)分だけ補正される。同様に、t9経過後に生成されるパルスのゲインg2は、dG3(t9)分だけ補正され、t10経過後に生成されるパルスのゲインg2は、dG3(t10)分だけ補正される。以降のタイミングで生成されるパルスについても、フレーム開始時からの経過時刻に応じたゲイン補正量分だけ補正される。
【0038】
以上がパラメータ決定部20から供給されるピッチ情報Pおよびゲイン情報Gに基づいて生成された仮パルス列に含まれる各パルスのゲインを個別に補正する処理であり、次に、図6を参照しながらピッチの補正、つまり各パルスの生成タイミングの補正について説明する。
【0039】
同図に示すように、フレームAについては、しわがれ度情報h1(=0.4)が供給されているので、パルス生成部33は、補正情報データベース34に格納されたしわがれ度「0.4」に対応するテンプレートを参照し、フレームAに含まれる各パルスの生成タイミングを補正する。すなわち、Δピッチ情報df2(t)がフレームAにおけるパルスの生成タイミングの補正に用いられる。したがって、仮パルス列においてフレームAの開始時からt1経過後に生成されるパルスは、df2(t1)分だけその生成タイミングが補正される(図中の×印から四角印に補正される。本実施形態においては、df2(t)が周波数値として記憶されているので、当該周波数値の逆数である1/df2(t)時間だけ生成タイミングを補正することになる。以下のパルスについても、補正前の生成タイミングを×印、補正後のタイミングを四角印で示す)。同様に、仮パルス列においてt2経過後に生成されるパルスの生成タイミングは、1/df2(t2)分だけ補正され、t3経過後に生成されるパルスの生成タイミングは、1/df2(t3)分だけ補正される。仮パルス列において以降のタイミングで生成されるパルスについても、フレーム開始時からの経過時刻に応じた補正量分だけ生成タイミングが補正される。
【0040】
次に、フレームBについては、しわがれ度h2(=0.6)が供給されているので、パルス生成部33は、補正情報データベース34に格納されたしわがれ度「0.6」に対応するテンプレートを参照し、フレームBに含まれる各パルスの生成タイミングを補正する。すなわち、Δピッチ情報df3(t)がフレームBにおけるパルスの生成タイミングの補正に用いられる。したがって、仮パルス列においてフレームBの開始時からt8経過後に生成されるパルスは、df3(t8)分だけその生成タイミングが補正される。同様に、仮パルス列においてt9経過後に生成されるパルスの生成タイミングは、df3(t9)分だけ補正され、t10経過後に生成されるパルスの生成タイミングは、df3(t10)分だけ補正される。仮パルス列において以降のタイミングで生成されるパルスについても、フレーム開始時からの経過時刻に応じた補正量分だけ生成タイミングが補正される。
【0041】
以上のようにしてパルス生成部33は、パラメータ決定部20から供給されるしわがれ度情報Hに基づいて、パラメータ決定部20から供給されるピッチ情報Pおよびゲイン情報Gに基づいて生成された仮パルス列に含まれる各パルスのゲインおよび生成タイミングを個別に補正し、図7の下段に示すようなパルス波形を生成しているのである。
【0042】
なお、上記の補正処理の内容は、各フレームについて供給されるしわがれ度情報Hが補正情報データベース34に格納されているしわがれ度と同一である場合について説明したが、例えばしわがれ度情報が「0.3」や「0.5」といったように補正情報データベース34に格納されていない度合いを示すしわがれ度情報Hが供給されることもある。このように補正情報データベース34に格納されていないしわがれ度情報Hが供給された場合の補正処理について説明する。
【0043】
補正情報データベース34に格納されている以外のしわがれ度を示すしわがれ度情報Hが供給された場合、パルス生成部33は、以下のような手順でゲインの補正に用いる値を求める。
【0044】
まず、パルス生成部33は、供給されたしわがれ度情報Hに示されるしわがれ度の値h未満のしわがれ度であって、最大のしわがれ度に対応付けられたテンプレートを選択する。例えば供給されるしわがれ度情報Hの値hが0.3の場合には、しわがれ度「0.2」に対応するテンプレートを選択する(ステップ1)。
【0045】
次に、供給されたしわがれ度情報Hに示されるしわがれ度の値hに基づいて、以下の式(1)〜(5)のいずれかの式を選択し、選択した式により補間比率Rを求める(ステップ2)。
【数2】
【0046】
しわがれ度情報Hに示される値hに基づいて選択した式によって補間比率Rを求めると、求めた補間比率Rを用いて上記ステップ1で選択したテンプレートのΔゲイン情報に当該Rを乗算したものを、ゲインの補正に用いる値とする。例えば、上記ステップ1において、しわがれ度「0.2」に対応するテンプレートが選択された場合には、補正に用いるΔゲイン情報はR×dG1(t)である。
【0047】
以上のように補正情報データベース34に格納されている以外のしわがれ度を示すしわがれ度情報Hが供給された場合には、パルス生成部33は補間したΔゲイン情報を用いて仮パルス列を補正しているのである。
【0048】
また、図5および図6は、連続する2つのフレーム(フレームAおよびフレームB)について供給されるしわがれ度情報Hの値が異なり、補正情報データベース34に格納されたテンプレート時間情報がフレームよりも長い時間である場合の補正内容について説明するものであったが、連続するフレームについて同じしわがれ度情報Hが供給された場合、パルス生成部33は次のようにして補正処理を行う。
【0049】
図8に示すように、フレームAについては、図5に示す場合と同様、フレームAの開始時からの経過時間t1,t2〜t7に応じたゲイン補正量を用いて各パルスのゲインを補正する。次に、フレームBに含まれる各パルスについては、フレームAと同じしわがれ度に対応したテンプレートのΔゲイン情報、ここではdG2(t)を用い、tについてはフレームBの開始時ではなく、フレームAの開始時からの経過時間t’8、t’9〜t’12を利用する。すなわち、フレームBにおける各パルスのゲイン補正量は、先頭から順にdG2(t’8)、dG2(t’9)、dG2(t’10)、dG2(t’11)、dG2(t’12)となるのである。このようなゲイン補正量を用い、フレームBにおける各パルスのゲインを補正するのである。
【0050】
また、後続のフレームBに含まれる各パルスの生成タイミングについても、上記ゲインの補正と同様に、フレームBの開始時ではなく、フレームAの開始時からの経過時間t’8、t’9〜t’12を利用する。すなわち、フレームBにおける各パルスの生成タイミングの補正量は、先頭から順にdf2(t’8)、df2(t’9)、df2(t’10)、df2(t’11)、df2(t’12)となるのである。このような生成タイミングの補正量を用い、フレームBにおける各パルスの生成タイミングを補正するのである。
【0051】
また、図5および図6は、フレーム間隔よりも時間的に大きいテンプレート、つまりテンプレート時間情報に示される時間が1フレーム分の時間より大きい場合の補正内容について説明するものであったが、使用するテンプレートの時間がフレームの時間よりも小さい場合には、パルス生成部33は次のようにして補正処理を行う。
【0052】
図9に示すように、フレームAについて使用されるテンプレートの時間長がフレームAの時間長よりも小さい場合、パルス生成部33は、フレームAにおけるそのテンプレートの時間長を越えた部分については、そのテンプレートを繰り返し使用する。図示の例では、フレームAにおける5番目以降のパルスが、テンプレート時間以降の時間に生成されるパルスであり、これらのパルスについては、テンプレート時間終了時点からの経過時間t’5、t’6、t’7を用いることになる。すなわち、フレームAにおける5番目以降の各パルスのゲイン補正量は、dG2(t’5)、dG2(t’6)、dG2(t’7)となり、パルス生成部33はこのゲイン補正量分だけ各パルスのゲインを補正する。
【0053】
しわがれ度情報Hが補正情報データベース34に格納されたしわがれ度と一致しない場合、連続するフレームについてのしわがれ度情報Hが同じ場合、もしくはフレームの時間よりもテンプレート時間が短い場合などには、上記のようにしてパルス生成部33は、ゲインおよびピッチの補正量を求め、仮パルス列に含まれる各パルスのゲインおよび生成タイミングを個別に補正しているのである。
【0054】
上記のようにパルス生成部33によって生成されたパルス波形は、図1に示す連続離散変換部35に供給される。連続離散変換部35は、上述したパルス生成部33によって生成されるパルス波形の各パルスの生成時刻は連続時間で表されるものであったが、後段の合成フィルタ40によるディジタル信号処理においては、離散時間で表される波形に変換する必要がある。連続離散変換部35は、上記のようにパルス生成部33によって生成されたパルス波形を、離散時間で表される波形に変換する処理を行う。
【0055】
ところで、上述したようにパルス生成部33によって生成される連続時間で表されるパルス波形を離散時間で表される波形に変換する場合、連続時間を単に四捨五入等することにより離散時間に量子化するといった変換を行うと、パルスがサンプリング時にのみ発生することになる。したがって、サンプリング周波数を整数で割った値の周波数のみしか発生しなくなり、変換した波形においてピッチの誤差が生じてしまうことになる。さらに、図7に示すようなパルス波形の各パルスを周波数領域で見ると、全ての周波数で値を持つといった周波数特性を有することになるため、D/A変換すると折り返しノイズが発生してしまうことになる。
【0056】
以上のような問題点を考慮し、本実施形態における連続離散変換部35では、連続時間で表される波形(図7参照)を離散時間で表される波形に変換する際に、連続離散変換部35では、まずパルス生成部33によって生成されたパルス波形の各パルスを以下に示すsinc関数で表される波形に置き換える。
【数3】
【0057】
なお、上記式において、Gは置き換え対象となるパルスのゲインであり、tpは置き換え対象となるパルスの発生時刻であり、Tsはサンプリング周期である。
【0058】
次に、sinc関数に置き換えた波形をサンプリング周期Tsでサンプリングして離散時間で表される音源波形を得る。これにより、0〜fs/2(Hz)の周波数以外の帯域ではゲインが0となる波形が得られる。なお、fsはサンプリング周波数である。
【0059】
以上のような手順を踏むことにより連続離散変換部35では、パルス生成部33によって生成されたパルス波形を離散時間で表される波形に変換するが、図10に示すようなパルス波形がパルス生成部33から供給された場合にその変換の様子を図11および図12に示す。図10に示すように、このパルス波形には、振幅の異なる2つのパルスが存在しており、これらの各パルスの位置が上記sinc関数の中心位置となるように各パルスをsinc関数により表される波形に置き換えることにより、図11に示すような波形が得られる。このように各パルスをsinc関数に置き換えることによって得られる波形をサンプリング周波数fsでサンプリングすることによって、図12に示すような離散時間で表される波形を得ることができる。
【0060】
有声音源波形生成装置32は、有声音区間において以上のように連続離散変換部35によって変換された離散時間で表される音源波形を出力するのである。
【0061】
以上説明したように本実施形態に係る音源波形生成装置30では、予めしわがれ声を人が発した際に得られる声帯波形を解析することにより作成したピッチやゲインの微妙なゆらぎを再現するためのテンプレートを用い、ピッチ情報Pやゲイン情報Gにしたがって生成される波形における各パルスのピッチやゲインを補正したパルス波形を生成することができる。すなわち、補正情報データベース34に上記のような人の声帯波形の解析結果に基づいて作成したテンプレートを用いてパルス波形を補正することにより、人の発した自然な声(声帯波形)のピッチやゲインの微妙なゆらぎをより正確に再現した音源波形を生成することができる。これにより当該音源波形を用いて合成した音声波形によって発音される音は、より自然な印象を聴取者に与えることができるものとなる。
【0062】
また、本実施形態では、人の発したしわがれ度を含む自然な音声波形(声帯波形)が忠実に再現されるように、音源波形を構成する各パルスの各々に対して個別に補正を行っている。したがって、上記のように人の発した声を基にして各パルス毎に最適な量の補正を行うことにより、人の発した自然な声(声帯波形)のピッチやゲインの不規則なゆらぎをより正確に再現した音源波形を生成することができ、しわがれ度合いの含まれた人間の声の自然さをより正確に再現することが可能な音声波形を合成することができる。
【0063】
また、本実施形態では、補正情報データベース34に複数のしわがれ度に応じた各パルスを補正するためのテンプレートが用意されているので、様々なしわがれ度合いを有する人の声を選択的に再現することができる。すなわち、人の声は、その発生の仕方や、発声者によって声帯波形のピッチやゲインの微妙なゆらぎが異なり、この結果、聴取者にとっては発生される音声のしわがれ度が異なって聞こえるようになる。本実施形態では、上記のように複数のしわがれ度合いの異なる、つまり微妙なピッチやゲインのゆらぎ方の異なる音声を基に作成したテンプレートを補正情報データベース34に記憶しており、これを選択的に用いることにより、様々なしわがれ度合いの異なる人の音声をより自然に近い形で再現することができるのである。
【0064】
C.変形例
なお、本発明は、上述した実施形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
【0065】
(変形例1)
上述した実施形態においては、LPC合成技術を利用した音声合成装置に本発明を適用した場合について説明したが、本発明はこれに限らず、ピッチ情報Pおよびゲイン情報Gに基づいて音源波形を生成する音源波形生成装置を有する種々の音声合成装置に適用することが可能である。例えば、PARCOR合成装置に適用することも可能であるし、上記のように生成した時間領域の音源波形を周波数領域の波形に変換し、当該周波数領域の波形に対して声道特性等を反映させる合成処理を行い、合成処理後の波形を再度時間領域の波形に変換して出力するといった音声合成装置に適用することも可能である。
【0066】
(変形例2)
また、上述した実施形態においては、補正情報データベース34には、5つのしわがれ度に応じたテンプレートが記憶されていたが、補正情報データベース34に6種類以上のしわがれ度合いに応じたテンプレートを記憶しておくようにしてもよいし、4種類以下のしわがれ度合いに応じたテンプレートを記憶しておくようにしてもよい。
【0067】
また、図13に示すような構成の補正情報データベース34’を用いるようにしてもよい。同図に示すように、この補正情報データベース34’は、「0〜X(Hz)」、「X〜Y(Hz)」(X<Y)といったピッチ範囲毎に、上記実施形態と同様の5種類のしわがれ度合いに応じたテンプレートが記憶されている。各ピッチ範囲に応じた5種類のテンプレートは、上記実施形態と同様、各々のピッチ範囲内のピッチを有する人の発生音の声帯波形を解析することにより得られたものである。このようなピッチ範囲毎に記憶されたテンプレートを記憶した補正情報データベース34’を利用してパルス波形を補正する場合、パルス生成部33は、パラメータ決定部20から供給されるピッチ情報Pに示されるピッチがいずれのピッチ範囲の属するかを特定し、特定したピッチ範囲に対応付けられたテンプレートを用いパルス波形の補正を行うようにすればよい。例えば、図示のようなテンプレートが補正情報データベース34’に記憶されている場合において、ピッチ情報Pに示されるピッチが「X〜Y」範囲内の値であり、しわがれ度情報Hが「0.4」である場合には、Δゲイン情報dG12(t)、Δゲイン平均情報AG12、Δピッチ情報df12(t)、テンプレート時間情報T12といったテンプレートがパルスの補正の際に用いられることになる。
【0068】
また、図14に示すような構成の補正情報データベース34”を用いるようにしてもよい。同図に示すように、この補正情報データベース34”は、「0〜α(dB)」、「α〜β(dB)」(α<β)といったゲイン範囲毎に、上記実施形態と同様の5種類のしわがれ度合いに応じたテンプレートが記憶されている。各ゲイン範囲に応じた5種類のテンプレートは、上記実施形態と同様、各々のゲイン範囲内のゲインを有する人の発生音の声帯波形を解析することにより得られたものである。このようなゲイン範囲毎に記憶されたテンプレートを記憶した補正情報データベース34”を利用してパルス波形を補正する場合、パルス生成部33は、パラメータ決定部20から供給されるゲイン情報Gに示されるゲインがいずれのゲイン範囲の属するかを特定し、特定したゲイン範囲に対応付けられたテンプレートを用いて各パルスのゲイン補正を行うようにすればよい。
【0069】
また、男性の声および女性の声の各々の声帯波形について解析し、男性の声用および女性の声用のテンプレートを補正情報データベース34に記憶させるようにし、指定された性別にしたがってパルス波形の補正に用いるテンプレートを選択するようにしてもよい。
【0070】
(変形例3)
また、上述した実施形態においては、当該音声合成装置100に供給される文書データに含まれるしわがれ度合いデータに基づいて、パラメータ決定部20がしわがれ度情報Hを生成して音源波形生成装置30に供給するようにしていたが、しわがれ度合いについては、ユーザが操作パネル等を利用して指定するようにしてもよい。
【0071】
(変形例4)
また、上述した実施形態においては、文書データに基づいて音声を合成する音声合成装置100に本発明を適用した場合について説明したが、歌詞情報およびメロディ情報を含んだデータ(例えばカラオケデータ等)に基づいて歌唱音声を合成する歌唱音合成装置に本発明を適用するようにしてもよい。
【0072】
(変形例5)
上述した実施形態における音声合成装置100は、専用のハードウェア回路で構成するようにしてもよいが、図15に示すようなコンピュータシステムによるソフトウェアによって構成するようにしてもよい。同図に示すように、このコンピュータシステムは、装置全体を制御するCPU(Central Processing Unit)320、各種データ群やプログラム群を記憶するROM(Read Only Memory)321、ワークエリアとして使用されるRAM(Random Access Memory)322、各種データプログラム群を記憶するハードディスクやCD−ROM(Compact Disc Read Only Memory)ドライブ等の外部記憶装置323、キーボードやマウス等の操作部324、各種情報をユーザに表示する表示部325、D/A変換器326、アンプ327、スピーカ328を備えている。
【0073】
CPU320は、ROM321もしくはハードディスク等の外部記憶装置323に記憶されている補正情報データベース34を構成する各種データ群を用い、ROM321もしくはハードディスク等の外部記憶装置323に記憶されたプログラムにしたがって上記実施形態と同様に各パルスに対してゲインやピッチを補正した音源波形を生成し、該音源波形に対して声道特性に応じた合成処理を行って音声波形信号を合成する。
【0074】
そして、CPU320は、合成した音声波形信号をD/A変換器326に出力する。D/A変換器326では音声波形信号がアナログ信号に変換され、アナログ信号アンプ327によって増幅された後、スピーカ328から放音される。
【0075】
このように上記実施形態に係る音源波形生成装置を備えた音声合成装置は、コンピュータシステムによるソフトウェアによって構成することが可能であり、上記実施形態と同様の音声合成処理をコンピュータシステムに実行させるためのプログラムの形態でユーザに提供するようにしてもよい。このようなプログラムの提供方法としては、CD−ROMやフロッピーディスク等の各種記録媒体に記憶して提供する方法や、インターネット等の通信回線を介して提供する方法等がある。
【0076】
【発明の効果】
以上説明したように、本発明によれば、より自然な印象を聴取者に与えることができる音声波形を合成することが可能となる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る音源波形生成装置を備えた音声合成装置の構成を示すブロック図である。
【図2】 前記音声合成装置による音声合成に用いられる文書データを説明するための図である。
【図3】 前記音源波形生成装置の構成要素である補正情報データベースに格納されるデータの内容を説明するための図である。
【図4】 前記音源波形生成装置による音源波形生成処理の内容を説明するための図である。
【図5】 前記音源波形生成装置による音源波形生成処理の内容を説明するための図である。
【図6】 前記音源波形生成装置による音源波形生成処理の内容を説明するための図である。
【図7】 前記音源波形生成装置による音源波形生成処理の内容を説明するための図である。
【図8】 前記音源波形生成装置による他の音源波形生成処理の内容を説明するための図である。
【図9】 前記音源波形生成装置によるその他の音源波形生成処理の内容を説明するための図である。
【図10】 前記音源波形生成装置によって生成された連続時間で表された音源波形を離散時間で表される波形に変換する様子を説明するための図である。
【図11】 前記音源波形生成装置によって生成された連続時間で表された音源波形を離散時間で表される波形に変換する様子を説明するための図である。
【図12】 前記音源波形生成装置によって生成された連続時間で表された音源波形を離散時間で表される波形に変換する様子を説明するための図である。
【図13】 前記音源波形生成装置の変形例における補正情報データベースに格納されるデータの内容を説明するための図である。
【図14】 前記音源波形生成装置の他の変形例における補正情報データベースに格納されるデータの内容を説明するための図である。
【図15】 前記音声合成装置と同様の処理をソフトウェアにより実現するためのコンピュータシステムのハードウェア構成を示すブロック図である。
【符号の説明】
10……音声素片データベース、20……パラメータ決定部、30……音源波形生成装置、31……無声音源波形生成装置、32……有声音源波形生成装置、33……パルス生成部、34……補正情報データベース、35……連続離散変換部、40……合成フィルタ、100……音声合成装置、320……CPU、321……ROM、322……RAM、323……外部記憶装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesizer that synthesizes a speech waveform from character data or the like, a sound source waveform generation device that generates a sound source waveform used for speech synthesis by the speech synthesizer, a sound source waveform generation method, and a sound source waveform generation process. Regarding the program.
[0002]
[Prior art]
Conventionally, various speech synthesis techniques for artificially generating speech have been proposed. In these speech synthesis technologies, the speech generation process is considered as a combination of two processes such as vocal cord sound source generation and articulation by the vocal tract, and speech synthesis is realized by approximating these as an engineering model. That is, a vocal cord sound source waveform is generated, and a voice waveform is generated by performing filtering processing or the like corresponding to articulation by the vocal tract on the sound source waveform. For example, a speech synthesizer using linear predictive analysis (LPC) includes a sound source waveform generation device including a voiced sound source and an unvoiced sound source, and a vocal tract filter, and a pulse generated by the sound source waveform generation device. A voice waveform corresponding to the voice to be pronounced is synthesized by filtering the waveform according to the content to be pronounced by the vocal tract filter.
[0003]
[Problems to be solved by the invention]
By the way, the sound source waveform generator used for speech synthesis as described above generates a pulse waveform in accordance with pitch information and gain information according to the speech to be generated in units of frames, and the pulses generated in units of frames. The waveform is output to the vocal tract filter as a sound source waveform. However, since the sound source waveform generated in accordance with the pitch information and the like is uniform, the sound generated by using this sound source waveform loses the naturalness of the sound generated by the actual person. There is a high risk. In other words, the vocal fold waveform of voices uttered by an actual person includes irregular fluctuations that are irregular in pitch, gain, etc., and depending on the way of fluctuation and the degree of fluctuation, such as “wrinkled voice” and “dull voice” The voice with the characteristic that is called may be uttered ("The voice that is not called the wrinkled voice also has a subtle fluctuation, and the voice that the person utters has a degree of difference, but it includes a subtle degree of awkwardness." On the other hand, a sound source waveform that is uniform in units of frames according to the pitch information as described above, that is, with no fluctuation in pitch or gain in the frame, has the “naturalness” as described above. There are no elements (such as subtle fluctuations) that make the impression. For this reason, the voice generated based on such a sound source waveform has a high possibility of becoming a voice without “naturalness”.
[0004]
In order to eliminate the above-mentioned problem of “naturalness” being lost, a method of adding fluctuations to pitch and gain using a random number or the like to the uniform pulse waveform generated by the sound source waveform generation device Is also possible. However, even when fluctuations are given using random numbers and the like, the fluctuations are artificially given, and “naturalness” is added to the sound generated based on the sound source waveform to which the fluctuations are given. May not be able to be given, but may result in unnatural sound.
[0005]
The present invention has been made in consideration of the above circumstances, and is a speech synthesizer that synthesizes speech that can give a listener a more natural impression, a sound source waveform generation device used in the speech synthesizer, and a sound source waveform It is an object to provide a generation method and a program.
[0006]
[Means for Solving the Problems]
In order to solve the above-described problem, a sound source waveform generation device according to the present invention is a device that generates a sound source waveform used when a speech waveform is synthesized, For each preset pitch range, For correcting the pitch, gain, or both of the waveform corresponding to the pre-defined degree of speech plural Storage means for storing correction information, and pitch information, gain information and wrinkle degree information of the waveform to be generated are input, In a range corresponding to the input pitch information, Waveform generation means for generating a sound source waveform by reading correction information corresponding to the input wrinkle degree information from the storage means and correcting the input pitch information and gain information based on the read correction information It is characterized by comprising.
A sound source waveform generation device according to the present invention is a device that generates a sound source waveform used when a speech waveform is synthesized, For each preset gain range, For correcting the pitch, gain, or both of the waveform corresponding to the pre-defined degree of speech plural Storage means for storing correction information, and pitch information, gain information and wrinkle degree information of the waveform to be generated are input, In a range corresponding to the input gain information, Waveform generation means for generating a sound source waveform by reading correction information corresponding to the input wrinkle degree information from the storage means and correcting the input pitch information and gain information based on the read correction information It is characterized by comprising.
[0007]
In this configuration, when generating a sound source waveform to be used for speech synthesis, the waveform is not based on the pitch information and gain information input according to the pronunciation content, but based on correction information stored in advance in the storage unit. The sound source waveform corrected in this way can be generated. Therefore, information for correcting the pitch and gain created in advance according to the analysis result of speech or the like generated by a person can be stored in the storage means, and a more natural pitch can be obtained by using the correction information. And a sound source waveform including fluctuations in gain can be generated.
[0008]
The speech synthesizer according to the present invention For each preset pitch range or preset level range, Correction information for correcting the pitch, gain, or both of the waveform corresponding to the pre-defined degree of voice wrinkle Multiple Storage means for storing, information acquisition means for acquiring pitch information, gain information and wrinkle degree information based on the audio content to be pronounced, and acquired by the information acquisition means In the range corresponding to pitch information or gain information, Waveform generation for generating a sound source waveform by reading correction information corresponding to the wrinkle degree information from the storage unit and correcting the pitch information and the gain information acquired by the information acquisition unit based on the read correction information And a synthesizing unit that synthesizes a speech waveform by filtering the sound source waveform generated by the waveform generating unit according to the speech content to be pronounced.
[0009]
A sound source waveform generation method according to the present invention is a method for generating a sound source waveform used when a speech waveform is synthesized, For each preset pitch range or preset level range, For correcting the pitch, gain, or both of the waveform corresponding to the pre-defined degree of speech plural The correction information is stored in the storage means, and the pitch information, gain information, and wrinkle degree information of the waveform to be generated are input, In the range corresponding to the input pitch information or gain information, Correction information corresponding to the input wrinkle degree information is read from the storage means, and a sound source waveform is generated by correcting the input pitch information and gain information based on the read correction information. To do.
[0010]
Further, a program according to the present invention provides a computer, For each preset pitch range or preset level range, For correcting the pitch, gain, or both of the waveform corresponding to the pre-defined degree of speech plural A means for reading out the correction information from the storage means storing the correction information, and pitch information, gain information and wrinkle degree information of the waveform to be generated are input, In the range corresponding to the input pitch information or gain information, Waveform generation means for generating a sound source waveform by reading correction information corresponding to the input wrinkle degree information by the reading means and correcting the input pitch information and gain information based on the read correction information. Make it work.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
A. Speech synthesizer
First, FIG. 1 is a block diagram showing a configuration of a speech synthesizer including a sound source waveform generation device according to an embodiment of the present invention. As shown in the figure, a speech synthesizer 100 described in the present embodiment is a speech synthesizer using LPC synthesis technology, and includes a speech segment database (DB) 10, a
[0012]
In the speech synthesizer 100, document data indicating words or the like to be pronounced is input to the
[0013]
In the
[0014]
Further, in the present embodiment, as shown in FIG. 2, predetermined units such as phonemes, words, phrases, etc. constituting the document indicated by the document data in the document data supplied to the parameter determination unit 20 (shown in FIG. 2). In the example, for each word), there is included wrinkle degree data indicating the degree of wrinkle of the voice to be pronounced, and the
[0015]
Returning to FIG. 1, the sound source waveform generation device 30 generates a sound source waveform based on pitch information P, gain information G, wrinkle degree information H, and voiced / unvoiced information supplied for each frame interval supplied from the
[0016]
The
[0017]
B. Sound source waveform generator
The above is the overall configuration of the speech synthesizer 100, and the sound source waveform generator 30 will be described in detail below. As shown in FIG. 1, the sound source waveform generation device 30 includes an unvoiced sound source
[0018]
The unvoiced sound source
[0019]
The voiced sound source waveform generation device 32 is a waveform generation device that generates a sound source waveform output from the sound source waveform generation device 30 in a voiced sound section, and includes a
[0020]
The
[0021]
The Δ gain information is information for individually correcting the gain of each pulse included in the pulse waveform according to the pitch information P and the gain information G supplied from the
The Δ gain average information is information indicating the average value of each correction gain amount.
[0022]
The Δ pitch information is information for correcting the pulse generation time interval according to the pitch information P supplied from the
[0023]
The template time information is information indicating the time of the template prepared for each value indicating the wrinkle degree. As described above, each gain correction amount included in the Δ gain information and each pitch correction amount included in the Δ pitch information are associated with time t. It is within the range of values indicated in the template time information. That is, in the example shown in FIG. 3, 0 ≦ t ≦ T1 in the case of a template with a degree of crease of “0.2”. It should be noted that the time length of the template prepared for each wrinkle degree, that is, the template time information may be different or all may be the same.
[0024]
The value indicating the “wrinkle degree” is a value indicating the degree of wrinkle, and the greater the value, the greater the degree of wrinkle. The template including the Δ gain information, Δ gain average information, Δ pitch information, and template time information as described above is prepared for each value representing the degree of such wrinkling.
[0025]
Next, a method for creating a template prepared for each degree of wrinkling will be described. First, a speaker speaks a phoneme for a certain period of time with a certain pitch and intensity, and records the uttered sound. The speaker performs such utterance five times with voices having different “wrinkle levels” (may be different speakers), and creates a template corresponding to the different levels of squeeze as described above from each recording result.
[0026]
Here, since the template is for modeling a sound source waveform emitted by the sound source waveform generation device 30, that is, a vocal cord waveform (a waveform before articulation by the vocal tract) emitted by a person, a voice corresponding to each degree of cramping. Is extracted from the recorded result, and subtle fluctuations such as pitch and gain of the extracted vocal cord waveform are analyzed. Here, as a method for extracting the vocal cord waveform from the recorded speech waveform, a known method such as using a Kalman filter based on the LPC model can be used. Then, based on the analysis result of the extracted vocal cord waveform, a template including Δ pitch information, Δ gain information, and the like that can reproduce subtle fluctuations in pitch and gain indicated in the result is created. More specifically, Δ pitch information and Δ gain information can be obtained by obtaining an average pitch and an average gain of the vocal cord waveform and obtaining a difference from the average gain. By performing such template creation for each of the five recording results having different degrees of wrinkles as described above, templates corresponding to the five wrinkle degrees stored in the
[0027]
The
[0028]
In addition to the method of creating a template based on the recording result of the voice uttered as described above, the template can be created by the following method. That is, in the method described above, the vocal cord waveform is extracted from the speech waveform using a Kalman filter or the like, but an electrode is provided on the larynx of the speaker, and the electrode is used when the speaker speaks five times with different degrees of wrinkling. May be extracted as a vocal cord waveform. More specifically, a weak current is passed through the electrodes during vocalization, and a resistance value that changes with the opening and closing of the vocal cords is detected, thereby detecting vibration of the vocal cords and analyzing the extracted vocal cord waveform to obtain a template. You may make it create.
[0029]
The above is a method for creating information stored in the
[0030]
Next, with reference to FIG. 4, the contents of a sound source waveform generation process including correction based on information stored in the
[0031]
As shown in the upper part of the figure, for the first frame A, pulses of gain g1 are generated at equal time intervals a in accordance with the pitch information P (= f1) and gain information G (= g1). Here, a = 1 / f1.
[0032]
Next, for the frame B following the top frame A, as in the case of the frame A, a pulse train according to the pitch information P and the gain information G may be generated. In order to smooth the pitch fluctuations between them and generate a more natural speech waveform, for the frames other than the head, a temporary pulse train is generated using a pitch obtained by linearly interpolating the previous frame pitch and the current frame pitch. To do.
[0033]
More specifically, let LT be the generation time of the pulse generated at the end of the previous frame (here, frame A), t be the time, and Tf be the difference between the end time of the current frame and LT. The pulse generation time interval dT of the subsequent frame B is obtained by the following equation.
[Expression 1]
[0034]
Each time a pulse is generated in frame B, the time interval dT with the previous pulse is obtained by the above formula, and the next pulse is generated after dT has elapsed from the generation time of the previous pulse. It is generated. In the illustrated case, since f2 indicated by the pitch information P of the frame B is smaller than f1 indicated by the pitch information P of the previous frame A, the pulse generation time interval in the frame B gradually increases as shown in the figure. Become. That is, as shown in the lower part of FIG. 4, the pitch varies linearly so that the pitch is f2 at the end of the frame B.
[0035]
When the
[0036]
As shown in FIG. 5, since the wrinkle degree information h <b> 1 is supplied for the frame A, the
[0037]
Next, for the frame B, since the degree of creasing h2 is supplied, the
[0038]
The above is the process of individually correcting the gain of each pulse included in the temporary pulse train generated based on the pitch information P and gain information G supplied from the
[0039]
As shown in the figure, since the wrinkle degree information h1 (= 0.4) is supplied for the frame A, the
[0040]
Next, since the degree of wrinkle h2 (= 0.6) is supplied for the frame B, the
[0041]
As described above, the
[0042]
The content of the correction process has been described for the case where the wrinkle degree information H supplied for each frame is the same as the wrinkle degree stored in the
[0043]
When the wrinkle degree information H indicating the wrinkle degree other than that stored in the
[0044]
First, the
[0045]
Next, based on the wrinkle degree value h indicated in the supplied wrinkle degree information H, one of the following formulas (1) to (5) is selected, and the interpolation ratio R is obtained by the selected formula. (Step 2).
[Expression 2]
[0046]
When the interpolation ratio R is obtained by an expression selected based on the value h indicated by the wrinkle degree information H, the value obtained by multiplying the Δ gain information of the template selected in the
[0047]
When the wrinkle degree information H indicating the wrinkle degree other than that stored in the
[0048]
5 and 6 differ in the value of the degree of crease information H supplied for two consecutive frames (frame A and frame B), and the template time information stored in the
[0049]
As shown in FIG. 8, for the frame A, as in the case shown in FIG. 5, the gain of each pulse is corrected using the gain correction amount corresponding to the elapsed times t1, t2 to t7 from the start of the frame A. . Next, for each pulse included in frame B, the template Δ gain information corresponding to the same degree of wrinkling as in frame A, here dG2 (t) is used, and t is not at the start of frame B, but in frame A Elapsed time t′8, t′9 to t′12 from the start time of is used. That is, the gain correction amount of each pulse in the frame B is dG2 (t′8), dG2 (t′9), dG2 (t′10), dG2 (t′11), dG2 (t′12) in order from the top. It becomes. By using such a gain correction amount, the gain of each pulse in the frame B is corrected.
[0050]
Also, with respect to the generation timing of each pulse included in the subsequent frame B, the elapsed times t′8, t′9˜ from the start of the frame A, not at the start of the frame B, as in the case of the gain correction. t'12 is used. That is, the correction amount of the generation timing of each pulse in the frame B is df2 (t′8), df2 (t′9), df2 (t′10), df2 (t′11), df2 (t ′) in order from the top. 12). The generation timing of each pulse in the frame B is corrected using such a correction amount of the generation timing.
[0051]
FIG. 5 and FIG. 6 explain the correction contents when the template is larger in time than the frame interval, that is, when the time indicated in the template time information is larger than the time of one frame. When the template time is smaller than the frame time, the
[0052]
As shown in FIG. 9, when the time length of the template used for the frame A is smaller than the time length of the frame A, the
[0053]
When the wrinkle degree information H does not match the wrinkle degree stored in the
[0054]
The pulse waveform generated by the
[0055]
By the way, as described above, when the pulse waveform represented by the continuous time generated by the
[0056]
In consideration of the above problems, the continuous
[Equation 3]
[0057]
In the above equation, G is the gain of the pulse to be replaced, tp is the generation time of the pulse to be replaced, and Ts is the sampling period.
[0058]
Next, the waveform replaced with the sinc function is sampled at the sampling period Ts to obtain a sound source waveform expressed in discrete time. As a result, a waveform having a gain of 0 is obtained in a band other than the frequency of 0 to fs / 2 (Hz). Note that fs is a sampling frequency.
[0059]
By following the above procedure, the continuous
[0060]
The voiced sound source waveform generation device 32 outputs the sound source waveform expressed in discrete time converted by the continuous
[0061]
As described above, the sound source waveform generation device 30 according to the present embodiment reproduces subtle fluctuations in pitch and gain created by analyzing a vocal cord waveform obtained in advance when a person utters a hoarse voice. Using the template, it is possible to generate a pulse waveform in which the pitch and gain of each pulse in the waveform generated according to the pitch information P and the gain information G are corrected. That is, by correcting the pulse waveform using the template created based on the analysis result of the human vocal fold waveform as described above in the
[0062]
Further, in the present embodiment, correction is performed individually for each pulse constituting the sound source waveform so that a natural speech waveform (a vocal cord waveform) including a degree of wrinkle generated by a person is faithfully reproduced. Yes. Therefore, by correcting the optimum amount for each pulse based on the voice uttered by the person as described above, the fluctuation of the pitch and gain of the natural voice (voice waveform) uttered by the person is irregular. It is possible to generate a sound source waveform that is reproduced more accurately, and to synthesize a speech waveform that can more accurately reproduce the naturalness of a human voice including a degree of wrinkle.
[0063]
In the present embodiment, since a template for correcting each pulse corresponding to a plurality of wrinkle degrees is prepared in the
[0064]
C. Modified example
In addition, this invention is not limited to embodiment mentioned above, Various deformation | transformation which is illustrated below is possible.
[0065]
(Modification 1)
In the embodiment described above, the case where the present invention is applied to a speech synthesizer using LPC synthesis technology has been described. However, the present invention is not limited to this, and a sound source waveform is generated based on pitch information P and gain information G. The present invention can be applied to various speech synthesizers having a sound source waveform generating device. For example, the present invention can be applied to a PARCOR synthesizing apparatus, and the time domain sound source waveform generated as described above is converted into a frequency domain waveform, and vocal tract characteristics and the like are reflected on the frequency domain waveform. It is also possible to apply to a speech synthesizer that performs synthesis processing, converts the waveform after synthesis processing into a waveform in the time domain, and outputs the waveform again.
[0066]
(Modification 2)
Further, in the above-described embodiment, five templates corresponding to the degree of wrinkling are stored in the
[0067]
Further, a
[0068]
Further, a
[0069]
Further, the vocal cord waveform of each of the male voice and female voice is analyzed, and a template for male voice and female voice is stored in the
[0070]
(Modification 3)
In the embodiment described above, the
[0071]
(Modification 4)
In the above-described embodiment, the case where the present invention is applied to the speech synthesizer 100 that synthesizes speech based on document data has been described. However, data including lyrics information and melody information (for example, karaoke data) is described. You may make it apply this invention to the singing sound synthesizer which synthesize | combines singing voice based on.
[0072]
(Modification 5)
The speech synthesizer 100 in the above-described embodiment may be configured by a dedicated hardware circuit, but may be configured by software by a computer system as shown in FIG. As shown in the figure, this computer system includes a central processing unit (CPU) 320 for controlling the entire apparatus, a read only memory (ROM) 321 for storing various data groups and program groups, and a RAM (RAM) used as a work area. Random Access Memory (322), an
[0073]
The
[0074]
[0075]
As described above, the speech synthesizer including the sound source waveform generation device according to the above-described embodiment can be configured by software using a computer system, and causes the computer system to execute speech synthesis processing similar to that in the above-described embodiment. The program may be provided to the user. As a method of providing such a program, there are a method of providing it by storing it in various recording media such as a CD-ROM and a floppy disk, a method of providing it via a communication line such as the Internet, and the like.
[0076]
【The invention's effect】
As described above, according to the present invention, it is possible to synthesize a speech waveform that can give a listener a more natural impression.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a speech synthesizer including a sound source waveform generation device according to an embodiment of the present invention.
FIG. 2 is a diagram for explaining document data used for speech synthesis by the speech synthesizer.
FIG. 3 is a diagram for explaining the contents of data stored in a correction information database that is a component of the sound source waveform generation apparatus.
FIG. 4 is a diagram for explaining the contents of a sound source waveform generation process by the sound source waveform generation apparatus.
FIG. 5 is a diagram for explaining the contents of a sound source waveform generation process by the sound source waveform generation apparatus.
FIG. 6 is a diagram for explaining the contents of a sound source waveform generation process by the sound source waveform generation apparatus.
FIG. 7 is a diagram for explaining the contents of a sound source waveform generation process by the sound source waveform generation apparatus.
FIG. 8 is a diagram for explaining the contents of another sound source waveform generation process by the sound source waveform generation apparatus.
FIG. 9 is a diagram for explaining the contents of other sound source waveform generation processing by the sound source waveform generation apparatus.
FIG. 10 is a diagram for explaining a state in which a sound source waveform expressed by a continuous time generated by the sound source waveform generation device is converted into a waveform expressed by a discrete time.
FIG. 11 is a diagram for explaining a state in which a sound source waveform expressed by continuous time generated by the sound source waveform generating device is converted into a waveform expressed by discrete time.
FIG. 12 is a diagram for explaining a state in which a sound source waveform expressed by a continuous time generated by the sound source waveform generation device is converted into a waveform expressed by a discrete time.
FIG. 13 is a diagram for explaining the contents of data stored in a correction information database in a modification of the sound source waveform generation device.
FIG. 14 is a diagram for explaining the contents of data stored in a correction information database in another modification of the sound source waveform generation device.
FIG. 15 is a block diagram showing a hardware configuration of a computer system for realizing the same processing as that of the speech synthesizer by software.
[Explanation of symbols]
DESCRIPTION OF
Claims (8)
生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたピッチ情報に対応する範囲において、該入力されるしわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した該補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成する波形生成手段とを具備することを特徴とする音源波形生成装置。A device that generates a sound source waveform that is used when synthesizing a speech waveform, and corrects the pitch, gain, or both of the waveform corresponding to a predetermined degree of speech separation for each preset pitch range. Storage means for storing a plurality of correction information for
Pitch information, gain information, and wrinkle degree information of the waveform to be generated are input, and correction information corresponding to the input wrinkle degree information is read from the storage unit and read in a range corresponding to the input pitch information . A sound source waveform generation apparatus comprising: waveform generation means for generating a sound source waveform by correcting the input pitch information and gain information based on the correction information.
生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたゲイン情報に対応する範囲において、該入力されるしわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した該補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成する波形生成手段とを具備することを特徴とする音源波形生成装置。A device that generates a sound source waveform that is used when synthesizing speech waveforms, and corrects the pitch, gain, or both of the waveforms corresponding to the degree of pre-defined speech for each preset gain range. Storage means for storing a plurality of correction information for
Pitch information, gain information, and wrinkle degree information of the waveform to be generated are input, and correction information corresponding to the input wrinkle degree information is read from the storage unit and read in a range corresponding to the input gain information . A sound source waveform generation apparatus comprising: waveform generation means for generating a sound source waveform by correcting the input pitch information and gain information based on the correction information.
発音すべき音声内容に基づいてピッチ情報、ゲイン情報およびしわがれ度情報を取得する情報取得手段と、
前記情報取得手段によって取得されたピッチ情報またはゲイン情報に対応する前記範囲において、前記しわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した補正情報に基づいて前記情報取得手段によって取得された前記ピッチ情報および前記ゲイン情報を補正することにより音源波形を生成する波形生成手段と、前記波形生成手段によって生成された音源波形に対し、前記発音すべき音声内容にしたがったフィルタリングを施すことにより音声波形を合成する合成手段とを具備することを特徴とする音声合成装置。Storage means for storing a plurality of correction information for correcting the pitch, gain, or both of the waveform corresponding to a predetermined degree of voice wrinkling for each preset pitch range or preset level range When,
Information acquisition means for acquiring pitch information, gain information and wrinkle degree information based on the audio content to be pronounced;
In the range corresponding to the pitch information or gain information acquired by the information acquisition means, correction information corresponding to the wrinkle degree information is read from the storage means, and acquired by the information acquisition means based on the read correction information. Waveform generating means for generating a sound source waveform by correcting the pitch information and the gain information, and filtering the sound source waveform generated by the waveform generating means according to the sound content to be pronounced. A speech synthesizer comprising: synthesis means for synthesizing a speech waveform.
予め設定されたピッチの範囲または予め設定されたレベルの範囲毎に、予め定義された音声のしわがれ度に対応した、波形のピッチ、ゲインもしくは両者を補正するための複数の補正情報を記憶手段に記憶させるとともに、
生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたピッチ情報またはゲイン情報に対応する前記範囲において、該入力されるしわがれ度情報に対応した補正情報を前記記憶手段から読み出し、読み出した補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成することを特徴とする音源波形生成方法。A method of generating a sound source waveform used when synthesizing a speech waveform,
The storage means stores a plurality of correction information for correcting the pitch, gain, or both of the waveform corresponding to a predetermined degree of voice wrinkle for each preset pitch range or preset level range. Remember,
Pitch information, gain information, and wrinkle degree information of the waveform to be generated are input, and correction information corresponding to the input wrinkle degree information is input from the storage unit in the range corresponding to the input pitch information or gain information. A sound source waveform generation method comprising: generating a sound source waveform by correcting the input pitch information and gain information based on the read correction information.
予め設定されたピッチの範囲または予め設定されたレベルの範囲毎に、予め定義された音声のしわがれ度に対応した、波形のピッチ、ゲインもしくは両者を補正するための複数の補正情報を記憶した記憶手段から前記補正情報を読み出す手段と、
生成する波形のピッチ情報、ゲイン情報およびしわがれ度情報が入力され、該入力されたピッチ情報またはゲイン情報に対応する前記範囲において、該入力されるしわがれ度情報に対応した補正情報を前記読み出す手段によって読み出し、読み出した補正情報に基づいて、前記入力されるピッチ情報およびゲイン情報を補正することにより音源波形を生成する波形生成手段として機能させるプログラム。Computer
A memory that stores a plurality of correction information for correcting the pitch, gain, or both of the waveform corresponding to a predetermined degree of voice wrinkle for each preset pitch range or preset level range Means for reading the correction information from the means;
The pitch information, gain information, and wrinkle degree information of the waveform to be generated are input, and the correction information corresponding to the input wrinkle degree information is read by the means in the range corresponding to the input pitch information or gain information . A program that functions as waveform generation means for generating a sound source waveform by correcting the input pitch information and gain information based on the read correction information.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001278292A JP3967571B2 (en) | 2001-09-13 | 2001-09-13 | Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001278292A JP3967571B2 (en) | 2001-09-13 | 2001-09-13 | Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003084798A JP2003084798A (en) | 2003-03-19 |
| JP3967571B2 true JP3967571B2 (en) | 2007-08-29 |
Family
ID=19102683
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001278292A Expired - Fee Related JP3967571B2 (en) | 2001-09-13 | 2001-09-13 | Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3967571B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101606190B (en) * | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | Forced voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method |
-
2001
- 2001-09-13 JP JP2001278292A patent/JP3967571B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003084798A (en) | 2003-03-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4067762B2 (en) | Singing synthesis device | |
| JP4355772B2 (en) | Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program | |
| US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
| JPH031200A (en) | Regulation type voice synthesizing device | |
| JP4153220B2 (en) | SINGLE SYNTHESIS DEVICE, SINGE SYNTHESIS METHOD, AND SINGE SYNTHESIS PROGRAM | |
| JP3732793B2 (en) | Speech synthesis method, speech synthesis apparatus, and recording medium | |
| JP3711880B2 (en) | Speech analysis and synthesis apparatus, method and program | |
| JP5360489B2 (en) | Phoneme code converter and speech synthesizer | |
| JP2904279B2 (en) | Voice synthesis method and apparatus | |
| JP5175422B2 (en) | Method for controlling time width in speech synthesis | |
| JP3967571B2 (en) | Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program | |
| JP4430174B2 (en) | Voice conversion device and voice conversion method | |
| JP4451665B2 (en) | How to synthesize speech | |
| JP2001125599A (en) | Audio data synchronizer and audio data creation device | |
| JP3785892B2 (en) | Speech synthesizer and recording medium | |
| JP4387822B2 (en) | Prosody normalization system | |
| JP2000010597A (en) | Speech transforming device and method therefor | |
| JP2536169B2 (en) | Rule-based speech synthesizer | |
| JPH09179576A (en) | Voice synthesis method | |
| JP3081300B2 (en) | Residual driven speech synthesizer | |
| JP3394281B2 (en) | Speech synthesis method and rule synthesizer | |
| JP4349316B2 (en) | Speech analysis and synthesis apparatus, method and program | |
| JP2008058379A (en) | Speech synthesis system and filter device | |
| JPH1011083A (en) | Text-to-speech converter | |
| JPH11161297A (en) | Speech synthesis method and apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040721 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040803 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040929 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050111 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050117 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050311 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070531 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100608 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140608 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |