JP4306643B2 - Singing composition device and singing composition program - Google Patents
Singing composition device and singing composition program Download PDFInfo
- Publication number
- JP4306643B2 JP4306643B2 JP2005157866A JP2005157866A JP4306643B2 JP 4306643 B2 JP4306643 B2 JP 4306643B2 JP 2005157866 A JP2005157866 A JP 2005157866A JP 2005157866 A JP2005157866 A JP 2005157866A JP 4306643 B2 JP4306643 B2 JP 4306643B2
- Authority
- JP
- Japan
- Prior art keywords
- transition
- pitch
- note
- singing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000000203 mixture Substances 0.000 title description 2
- 230000007704 transition Effects 0.000 claims description 148
- 238000000034 method Methods 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 61
- 230000002194 synthesizing effect Effects 0.000 claims description 22
- 230000003111 delayed effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 239000011295 pitch Substances 0.000 description 117
- 230000015572 biosynthetic process Effects 0.000 description 45
- 238000003786 synthesis reaction Methods 0.000 description 28
- 230000008859 change Effects 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
本発明は、歌唱音の合成を行う歌唱合成装置および歌唱合成プログラムに関する。 The present invention relates to a singing voice synthesizing apparatus and a singing voice synthesis program for synthesizing singing sounds.
歌詞データと音符データとを記憶し、音符データの読出に対応して歌詞データを読み出し、歌詞データに対応した音韻を発音させて歌詞を歌唱させる歌唱合成装置が各種提案されている。この種の歌唱合成装置は、人間らしい自然な歌唱音を合成する機能が求められる。人間の歌唱音を観察すると、歌唱音のピッチは、音符データ通りに階段状に変化するのではなく、ある音符に対応した発声から次の音符に対応した発声へと移行する際に、曲線を描いて連続的に変化する。この変化が歌唱の人間らしさの一因となっていると考えられる。そこで、従来から、歌唱合成装置において、合成される歌唱音のピッチに人間らしい変化を与えるための検討がなされてきた。例えば特許文献1は、連続した2つの音符に対応した歌唱音を合成する場合に、各音符に対応したピッチ間を直線で結び、この直線の前後にオーバシュート部を設けたピッチ曲線を求め、このピッチ曲線に従ってピッチが変化する歌唱音を合成する装置を提案している。
ところで、実際の歌声を観察すると、特にレガート風の歌い方において、連続した2つの音符における先行する音符のピッチに比べて後続の音符のピッチが高く、かつ、後続の音符の符長が充分に長い場合には、ピッチが変化を開始する時刻が通常の場合よりも遅れ、また、ピッチの変化の継続時間が通常の場合よりも長くなる。しかしながら、上述した特許文献1に開示の歌唱合成装置は、歌いまわしとは無関係に、画一的な方法により、音符の切り換わり部分におけるピッチの軌道が画定されるため、単調で機械的な歌声になりやすいという問題があった。 By the way, when observing the actual singing voice, especially in the legato style of singing, the pitch of the subsequent note is higher than the pitch of the preceding note in two consecutive notes, and the length of the subsequent note is sufficiently long. When the pitch is long, the time at which the pitch starts to change is later than usual, and the duration of the pitch change is longer than usual. However, the above-described singing voice synthesizing apparatus disclosed in Patent Document 1 has a monotonous mechanical singing voice because the pitch trajectory is defined at the switching portion of the notes by a uniform method regardless of the singing. There was a problem that it was easy to become.
この発明は、以上説明した事情に鑑みてなされたものであり、特定の唱法が指定された場合には、連続した2つの音符の切り換わり部分におけるピッチの軌道を通常の場合に対して変化させ、自然な歌唱音を合成することができる歌唱合成装置および歌唱合成プログラムを提供することを目的とする。 The present invention has been made in view of the circumstances described above. When a specific chanting method is designated, the pitch trajectory at the switching portion between two consecutive notes is changed from the normal case. An object of the present invention is to provide a singing synthesis apparatus and a singing synthesis program that can synthesize natural singing sounds.
この発明は、特定の唱法が指定されている場合において連続する2つの音符の歌唱音を順次合成する場合に、先行する音符に対応したピッチから後続の音符に対応したピッチへの移行開始時刻および移行終了時刻を設定する手段であり、先行する音符のピッチよりも後続の音符のピッチが高い場合には、前記特定の唱法が指定されていない通常の場合に比べて、移行開始時刻を遅らせ、移行開始時刻から移行終了時刻までの移行継続時間を長くする移行点設定手段と、歌唱音のピッチを、前記設定手段により設定された移行開始時刻から移行終了時刻にかけて変化させるピッチデータを生成して記憶手段に格納するピッチデータ生成手段と、曲の進行に合わせて前記ピッチデータを前記記憶手段から読み出し、歌唱音を合成する音源に出力する出力手段とを具備することを特徴とする歌唱合成装置およびコンピュータを前記歌唱合成装置として機能させる歌唱合成プログラムを提供する。
かかる発明によれば、特定の唱法が指定されている場合には通常の場合よりもポルタメントの開始が遅れ、かつ、ポルタメントの継続時間が長くなり、例えばレガートにより上昇音形の歌唱を行う場合の人間の歌声を歌唱合成において再現することができ、自然な歌唱音を得ることができる。
The present invention provides a transition start time from a pitch corresponding to a preceding note to a pitch corresponding to a succeeding note when sequentially synthesizing the singing sound of two consecutive notes when a specific singing method is specified. It is a means for setting the transition end time, and when the pitch of the subsequent note is higher than the pitch of the preceding note, the transition start time is delayed compared to the normal case where the specific chorus is not specified, A transition point setting means for extending the transition duration from the transition start time to the transition end time, and generating pitch data for changing the pitch of the singing sound from the transition start time set by the setting means to the transition end time. Pitch data generating means to be stored in the storage means, and the pitch data is read from the storage means in accordance with the progress of the song and output to the sound source for synthesizing the singing sound Providing a singing voice synthesizing apparatus and a computer, characterized by comprising an output unit singing synthesis program to function as the singing voice synthesizing apparatus.
According to this invention, when a specific singing method is specified, the start of portamento is delayed as compared to the normal case, and the duration of portamento is longer, for example, when singing a rising sound form by legato Human singing voice can be reproduced in singing synthesis, and natural singing sound can be obtained.
以下、図面を参照し、この発明の実施の形態を説明する。
<第1実施形態>
図1は、この発明の第1実施形態である歌唱合成装置の構成を示すブロック図である。この歌唱合成装置は、音声を合成して出力する機能を有するパーソナルコンピュータなどのコンピュータに対し、歌唱合成プログラムをインストールしたものである。図1において、CPU1は、この歌唱合成装置の各部を制御する制御中枢である。ROM2は、ローダなど、この歌唱合成装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。表示部3は、装置の動作状態や入力データおよび操作者に対するメッセージなどを表示するための装置である。操作部4は、ユーザからコマンドや各種の情報を受け取るための手段であり、キーボードやマウスなどの各種の操作子により構成されている。インタフェース群5は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、磁気ディスク、CD−ROMなどの外部記憶媒体との間でデータの授受を行うためのドライバなどにより構成されている。HDD(ハードディスク装置)6は、各種のプログラムやデータベースなどの情報を記憶するための不揮発性記憶装置である。RAM7は、CPU1によってワークエリアとして使用される揮発性メモリである。CPU1は、操作部4を介して与えられる指令に従い、HDD6内のプログラムをRAM7にロードして実行する。
Embodiments of the present invention will be described below with reference to the drawings.
<First Embodiment>
FIG. 1 is a block diagram showing a configuration of a singing voice synthesizing apparatus according to the first embodiment of the present invention. This singing voice synthesizing apparatus is obtained by installing a singing voice synthesis program on a computer such as a personal computer having a function of synthesizing and outputting a voice. In FIG. 1, CPU1 is a control center which controls each part of this song synthesis apparatus. The ROM 2 is a read-only memory that stores a control program for controlling basic operations of the singing voice synthesizing apparatus such as a loader. The display unit 3 is a device for displaying an operation state of the device, input data, a message for the operator, and the like. The operation unit 4 is a means for receiving commands and various types of information from the user, and includes various types of operators such as a keyboard and a mouse. The interface group 5 includes a network interface for performing data communication with other devices via a network, a driver for transmitting / receiving data to / from an external storage medium such as a magnetic disk and a CD-ROM, and the like. It is comprised by. The HDD (hard disk device) 6 is a non-volatile storage device for storing information such as various programs and databases. The
フォルマント音源8は、CPU1による制御の下、歌唱音を合成する音源である。このフォルマント音源8には、歌唱音のフォルマントを特定する情報として、フォルマント中心周波数データFFreq、フォルマントレベルデータFlevelおよびフォルマント形状データFShapeが与えられ、また、歌唱音のピッチを指定するピッチデータPITCHが与えられる。フォルマント音源8は、これらのデータにより指定されたフォルマントおよびピッチを有する歌唱音を合成し、サウンドシステム9から出力する。 The formant sound source 8 is a sound source that synthesizes a singing sound under the control of the CPU 1. The formant sound source 8 is provided with formant center frequency data FFreq, formant level data Flevel and formant shape data FShape as information for specifying the formant of the singing sound, and pitch data PITCH specifying the pitch of the singing sound. It is done. The formant sound source 8 synthesizes a singing sound having a formant and pitch designated by these data, and outputs it from the sound system 9.
HDD6に記憶される情報として、曲編集プログラム61と、曲データ62と、音韻データベース63と、歌唱合成プログラム64がある。曲データ62は、曲を構成する一連の音符を表す音符データと、音符に合わせて発声する歌詞を表す歌詞データとからなるデータであり、曲毎に編集されてHDD6に格納される。曲編集プログラム61は、曲データを編集するためにCPU1によって実行されるプログラムである。好ましい態様において、この曲編集プログラム61は、ピアノの鍵盤の画像からなるGUI(グラフィカルユーザインタフェース)を表示部3に表示させる。ユーザは、表示部3に表示された鍵盤における所望の鍵の画像を操作部4の操作により指定し、また、その音符に合わせて発声する歌詞を操作部4の操作により入力することができる。曲編集プログラム61は、このようにして、音符とその音符に合わせて発声する歌詞に関する情報をユーザから操作部4を介して受け取り、音符毎に音符データと歌詞データとを曲データ62としてHDD6内に格納する。
Information stored in the
1個の音符に対応した音符データは、音符の発生時刻、音高、音符の長さを示す各情報を含んでいる。歌詞データは、音符に合わせて発音すべき歌詞を音符毎に定義したデータである。曲データ62は、曲の開始からの発生順序に合わせて、個々の音符に対応した音符データと歌詞データとを時系列的に並べたものであり、曲データ内において音符データと歌詞データは音符単位で対応付けられている。
The note data corresponding to one note includes information indicating the note generation time, pitch, and note length. The lyric data is data in which lyrics to be pronounced in accordance with the notes are defined for each note. The
歌唱合成プログラム64は、この曲データ62に従って、フォルマント音源8に歌唱音を合成させる処理をCPU1に実行させるプログラムである。好ましい態様において、歌唱合成プログラム64および曲編集プログラム61は、例えばインターネット内のサイトからインタフェース群5の中の適当なものを介してダウンロードされ、HDD6にインストールされる。また、他の態様において、歌唱合成プログラム64等は、CD−ROM、MDなどのコンピュータ読み取り可能な記憶媒体に記憶された状態で取引される。この態様では、インタフェース群5の中の適当なものを介して記憶媒体から歌唱合成プログラム64等が読み出され、HDD6にインストールされる。音韻データベース63は、歌唱合成プログラム64によって参照される音韻データのグループの集合体である。音韻データベース63では、発生する音声の種類、例えば、男声、女声、あるいは特定の歌手等ごとに音韻データのグループが用意されている。歌唱合成プログラム64による歌唱合成の際、ユーザは、操作部4の操作により、発声させたい声質に応じて使用する音韻データのグループを選択することができる。各グループを構成する音韻データは、各音韻をフォルマント合成するためのパラメータであり、各音韻対応に、その音韻を発生するための各フォルマントの形状を指定するフォルマント形状データFShape、各フォルマントの中心周波数をそれぞれ指定するフォルマント中心周波数データFFreq、各フォルマントの出力レベルをそれぞれ指定するフォルマントレベルデータFLevelからなっている。
The song synthesis program 64 is a program that causes the CPU 1 to execute a process of causing the formant sound source 8 to synthesize a song sound according to the
図2は歌唱合成プログラム64の処理内容を示している。歌唱合成プログラム64は、大別して、歌唱合成スコア生成処理64Aと歌唱合成スコア出力処理64Bとにより構成されている。歌唱合成スコア生成処理64Aは、ユーザによって指定された曲データ62と、音韻データベース63内においてユーザによって指定されたグループの音韻データとに基づき、ピッチデータトラック71および音韻データトラック72からなる歌唱合成スコア70をRAM7内のワークエリアに生成する処理である(図1参照)。ここで、ピッチデータトラック71は、歌唱音のピッチを指定するピッチデータPITCHを曲の開始点からの時間経過に従って時系列的に並べたデータストリームである。また、音韻データトラック72は、歌唱音のフォルマントを特徴付けるフォルマント形状データFShape、フォルマント中心周波数データFFreqおよびフォルマントレベルデータFLevelを曲の開始点からの時間経過に従って時系列的に並べたデータストリームである。
FIG. 2 shows the processing contents of the song synthesis program 64. The song synthesis program 64 is roughly divided into a song synthesis
歌唱合成スコア生成処理64Aは、ピッチデータトラック71を生成するための処理として、移行点設定処理641と、ピッチデータ生成処理642とを有している。本実施形態では、基本的には音符データに従って歌唱音のピッチを変化させるピッチデータを生成するが、歌唱音の表情を豊かなものにするため、音符の切り換わり部分については、先行する音符のピッチから後続の音符のピッチまで滑らかな曲線軌道に沿って合成歌唱音のピッチを変化させるピッチデータを生成する。
The song synthesis score generation process 64 </ b> A includes a transition
このように歌唱音のピッチを変化させるため、移行点設定処理641では、連続する2つの音符の歌唱音を順次合成する場合に、先行する音符に対応したピッチから後続の音符に対応したピッチへの移行開始時刻および移行終了時刻を設定する。本実施形態における移行点設定処理641の処理内容は、例えば操作部4の操作により、唱法としてレガートが指定されているか否かにより異なったものとなり、また、レガートが指定されている場合には先行する音符と後続の音符のピッチの高低関係により異なったものとなる。すなわち、次の通りである。まず、唱法としてレガートが指定されていない通常の場合、移行点設定処理641では、先行する音符と後続の音符のピッチの高低関係とは無関係に画一的な方法により、移行開始時刻および移行終了時刻が定められる。これに対し、レガートが指定されている場合における移行点設定処理641では、移行開始時刻および移行終了時刻の設定方法は、先行する音符と後続の音符のピッチの高低関係により異なったものとなる。まず、先行する音符のピッチに比べて後続の音符のピッチが高い場合、移行点設定処理641では、通常の場合よりも移行開始時刻を遅らせ、移行開始時刻から移行終了時刻までの移行継続時間は、通常の場合よりも長くする。一方、先行する音符のピッチに比べて後続の音符のピッチが低い場合、移行点設定処理641では、通常の場合よりも移行開始時刻を早め、移行開始時刻から移行終了時刻までの移行継続時間は、通常の場合よりも長くする。
In order to change the pitch of the singing sound in this way, in the transition
ピッチデータ生成処理642では、音符データと移行点設定処理641により設定された移行開始時刻および移行終了時刻に基づいて、音符データに合わせて変化するピッチの軌道を求め、この軌道に沿ってピッチを変化させるピッチデータを生成し、ピッチデータトラック71に格納する。さらに詳述すると、ピッチデータ生成処理642では、横軸を時間、縦軸をピッチとする2次元座標系において、音符の切り換わり部分以外の部分では、音符データにより指定されるピッチを維持する直線軌道をピッチの軌道とし、音符の切り換わり部分、すなわち、移行開始時刻から移行終了時刻までの期間は、先行する音符のピッチから後続の音符のピッチに至る緩やかな曲線をピッチの軌道として求める。そして、このようにして求めて軌道に沿ってピッチを変化させるピッチデータを生成するのである。
In the pitch
歌唱合成スコア生成処理64Aは、音韻データトラック72を生成するための処理として、音韻抽出処理643と、音韻データ生成処理644とを有している。音韻抽出処理643は、歌詞データ62Bが示す歌詞から音韻を順次抽出する処理である。音韻データ生成処理644は、音韻データベース63内の音韻データのうちユーザによって指定されたグループのものの中から、音韻抽出処理643により抽出された音韻を合成するための音韻データ、具体的にはフォルマント形状データFShape、フォルマント中心周波数データFFreqおよびフォルマントレベルデータFLevelを読み出し、音韻データトラック72に格納する。
The singing synthesis score generation process 64 </ b> A includes a
歌唱合成スコア出力処理64Bは、以上説明した歌唱合成スコア生成処理64Aにより生成されたピッチデータトラック71および音韻データトラック72の同期再生を行い、ピッチデータPITCHと、音韻データであるフォルマント形状データFShape、フォルマント中心周波数データFFreqおよびフォルマントレベルデータFLevelをフォルマント音源8に供給する処理である。さらに詳述すると、歌唱合成スコア出力処理64Bでは、曲の進行に合わせて各音符に対応したピッチデータPITCHおよび音韻データをピッチデータトラック71および音韻データトラック72から読み出してフォルマント音源8に供給する。また、歌唱合成スコア出力処理64Bでは、母音のみからなる音節は、音符のノートオンタイミングにおいてフォルマント音源8から出力され、子音および母音からなる音節は、音符のノートオンタイミングにおいて母音部分がフォルマント音源8から出力されるように、各音韻データのフォルマント音源8への供給タイミングが制御される。
以上が歌唱合成プログラムの処理内容の概略である。
The singing synthesis
The above is the outline of the processing content of the song synthesis program.
次に本実施形態の動作を説明する。なお、以下では、本実施形態の特徴である歌唱合成の動作を説明し、他の動作の説明は省略する。CPU1は、操作部4を介して所定の指示が与えられることにより、HDD6内の歌唱合成プログラム64をRAM7にロードして実行する。この歌唱合成プログラム64の実行過程において、歌唱合成の対象である曲データ62と、合成に用いる音韻データのグループとが操作部4の操作により指定され、歌唱合成開始の指示がユーザから与えられると、まず、歌唱合成スコア生成処理64Aの実行が開始され、それから少し遅れて歌唱合成スコア出力処理64Bの実行が開始される。
Next, the operation of this embodiment will be described. In addition, below, the operation | movement of singing composition which is the characteristics of this embodiment is demonstrated, and description of another operation | movement is abbreviate | omitted. When a predetermined instruction is given via the operation unit 4, the CPU 1 loads the song synthesis program 64 in the
歌唱合成スコア生成処理64Aでは、移行点設定処理641およびピッチデータ生成処理642の実行により音符データ62Aからピッチデータトラック71が生成され、音韻抽出処理643および音韻データ生成処理644の実行により歌詞データ62Bから音韻データトラック72が生成される。
In the singing synthesis
歌唱合成スコア出力処理64Bでは、歌唱合成スコア生成処理64Aにより生成されたピッチデータトラック71および音韻データトラック72の同期再生が行われ、ピッチデータPITCHと、音韻データがフォルマント音源8に供給される。この結果、音韻データによって特徴付けられるフォルマントを有し、かつ、ピッチデータPITCHにより指定されるピッチを有する歌唱音がフォルマント音源8により順次合成され、サウンドシステム9から出力される。
In the singing synthesis
本実施形態では、フォルマント音源8により合成される歌唱音のピッチを制御するための手段として、移行点設定処理641およびピッチデータ生成処理642が実行される。このため、フォルマント音源8により合成される歌唱音のピッチの変化の態様は、以下説明するように本実施形態特有のものとなる。
In the present embodiment, a transition
図3および図4は移行点設定処理641およびピッチデータ生成処理642の実行例を示している。これらの図において、横軸は時間であり、縦軸はピッチである。図3は、音符Aからこれよりもピッチが高い音符Bへ切り換わる上昇音形の場合における移行点設定処理641およびピッチデータ生成処理642の実行例を示している。まず、レガートが指定されていない通常の場合、移行点設定処理641では、音符Aの終了時刻から所定時間だけ前の時刻tA1を移行開始時刻とし、音符Bの開始時刻から所定時間だけ後の時刻tB1を移行終了時刻とする。そして、ピッチデータ生成処理642では、移行開始時刻tA1より前の期間は音符Aのピッチを維持し、移行開始時刻tA1から移行終了時刻tB1の期間は、破線で示すように、音符Aのピッチから僅かに下降した後、緩やかな曲線を描いて、音符Bのピッチを僅かに越えるまで上昇し、そこから下降して音符Bのピッチに到達する軌道を求め、この軌道に沿ってピッチを変化させるピッチデータを生成する。これに対し、レガートが指定されている場合、移行点設定処理641では、通常の場合における移行開始時刻tA1よりもやや遅れた時刻tA1Lを移行開始時刻とする。また、移行開始時刻tA1Lから移行終了時刻tB1Lまでの移行継続時間が通常の場合の移行継続時間tB1−tA1よりも長くなるように、移行終了時刻tB1Lを通常の場合の移行終了時刻tB1から大きく遅らせて設定する。そして、ピッチデータ生成処理642では、このようにして設定された移行開始時刻tA1Lから移行終了時刻tB1Lにかけて音符Aのピッチから音符Bのピッチに至る実線の曲線軌道を求め、この軌道に沿ってピッチを変化させるピッチデータを生成するのである。このようにすることで、レガートが指定されている場合には通常の場合よりもポルタメントの開始が遅れ、かつ、ポルタメントの継続時間が長くなり、レガートにより上昇音形の歌唱を行う場合の人間の歌声を歌唱合成において再現することができる。
3 and 4 show an execution example of the transition
図4は、音符Aからこれよりもピッチが低い音符Bへ切り換わる下降音形の場合における移行点設定処理641およびピッチデータ生成処理642の実行例を示している。この図において、tA2およびtB2は、レガートが指定されていない通常の場合に移行点設定処理641により設定される移行開始時刻および移行終了時刻、tA2LおよびtB2Lはレガートが指定されている場合に移行点設定処理641により設定される移行開始時刻および移行終了時刻である。また、破線で示す曲線軌道は、レガートが指定されていない通常の場合におけるピッチの軌道、実線で示す曲線軌道は、レガートが指定されていない通常の場合におけるピッチの軌道である。この図に示すように、本実施形態においてレガートが指定されている場合には、移行開始時刻tA2Lを通常の場合の移行開始時刻tA2よりも早めることにより、移行継続時間tB2L−tA2Lを通常の場合の移行継続時間tB2−tA2よりも長くする。このようにすることで、レガートが指定されている場合には通常の場合よりもポルタメントの開始が早まり、かつ、ポルタメントの継続時間が長くなり、レガートにより下降音形の歌唱を行う場合の人間の歌声を歌唱合成において再現することができる。
FIG. 4 shows an execution example of the transition
以上説明したように、本実施形態によれば、レガートが指定されている場合には音符の切り換わり部分におけるピッチの移行の開始時刻と終了時刻および移行継続時間を通常の場合に対して変化させているので、レガートの場合におけるポルタメントの態様を実際の人間の歌唱に近づけ、人間らしい自然な歌唱を歌唱合成において再現することができる。 As described above, according to the present embodiment, when legato is designated, the pitch transition start time and end time and transition duration in the note switching portion are changed from those in the normal case. Therefore, portamento in the case of legato can be brought close to an actual human song, and a natural human song can be reproduced in the song synthesis.
<第2実施形態>
本実施形態は、上記第1実施形態においてレガートが指定されている場合に行われた移行開始時刻および移行終了時刻の移動並びに移行継続時間の拡張に対し、特定の場合に制限を加えるものである。
Second Embodiment
In the present embodiment, a restriction is added in a specific case to the movement of the transition start time and the transition end time and the extension of the transition duration performed when legato is specified in the first embodiment. .
前掲図3の上昇音形の場合において、後続の音符Bの符長が先行する音符Aの符長よりも短い場合に、移行開始時刻tA1Lおよび移行終了時刻tB1Lを遅らせて移行継続時間を長くすると、歌唱が不自然なものとなる。そこで、本実施形態における移行点設定処理641(図2参照)では、連続する音符の歌唱が行われる場合に先行する音符Aの符長に対する後続の音符Bの符長の比を求める。そして、この音符間の符長比が小さくなるに従い、移行開始時刻の遅れの程度tA1L−tA1を小さくし、かつ、移行継続時間の拡張の程度(tB1L−tA1L)/(tB1−tA1)を小さくする。 In the case of the rising note shape of FIG. 3, when the note length of the subsequent note B is shorter than the note length of the preceding note A, the transition start time tA1L and the transition end time tB1L are delayed to increase the transition duration time. , Singing becomes unnatural. Therefore, in the transition point setting process 641 (see FIG. 2) in the present embodiment, the ratio of the note length of the subsequent note B to the note length of the preceding note A is obtained when continuous note singing is performed. As the note length ratio between the notes decreases, the transition start time delay degree tA1L-tA1 is decreased, and the transition duration extension degree (tB1L-tA1L) / (tB1-tA1) is decreased. To do.
このように音符間の符長比に応じて移行開始時刻および移行継続時間の調整を行う代わりに、符長比(音符Bの符長/音符Aの符長)が一定の閾値(1.6程度が好ましい)よりも大きい場合に限り、上記第1実施形態で説明したレガートの場合における移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うようにしてもよい。 In this way, instead of adjusting the transition start time and transition duration in accordance with the note length ratio between notes, the note length ratio (note length of note B / note length of note A) is a constant threshold (1.6). The transition start time, the transition end time, and the transition duration time in the case of the legato described in the first embodiment may be extended only when the degree is larger than (preferably).
また、符長比が大きい場合であっても、後続の音符Bの符長自体が短い場合に移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うと、歌唱が不自然なものとなる。そこで、後続の音符Bの符長が一定の値よりも長い場合に限り、上記第1実施形態で説明した移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うようにしてもよい。 Even if the note length ratio is large, if the note length of the subsequent note B itself is short, if the transition start time, the transition end time are moved, and the transition duration time is extended, the singing is unnatural It becomes. Therefore, only when the note length of the subsequent note B is longer than a certain value, the transition start time, the transition end time, and the transition duration time described in the first embodiment may be extended. .
また、先行する音符Aと後続の音符Bのピッチの差があまりない場合に上記第1実施形態における移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うと、歌唱が不自然なものとなる。そこで、先行する音符Aと後続の音符Bのピッチの差が一定の値以上(例えば5半音以上)である場合に限り、上記第1実施形態で説明した移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うようにしてもよい。 In addition, when there is not much difference between the pitches of the preceding note A and the subsequent note B, the singing is unnatural when the transition start time, the transition end time are moved and the transition duration time is extended in the first embodiment. It will be a thing. Therefore, only when the difference between the pitches of the preceding note A and the succeeding note B is equal to or greater than a certain value (for example, 5 semitones or more), the transition start time, the shift of the transition end time described in the first embodiment, and The transition duration may be extended.
前掲図4の下降音形の場合には、先行する音符Aの符長が後続の音符Bの符長よりも短い場合に、上記第1実施形態の移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うと歌唱が不自然なものとなる。そこで、好ましい態様では、後続の音符Bの符長に対する先行する音符Aの符長の比(音符Aの符長/音符Bの符長)を求め、この音符間の符長比が小さくなるに従い、移行開始時刻を早める程度tA1−tA1Lを小さくし、かつ、移行継続時間の拡張の程度(tB1L−tA1L)/(tB1−tA1)を小さくする。 In the case of the descending sound form of FIG. 4 described above, when the note length of the preceding note A is shorter than the note length of the subsequent note B, the transition start time and the transition end time shift and transition of the first embodiment. If the duration is extended, the singing becomes unnatural. Therefore, in a preferred embodiment, the ratio of the note length of the preceding note A to the note length of the subsequent note B (the note length of the note A / the note length of the note B) is obtained, and as the note length ratio between the notes becomes smaller. TA1-tA1L is reduced to the extent that the transition start time is advanced, and the extent (tB1L-tA1L) / (tB1-tA1) of the extension of the transition duration is reduced.
このように音符間の符長比に応じて移行開始時刻および移行継続時間の調整を行う代わりに、符長比(音符Aの符長/音符Bの符長)が一定の閾値(1.6程度が好ましい)よりも大きい場合に限り、上記第1実施形態で説明したレガートの場合における移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うようにしてもよい。また、先行する音符Aの符長が一定の値よりも長い場合に限り、上記第1実施形態で説明した移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うようにしてもよい。また、下降音形の場合においても、先行する音符Aと後続の音符Bのピッチの差が一定の値以上(例えば5半音以上)である場合に限り、上記第1実施形態で説明した移行開始時刻、移行終了時刻の移動および移行継続時間の拡張を行うようにしてもよい。 In this way, instead of adjusting the transition start time and transition duration in accordance with the note length ratio between notes, the note length ratio (note length of note A / note length of note B) is a constant threshold (1.6). The transition start time, the transition end time, and the transition duration time in the case of the legato described in the first embodiment may be extended only when the degree is larger than (preferably). Further, only when the note length of the preceding note A is longer than a certain value, the transition start time, the transition end time, and the transition duration time described in the first embodiment may be extended. . Even in the case of a descending note, the transition start described in the first embodiment is performed only when the difference between the pitches of the preceding note A and the following note B is a certain value or more (for example, five semitones or more). The movement of the time, the transition end time, and the extension of the transition continuation time may be performed.
<他の実施形態>
以上、この発明の第1および第2実施形態を説明したが、この発明には、これ以外にも各種の実施形態が考えられる。例えば次の通りである。
(1)歌唱音の合成を行う音源は、フォルマント音源でなくてもよい。例えば、様々な音韻の波形のサンプルデータを記憶したメモリ、または、様々な音韻の調和成分のスペクトル包絡と非調和成分のスペクトルを記憶したメモリを備え、指定された音韻のサンプルデータをこのメモリから読み出して歌唱音を合成する構成の音源を歌唱合成装置に用いてもよい。
(2)操作部4の操作により与えられる要求に応じて、ピッチデータ生成処理642により得られたピッチの軌道を表示部3に表示するようにしてもよい。また、この表示を確認したユーザが、操作部4の操作により、所望の音符の切り換わり部分について移行開始時刻および移行終了時刻を修正することができるように構成してもよい。
(3)指定されている唱法に拘わらず、ピッチの軌道を、図3および図4に示すような曲線軌道にするか、音符データにより決定される矩形状の軌道にするかを操作部4の操作により指定することができるように構成してもよい。
(4)音符の切り換わり部分におけるピッチの軌道の演算方法には各種のものが考えられる。例えば通常の場合とレガートが指定された場合の各々について、音符の切り換わり部分においてピッチの軌道の目標通過点となる1または複数の制御点に関するデータをHDD6内に格納しておき、レガートが指定された場合にはレガート用の制御点を選択し、この制御点を通過する曲線をピッチの軌道として求めるようにしてもよい。
(5)音符の切り換わり部分におけるピッチの軌道を決定するパラメータのセットを、“通常”、“鋭く”、“レガート”といった各種の歌いまわし毎にHDD6内に用意しておき、操作部4の操作により歌いまわしの種類の選択が行われると、その種類に対応したパラメータのセットがHDD6から読み出され、歌唱合成スコア生成処理64Aに与えられるようにしてもよい。この場合において、“レガート”に対応したパラメータのセットとしては、上記第1実施形態で述べたように移行開始時刻、移行終了時刻が移動され、かつ、移行継続時間が拡張されるような内容のものを用意する。また、この場合において、ピッチの軌道を、パラメータのセットにより決定される軌道にするか、音符データにより決定される矩形状の軌道にするかを操作部4の操作により指定することができるように構成してもよい。このようにすることで、ユーザは、パラメータの意味を知らなくても、自分の好みの歌いまわしを実現するためのパラメータを設定することができ、ユーザの利便性が向上する。
<Other embodiments>
While the first and second embodiments of the present invention have been described above, various embodiments other than this can be considered for the present invention. For example:
(1) The sound source for synthesizing the singing sound may not be a formant sound source. For example, a memory storing sample data of various phonological waveforms, or a memory storing spectral envelopes of harmonic components and anharmonic components of various phonological components, and storing the specified phonological sample data from this memory A sound source configured to read and synthesize a singing sound may be used in a singing synthesizer.
(2) The pitch trajectory obtained by the pitch
(3) Regardless of the specified chanting method, whether the pitch trajectory is a curved trajectory as shown in FIGS. 3 and 4 or a rectangular trajectory determined by note data is used. You may comprise so that it can designate by operation.
(4) Various methods for calculating the pitch trajectory at the note switching portion are conceivable. For example, for each of a normal case and a case where legato is specified, data relating to one or a plurality of control points, which are target passage points of the pitch trajectory at the part where the note is switched, is stored in the
(5) A set of parameters for determining the pitch trajectory at the note switching portion is prepared in the
1……CPU、4……操作部、6……HDD、7……RAM、8……フォルマント音源、63……音韻データベース、64……歌唱合成プログラム、70……歌唱合成スコア、71……ピッチデータトラック、72……音韻データトラック、62A……音符データ、641……移行点設定処理、642……ピッチデータ生成処理、64A……歌唱合成スコア生成処理、64B……歌唱合成スコア出力処理。 DESCRIPTION OF SYMBOLS 1 ... CPU, 4 ... Operation part, 6 ... HDD, 7 ... RAM, 8 ... Formant sound source, 63 ... Phonological database, 64 ... Singing synthesis program, 70 ... Singing synthesis score, 71 ... Pitch data track, 72... Phoneme data track, 62 A .. Note data, 641... Transition point setting process, 642 .. Pitch data generation process, 64 A .. Singing synthesis score generation process, 64 B. .
Claims (6)
歌唱音のピッチを、前記設定手段により設定された移行開始時刻から移行終了時刻にかけて変化させるピッチデータを生成して記憶手段に格納するピッチデータ生成手段と、
曲の進行に合わせて前記ピッチデータを前記記憶手段から読み出し、歌唱音を合成する音源に出力する出力手段と
を具備することを特徴とする歌唱合成装置。 When sequentially singing the singing sounds of two consecutive notes when a specific singing method is specified, the transition start time and transition end time from the pitch corresponding to the preceding note to the pitch corresponding to the subsequent note are set. If the pitch of the subsequent notes is higher than the pitch of the preceding notes, the transition start time is delayed compared to the normal case where the specific singing method is not specified. A transition point setting means for extending the transition duration until the transition end time;
Pitch data generating means for generating pitch data for changing the pitch of the singing sound from the transition start time set by the setting means to the transition end time, and storing it in the storage means;
A singing synthesizing apparatus comprising: output means for reading out the pitch data from the storage means in accordance with the progress of a song and outputting the singing sound to a sound source.
歌唱音のピッチを、前記設定手段により設定された移行開始時刻から移行終了時刻にかけて変化させるピッチデータを生成して記憶手段に格納するピッチデータ生成処理と、
曲の進行に合わせて前記ピッチデータを前記記憶手段から読み出し、歌唱音を合成する音源に出力する出力処理と
をコンピュータに実行させることを特徴とする歌唱合成プログラム。 When sequentially singing the singing sounds of two consecutive notes when a specific singing method is specified, the transition start time and transition end time from the pitch corresponding to the preceding note to the pitch corresponding to the subsequent note are set. If the pitch of the subsequent notes is higher than the pitch of the preceding notes, the transition start time is delayed compared to the normal case where the specific singing method is not specified. Transition point setting process to increase the transition duration until the transition end time,
Pitch data generation processing for generating pitch data for changing the pitch of the singing sound from the transition start time set by the setting means to the transition end time and storing it in the storage means;
A singing composition program that causes a computer to execute an output process of reading the pitch data from the storage unit in accordance with the progress of a tune and outputting the singing sound to a sound source.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005157866A JP4306643B2 (en) | 2005-05-30 | 2005-05-30 | Singing composition device and singing composition program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005157866A JP4306643B2 (en) | 2005-05-30 | 2005-05-30 | Singing composition device and singing composition program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2006330625A JP2006330625A (en) | 2006-12-07 |
| JP4306643B2 true JP4306643B2 (en) | 2009-08-05 |
Family
ID=37552333
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005157866A Expired - Fee Related JP4306643B2 (en) | 2005-05-30 | 2005-05-30 | Singing composition device and singing composition program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4306643B2 (en) |
-
2005
- 2005-05-30 JP JP2005157866A patent/JP4306643B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006330625A (en) | 2006-12-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9818396B2 (en) | Method and device for editing singing voice synthesis data, and method for analyzing singing | |
| JP4735544B2 (en) | Apparatus and program for singing synthesis | |
| JP5007563B2 (en) | Music editing apparatus and method, and program | |
| JP3823930B2 (en) | Singing synthesis device, singing synthesis program | |
| JP6587007B1 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
| EP3273441B1 (en) | Sound control device, sound control method, and sound control program | |
| US12254854B2 (en) | Electronic musical instrument, control method for electronic musical instrument, and storage medium | |
| JP4839891B2 (en) | Singing composition device and singing composition program | |
| JP6003195B2 (en) | Apparatus and program for performing singing synthesis | |
| JP7226532B2 (en) | Audio information reproduction method and device, audio information generation method and device, and program | |
| JP6179221B2 (en) | Sound processing apparatus and sound processing method | |
| JP6756151B2 (en) | Singing synthesis data editing method and device, and singing analysis method | |
| JP6255744B2 (en) | Music display device and music display method | |
| JP4306643B2 (en) | Singing composition device and singing composition program | |
| JP5157922B2 (en) | Speech synthesizer and program | |
| JP5176981B2 (en) | Speech synthesizer and program | |
| JP4026446B2 (en) | SINGLE SYNTHESIS METHOD, SINGE SYNTHESIS DEVICE, AND SINGE SYNTHESIS PROGRAM | |
| JP4432834B2 (en) | Singing composition device and singing composition program | |
| JP2001042879A (en) | Karaoke equipment | |
| JP6583756B1 (en) | Speech synthesis apparatus and speech synthesis method | |
| JP5552797B2 (en) | Speech synthesis apparatus and speech synthesis method | |
| JP4508196B2 (en) | Song editing apparatus and song editing program | |
| JP2006119674A (en) | Singing composition method and system, and recording medium | |
| JP2003108177A (en) | Speech synthesis method and method for creating consonant phoneme data | |
| JP2020042258A (en) | Voice synthesis device and voice synthesis method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090414 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090427 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4306643 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120515 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130515 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140515 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |