Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7709646B2 - Speech synthesis device, speech synthesis method, and program - Google Patents
[go: Go Back, main page]

JP7709646B2 - Speech synthesis device, speech synthesis method, and program - Google Patents

Speech synthesis device, speech synthesis method, and program

Info

Publication number
JP7709646B2
JP7709646B2 JP2023567286A JP2023567286A JP7709646B2 JP 7709646 B2 JP7709646 B2 JP 7709646B2 JP 2023567286 A JP2023567286 A JP 2023567286A JP 2023567286 A JP2023567286 A JP 2023567286A JP 7709646 B2 JP7709646 B2 JP 7709646B2
Authority
JP
Japan
Prior art keywords
speech
failure detection
waveform
state
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023567286A
Other languages
Japanese (ja)
Other versions
JPWO2023112095A1 (en
Inventor
裕紀 金川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2023112095A1 publication Critical patent/JPWO2023112095A1/ja
Application granted granted Critical
Publication of JP7709646B2 publication Critical patent/JP7709646B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本開示内容は、音声合成装置、音声合成方法、及びプログラムに関する。 The present disclosure relates to a voice synthesis device, a voice synthesis method, and a program.

音声合成において、スペクトルや声の高さを表すピッチ等の音響特徴量から音声波形に変換するモジュールはボコーダーと呼ばれる。ボコーダーの実装方法は大きく二種類がある。一つは信号処理による方法であり、STRAIGHT(非特許文献1)やWORLD(非特許文献2)といった手法が有名である。これらの方法は数理モデルにより音響特徴量から音声波形への変換を表現するため、学習が不要かつ処理速度が高速であるが、分析再合成された音声を自然音声と比較すると品質が劣る。二つ目はニューラルネットワークによる方法(ニューラルボコーダー)であり、WaveNetがその代表的な手法である(特許文献1)。こちらは自然音声と比較しても遜色ない品質の音声を合成可能な一方で巨大な畳み込みニューラルネットワーク(CNN : Convolutional Neural Network)に基づくため計算量が多く、信号処理のボコーダーよりも動作が低速で、リアルタイム動作が困難である。In speech synthesis, a module that converts acoustic features such as spectrum and pitch into a speech waveform is called a vocoder. There are two main ways to implement a vocoder. The first is a signal processing method, and well-known methods include STRAIGHT (Non-Patent Document 1) and WORLD (Non-Patent Document 2). These methods use a mathematical model to represent the conversion from acoustic features to a speech waveform, so they do not require learning and are fast in processing speed, but the quality of the analyzed and resynthesized speech is inferior to natural speech. The second is a neural network method (neural vocoder), and WaveNet is a representative method (Patent Document 1). This method can synthesize speech of a quality comparable to natural speech, but it is based on a huge convolutional neural network (CNN: Convolutional Neural Network), so it requires a lot of calculations, operates slower than a signal processing vocoder, and is difficult to operate in real time.

したがって、CPUにおいてリアルタイム動作させるためには計算量の削減が必要である。その主なアプローチとして、WaveNetで用いられる巨大なCNNを小規模な再帰型ニューラルネットワーク(RNN : Recurrent Neural Network)で置き換えたWaveRNNがある(特許文献2)。また、LPCNet(非特許文献3)では、音声波形の生成過程に信号処理の知見である線形予測分析(LPC)を導入し、WaveRNNよりも更に小規模なディープニューラルネットワーク(DNN : Deep Neural Network)での音声合成を可能としている。このように、WaveRNNやLPCNetでは、小規模な音声合成DNNの実現のため、RNNを用いている。Therefore, in order to operate in real time on a CPU, it is necessary to reduce the amount of calculations. One of the main approaches is WaveRNN, which replaces the huge CNN used in WaveNet with a small recurrent neural network (RNN) (Patent Document 2). Also, LPCNet (Non-Patent Document 3) introduces linear predictive analysis (LPC), a knowledge of signal processing, into the process of generating speech waveforms, making it possible to synthesize speech using a deep neural network (DNN) that is even smaller than WaveRNN. In this way, WaveRNN and LPCNet use RNNs to realize small-scale speech synthesis DNNs.

Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain de Cheveigne, "Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds," Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999.Hideki Kawahara, Ikuyo Masuda-Katsuuse and Alain de Cheveigne, "Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds," Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999. Masanori Morise, Fumiya Yokomori, Kenji Ozawa, "WORLD: a vocoder-based high-quality speech synthesis system for real-time applications," IEICE transactions on information and systems, vol. E99-D, no. 7, pp. 1877-1884, 2016.Masanori Morise, Fumiya Yokomori, Kenji Ozawa, "WORLD: a vocoder-based high-quality speech synthesis system for real-time applications," IEICE transactions on information and systems, vol. E99-D, no. 7, pp. 1877-1884, 2016. Jean-Marc Valin and Jan Skoglund, "LPCNET: Improving Neural Speech Synthesis through Linear Prediction," Proc. ICASSP, 2019, pp. 5891-5895Jean-Marc Valin and Jan Skoglund, "LPCNET: Improving Neural Speech Synthesis through Linear Prediction," Proc. ICASSP, 2019, pp. 5891-5895

WO-A-2018/048934WO-A-2018/048934 WO-A-2019/155054WO-A-2019/155054

しかし、RNNをはじめとする自己回帰型のモデルでは、予測した音声波形値を次の時刻の音声波形値に使用するため、予測すべき系列が長くなるにつれて、学習フェーズとの誤差が増大していく。ひいては波形生成が破綻し、発話が不明瞭になるだけでなく、最悪の場合、無音になることがある。また、RNNの状態変数を一定のタイミングで初期化することで破綻を免れることは可能であるが、当該時刻までの時系列情報が初期化されてしまうため不連続となり、特に有音区間での初期化では音声の自然性の低下につながる。 However, in autoregressive models such as RNNs, the predicted speech waveform value is used as the speech waveform value for the next time, so the error with the learning phase increases as the sequence to be predicted becomes longer. This can eventually cause waveform generation to fail, leading to unclear speech and, in the worst case, silence. In addition, while it is possible to avoid failure by initializing the state variables of the RNN at a certain timing, the time series information up to that time is initialized, resulting in discontinuity, and especially initialization during a speech section can lead to a decrease in the naturalness of the speech.

また、波形生成の破綻検出のため、品質は低いものの破綻はしない信号処理による波形生成もニューラルボコーダーとともに実行し、その結果を比較することも考えられるが、2通りの手法でボコーダーを実行しなくてはならないため、波形生成の動作速度を著しく損なう。 In addition, in order to detect any breakdowns in the waveform generation, it is possible to run waveform generation using signal processing, which is lower quality but does not cause breakdowns, together with the neural vocoder and compare the results; however, since the vocoder must be run using two different methods, this would significantly slow down the operating speed of the waveform generation.

本発明は、上記の点に鑑みてなされたものであり、波形生成の動作速度を著しく損なうことを防止しながら、音声の自然性の低下を防止することを目的とする。 The present invention has been made in consideration of the above points, and aims to prevent a decrease in the naturalness of voice while preventing a significant loss in the operating speed of waveform generation.

上記課題を解決するため、請求項1に係る発明は、学習フェーズにおいて音声波形を生成する音声合成装置であって、結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る波形生成部と、前記音声波形、前記音声波形の予測値、及び各時刻における音声波形が破綻しているかを示す破綻フラグの閾値に基づいて、前記破綻フラグを得る破綻フラグへの変換部と、前記再帰型ニューラルネットワークの状態系列及び破綻検出モデルに基づいて、前記破綻フラグの予測値を得る破綻検出部と、前記破綻フラグ及び前記破綻フラグの予測値の誤差を算出する破綻フラグの誤差算出部と、前記誤差及び前記破綻検出モデルに基づいて、学習済み破綻検出モデルを得る破綻検出モデル学習部と、を有する音声合成装置である。In order to solve the above problem, the invention of claim 1 is a speech synthesis device that generates a speech waveform in a learning phase, and includes: a waveform generation unit that obtains a predicted value of the speech waveform at the next time based on the combined speech waveform and acoustic features, and the state of a recurrent neural network; a failure flag conversion unit that obtains the failure flag based on the speech waveform, the predicted value of the speech waveform, and a failure flag threshold indicating whether the speech waveform at each time is corrupted; a failure detection unit that obtains a predicted value of the failure flag based on the state sequence of the recurrent neural network and a failure detection model; a failure flag error calculation unit that calculates an error between the failure flag and the predicted value of the failure flag; and a failure detection model learning unit that obtains a learned failure detection model based on the error and the failure detection model.

以上説明したように本発明によれば、波形生成の動作速度を著しく損なうことを防止しながら、音声の自然性の低下を防止することができるという効果を奏する。As described above, the present invention has the effect of preventing a decrease in the naturalness of the voice while preventing a significant loss in the operating speed of waveform generation.

本実施形態に係る通信システムの概略図である。1 is a schematic diagram of a communication system according to an embodiment of the present invention. 本実施形態に係る音声合成装置及び通信端末のハードウェア構成図である。1 is a diagram illustrating a hardware configuration of a voice synthesizer and a communication terminal according to an embodiment of the present invention. 第1の実施形態に係る音声合成装置の学習フェーズにおける機能構成図である。FIG. 2 is a functional configuration diagram of the speech synthesis device according to the first embodiment in a learning phase. 第1の実施形態に係る音声合成装置の推論フェーズにおける機能構成図である。FIG. 2 is a functional configuration diagram of the speech synthesis device according to the first embodiment in an inference phase. 第1の実施形態に係る音声合成装置の学習フェーズにおける処理又は動作を示すフローチャートである。4 is a flowchart showing processing or operations in a learning phase of the voice synthesis device according to the first embodiment. 第1の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。4 is a flowchart showing a process or operation in an inference phase of the speech synthesis device according to the first embodiment. 第2の実施形態に係る音声合成装置の推論フェーズにおける機能構成図である。FIG. 11 is a functional configuration diagram of a speech synthesis device according to a second embodiment in an inference phase. 第2の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。13 is a flowchart showing a process or operation in an inference phase of the speech synthesis device according to the second embodiment. 第3の実施形態に係る音声合成装置の学習フェーズにおける機能構成図である。FIG. 13 is a functional configuration diagram of a speech synthesis device according to a third embodiment in a learning phase. 第3の実施形態に係る音声合成装置の推論フェーズにおける機能構成図である。FIG. 13 is a functional configuration diagram of a speech synthesis device according to a third embodiment in an inference phase. 第3の実施形態に係る音声合成装置の学習フェーズにおける処理又は動作を示すフローチャートである。13 is a flowchart showing a process or operation in a learning phase of the voice synthesis device according to the third embodiment. 第3の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。13 is a flowchart showing a process or operation in an inference phase of the speech synthesis device according to the third embodiment. 第4の実施形態に係る音声合成装置の学習フェーズにおける機能構成図である。FIG. 13 is a functional configuration diagram of a speech synthesis device according to a fourth embodiment in a learning phase. 第4の実施形態に係る音声合成装置の推論フェーズにおける機能構成図である。FIG. 13 is a functional configuration diagram of a speech synthesis device according to a fourth embodiment in an inference phase. 第4の実施形態に係る音声合成装置の学習フェーズにおける処理又は動作を示すフローチャートである。13 is a flowchart showing a process or operation in a learning phase of the voice synthesis device according to the fourth embodiment. 第4の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。13 is a flowchart showing a process or operation in an inference phase of a voice synthesis device according to a fourth embodiment.

以下、図面に基づいて本発明の実施形態を説明する。 Below, an embodiment of the present invention is described based on the drawings.

〔実施形態のシステム構成〕
まず、図1を用いて、本実施形態の通信システム1の構成の概略について説明する。図1は、本実施形態に係る通信システムの概略図である。
[System configuration of the embodiment]
First, an outline of the configuration of a communication system 1 according to the present embodiment will be described with reference to Fig. 1. Fig. 1 is a schematic diagram of the communication system according to the present embodiment.

図1に示されているように、本実施形態の通信システム1は、音声合成装置3、及び通信端末5によって構築されている。通信端末5は、ユーザYによって管理及び使用される。As shown in FIG. 1, the communication system 1 of this embodiment is constructed by a voice synthesis device 3 and a communication terminal 5. The communication terminal 5 is managed and used by user Y.

また、音声合成装置3と通信端末5は、インターネット等の通信ネットワーク100を介して通信することができる。通信ネットワーク100の接続形態は、無線又は有線のいずれでも良い。In addition, the voice synthesis device 3 and the communication terminal 5 can communicate via a communication network 100 such as the Internet. The connection form of the communication network 100 may be either wireless or wired.

音声合成装置3は、単数又は複数のコンピュータによって構成されている。音声合成装置3が複数のコンピュータによって構成されている場合には、「音声合成装置」と示しても良いし、「音声合成システム」と示しても良い。The voice synthesis device 3 is composed of one or more computers. When the voice synthesis device 3 is composed of multiple computers, it may be referred to as a "voice synthesis device" or a "voice synthesis system."

音声合成装置3は、コンピュータであり、破綻検出技術を用いて、音声合成のための音声波形生成を行う装置である。 The voice synthesis device 3 is a computer that uses speech impairment detection technology to generate voice waveforms for voice synthesis.

通信端末5は、コンピュータであり、図1では、一例としてノート型パソコンが示されているが、ノード型に限るものではなく、デスクトップパソコンであってもよい。また、通信端末は、スマートフォン、又はタブレット型端末であってもよい。図1では、ユーザYが、通信端末5を操作している。The communication terminal 5 is a computer, and in FIG. 1, a notebook computer is shown as an example, but it is not limited to a notebook computer and may be a desktop computer. The communication terminal may also be a smartphone or a tablet terminal. In FIG. 1, user Y is operating the communication terminal 5.

〔音声合成装置及び通信端末のハードウェア構成〕
次に、図2を用いて、音声合成装置3及び通信端末5のハードウェア構成を説明する。図2は、本実施形態に係る音声合成装置及び通信端末のハードウェア構成図である。なお、音声合成装置及び通信端末のハードウェア構成は、後述の第1乃至第4の実施形態において共通である。
[Hardware configuration of voice synthesizer and communication terminal]
Next, the hardware configuration of the voice synthesizer 3 and the communication terminal 5 will be described with reference to Fig. 2. Fig. 2 is a hardware configuration diagram of the voice synthesizer and the communication terminal according to this embodiment. Note that the hardware configuration of the voice synthesizer and the communication terminal is common to the first to fourth embodiments described later.

図2に示されているように、音声合成装置3は、プロセッサ301、メモリ302、補助記憶装置303、接続装置304、通信装置305、ドライブ装置306を有する。なお、音声合成装置3を構成する各ハードウェアは、バス307を介して相互に接続される。2, the speech synthesis device 3 has a processor 301, a memory 302, an auxiliary storage device 303, a connection device 304, a communication device 305, and a drive device 306. The hardware components constituting the speech synthesis device 3 are connected to each other via a bus 307.

プロセッサ301は、音声合成装置3全体の制御を行う制御部の役割を果たし、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ301は、各種プログラムをメモリ302上に読み出して実行する。なお、プロセッサ301には、GPGPU(General-purpose computing on graphics processing units)が含まれていてもよい。The processor 301 serves as a control unit that controls the entire speech synthesis device 3, and has various computing devices such as a CPU (Central Processing Unit). The processor 301 reads various programs onto the memory 302 and executes them. The processor 301 may also include a GPGPU (General-purpose computing on graphics processing units).

メモリ302は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ301は、メモリ302上に読み出した各種プログラムを実行することで、後述の各種機能部を実現する。The memory 302 has a primary storage device such as a read only memory (ROM) or a random access memory (RAM). The processor 301 executes various programs read onto the memory 302 to realize various functional units described below.

補助記憶装置303は、各種プログラムや、各種プログラムがプロセッサ301によって実行される際に用いられる各種情報(後述の破綻検出モデル30a、学習済み破綻検出モデル30b等)を格納する。The auxiliary memory device 303 stores various programs and various information (such as the failure detection model 30a and the learned failure detection model 30b described below) used when the various programs are executed by the processor 301.

接続装置304は、外部装置(例えば、表示装置310、操作装置311)と音声合成装置3とを接続する接続デバイスである。 The connection device 304 is a connection device that connects an external device (e.g., a display device 310, an operating device 311) to the speech synthesis device 3.

通信装置305は、他の装置との間で各種情報を送受信するための通信デバイスである。 The communication device 305 is a communication device for sending and receiving various information between other devices.

ドライブ装置306は記録媒体330をセットするためのデバイスである。ここでいう記録媒体330には、CD-ROM(Compact Disc Read-Only Memory)、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体330には、ROM(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。 The drive unit 306 is a device for setting the recording medium 330. The recording medium 330 here includes media that record information optically, electrically, or magnetically, such as a CD-ROM (Compact Disc Read-Only Memory), a flexible disk, or a magneto-optical disk. The recording medium 330 may also include semiconductor memory that records information electrically, such as a ROM (Read Only Memory) or a flash memory.

なお、補助記憶装置303にインストールされる各種プログラムは、例えば、配布された記録媒体330がドライブ装置306にセットされ、該記録媒体330に記録された各種プログラムがドライブ装置306により読み出されることでインストールされる。あるいは、補助記憶装置303にインストールされる各種プログラムは、通信装置305を介してネットワークからダウンロードされることで、インストールされてもよい。The various programs to be installed in the auxiliary storage device 303 are installed, for example, by setting the distributed recording medium 330 in the drive device 306 and reading the various programs recorded on the recording medium 330 by the drive device 306. Alternatively, the various programs to be installed in the auxiliary storage device 303 may be installed by downloading them from a network via the communication device 305.

また、図2には、通信端末5のハードウェア構成が示されているが、符号が300番台から500番台に変わっただけで、各構成は同様であるため、これらの説明を省略する。 Figure 2 also shows the hardware configuration of communication terminal 5, but since the configuration is the same except that the reference numbers have changed from the 300s to the 500s, the explanation of these will be omitted.

●第1の実施形態
図3乃至図6を用いて、第1の実施形態について説明する。
First Embodiment A first embodiment will be described with reference to FIGS.

〔音声合成装置の機能構成〕
図3及び図4を用いて、第1の実施形態に係る音声合成装置の機能構成について説明する。
[Functional configuration of the voice synthesis device]
The functional configuration of the speech synthesis device according to the first embodiment will be described with reference to FIG. 3 and FIG.

<音声合成装置の学習フェーズにおける機能構成>
図3は、第1の実施形態に係る音声合成装置の学習フェーズにおける機能構成図である。図3に示されているように、音声合成装置3は、入力部31、波形生成部32、破綻フラグへの変換部33、破綻検出部34、破綻フラグの誤差算出部35、及び破綻検出モデル学習部36を有する。
<Functional configuration of the speech synthesis device in the learning phase>
Fig. 3 is a functional configuration diagram of the speech synthesizer in the learning phase according to the first embodiment. As shown in Fig. 3, the speech synthesizer 3 has an input unit 31, a waveform generation unit 32, a conversion to a failure flag unit 33, a failure detection unit 34, a failure flag error calculation unit 35, and a failure detection model learning unit 36.

これらのうち、入力部31は、入力した音声波形及び音響特徴量を結合する。Of these, the input unit 31 combines the input speech waveform and acoustic features.

波形生成部32は、結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る。The waveform generation unit 32 obtains a predicted value of the audio waveform at the next time based on the combined audio waveform and acoustic features, as well as the state of the recurrent neural network.

破綻フラグへの変換部33は、音声波形、音声波形の予測値、及び破綻フラグの閾値に基づいて、各時刻における音声波形が破綻しているかを示す破綻フラグを得る。The failure flag conversion unit 33 obtains a failure flag indicating whether the audio waveform at each time is failure based on the audio waveform, the predicted value of the audio waveform, and the failure flag threshold value.

破綻検出部34は、再帰型ニューラルネットワーク(RNN : Recurrent Neural Network)の状態系列及び破綻検出モデル30aに基づいて、破綻フラグの予測値を得る。The failure detection unit 34 obtains a predicted value of the failure flag based on the state sequence of the recurrent neural network (RNN) and the failure detection model 30a.

破綻フラグの誤差算出部35は、破綻フラグ及び破綻フラグの予測値の誤差を算出する。The bankruptcy flag error calculation unit 35 calculates the error of the bankruptcy flag and the predicted value of the bankruptcy flag.

破綻検出モデル学習部36は、誤差及び破綻検出モデルに基づいて、学習済み破綻検出モデル30bを得る。The failure detection model learning unit 36 obtains a learned failure detection model 30b based on the error and the failure detection model.

なお、上記各機能構成については、以降で詳細に説明する。Each of the above functional configurations will be explained in detail below.

<音声合成装置の推論フェーズにおける機能構成>
図4は、第1の実施形態に係る音声合成装置の推論フェーズにおける機能構成図である。図4に示されているように、音声合成装置3は、入力部31、波形生成部32、破綻フラグへの変換部33、破綻検出部34、及び状態初期化部37を有する。なお、学習フェーズにおける機能構成と同様の機能構成については、同一の符号を付して説明を省略する。
<Functional configuration of the speech synthesis device in the inference phase>
Fig. 4 is a functional configuration diagram of the speech synthesizer in the inference phase according to the first embodiment. As shown in Fig. 4, the speech synthesizer 3 has an input unit 31, a waveform generation unit 32, a conversion unit to a failure flag 33, a failure detection unit 34, and a state initialization unit 37. Note that the same reference numerals are used for the functional configurations similar to those in the learning phase, and the description thereof will be omitted.

状態初期化部37は、破綻フラグ(予測値)が「破綻している」旨を示すことで破綻していると予測した場合、RNNの状態の初期値に基づいて、RNNの状態を初期化する。なお、この機能構成については、以降で詳細に説明する。When the state initialization unit 37 predicts a failure by indicating that the failure flag (predicted value) indicates "failure," it initializes the state of the RNN based on the initial value of the state of the RNN. This functional configuration will be described in detail later.

〔音声合成装置の処理又は動作〕
続いて、図5及び図6を用いて、第1の実施形態に係る音声合成装置の処理又は動作について説明する。
[Processing or operation of the voice synthesizer]
Next, the process or operation of the voice synthesis device according to the first embodiment will be described with reference to FIG. 5 and FIG.

<音声合成装置の学習フェーズにおける処理又は動作>
図5は、第1の実施形態に係る音声合成装置の学習フェーズにおける処理又は動作を示すフローチャートである。
<Processing or operation in the learning phase of the speech synthesizer>
FIG. 5 is a flowchart showing the processing or operation in the learning phase of the speech synthesis device according to the first embodiment.

まず、図5に示されているように、入力部31は、時刻tにおける学習データの音声波形First, as shown in FIG. 5, the input unit 31 receives the speech waveform of the learning data at time t.

と、その波形に対応する音響特徴量を結合して、波形生成部32に入力する(S11)。 The acoustic feature quantity corresponding to the waveform is combined with the waveform and input to the waveform generating unit 32 (S11).

次に、波形生成部32は、結合された音声波形及び音響特徴量、並びに、RNNの状態Next, the waveform generation unit 32 generates the combined speech waveform and acoustic features, as well as the state of the RNN.

に基づいて、次の時刻の音声波形(予測値) Based on this, the next time's audio waveform (predicted value)

を得る(S12)。ここで、音響特徴量として、スペクトログラムやメルケプストラムなどのスペクトル情報、基本周波数又はピッチ幅などの韻律情報が使われる。 Here, as the acoustic feature, spectral information such as a spectrogram or mel-cepstrum, and prosodic information such as a fundamental frequency or a pitch width are used.

そして、破綻フラグへの変更部33は、上記処理(S12)が時刻t=1,…,Tに関して実行されることで、音声波形(予測値) Then, the failure flag change unit 33 executes the above process (S12) for times t = 1, ..., T to obtain the voice waveform (predicted value)

を取得すると共に、音声波形 and audio waveform

、及び破綻フラグの閾値fを取得し、これらに基づいて、破綻フラグ , and the bankruptcy flag threshold value f are obtained, and the bankruptcy flag is calculated based on these.

を得る(S13)。 is obtained (S13).

ここで、破綻フラグとは、各時刻tにおける音声波形が破綻しているかを示す2値のフラグである。処理(S13)において、破綻フラグへの変換部33は、xとHere, the failure flag is a binary flag indicating whether the audio waveform at each time t is broken. In the process (S13), the failure flag conversion unit 33 converts x and

を比較し、その差分が破綻フラグの閾値fを超えた場合に破綻、そうでない場合に破綻していないとしてフラグを付与する。なお、xと If the difference exceeds the threshold value f of the failure flag, a flag is added as a failure. If not, a flag is added as a non-failure.

を振幅値で直接比較するのでは、波形生成部フラグの付与が難しい場合が多いため、一度パワーやスペクトルに変換してから比較してもよい。なぜなら、 Since it is often difficult to assign a waveform generator flag when comparing directly the amplitude values, it is acceptable to convert the values to power or spectrum before comparing them. This is because

が破綻している場合、パワーやスペクトルがxのそれと著しく異なり、差分が明確に出るためである。差分を計算する方法として、平均二乗誤差や平均絶対誤差を用いることができる
また、破綻フラグへの変換部33が、音声波形(予測値)
If x fails, the power or spectrum will be significantly different from that of x, and the difference will be clearly visible. The mean square error or mean absolute error can be used to calculate the difference.

を取得する際に、破綻検出部34が、同時に波形生成部32からRNNの状態系列 When acquiring the state sequence of the RNN from the waveform generating unit 32, the failure detecting unit 34 simultaneously acquires the state sequence of the RNN from the waveform generating unit 32.

を取得し、更に破綻検出モデル30aを取得して、これらに基づいて破綻フラグを予測することで、破綻フラグ(予測値) , and further obtains the bankruptcy detection model 30a, and predicts the bankruptcy flag based on these, thereby obtaining the bankruptcy flag (predicted value)

を得る(S14)。破綻検出モデルとして統計モデルを使う場合、破綻しているか否かの確率値が得られる。破綻検出モデル30aにはDNNだけでなく、ロジスティック回帰やサポートベクターマシンなどの別の分類モデルを用いてもよい。 (S14). When a statistical model is used as the failure detection model, a probability value of whether or not there is a failure is obtained. As the failure detection model 30a, not only DNN but also other classification models such as logistic regression and support vector machines may be used.

次に、破綻フラグの誤差算出部35は、破綻フラグ及び破綻フラグ(予測値)を取得し、破綻フラグ及び破綻フラグ(予測値)の誤差を算出する(S15)。破綻検出モデル30aのタスクは、破綻しているか否かの分類問題であるため、DNNを統計モデルとして採用する場合、誤差関数としてクロスエントロピーなどが利用可能である。Next, the failure flag error calculation unit 35 acquires the failure flag and the failure flag (predicted value), and calculates the error of the failure flag and the failure flag (predicted value) (S15). Since the task of the failure detection model 30a is a classification problem of whether or not there is a failure, when a DNN is adopted as a statistical model, cross-entropy or the like can be used as an error function.

次に、破綻検出モデル学習部36は、破綻フラグの誤差算出部35によって算出された誤差、及び破綻検出モデル30aに基づいて、学習済み破綻検出モデル30bを得る(S16)。この処理(S16)は、誤差を最小化するよう、破綻検出モデル30aのパラメータを更新することで達成され、DNNでは一般的に誤差逆伝搬が用いられる。ここまでの手順を学習データの全てに対して繰り返し実行することで、破綻検出モデル30aの予測精度を向上させる。以上のようにして、推論フェーズが終了する。Next, the failure detection model learning unit 36 obtains a learned failure detection model 30b based on the error calculated by the failure flag error calculation unit 35 and the failure detection model 30a (S16). This process (S16) is achieved by updating the parameters of the failure detection model 30a to minimize the error, and in DNNs, error backpropagation is generally used. By repeatedly executing the above procedure for all of the training data, the prediction accuracy of the failure detection model 30a is improved. In this way, the inference phase ends.

<音声合成装置の推論フェーズにおける処理又は動作>
図6は、第1の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。
<Processing or operation in the inference phase of the speech synthesizer>
FIG. 6 is a flowchart showing the processing or operation in the inference phase of the speech synthesis device according to the first embodiment.

まず、図6に示されているように、入力部31は、上述の処理(S11)と同様に、時刻tにおける学習データの音声波形First, as shown in FIG. 6, the input unit 31 inputs the speech waveform of the learning data at time t in the same manner as in the above-mentioned process (S11).

と、その波形に対応する音響特徴量を結合して、波形生成部32に入力する(S111)。 The acoustic feature quantity corresponding to the waveform is combined with the waveform and input to the waveform generating unit 32 (S111).

次に、波形生成部32は、上述の処理(S12)と同様に、結合された音声波形及び音響特徴量、並びに、RNNの状態Next, the waveform generation unit 32 generates the combined speech waveform and acoustic features, as well as the state of the RNN, in the same manner as in the above-mentioned process (S12).

に基づいて、次の時刻の音声波形(予測値) Based on this, the next time's audio waveform (predicted value)

を得る(S112)。 is obtained (S112).

次に、破綻検出部34が、波形生成部32からRNNの状態Next, the failure detection unit 34 receives the state of the RNN from the waveform generation unit 32.

を得て、更に学習済み破綻検出モデル30bを得て、これらに基づいて破綻フラグを予測することで、破綻フラグ(予測値) Then, the learned failure detection model 30b is obtained, and the failure flag is predicted based on these, so that the failure flag (predicted value)

を得る(S113)。 is obtained (S113).

次に、状態初期化部37は、破綻フラグ(予測値)が「破綻している」旨を示すことで破綻していると予測した場合、RNNの状態の初期値に基づいて、RNNの状態Next, when the state initialization unit 37 predicts that the RNN has failed by indicating that the failure flag (predicted value) indicates that the RNN has failed, the state initialization unit 37 initializes the RNN state based on the initial value of the RNN state.

を初期化する。 Initialize.

以上のようにして、推論フェーズが終了する。 This completes the inference phase.

<第1の実施形態の主な効果>
以上説明したように、本実施形態によれば、波形生成の動作速度を著しく損なうことを防止しながら、音声の自然性の低下を防止することができるという効果を奏する。具体的には、ニューラルボコーダーの動作で得た情報のみから波形生成の破綻を検出できる。ひいては破綻を検出したタイミングでRNNの状態変数を初期化することで、状態変数発話が不明瞭になる問題や無音になる問題を回避することができる。
<Main Effects of the First Embodiment>
As described above, according to this embodiment, it is possible to prevent the deterioration of the naturalness of the voice while preventing a significant loss in the operating speed of the waveform generation. Specifically, a waveform generation failure can be detected only from information obtained by the operation of the neural vocoder. Furthermore, by initializing the state variables of the RNN at the timing when a failure is detected, it is possible to avoid problems such as unclear speech or silence.

●第2の実施形態
続いて、図7及び図8を用いて、第2の実施形態について説明する。
Second Embodiment Next, a second embodiment will be described with reference to FIGS.

〔音声合成装置の機能構成〕
本実施形態に係る音声合成装置3の学習フェーズにおける機能構成は、第1の実施形態に係る音声合成装置3の学習フェーズにおける機能構成と同様であるため、説明を省略する。
[Functional configuration of the voice synthesis device]
The functional configuration of the speech synthesizer 3 according to this embodiment in the learning phase is similar to the functional configuration of the speech synthesizer 3 according to the first embodiment in the learning phase, and therefore a description thereof will be omitted.

<音声合成装置の推論フェーズにおける機能構成>
第2の実施形態に係る音声合成装置3は、第1の実施形態に係る音声合成装置3に対して、更に、音声波形のバッファリング部41、音声波形の平均部42、及び音声波形選択部48を有する。
<Functional configuration of the speech synthesis device in the inference phase>
The speech synthesizer 3 according to the second embodiment further comprises a speech waveform buffering unit 41, a speech waveform averaging unit 42, and a speech waveform selection unit 48 in addition to the components of the speech synthesizer 3 according to the first embodiment.

これらのうち、音声波形のバッファリング部41は、メモリ302に構築されており、音声波形(予測値)を蓄積する。Of these, the audio waveform buffering unit 41 is constructed in memory 302 and stores audio waveforms (predicted values).

音声波形の平均部42は、バッファリング部41に蓄積された直前の音声波形(予測値)に基づいて、平均された音声波形を得る。 The audio waveform averaging unit 42 obtains an averaged audio waveform based on the previous audio waveform (predicted value) stored in the buffering unit 41.

音声波形選択部48は、破綻フラグの予測値、音声波形(予測値)、及び平均された音声波形に基づき、次時刻の音声波形予測のための音声波形(予測値)を出力する。 The audio waveform selection unit 48 outputs an audio waveform (predicted value) for predicting the audio waveform at the next time based on the predicted value of the bankruptcy flag, the audio waveform (predicted value), and the averaged audio waveform.

なお、上記各機能構成については、以降で詳細に説明する。Each of the above functional configurations will be explained in detail below.

〔音声合成装置の処理又は動作〕
続いて、図8を用いて、第2の実施形態に係る音声合成装置の処理又は動作について説明する。本実施形態に係る音声合成装置3の処理又は動作は、第1の実施形態に係る音声合成装置3の処理又は動作に対して、学習フェーズは同様の処理であり、推論フェーズの一部が異なるのみであるため、学習フェーズの処理の説明は省略する。
[Processing or operation of the voice synthesizer]
Next, the processing or operation of the speech synthesizer according to the second embodiment will be described with reference to Fig. 8. The processing or operation of the speech synthesizer 3 according to the present embodiment is similar to the processing or operation of the speech synthesizer 3 according to the first embodiment in the learning phase, and only a part of the inference phase is different, so the description of the processing in the learning phase will be omitted.

<音声合成装置の推論フェーズにおける処理又は動作>
図8は、第2の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。なお、処理(S121~S124)は、第1の実施形態の処理(S111~S114)と同様であるため、説明を省略する。
<Processing or operation in the inference phase of the speech synthesizer>
8 is a flowchart showing the process or operation in the inference phase of the speech synthesis device according to the second embodiment. Note that the process (S121 to S124) is similar to the process (S111 to S114) of the first embodiment, and therefore the description will be omitted.

なお、処理(S122)において、波形生成部32は、次の時刻の音声波形(予測値)In addition, in the process (S122), the waveform generation unit 32 generates the voice waveform (predicted value) for the next time.

を得る度に、この音声波形(予測値)を音声波形のバッファリング部41に入力することで、音声波形のバッファリング部41は、音声波形(予測値)を蓄積する(S125)。 Each time a speech waveform (predicted value) is obtained, the speech waveform buffering unit 41 inputs the speech waveform (predicted value) and the speech waveform buffering unit 41 stores the speech waveform (predicted value) (S125).

次に、音声波形の平均部42は、バッファリング部41に蓄積された直前の音声波形(予測値)を得て、この音声波形(予測値)に基づいて、平均された音声波形Next, the audio waveform averaging unit 42 obtains the immediately preceding audio waveform (predicted value) stored in the buffering unit 41, and calculates an averaged audio waveform based on this audio waveform (predicted value).

を得る(S126)。ここで、音声波形の平均部42は、直近のNサンプルの平均をとる単純移動平均、又は、直近の時刻の音声波形を重視するような加重移動平均若しくは指数移動平均等を用いることができる。 Here, the voice waveform averaging unit 42 can use a simple moving average that takes the average of the most recent N samples, or a weighted moving average or an exponential moving average that places importance on the voice waveform at the most recent time.

次に、音声波形選択部48は、破綻フラグ(予測値)Next, the audio waveform selection unit 48 selects the failure flag (predicted value)

平均された音声波形 Averaged audio waveform

及び音声波形(予測値) and speech waveform (predicted value)

に基づき、次の時刻の音声波形予測のための音声波形(予測値)として出力する(S127)。この場合、時刻t+1において、破綻検出部34によって破綻フラグ Based on this, the speech waveform (prediction value) for predicting the speech waveform at the next time is output (S127). In this case, at time t+1, the failure detection unit 34 detects the failure flag

が破綻と判定されたときには、音声波形選択部48は、波形生成部32により得た音声波形(予測値)を選択せずに、平均された音声波形を選択して出力する。以上のようにして、推論フェーズが終了する。 is determined to be broken, the voice waveform selection unit 48 selects and outputs the averaged voice waveform, without selecting the voice waveform (predicted value) obtained by the waveform generation unit 32. In this manner, the inference phase ends.

<第2の実施形態の主な効果>
以上説明したように、本実施形態によれば、第1の実施形態の効果に加え、RNNの状態hを初期化した際の副作用である、音声の不連続性を解消することが可能である。また、RNNの状態hには、その時刻までに生成した音声波形の情報が蓄積されており、状態hの初期化によりそれまでの情報が失われる。すなわち、状態hの初期化前後の音声の連続性も失われる。本実施形態では、この不連続性を解消するため、初期化する直前の数サンプルの音声波形を事前にバッファリングしておく。初期化時点での音声波形として、波形生成部32により予測したものの代わりに、バッファリングした音声の平均値を用いる。これにより、状態hを初期化しつつ、直前の音声との連続性も担保することができ、著しい品質の劣化を起こさずに破綻を防げる。
<Main Effects of the Second Embodiment>
As described above, according to this embodiment, in addition to the effects of the first embodiment, it is possible to eliminate the discontinuity of the voice, which is a side effect when the state h of the RNN is initialized. Furthermore, in the state h of the RNN, information on the voice waveform generated up to that time is accumulated, and the information up to that time is lost by the initialization of the state h. In other words, the continuity of the voice before and after the initialization of the state h is also lost. In this embodiment, in order to eliminate this discontinuity, several samples of the voice waveform immediately before the initialization are buffered in advance. As the voice waveform at the time of initialization, the average value of the buffered voice is used instead of the one predicted by the waveform generation unit 32. As a result, while initializing the state h, the continuity with the immediately previous voice can be secured, and failure can be prevented without causing significant deterioration in quality.

●第3の実施形態
続いて、図9乃至図12を用いて、第3の実施形態について説明する。
Third Embodiment Next, a third embodiment will be described with reference to FIGS.

〔音声合成装置の機能構成〕
本実施形態に係る音声合成装置3は、第1の実施形態に係る音声合成装置3の学習フェーズ及び推論フェーズにおける機能構成に対して、更に、統計量算出部49を有する。
[Functional configuration of the voice synthesis device]
The voice synthesizer 3 according to this embodiment further includes a statistics calculation unit 49 in addition to the functional configuration in the learning phase and the inference phase of the voice synthesizer 3 according to the first embodiment.

統計量算出部49は、RNNの状態の統計量を得る。なお、この機能構成については、以降で詳細に説明する。The statistics calculation unit 49 obtains statistics of the state of the RNN. This functional configuration will be described in detail later.

〔音声合成装置の処理又は動作〕
続いて、図11を用いて、第3の実施形態に係る音声合成装置の処理又は動作について説明する。
[Processing or operation of the voice synthesizer]
Next, the process or operation of the voice synthesis device according to the third embodiment will be described with reference to FIG.

<音声合成装置の学習フェーズにおける処理又は動作>
図11は、第3の実施形態に係る音声合成装置の学習フェーズにおける処理又は動作を示すフローチャートである。なお、処理(S31,S32,S33,S34,S35,S36)は、それぞれ第1の実施形態における処理(S11,S12,S13,S14,S15,S16)に対応し、第1の実施形態と大部分は同じであるため、差分のみ説明する。
<Processing or operation in the learning phase of the speech synthesizer>
11 is a flowchart showing the processing or operation in the learning phase of the speech synthesis device according to the third embodiment. Note that the processing (S31, S32, S33, S34, S35, S36) corresponds to the processing (S11, S12, S13, S14, S15, S16) in the first embodiment, respectively, and is mostly the same as the first embodiment, so only the differences will be described.

本実施形態では、第1の実施形態と同様に、処理(S31)後、波形生成部32が、次の時刻の音声波形(予測値)In this embodiment, as in the first embodiment, after processing (S31), the waveform generation unit 32 generates the speech waveform (predicted value) for the next time.

を得る(S32)。また、この予測の度に、波形生成部32は、RNNの状態 (S32). In addition, each time a prediction is made, the waveform generating unit 32 obtains the state of the RNN.

を得る。 get.

本実施形態では、統計量算出部49は、波形生成部32からRNNの状態を得て、RNNの状態の統計量In this embodiment, the statistics calculation unit 49 obtains the state of the RNN from the waveform generation unit 32 and calculates the statistics of the state of the RNN.

を得る。そして、統計量算出部49は、この処理を時刻t=1,…,Tに関して実行し、RNNの状態の統計量 The statistics calculation unit 49 then executes this process for times t=1, ..., T to obtain the statistics of the RNN state.

を取得する(S32-1)。通常、RNNの状態hは、音声波形の連続性を担保するため、少なくとも次元数が100を超えるベクトルで構成される。そのまま破綻検出部34の入力に用いると、次元数に比例して計算量が大きいため、統計量算出部49は、状態hから低次元の特徴量に変換する。具体的には、統計量算出部49は、 (S32-1). Usually, the state h of the RNN is composed of a vector with a number of dimensions exceeding at least 100 in order to ensure the continuity of the speech waveform. If this is used as the input to the breakdown detection unit 34 as is, the amount of calculation increases in proportion to the number of dimensions, so the statistics calculation unit 49 converts the state h into a low-dimensional feature. Specifically, the statistics calculation unit 49

の平均値、標準偏差、最大値、及び最小値などを結合したベクトルを用いる。もしくは、統計量算出部49は、主成分分析や線形判別分析により低次元のベクトルに次元圧縮してもよい。 The statistical calculation unit 49 may use a vector obtained by combining the average value, standard deviation, maximum value, minimum value, etc. of the above. Alternatively, the statistical calculation unit 49 may perform dimensional compression into a low-dimensional vector by principal component analysis or linear discriminant analysis.

その後、統計量算出部49は、破綻検出部34にRNNの状態の統計量Then, the statistics calculation unit 49 outputs the statistics of the RNN state to the failure detection unit 34.

を入力し、破綻フラグを予測する以降の流れは第1の実施形態と同様であるため、説明を省略する。以上のようにして、学習フェーズが終了する。 The flow from inputting the above to predicting the bankruptcy flag is the same as that in the first embodiment, and therefore the description thereof will be omitted. In this manner, the learning phase is completed.

<音声合成装置の推論フェーズにおける処理又は動作>
図12は、第3の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。なお、処理(S131,S132,S133,S134)は、それぞれ第1の実施形態における処理(S111,S112,S113,S114)に対応し、第1の実施形態と大部分は同じであるため、差分のみ説明する。
<Processing or operation in the inference phase of the speech synthesizer>
12 is a flowchart showing the processing or operation in the inference phase of the speech synthesis device according to the third embodiment. Note that the processing (S131, S132, S133, S134) corresponds to the processing (S111, S112, S113, S114) in the first embodiment, respectively, and is mostly the same as the first embodiment, so only the differences will be described.

本実施形態では、第1の実施形態と同様に、処理(S131)後、波形生成部32が、次の時刻の音声波形(予測値)In this embodiment, as in the first embodiment, after the process (S131), the waveform generation unit 32 generates the speech waveform (predicted value) for the next time.

を得る(S132)。また、この予測の度に、波形生成部32は、RNNの状態 (S132). In addition, each time a prediction is made, the waveform generating unit 32 obtains the state of the RNN.

を得る。 get.

その後、統計量算出部49は、破綻検出部34にRNNの状態の統計量Then, the statistics calculation unit 49 outputs the statistics of the RNN state to the failure detection unit 34.

を入力し、その後の処理の流れは第1の実施形態と同様であるため、説明を省略する。以上のようにして、推論フェーズが終了する。 The flow of the process thereafter is the same as in the first embodiment, and therefore will not be described. In this manner, the inference phase is completed.

<第3の実施形態の主な効果>
以上説明したように、本実施形態によれば、第1の実施形態の効果に加え、以下のような効果を奏する。すなわち、第2の実施形態にて述べた破綻検出処理において、RNNの状態hをそのまま用いると、状態hの次元数が大きいため計算量が大きく波形生成動作速度を損なう。これに対して、本実施形態により、破綻検出に要する計算量を削減することができ、破綻検出を含めた波形生成の動作速度を向上できる。また、第2の実施形態と組み合わせることもでき、破綻検出に要する計算量を削減しながら音声の連続性を担保した波形生成が可能である。
<Main Effects of the Third Embodiment>
As described above, this embodiment provides the following effects in addition to the effects of the first embodiment. That is, if the state h of the RNN is used as is in the breakdown detection process described in the second embodiment, the number of dimensions of the state h is large, so the amount of calculation is large and the operation speed of the waveform generation is impaired. In contrast, this embodiment can reduce the amount of calculation required for breakdown detection, and can improve the operation speed of waveform generation including breakdown detection. In addition, it can be combined with the second embodiment, and it is possible to generate a waveform that ensures the continuity of the voice while reducing the amount of calculation required for breakdown detection.

●第4の実施形態
次に、図13乃至図16を用いて、第4の実施形態について説明する。
Fourth Embodiment Next, a fourth embodiment will be described with reference to FIGS.

〔音声合成装置の機能構成〕
図13及び図14を用いて、第4の実施形態に係る音声合成装置の機能構成について説明する。
[Functional configuration of the voice synthesis device]
The functional configuration of a speech synthesis device according to the fourth embodiment will be described with reference to FIG. 13 and FIG.

<音声合成装置の学習フェーズにおける機能構成>
本実施形態に係る音声合成装置3は、第1の実施形態の音声合成装置3における、破綻フラグへの変換部33、破綻検出部34、破綻フラグの誤差算出部35、及び破綻検出モデル学習部36が、それぞれ、破綻検出の指標への変換部43、破綻検出の指標の予測部44、破綻検出の指標の誤差算出部45、及び破綻検出の指標予測モデル学習部46に代わっている。
<Functional configuration of the speech synthesis device in the learning phase>
In the speech synthesis device 3 of this embodiment, the failure flag conversion unit 33, failure detection unit 34, failure flag error calculation unit 35, and failure detection model learning unit 36 in the speech synthesis device 3 of the first embodiment are replaced with a failure detection index conversion unit 43, a failure detection index prediction unit 44, a failure detection index error calculation unit 45, and a failure detection index prediction model learning unit 46, respectively.

これらのうち、破綻検出の指標への変換部43は、音声波形及び音声波形(予測値)に基づいて、破綻検出の指標を得る。Of these, the failure detection index conversion unit 43 obtains a failure detection index based on the audio waveform and the audio waveform (predicted value).

破綻検出の指標の予測部44は、RNNの状態系列及び破綻検出の指標予測モデル40aに基づいて、破綻検出の指標(予測値)を得る。The failure detection index prediction unit 44 obtains a failure detection index (predicted value) based on the RNN state sequence and the failure detection index prediction model 40a.

破綻検出の指標の誤差算出部45は、破綻検出の指標及び破綻検出の指標(予測値)の誤差を算出する。The failure detection index error calculation unit 45 calculates the failure detection index and the error of the failure detection index (predicted value).

破綻検出の指標予測モデル学習部46は、誤差及び破綻検出の指標予測モデル40aに基づいて、学習済み破綻検出の指標予測モデル40bを得る。The failure detection indicator prediction model learning unit 46 obtains a learned failure detection indicator prediction model 40b based on the error and the failure detection indicator prediction model 40a.

なお、上記各機能構成については、以降で詳細に説明する。Each of the above functional configurations will be explained in detail below.

<音声合成装置の推論フェーズにおける機能構成>
本実施形態に係る音声合成装置3は、第1の実施形態の音声合成装置3における破綻検出部34が、破綻検出の指標の予測部44に代わっている。また、状態初期化部37に対して、破綻フラグ(予測値)が入力されるのではなく破綻検出の指標(予測値)が入力され、更に破綻フラグの閾値fが入力されている。
<Functional configuration of the speech synthesis device in the inference phase>
In the speech synthesizer 3 according to this embodiment, the failure detection unit 34 in the speech synthesizer 3 of the first embodiment is replaced with a failure detection index prediction unit 44. Also, instead of a failure flag (predicted value) being input to a state initialization unit 37, a failure detection index (predicted value) is input, and further a failure flag threshold value f is input.

〔音声合成装置の処理又は動作〕
続いて、図15及び図16を用いて、第4の実施形態に係る音声合成装置の処理又は動作について説明する。
[Processing or operation of the voice synthesizer]
Next, the process or operation of the voice synthesis device according to the fourth embodiment will be described with reference to FIG. 15 and FIG.

<音声合成装置の学習フェーズにおける処理又は動作>
図15は、第4の実施形態に係る音声合成装置の学習フェーズにおける処理又は動作を示すフローチャートである。なお、処理(S41,S42)は、それぞれ第1の実施形態における処理(S11,S12)に対応するため、差分のみ説明する。
<Processing or operation in the learning phase of the speech synthesizer>
15 is a flowchart showing the processing or operation in the learning phase of the speech synthesis device according to the fourth embodiment. Note that since the processing (S41, S42) corresponds to the processing (S11, S12) in the first embodiment, respectively, only the differences will be described.

本実施形態では、破綻検出の指標への変換部43は、上記処理(S42)が時刻t=1,…,Tに関して実行されることで、音声波形(予測値)In this embodiment, the conversion unit 43 converts the speech waveform (predicted value) into a failure detection index by executing the above process (S42) for times t = 1, ..., T.

を取得すると共に、音声波形 and audio waveform

を取得し、これらに基づいて、破綻検出の指標 Based on these, the indicators for detecting bankruptcy are obtained.

を得る(S43)。 is obtained (S43).

ここで、破綻検出の指標とは、第1の実施形態の破綻フラグを生成するために使う音声波形xとその予測値Here, the indicators for detecting a failure are the audio waveform x and its predicted value used to generate the failure flag in the first embodiment.

の差分であり、音声波形の振幅値又はこの振動値から計算されるパワーや、スペクトルから計算される誤差である。 and is the power calculated from the amplitude value of the audio waveform or the vibration value, or the error calculated from the spectrum.

また、破綻検出の指標への変換部43が、音声波形(予測値) In addition, the conversion unit 43 converts the audio waveform (predicted value)

を取得する際に、破綻検出の指標の予測部44が、同時に波形生成部32からRNNの状態系列 When acquiring the state sequence of the RNN from the waveform generating unit 32, the failure detection index predicting unit 44 simultaneously acquires the state sequence of the RNN from the waveform generating unit 32.

を取得し、更に破綻検出の指標予測モデル40aを取得して、これらに基づいて破綻検出の指標(予測値) , and further obtains a failure detection index prediction model 40a, and based on these, a failure detection index (prediction value)

を得る(S44)。 is obtained (S44).

なお、破綻検出の指標の予測部44は、第3の実施形態と同様に、統計量算出部49を介して、RNNの状態の統計量In addition, the failure detection index prediction unit 44 calculates the statistics of the RNN state via the statistics calculation unit 49 in the same manner as in the third embodiment.

を取得するようにしてもよい。 may be acquired.

次に、破綻検出の指標の誤差算出部45は、破綻検出の指標及び破綻検出の指標(予測値)を取得し、破綻検出の指標及び破綻検出の指標(予測値)の誤差を算出する(S45)。破綻検出の指標及び破綻検出の指標(予測値)は、それぞれ連続値であるため、誤差を計算する方法として、第1の実施形態の処理(S14)と同様に平均二乗誤差や平均絶対誤差を用いることができる。Next, the failure detection index error calculation unit 45 acquires the failure detection index and the failure detection index (predicted value), and calculates the error of the failure detection index and the failure detection index (predicted value) (S45). Since the failure detection index and the failure detection index (predicted value) are continuous values, the mean square error or the mean absolute error can be used as a method of calculating the error, as in the process of the first embodiment (S14).

次に、破綻検出の指標予測モデル学習部46は、破綻検出の指標の誤差算出部45によって算出された誤差、及び破綻検出の指標予測モデル40aに基づいて、学習済み破綻検出の指標予測モデル40bを得る(S46)。この処理(S46)は、誤差を最小化するよう、破綻検出の指標予測モデル40aのパラメータを更新することで達成され、DNNでは一般的に誤差逆伝搬が用いられる。ここまでの手順を学習データの全てに対して繰り返し実行することで、破綻検出の指標予測モデル40aの予測精度を向上させる。以上のようにして、推論フェーズが終了する。Next, the failure detection index prediction model learning unit 46 obtains a learned failure detection index prediction model 40b based on the error calculated by the failure detection index error calculation unit 45 and the failure detection index prediction model 40a (S46). This process (S46) is achieved by updating the parameters of the failure detection index prediction model 40a to minimize the error, and in DNNs, backpropagation is generally used. By repeatedly executing the above procedure for all of the training data, the prediction accuracy of the failure detection index prediction model 40a is improved. In this way, the inference phase is completed.

<音声合成装置の推論フェーズにおける処理又は動作>
第4の実施形態に係る音声合成装置の推論フェーズにおける処理又は動作を示すフローチャートである。なお、処理(S141,S142)は、それぞれ第1の実施形態における処理(S111,S112)に対応するため、差分のみ説明する。
<Processing or operation in the inference phase of the speech synthesizer>
10 is a flowchart showing the processing or operation in the inference phase of the speech synthesis device according to the fourth embodiment. Note that since the processing (S141, S142) corresponds to the processing (S111, S112) in the first embodiment, respectively, only the differences will be described.

本実施形態では、破綻検出の指標への変換部43は、波形生成部32からRNNの状態In this embodiment, the conversion unit 43 converts the state of the RNN from the waveform generation unit 32 to an index for detecting a failure.

を得て、更に、学習済み破綻検出の指標予測モデル40bを得て、これらに基づいて破綻検出の指標を予測することで、破綻検出の指標(予測値) and further obtain a learned failure detection index prediction model 40b. By predicting the failure detection index based on these, the failure detection index (predicted value)

を得る(S143)。 is obtained (S143).

次に、状態初期化部37は、破綻検出の指標(予測値)が閾値fより大きい場合、波形生成が「破綻しているとみなし」、RNNの状態の初期値に基づいて、RNNの状態Next, if the failure detection index (prediction value) is greater than the threshold value f, the state initialization unit 37 determines that the waveform generation has "failed" and resets the state of the RNN based on the initial value of the RNN state.

を初期化する。 Initialize.

以上のようにして、推論フェーズが終了する。 This completes the inference phase.

<第4の実施形態の主な効果>
以上説明したように、第1乃至第3の実施形態の破綻検出処理において、識別モデルとして学習した破綻検出モデルの精度のチューニングをする場合、学習フェーズの破綻フラグの閾値fを変えたり、破綻検出モデルのハイパーパラメータをはじめとする学習条件を変えたりなど、再学習が必須である。このため、最適と思われるモデルを得るためのチューニングに要する手間が大きい。また、破綻検出モデル30aは、波形生成部32に特化して学習しているため、波形生成部32で用いるモデルが変わるとそれに紐づき、破綻検出モデル30aのチューニングもやり直さなくてはならない。
<Main Effects of the Fourth Embodiment>
As described above, in the failure detection processing of the first to third embodiments, when tuning the accuracy of the failure detection model trained as a discrimination model, re-learning is required, for example, by changing the threshold f of the failure flag in the learning phase or by changing learning conditions such as hyperparameters of the failure detection model. Therefore, a lot of effort is required for tuning to obtain a model that is considered optimal. In addition, since the failure detection model 30a is trained specifically for the waveform generation unit 32, when the model used in the waveform generation unit 32 is changed, the failure detection model 30a must be linked to the new model and re-tuned.

これに対して、本実施形態では、離散値の破綻フラグを予測する識別モデルを学習するのではなく、連続量の破綻検出の指標を予測する生成モデルとして学習する。具体的には、第4の実施形態の音声合成装置3は、破綻フラグを統計モデルから直接予測するのではなく、その指標となる値を予測し、それが閾値fを超えているかで破綻を間接的に検出する。これにより、破綻検出に使うモデルの再学習なしに、閾値fのチューニングをするだけで良く、上記の第1乃至第3の実施形態の課題を低減することができる。In contrast, in this embodiment, a discriminative model that predicts a discrete value failure flag is not trained, but rather a generative model that predicts an indicator for continuous failure detection is trained. Specifically, the speech synthesis device 3 of the fourth embodiment does not directly predict the failure flag from a statistical model, but predicts the value that will be the indicator, and indirectly detects failure based on whether it exceeds the threshold f. This makes it possible to reduce the issues of the first to third embodiments by simply tuning the threshold f without re-learning the model used for failure detection.

また、本実施形態は、第2又は第3の実施形態と組み合わせることもでき、破綻検出に要する計算量を削減しながら、音声の連続性を担保した波形生成が可能である。 This embodiment can also be combined with the second or third embodiment, making it possible to generate a waveform that ensures audio continuity while reducing the amount of calculations required for breakdown detection.

〔補足〕
本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
〔supplement〕
The present invention is not limited to the above-described embodiment, and may have the following configurations or processes (operations).

音声合成装置3はコンピュータとプログラムによって実現できるが、このプログラムを(非一時的な)記録媒体に記録することも、通信ネットワーク100を介して提供することも可能である。The voice synthesis device 3 can be realized by a computer and a program, but this program can also be recorded on a (non-temporary) recording medium or provided via the communication network 100.

1 通信システム
3 音声合成装置
5 通信端末
30a 破綻検出モデル
30b 学習済み破綻検出モデル
31 入力部
32 波形生成部
33 破綻フラグへの変換部
34 破綻検出部
35 破綻フラグの誤差算出部
36 破綻検出モデル学習部
37 状態初期化部
40a 破綻検出の指標予測モデル
40b 学習済み破綻検出の指標予測モデル
41 音声波形のバッファリング部
42 音声波形の平均部
43 破綻検出の指標への変換部
44 破綻検出の指標の予測部
45 破綻検出の指標の誤差算出部
46 破綻検出の指標予測モデル学習部
REFERENCE SIGNS LIST 1 Communication system 3 Voice synthesis device 5 Communication terminal 30a Impairment detection model 30b Learned impairment detection model 31 Input unit 32 Waveform generation unit 33 Conversion to impair flag unit 34 Impairment detection unit 35 Impairment flag error calculation unit 36 Impairment detection model learning unit 37 State initialization unit 40a Impairment detection index prediction model 40b Learned impairment detection index prediction model 41 Voice waveform buffering unit 42 Voice waveform averaging unit 43 Conversion to impair detection index unit 44 Impairment detection index prediction unit 45 Impairment detection index error calculation unit 46 Impairment detection index prediction model learning unit

Claims (10)

学習フェーズにおいて音声波形を生成する音声合成装置であって、
結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る波形生成部と、
前記音声波形、前記音声波形の予測値、及び各時刻における音声波形が破綻しているかを示す破綻フラグの閾値に基づいて、前記破綻フラグを得る破綻フラグへの変換部と、
前記再帰型ニューラルネットワークの状態系列及び破綻検出モデルに基づいて、前記破綻フラグの予測値を得る破綻検出部と、
前記破綻フラグ及び前記破綻フラグの予測値の誤差を算出する破綻フラグの誤差算出部と、
前記誤差及び前記破綻検出モデルに基づいて、学習済み破綻検出モデルを得る破綻検出モデル学習部と、
を有する音声合成装置。
A speech synthesis device for generating speech waveforms in a training phase, comprising:
a waveform generation unit that obtains a predicted value of a speech waveform at a next time based on the combined speech waveform and acoustic feature amount and a state of a recurrent neural network;
a conversion unit for converting the speech waveform into a failure flag, the conversion unit obtaining the failure flag based on the speech waveform, the predicted value of the speech waveform, and a threshold value of a failure flag indicating whether the speech waveform at each time point is failed;
a failure detection unit that obtains a predicted value of the failure flag based on a state sequence of the recurrent neural network and a failure detection model;
a bankruptcy flag error calculation unit that calculates an error between the bankruptcy flag and a predicted value of the bankruptcy flag;
a failure detection model learning unit that obtains a learned failure detection model based on the error and the failure detection model;
A speech synthesis device having the above configuration.
請求項1に記載の音声合成装置であって、
前記再帰型ニューラルネットワークの状態に基づいて、前記再帰型ニューラルネットワークの状態の統計量を得る総計量算出部を有し、
前記破綻検出部は、前記再帰型ニューラルネットワークの状態系列から代えた前記再帰型ニューラルネットワークの状態の統計量、及び前記破綻検出モデルに基づいて、前記破綻フラグの予測値を得る、音声合成装置。
2. The speech synthesis device according to claim 1,
a total metric calculation unit for obtaining statistics of a state of the recurrent neural network based on the state of the recurrent neural network;
The failure detection unit obtains a predicted value of the failure flag based on statistics of the state of the recurrent neural network replaced from the state series of the recurrent neural network and the failure detection model.
学習フェーズにおいて音声波形を生成する音声合成装置であって、
結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る波形生成部と、
前記音声波形及び前記音声波形の予測値の差分に基づいて、破綻検出の指標を得る破綻検出の指標への変換部と、
前記再帰型ニューラルネットワークの状態系列及び破綻検出の指標予測モデルに基づいて、破綻検出の指標の予測値を得る破綻検出の指標の予測部と、
前記破綻検出の指標及び破綻検出の指標の予測値の誤差を算出する破綻検出の指標の誤差算出部と、
前記誤差及び前記破綻検出の指標予測モデルに基づいて、学習済み破綻検出モデルを得る破綻検出の指標予測モデル学習部と、
を有する音声合成装置。
A speech synthesis device for generating speech waveforms in a training phase, comprising:
a waveform generation unit that obtains a predicted value of a speech waveform at a next time based on the combined speech waveform and acoustic feature amount and a state of a recurrent neural network;
a conversion unit for converting the speech waveform into a speech imperfection detection index, the conversion unit obtaining a speech imperfection detection index based on a difference between the speech waveform and a predicted value of the speech waveform;
a failure detection index prediction unit that obtains a predicted value of a failure detection index based on a state sequence of the recurrent neural network and a failure detection index prediction model;
a failure detection index error calculation unit that calculates an error between the failure detection index and a predicted value of the failure detection index;
a failure detection index prediction model learning unit for obtaining a learned failure detection model based on the error and the failure detection index prediction model;
A speech synthesis device having the above configuration.
推論フェーズにおいて音声波形を生成する音声合成装置であって、
結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る波形生成部と、
前記再帰型ニューラルネットワークの状態及び学習済み破綻検出モデルに基づいて、各時刻における音声波形が破綻しているかを示す破綻フラグの予測値を得る破綻検出部と、
前記破綻フラグの予測値が破綻を示している場合には、前記再帰型ニューラルネットワークの状態の初期値に基づいて、前記再帰型ニューラルネットワークの状態を初期化する状態初期化部と、
を有する音声合成装置。
A speech synthesis device for generating a speech waveform in an inference phase, comprising:
a waveform generation unit that obtains a predicted value of a speech waveform at a next time based on the combined speech waveform and acoustic feature amount and a state of a recurrent neural network;
a failure detection unit that obtains a predicted value of a failure flag indicating whether the speech waveform at each time point is failed, based on a state of the recurrent neural network and a trained failure detection model;
a state initialization unit that initializes a state of the recurrent neural network based on an initial value of the state of the recurrent neural network when the predicted value of the failure flag indicates a failure;
A speech synthesis device having the above configuration.
請求項4に記載の音声合成装置であって、
前記音声波形の予測値を蓄積する音声波形のバッファリング部と、
前記バッファリング部に蓄積された直前の音声波形の予測値に基づいて、平均された音声波形を得る音声波形の平均部と、
前記破綻フラグの予測値、前記音声波形の予測値、及び前記平均された音声波形に基づき、次時刻の音声波形予測のための音声波形の予測値を出力する音声波形選択部と、
を有する音声合成装置。
5. A speech synthesis device according to claim 4,
a speech waveform buffering unit that stores the speech waveform prediction value;
a speech waveform averaging unit for obtaining an averaged speech waveform based on a predicted value of the immediately preceding speech waveform stored in the buffering unit;
a speech waveform selection unit that outputs a speech waveform prediction value for predicting a speech waveform at a next time point based on the failure flag prediction value, the speech waveform prediction value, and the averaged speech waveform;
A speech synthesis device having the above configuration.
請求項4に記載の音声合成装置であって、
前記再帰型ニューラルネットワークの状態に基づいて、前記再帰型ニューラルネットワークの状態の統計量を得る総計量算出部を有し、
前記破綻検出部は、前記再帰型ニューラルネットワークの状態系列から代えた前記再帰型ニューラルネットワークの状態の統計量及び前記学習済み破綻検出モデルに基づいて、前記破綻フラグの予測値を得る、音声合成装置。
5. A speech synthesis device according to claim 4,
a total metric calculation unit for obtaining statistics of a state of the recurrent neural network based on the state of the recurrent neural network;
The speech synthesis device, wherein the failure detection unit obtains a predicted value of the failure flag based on statistics of the state of the recurrent neural network replaced with a state series of the recurrent neural network and the learned failure detection model.
推論フェーズにおいて音声波形を生成する音声合成装置であって、
結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る波形生成部と、
前記再帰型ニューラルネットワークの状態及び学習済み破綻検出の指標予測モデルに基づいて、破綻検出の指標の予測値を得る破綻検出の指標の予測部と、
前記破綻検出の指標の予測値が閾値より大きい場合、前記再帰型ニューラルネットワークの状態の初期値に基づいて、前記再帰型ニューラルネットワークの状態を初期化する状態初期化部と、
を有する音声合成装置。
A speech synthesis device for generating a speech waveform in an inference phase, comprising:
a waveform generation unit that obtains a predicted value of a speech waveform at a next time based on the combined speech waveform and acoustic feature amount and a state of a recurrent neural network;
a failure detection index prediction unit that obtains a predicted value of a failure detection index based on a state of the recurrent neural network and a learned failure detection index prediction model;
a state initialization unit that initializes a state of the recurrent neural network based on an initial value of the state of the recurrent neural network when the predicted value of the indicator of failure detection is greater than a threshold value;
A speech synthesis device having the above configuration.
学習フェーズにおいて音声波形を生成する音声合成装置が実行する音声合成方法であって、
前記音声合成装置は、
結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る波形生成処理と、
前記音声波形、前記音声波形の予測値、及び各時刻における音声波形が破綻しているかを示す破綻フラグの閾値に基づいて、前記破綻フラグを得る破綻フラグへの変換処理と、
前記再帰型ニューラルネットワークの状態系列及び破綻検出モデルに基づいて、前記破綻フラグの予測値を得る破綻検出処理と、
前記破綻フラグ及び前記破綻フラグの予測値の誤差を算出する破綻フラグの誤差算出処理と、
前記誤差及び前記破綻検出モデルに基づいて、学習済み破綻検出モデルを得る破綻検出モデル学習処理と、
を実行する音声合成方法。
A speech synthesis method executed by a speech synthesis device that generates a speech waveform in a learning phase, comprising:
The speech synthesizer comprises:
A waveform generation process for obtaining a predicted value of a speech waveform at a next time based on the combined speech waveform and acoustic feature quantity and a state of a recurrent neural network;
A conversion process to obtain the failure flag based on the speech waveform, the predicted value of the speech waveform, and a failure flag threshold value indicating whether the speech waveform at each time is failure;
A failure detection process for obtaining a predicted value of the failure flag based on a state sequence of the recurrent neural network and a failure detection model;
A bankruptcy flag error calculation process for calculating an error between the bankruptcy flag and a predicted value of the bankruptcy flag;
a failure detection model learning process for obtaining a learned failure detection model based on the error and the failure detection model;
A speech synthesis method that performs
推論フェーズにおいて音声波形を生成する音声合成装置が実行する音声合成方法であって、
前記音声合成装置は、
結合された前記音声波形及び音響特徴量、並びに、再帰型ニューラルネットワークの状態に基づいて、次の時刻の音声波形の予測値を得る波形生成処理と、
前記再帰型ニューラルネットワークの状態及び学習済み破綻検出モデルに基づいて、各時刻における音声波形が破綻しているかを示す破綻フラグの予測値を得る破綻検出処理と、
前記破綻フラグの予測値が破綻を示している場合には、前記再帰型ニューラルネットワークの状態の初期値に基づいて、前記再帰型ニューラルネットワークの状態を初期化する状態初期化処理と、
を実行する音声合成方法。
A speech synthesis method executed by a speech synthesizer that generates a speech waveform in an inference phase, comprising:
The speech synthesizer comprises:
A waveform generation process for obtaining a predicted value of a speech waveform at a next time based on the combined speech waveform and acoustic feature quantity and a state of a recurrent neural network;
a failure detection process for obtaining a predicted value of a failure flag indicating whether the speech waveform at each time point is failed, based on a state of the recurrent neural network and a trained failure detection model;
a state initialization process for initializing a state of the recurrent neural network based on an initial value of the state of the recurrent neural network when the predicted value of the failure flag indicates a failure;
A speech synthesis method that performs
コンピュータに、請求項8又は9に記載の方法を実行させるプログラム。A program for causing a computer to execute the method according to claim 8 or 9.
JP2023567286A 2021-12-13 2021-12-13 Speech synthesis device, speech synthesis method, and program Active JP7709646B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/045878 WO2023112095A1 (en) 2021-12-13 2021-12-13 Speech synthesis device, speech synthesis method, and program

Publications (2)

Publication Number Publication Date
JPWO2023112095A1 JPWO2023112095A1 (en) 2023-06-22
JP7709646B2 true JP7709646B2 (en) 2025-07-17

Family

ID=86774042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023567286A Active JP7709646B2 (en) 2021-12-13 2021-12-13 Speech synthesis device, speech synthesis method, and program

Country Status (2)

Country Link
JP (1) JP7709646B2 (en)
WO (1) WO2023112095A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121260142B (en) * 2025-12-08 2026-02-24 北京心智互动科技有限公司 Methods, systems, and devices for reducing reading latency based on TTS technology

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336880A1 (en) 2017-05-19 2018-11-22 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
WO2020136948A1 (en) 2018-12-26 2020-07-02 日本電信電話株式会社 Speech rhythm conversion device, model learning device, methods for these, and program
US20210035551A1 (en) 2019-08-03 2021-02-04 Google Llc Controlling Expressivity In End-to-End Speech Synthesis Systems
JP2021511533A (en) 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. Text-to-speech synthesis methods using machine learning, devices and computer-readable storage media

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7336135B2 (en) * 2019-08-19 2023-08-31 大学共同利用機関法人情報・システム研究機構 speech synthesizer
JP2021067885A (en) * 2019-10-25 2021-04-30 株式会社エーアイ Acoustic feature amount conversion model learning device, method and program, neural vocoder learning device, method and program, and, voice synthesis device, method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336880A1 (en) 2017-05-19 2018-11-22 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
JP2021511533A (en) 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. Text-to-speech synthesis methods using machine learning, devices and computer-readable storage media
WO2020136948A1 (en) 2018-12-26 2020-07-02 日本電信電話株式会社 Speech rhythm conversion device, model learning device, methods for these, and program
US20210035551A1 (en) 2019-08-03 2021-02-04 Google Llc Controlling Expressivity In End-to-End Speech Synthesis Systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小林颯介他,再帰型ニューラルネットワークを用いた対話破綻検出と言語モデルのマルチタスク学習,人工知能学会研究会資料,2015年10月,第75回言語・音声理解と対話処理研究会資料,pp.41-46

Also Published As

Publication number Publication date
WO2023112095A1 (en) 2023-06-22
JPWO2023112095A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
JP7566939B2 (en) Selecting Audio Features to Build a Model to Detect Medical Conditions
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
Ni et al. An end-to-end machine learning system for harmonic analysis of music
KR102339716B1 (en) Method for recognizing speech and Apparatus thereof
JP7149197B2 (en) ABNORMAL SOUND DETECTION DEVICE AND ABNORMAL SOUND DETECTION METHOD
Ycart et al. A study on LSTM networks for polyphonic music sequence modelling
EP3966813A1 (en) Online verification of custom wake word
EP3966807A1 (en) On-device custom wake word detection
US20230085991A1 (en) Anomaly detection and filtering of time-series data
JP2026065038A (en) Paired neural networks for diagnosing health status via voice.
CN114822497B (en) Training of speech synthesis model, speech synthesis method, device, equipment and medium
KR20230080242A (en) Method for diagnosing machine failure using sound and vibrtion based on deep learning and diagnostic device using them
Pedersoli et al. Improving music transcription by pre-stacking a U-Net
Marxer et al. Unsupervised incremental online learning and prediction of musical audio signals
JP7709646B2 (en) Speech synthesis device, speech synthesis method, and program
WO2024182319A1 (en) Clustering and mining accented speech for inclusive and fair speech recognition
US12080319B2 (en) Weakly-supervised sound event detection method and system based on adaptive hierarchical pooling
JP6216809B2 (en) Parameter adjustment system, parameter adjustment method, program
Vetráb et al. Aggregation strategies of Wav2vec 2.0 embeddings for computational paralinguistic tasks
JP2022062362A (en) Information processing program, information processing device and information processing method
Wang et al. Neural RAPT: deep learning-based pitch tracking with prior algorithmic knowledge instillation
KR20240036240A (en) Method for evaluating performance and system thereof
Shashidhar et al. Enhancing Singing Performances: Novel Method for Automatic Vocal Pitch Correction
JP7475549B2 (en) Learning device, prediction device, prediction system, learning method, prediction method, and prediction program
US20250322304A1 (en) Machine-learning method and machine-learning apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240422

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20240701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250616

R150 Certificate of patent or registration of utility model

Ref document number: 7709646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150