Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7680893B2 - Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method - Google Patents
[go: Go Back, main page]

JP7680893B2 - Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method - Google Patents

Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method Download PDF

Info

Publication number
JP7680893B2
JP7680893B2 JP2021106955A JP2021106955A JP7680893B2 JP 7680893 B2 JP7680893 B2 JP 7680893B2 JP 2021106955 A JP2021106955 A JP 2021106955A JP 2021106955 A JP2021106955 A JP 2021106955A JP 7680893 B2 JP7680893 B2 JP 7680893B2
Authority
JP
Japan
Prior art keywords
speech
speaker
encoder
input
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021106955A
Other languages
Japanese (ja)
Other versions
JP2023005191A (en
Inventor
圭 阿久澤
弘太郎 大西
啓介 滝口
浩輝 豆谷
紘一郎 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeNA Co Ltd
Original Assignee
DeNA Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeNA Co Ltd filed Critical DeNA Co Ltd
Priority to JP2021106955A priority Critical patent/JP7680893B2/en
Publication of JP2023005191A publication Critical patent/JP2023005191A/en
Application granted granted Critical
Publication of JP7680893B2 publication Critical patent/JP7680893B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法に関する。 The present invention relates to a speech processing learning program, a speech processing learning device, a speech processing learning method, a speech processing program, a speech processing device, and a speech processing method.

任意の話者が発声した音声を別の話者の声質を有する音声に変換する音声処理装置が開発されている。例えば、画像変換の技術であるCycleGANを音声変換に応用した技術が開示されている(非特許文献1)。 A voice processing device has been developed that converts the voice of any speaker into a voice with the voice quality of another speaker. For example, a technology has been disclosed that applies CycleGAN, an image conversion technology, to voice conversion (Non-Patent Document 1).

Takuhiro Kaneko and Hirokazu Kameoka, Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks arXiv:1711.11293,Nov. 2017 (EUSIPCO 2018) http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc/Takuhiro Kaneko and Hirokazu Kameoka, Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks arXiv:1711.11293,Nov. 2017 (EUSIPCO 2018) http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc/

元の話者から別の話者の音声を合成して出力する音声処理装置では、合成された音声の声質や言い回しをできるだけ自然なものにすることが要求されている。しかしながら、従来の音声処理装置の学習方法では、合成された音声を十分に自然なものとすることができない場合があった。 In speech processing devices that synthesize and output the speech of another speaker from an original speaker, there is a demand for the voice quality and phrasing of the synthesized speech to be as natural as possible. However, with conventional training methods for speech processing devices, there were cases where the synthesized speech could not be made sufficiently natural.

本発明の1つの態様は、コンピュータを、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、入力音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備えた音声処理学習装置として機能させ、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習プログラムである。 One aspect of the present invention is a speech processing training program that causes a computer to function as a speech processing training device that includes an acoustic feature extractor that converts speech into input acoustic features, a speaker encoder that converts a speaker label of speech into speaker features, a speech encoder that includes a variational autoencoder having two or more sampling hierarchies that converts the input acoustic features and the speaker features into latent representations, and a speech decoder that includes a variational autoencoder having two or more sampling hierarchies that generates acoustic features using at least the latent representations and the speaker features, and that trains the speech encoder, the speech decoder, and the speaker encoder to reduce the distance between the input acoustic features input to the speech encoder and the output acoustic features generated in the speech decoder.

ここで、前記音声デコーダは、前記2以上のサンプリング階層において話者特徴量を入力する階層が限定されていることが好適である。 Here, it is preferable that the speech decoder limits the hierarchical levels at which speaker features are input in the two or more sampling hierarchical levels.

また、前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には話者特徴量を入力せず、前記所定の階層より後段の階層には話者特徴量を入力することが好適である。 It is also preferable that the speech decoder does not input speaker features to layers prior to a predetermined layer in the two or more sampling layers, and inputs speaker features to layers subsequent to the predetermined layer.

また、前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことが好適である。 It is also preferable that the audio decoder samples from a posterior distribution in layers prior to the predetermined layer in the two or more sampling layers, and samples from a prior distribution in layers subsequent to the predetermined layer.

また、前記音声デコーダは、話者特徴量を条件付きインスタンス正規化層に入力することが好適である。 Furthermore, it is preferable that the speech decoder inputs the speaker features into a conditional instance normalization layer.

本発明の別の態様は、コンピュータを、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備える音声処理装置として機能させることを特徴とする音声処理プログラムである。 Another aspect of the present invention is a speech processing program that causes a computer to function as a speech processing device that includes an acoustic feature extractor that converts speech into acoustic features, a speaker encoder that converts a speaker label of speech into speaker features, a speech encoder that includes a variational autoencoder having two or more sampling hierarchies that converts source acoustic features obtained by converting the speech of a source speaker in the acoustic feature extractor and source speaker features obtained by converting the speaker label of the source speaker in the speaker encoder into latent representations, a speech decoder that includes a variational autoencoder having two or more sampling hierarchies that generates target acoustic features using at least the latent representations and target speaker features obtained by converting the speaker label of a target speaker in the speaker encoder, and a vocoder that converts the target acoustic features generated by the speech decoder into speech.

ここで、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される音響特徴量と前記音声デコーダにおいて生成される音響特徴量との距離を小さくするように学習させたものであることを特徴とする音声処理プログラム。 The speech processing program is characterized in that the speech encoder, speech decoder, and speaker encoder are trained to reduce the distance between the acoustic features input to the speech encoder and the acoustic features generated by the speech decoder.

また、前記音声デコーダは、前記2以上のサンプリング階層において前記ターゲット話者特徴量を入力する階層が限定されていることが好適である。 It is also preferable that the speech decoder limits the hierarchical level to which the target speaker features are input in the two or more sampling hierarchical levels.

また、前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には前記ターゲット話者特徴量を入力せず、前記所定の階層より後段の階層には前記ターゲット話者特徴量を入力することが好適である。 It is also preferable that the speech decoder does not input the target speaker features to a layer prior to a predetermined layer in the two or more sampling layers, and inputs the target speaker features to a layer subsequent to the predetermined layer.

また、前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことが好適である。 It is also preferable that the audio decoder samples from a posterior distribution in layers prior to the predetermined layer in the two or more sampling layers, and samples from a prior distribution in layers subsequent to the predetermined layer.

また、前記音声デコーダは、前記ターゲット話者特徴量を条件付きインスタンス正規化層に入力することが好適である。 Furthermore, it is preferable that the speech decoder inputs the target speaker features into a conditional instance normalization layer.

本発明の別の態様は、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備え、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習装置である。 Another aspect of the present invention is a speech processing training device comprising: an acoustic feature extractor that converts speech into input acoustic features; a speaker encoder that converts a speaker label of speech into speaker features; a speech encoder including a variational autoencoder having two or more sampling hierarchies that converts the acoustic features and the speaker features into latent representations; and a speech decoder including a variational autoencoder having two or more sampling hierarchies that generates acoustic features using at least the latent representations and the speaker features, wherein the speech encoder, the speech decoder, and the speaker encoder are trained to reduce the distance between the input acoustic features input to the speech encoder and the output acoustic features generated in the speech decoder.

本発明の別の態様は、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備えることを特徴とする音声処理装置である。 Another aspect of the present invention is a speech processing device comprising: an acoustic feature extractor that converts speech into acoustic features; a speaker encoder that converts a speaker label of speech into speaker features; a speech encoder including a variational autoencoder having two or more sampling hierarchies that converts source acoustic features obtained by converting the speech of a source speaker in the acoustic feature extractor and source speaker features obtained by converting the speaker label of the source speaker in the speaker encoder into latent representations; a speech decoder including a variational autoencoder having two or more sampling hierarchies that generates target acoustic features using at least the latent representations and target speaker features obtained by converting the speaker label of a target speaker in the speaker encoder; and a vocoder that converts the target acoustic features generated by the speech decoder into speech.

本発明の別の態様は、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備える音声処理学習装置において、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習方法である。 Another aspect of the present invention is a speech processing training method comprising: a speech processing training device including an acoustic feature extractor that converts speech into input acoustic features; a speaker encoder that converts a speaker label of speech into speaker features; a speech encoder including a variational autoencoder having two or more sampling hierarchies that converts the acoustic features and the speaker features into latent representations; and a speech decoder including a variational autoencoder having two or more sampling hierarchies that generates acoustic features using at least the latent representations and the speaker features, the speech encoder, the speech decoder, and the speaker encoder being trained to reduce the distance between the input acoustic features input to the speech encoder and the output acoustic features generated in the speech decoder.

本発明の別の態様は、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備える音声処理装置を用いて、前記ソース話者の音声を前記ターゲット話者の音声に変換することを特徴とする音声処理方法である。 Another aspect of the present invention is a speech processing method for converting the speech of the source speaker to the speech of the target speaker using a speech processing device including: an acoustic feature extractor that converts speech into acoustic features; a speaker encoder that converts the speaker label of the speech into speaker features; a speech encoder including a variational autoencoder having two or more sampling hierarchies that converts source acoustic features obtained by converting the speech of the source speaker in the acoustic feature extractor and source speaker features obtained by converting the speaker label of the source speaker in the speaker encoder into latent representations; a speech decoder including a variational autoencoder having two or more sampling hierarchies that generates target acoustic features using at least the latent representations and target speaker features obtained by converting the speaker label of the target speaker in the speaker encoder; and a vocoder that converts the target acoustic features generated by the speech decoder into speech.

本発明によれば、任意の話者が発した音声を目標とする話者が発した音声に適切に変換する音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理学習プログラム、音声処理学習装置及び音声処理学習方法を提供することができる。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。 According to the present invention, it is possible to provide a speech processing training program, a speech processing training device, a speech processing training method, a speech processing training program, a speech processing training device, and a speech processing training method that appropriately convert speech uttered by any speaker into speech uttered by a target speaker. Other objects of the embodiments of the present invention will become apparent by referring to this specification as a whole.

本発明の実施の形態における音声処理装置の構成を示す図である。1 is a diagram illustrating a configuration of a voice processing device according to an embodiment of the present invention. 本発明の実施の形態における音声処理学習装置の構成を示す機能ブロック図である。1 is a functional block diagram showing a configuration of a speech processing training device according to an embodiment of the present invention. バリエーショナル・オート-エンコーダの構成を示す図である。FIG. 1 is a diagram showing the configuration of a variational auto-encoder. ヌーヴォー・バリエーショナル・オート-エンコーダの構成を示す図である。FIG. 1 shows the configuration of a nouveau variational auto-encoder. 本発明の実施の形態におけるバリエーショナル・オート-エンコーダの各層のニューラルネットワークの構成を示す図である。FIG. 2 is a diagram showing the configuration of a neural network in each layer of a variational auto-encoder in an embodiment of the present invention. 本発明の実施の形態における音声学習処理を説明するための図である。FIG. 4 is a diagram for explaining a voice learning process according to the embodiment of the present invention. 本発明の実施の形態における音声学習装置の構成を示す機能ブロック図である。1 is a functional block diagram showing a configuration of a pronunciation learning device according to an embodiment of the present invention; 本発明の実施の形態における音声処理を説明するための図である。FIG. 2 is a diagram for explaining audio processing according to the embodiment of the present invention.

本発明の実施の形態における音声処理装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。処理部10は、CPU等の演算処理を行う手段を含む。処理部10は、記憶部12に記憶されている音声処理学習プログラムを実行することによって、本実施の形態における音声処理の学習を行う。また、処理部10は、記憶部12に記憶されている音声処理プログラムを実行することによって、本実施の形態における音声処理に関する機能を実現する。記憶部12は、半導体メモリやメモリカード等の記憶手段を含む。記憶部12は、処理部10とアクセス可能に接続され、音声処理学習プログラム、音声処理プログラム、その処理に必要な情報を記憶する。入力部14は、情報を入力する手段を含む。入力部14は、例えば、使用者からの情報の入力を受けるキーボード、タッチパネル、ボタン等を備える。また、入力部14は、任意の話者及び目標となる所定の話者の音声の入力を受ける音声入力手段を備える。音声入力手段は、例えば、マイク、増幅回路等を含む構成とすればよい。出力部16は、管理者から入力情報を受け付けるためのユーザインターフェース画面(UI)や処理結果を出力する手段を含む。出力部16は、例えば、画像を呈示するディスプレイを備える。また、出力部16は、音声処理装置100によって生成された合成音声を出力する音声出力手段を備える。音声出力手段は、例えば、スピーカ、増幅器等を含む構成とすればよい。通信部18は、ネットワーク102を介して、外部端末(図示しない)との情報の通信を行うインターフェースを含んで構成される。通信部18による通信は有線及び無線を問わない。なお、音声処理に供される音声情報は通信部18を介して外部端末から取得してもよい。 As shown in FIG. 1, the voice processing device 100 according to the embodiment of the present invention includes a processing unit 10, a storage unit 12, an input unit 14, an output unit 16, and a communication unit 18. The processing unit 10 includes a means for performing arithmetic processing such as a CPU. The processing unit 10 executes a voice processing learning program stored in the storage unit 12 to learn voice processing in the present embodiment. The processing unit 10 also executes a voice processing program stored in the storage unit 12 to realize functions related to voice processing in the present embodiment. The storage unit 12 includes a storage means such as a semiconductor memory or a memory card. The storage unit 12 is connected to the processing unit 10 in an accessible manner, and stores the voice processing learning program, the voice processing program, and information required for the processing. The input unit 14 includes a means for inputting information. The input unit 14 includes, for example, a keyboard, a touch panel, a button, etc. that receives information input from a user. The input unit 14 also includes a voice input means for receiving input of the voice of an arbitrary speaker and a specific target speaker. The voice input means may include, for example, a microphone, an amplifier circuit, etc. The output unit 16 includes a user interface screen (UI) for receiving input information from an administrator and a means for outputting processing results. The output unit 16 includes, for example, a display for presenting an image. The output unit 16 also includes an audio output means for outputting a synthetic voice generated by the voice processing device 100. The audio output means may include, for example, a speaker, an amplifier, and the like. The communication unit 18 includes an interface for communicating information with an external terminal (not shown) via the network 102. Communication by the communication unit 18 may be wired or wireless. Note that the audio information provided for audio processing may be acquired from an external terminal via the communication unit 18.

音声処理装置100は、任意の話者が発した音声を所定の話者(目標話者)の音声の音質に変換する音声処理を行う。また、音声処理装置100は、当該音声処理のための学習を行う音声処理学習装置としても機能する。 The voice processing device 100 performs voice processing to convert a voice uttered by an arbitrary speaker into the quality of the voice of a specified speaker (target speaker). The voice processing device 100 also functions as a voice processing learning device that learns for the voice processing.

[音声学習処理]
図2は、音声処理学習時における音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、話者エンコーダ22、音声エンコーダ24、音声デコーダ26及び学習器28として機能する。具体的には、音声処理装置100は、音声処理学習プログラムを実行することによって以下の音声学習方法を実現する音声処理学習装置として機能する。
[Voice learning process]
2 is a functional block diagram showing the configuration of the speech processing device 100 during speech processing training. The speech processing device 100 functions as a speech analyzer 20, a speaker encoder 22, a speech encoder 24, a speech decoder 26, and a learner 28. Specifically, the speech processing device 100 functions as a speech processing training device that realizes the following speech training method by executing a speech processing training program.

音声分析部20は、音声データを取得し、音声データから音響特徴量を抽出する音響特徴量抽出器として機能する。すなわち、音声処理装置100の処理部10は、音声分析部20として機能する。音声データは、入力部14を構成するマイクを用いて話者の音声を音声データに変換して取得すればよい。また、通信部18を介して、外部のコンピュータ等に予め記録されている音声データを受信するようにしてもよい。取得された音声データは、記憶部12に記憶される。 The voice analysis unit 20 functions as an acoustic feature extractor that acquires voice data and extracts acoustic features from the voice data. That is, the processing unit 10 of the voice processing device 100 functions as the voice analysis unit 20. Voice data may be acquired by converting the speaker's voice into voice data using a microphone that constitutes the input unit 14. Voice data that has been pre-recorded in an external computer or the like may also be received via the communication unit 18. The acquired voice data is stored in the memory unit 12.

音声データの取得処理は、任意の話者の発する音声について行われる。音声学習処理では、多数の話者からの音声を用いて音声エンコーダ24及び音声デコーダ26の学習処理が行われる。各話者から得る音声は、同一の内容である必要はない。 The voice data acquisition process is performed on voices uttered by any speaker. In the voice training process, the voice encoder 24 and the voice decoder 26 are trained using voices from multiple speakers. The voices obtained from each speaker do not need to be identical in content.

また、音声分析部20は、さらに音声処理に必要な音声分析を行う。例えば、音声分析部20は、入力された音声の周波数特性に基づいて音声のケプストラム解析を行い、スペクトルの包絡線(声の太さ等を示す情報)及び微細構造の情報を含むメル周波数ケプストラム係数(MFCC)、音声の基本周波数や共鳴周波数(声の高さ、声のかすれ等を示す情報)等の音響特徴量を求める。音響特徴量は、例えば、音声セグメントの長さTに対して(80×T)次元のユークリッド空間とすることができる。具体的には、音声分析部20は、話者ID(話者ラベル)がiの話者が発した音声から音響特徴量xを生成して出力する。音声分析部20で抽出された音響特徴量は音声エンコーダ24及び学習器28へ入力される。 Further, the voice analysis unit 20 performs voice analysis necessary for voice processing. For example, the voice analysis unit 20 performs cepstrum analysis of the voice based on the frequency characteristics of the input voice, and obtains acoustic features such as Mel Frequency Cepstrum Coefficients (MFCC) including spectrum envelope (information indicating the thickness of the voice, etc.) and fine structure information, and fundamental frequency and resonance frequency of the voice (information indicating the pitch of the voice, hoarseness, etc.). The acoustic features can be, for example, an (80×T)-dimensional Euclidean space with respect to the length T of the voice segment. Specifically, the voice analysis unit 20 generates and outputs an acoustic feature x i from the voice uttered by a speaker with a speaker ID (speaker label) of i. The acoustic features extracted by the voice analysis unit 20 are input to the voice encoder 24 and the learning device 28.

話者エンコーダ22は、音声分析部20に入力された音声の発話者のIDを音声処理に利用できる話者特徴量に変換して出力する。話者エンコーダ22は、発話者のIDを話者特徴量に変換して出力する埋込モジュールを含んで構成することができる。例えば、話者エンコーダ22は、話者IDがiの話者である場合、話者特徴量yを生成して出力する。話者エンコーダ22で生成された話者特徴量は音声エンコーダ24及び音声デコーダ26へ入力される。 The speaker encoder 22 converts the ID of the speaker of the voice input to the voice analysis unit 20 into a speaker feature that can be used for voice processing and outputs it. The speaker encoder 22 can be configured to include an embedded module that converts the speaker ID into a speaker feature and outputs it. For example, when the speaker ID is i, the speaker encoder 22 generates and outputs a speaker feature y i . The speaker feature generated by the speaker encoder 22 is input to the voice encoder 24 and the voice decoder 26.

音声処理装置100の学習では、複数の話者が発した音声から得られた音響特徴量xと話者特徴量yの組み合わせ(x,y)のセットが用いられる。 In training the speech processing apparatus 100, a set of combinations (x i , y i ) of acoustic features x i and speaker features y i obtained from speech uttered by a plurality of speakers is used.

音声エンコーダ24は、音響特徴量及び話者特徴量の入力を受けて、音響特徴量及び話者特徴量を潜在表現に変換する処理を行う。音声デコーダ26は、音声エンコーダ24によって得られた潜在表現及び話者特徴量の入力を受けて、潜在表現及び話者特徴量を音響特徴量に変換する処理を行う。潜在表現は、入力された音声データの言語的な特徴を表す。 The speech encoder 24 receives the acoustic features and speaker features as input, and performs a process of converting the acoustic features and speaker features into latent representations. The speech decoder 26 receives the latent representations and speaker features obtained by the speech encoder 24 as input, and performs a process of converting the latent representations and speaker features into acoustic features. The latent representations represent the linguistic features of the input speech data.

音声エンコーダ24及び音声デコーダ26は、図2に示すように、音声分析部20から音響特徴量xの入力を受けて、音声エンコーダ24において潜在表現zに変換し、さらに音声デコーダ26において潜在表現zから音響特徴量x^に再構成し、出力の音響特徴量x^が入力の音響特徴量xを復元するように学習される。 As shown in FIG. 2, the speech encoder 24 and the speech decoder 26 receive an input of an acoustic feature x i from the speech analysis unit 20, convert it to a latent representation z in the speech encoder 24, and further reconstruct it from the latent representation z into an acoustic feature x i ^ in the speech decoder 26, and are trained so that the output acoustic feature x i ^ restores the input acoustic feature x i .

本実施の形態では、音声エンコーダ24及び音声デコーダ26は、バリエーショナル・オート-エンコーダ(VAE:Variational Auto-Encoder)によって構成される。バリエーショナル・オート-エンコーダは、変分自己符号化器の一種であり、図3に示すように、潜在表現を確率分布に基づいたサンプリングによって生成する。確率分布は、平均μと分散σで規定される正規分布と仮定する。バリエーショナル・オート-エンコーダは、入力Xに対して平均μと分散σに基づいたサンプリングによって潜在表現zを生成するエンコーダと、潜在表現zから出力X^を生成するデコーダと、の組み合わせからなる。バリエーショナル・オート-エンコーダでは、入力Xと出力X^との復元誤差(復元距離)Eが小さくなるように話者エンコーダ22、音声エンコーダ24及び音声デコーダ26の学習が行われる。 In this embodiment, the speech encoder 24 and speech decoder 26 are configured by a variational auto-encoder (VAE). The variational auto-encoder is a type of variational auto-encoder, and generates a latent representation by sampling based on a probability distribution, as shown in FIG. 3. The probability distribution is assumed to be a normal distribution defined by the mean μ and variance σ. The variational auto-encoder is a combination of an encoder that generates a latent representation z by sampling based on the mean μ and variance σ for the input X, and a decoder that generates an output X^ from the latent representation z. In the variational auto-encoder, the speaker encoder 22, speech encoder 24, and speech decoder 26 are trained so that the restoration error (restoration distance) E between the input X and the output X^ is small.

図4に示すように、一般的なバリエーショナル・オート-エンコーダは一階層のニューラルネットワークで構成されるが、本実施の形態では2階層以上の複数階層のニューラルネットワークで構成されたヌーヴォー・バリエーショナル・オート-エンコーダ(NVAE:Nouveau Variational Auto-Encoder)とすることが好適である。すなわち、ヌーヴォー・バリエーショナル・オート-エンコーダは、2以上のサンプリング階層を有する変分自己符号化器を含んで構成される。例えば、音声処理装置100では、音声エンコーダ24及び音声デコーダ26をn=35階層のニューラルネットワークでそれぞれ構成することが好適である。 As shown in FIG. 4, a typical variational auto-encoder is composed of a single-layer neural network, but in this embodiment, it is preferable to use a nouveau variational auto-encoder (NVAE) composed of a neural network with two or more layers. In other words, the nouveau variational auto-encoder is composed of a variational auto-encoder having two or more sampling layers. For example, in the audio processing device 100, it is preferable to configure the audio encoder 24 and the audio decoder 26 with n=35 layers of neural networks, respectively.

音声エンコーダ24及び音声デコーダ26のヌーヴォー・バリエーショナル・オート-エンコーダの各層は、図5に示すように、Conditional-Instance-Normalization層(CIN層)、Convolution層(CONV層)、Squeeze-and-Excitation層(SE層)を組み合わせて構成される。CIN層は、一般的なヌーヴォー・バリエーショナル・オート-エンコーダにおけるバッチ正規仮想(BN層)の代わりに設けられる層である。CIN層は、正規化層の1つであり、スタイル毎に異なるパラメータを設定して正規化を行う条件付きインスタンス正規化層である。本実施の形態では、CIN層は、話者特徴量を入力の1つとして、入力された話者特徴量によって条件付けられた正規化を行う。また、Swish活性化関数はf(x)=x/(1+e-βx)と表される活性化関数である。Convolution層は、入力に対して畳み込み演算を適用して次の層に演算結果を出力する層である。SE層は、入力に対してチャンネル間の関係に基づいて適応的にattentionをかけて重み付きの特徴を出力する層である。 As shown in FIG. 5, each layer of the nouveau variational auto-encoder of the speech encoder 24 and the speech decoder 26 is configured by combining a conditional-instance-normalization layer (CIN layer), a convolution layer (CONV layer), and a squeeze-and-excitation layer (SE layer). The CIN layer is a layer provided in place of a batch normalization hypothesis (BN layer) in a general nouveau variational auto-encoder. The CIN layer is one of the normalization layers, and is a conditional instance normalization layer that performs normalization by setting different parameters for each style. In this embodiment, the CIN layer uses a speaker feature as one of the inputs and performs normalization conditioned by the input speaker feature. The Swish activation function is an activation function expressed as f(x)=x/(1+e −βx ). The convolution layer is a layer that applies a convolution operation to an input and outputs the operation result to the next layer. The SE layer is a layer that adaptively applies an attention to the input based on the relationship between channels and outputs a weighted feature.

図6を参照して、音声処理装置100における音声学習処理について説明する。音声エンコーダ24及び音声デコーダ26は、それぞれ階層数nのニューラルネットワークで構成された例を示している。階層数nは、例えば、35階層とすることができる。各階層は、それぞれ図5に示したConditional-Instance-Normalization層(CIN層)、Convolution層(CONV層)、Squeeze-and-Excitation層(SE層)を組み合わせて構成される。なお、音声エンコーダ24の階層k(ただし、kは1~nの階層数を示す)から出力される潜在表現をhで示し、音声デコーダ26の階層数kで表される階層から出力される潜在表現をzで示している。 The voice learning process in the voice processing device 100 will be described with reference to FIG. 6. The voice encoder 24 and the voice decoder 26 are each configured with a neural network having a layer number n. The layer number n can be, for example, 35 layers. Each layer is configured by combining the Conditional-Instance-Normalization layer (CIN layer), the Convolution layer (CONV layer), and the Squeeze-and-Excitation layer (SE layer) shown in FIG. 5. Note that the latent expression output from layer k (where k indicates the layer number from 1 to n) of the voice encoder 24 is represented by h k , and the latent expression output from the layer represented by the layer number k of the voice decoder 26 is represented by z k .

音声エンコーダ24では、階層nに対して音響特徴量x及び話者特徴量yが入力され、潜在表現hが出力される。次の階層n-1では、前段である階層nから出力された潜在表現h及び話者特徴量yが入力され、潜在表現hn-1が出力される。以下、同様に、階層kでは、前段である階層k+1から出力された潜在表現hk+1及び話者特徴量yが入力され、潜在表現hが出力される。最終段である階層1では、前段である階層2から出力された潜在表現h及び話者特徴量yが入力され、潜在表現hが出力される。当該潜在表現hから音声デコーダ26の初段である階層1の潜在表現zがサンプリングされる。このように、音声エンコーダ24においては、すべての階層1~nにおいて話者特徴量yを入力に含めることが好適である。 In the speech encoder 24, the acoustic feature x i and the speaker feature y i are input to the layer n, and a latent expression h n is output. In the next layer n-1, the latent expression h n and the speaker feature y i output from the previous layer n are input, and a latent expression h n-1 is output. Similarly, in the layer k, the latent expression h k+1 and the speaker feature y i output from the previous layer k+1 are input, and a latent expression h k is output. In the layer 1, which is the final layer, the latent expression h 2 and the speaker feature y i output from the previous layer 2 are input, and a latent expression h 1 is output. From the latent expression h 1 , the latent expression z 1 of the layer 1, which is the first layer of the speech decoder 26, is sampled. In this way, in the speech encoder 24, it is preferable to include the speaker feature y i in the input in all layers 1 to n.

音声デコーダ26では、初段である階層1に対して潜在表現zが入力され、潜在表現zが出力される。また、音声デコーダ26の階層kにおける潜在表現zは、音声デコーダ26において前段の階層k-1の潜在表現zk-1、音声エンコーダ24のk階層目の潜在表現h及び話者特徴量yに基づく事前分布p(z|zk-1,h,y)からサンプリングして得ることが可能である。また、潜在表現zは、音声デコーダ26のより前段の階層k-1、階層k-2・・・階層1の潜在表現zk-1、潜在表現zk-2・・・潜在表現z及び音声エンコーダ24のk階層目の潜在表現hに基づく事後分布p(z|zk-1,zk-2・・・z,h)からサンプリングして得ることも可能である。なお、分布p(a|b)は、bを前提条件としてaが出力とされる尤もらしさを示す尤度関数である。 In the speech decoder 26, latent expression z1 is input to layer 1, which is the first stage, and latent expression z2 is output. Furthermore, latent expression zk in layer k of the speech decoder 26 can be obtained by sampling from a prior distribution p( zk |zk -1 , hk , yi ) based on latent expression zk -1 in the previous layer k-1 of the speech decoder 26, latent expression hk in the kth layer of the speech encoder 24, and speaker feature yi . Furthermore, latent expression zk can be obtained by sampling from a posterior distribution p(zk|zk-1, zk-2... z1 , hk) based on latent expression zk- 1 in the previous layer k -1 , layer k -2 ...layer 1 of the speech decoder 26, latent expression zk -2 ... latest expression z1 , and latent expression hk in the kth layer of the speech encoder 24. The distribution p(a|b) is a likelihood function indicating the likelihood that a will be the output with b as a prerequisite.

音声学習処理では、音声デコーダ26の出力に近い階層から遠い階層に亘って音声エンコーダ24からサンプリングを行う。すなわち、図6に示すように、すべての階層1~階層nにおいて音声エンコーダ24のk階層目の潜在表現hからサンプリングを行うことが好適である。また、事後分布からのサンプリングには話者特徴量yを入力に含めないことが好適である。 In the speech learning process, sampling is performed from the speech encoder 24 across layers from close to the output of the speech decoder 26 to layers far from it. That is, as shown in Fig. 6, it is preferable to perform sampling from the latent representation hk of the kth layer of the speech encoder 24 in all layers 1 to n. It is also preferable not to include the speaker feature yi in the input when sampling from the posterior distribution.

すなわち、音声デコーダ26では出力に近い階層のみに話者特徴量yを入力に含め、出力から遠い階層には話者特徴量yを入力に含めないことが好適である。このとき、音声エンコーダ24からサンプリングを行わず、事前分布からサンプリングを行う階層では話者特徴量yを入力に含め、音声エンコーダ24からサンプリングを行い、事後分布からサンプリングを行う階層では話者特徴量yを入力に含めないようにすることが好適である。 That is, it is preferable that the speech decoder 26 includes the speaker feature yi in the input only in layers close to the output, and does not include the speaker feature yi in the input in layers far from the output. In this case, it is preferable that the speaker feature yi is included in the input in layers where sampling is not performed from the speech encoder 24 and sampling is performed from a prior distribution, and the speaker feature yi is not included in the input in layers where sampling is performed from the speech encoder 24 and sampling is performed from a posterior distribution.

なお、サンプリングには話者特徴量yを含めない階層では、Conditional-Instance-Normalization層(CIN層)に話者特徴量yを入力しない。 In addition, in a layer in which the speaker feature y i is not included in the sampling, the speaker feature y i is not input to the Conditional-Instance-Normalization layer (CIN layer).

このような構成において、学習器28では、音声デコーダ26に入力される音響特徴量xと音声デコーダ26から出力される再構築された音響特徴量x^との誤差(距離)が小さくなるように話者エンコーダ22、音声エンコーダ24及び音声デコーダ26に含まれる各階層のニューラルネットワークの各種パラメータ(各ニューロンの重み係数又はバイアス等)を調整する。 In such a configuration, the learning device 28 adjusts various parameters (such as the weighting coefficient or bias of each neuron) of the neural networks of each layer included in the speaker encoder 22 , the speech encoder 24, and the speech decoder 26 so as to reduce the error (distance) between the acoustic feature x i input to the speech decoder 26 and the reconstructed acoustic feature x i ^ output from the speech decoder 26.

ここで、音声デコーダ26に入力される音響特徴量xと音声デコーダ26から出力される再構築された音響特徴量x^との誤差(距離)が小さくなるように、音声デコーダ26において話者特徴量yを考慮した事前分布からサンプリングを行う階層と、話者特徴量yを考慮しない事後分布からサンプリングを行う階層との境界となる階層を適宜設定すればよい。 Here, in order to reduce the error (distance) between the acoustic feature x i input to the speech decoder 26 and the reconstructed acoustic feature x i ^ output from the speech decoder 26, a hierarchical layer that serves as the boundary between a hierarchical layer in which sampling is performed from a prior distribution that takes into account the speaker feature y i in the speech decoder 26 and a hierarchical layer in which sampling is performed from a posterior distribution that does not take into account the speaker feature y i can be appropriately set.

以上のように、音声エンコーダ24に入力される音響特徴量xによって表現される音声と、音声デコーダ26において再構築される音響特徴量x^によって表現される音声とが近づくように音声エンコーダ24及び音声デコーダ26が学習される。 As described above, the speech encoder 24 and the speech decoder 26 are trained so that the speech represented by the acoustic feature x i input to the speech encoder 24 approaches the speech represented by the acoustic feature x i ^ reconstructed in the speech decoder 26.

[音声処理]
図7は、ソース話者が発した音声をターゲット話者が発した音声のように変換する音声処理時における音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、話者エンコーダ22、音声エンコーダ24、音声デコーダ26及びボコーダ30として機能する。具体的には、音声処理装置100は、音声処理プログラムを実行することによって以下の音声処理を実現する音声処理装置として機能する。
[Audio processing]
7 is a functional block diagram showing the configuration of the voice processing device 100 during voice processing for converting the voice uttered by the source speaker into a voice uttered by the target speaker. The voice processing device 100 functions as a voice analysis unit 20, a speaker encoder 22, a voice encoder 24, a voice decoder 26, and a vocoder 30. Specifically, the voice processing device 100 functions as a voice processing device that realizes the following voice processing by executing a voice processing program.

音声分析部20は、ソース話者が発した音声の音声データを取得し、音声処理に必要な音声分析を行う。音声分析部20で抽出された音響特徴量は音声エンコーダ24へ入力される。 The speech analysis unit 20 acquires speech data of the speech uttered by the source speaker and performs the speech analysis required for speech processing. The acoustic features extracted by the speech analysis unit 20 are input to the speech encoder 24.

話者エンコーダ22は、ソース話者及びターゲット話者のIDを音声処理に利用できる話者特徴量に変換して出力する。話者エンコーダ22は、ソース話者IDがsの話者である場合、ソース話者特徴量yを生成して音声エンコーダ24へ出力する。また、話者エンコーダ22は、ターゲット話者IDがtの話者である場合、ターゲット話者特徴量yを生成して音声デコーダ26へ出力する。 The speaker encoder 22 converts the IDs of the source speaker and the target speaker into speaker features that can be used for speech processing and outputs them. When the source speaker ID is a speaker of s, the speaker encoder 22 generates a source speaker feature y s and outputs it to the speech encoder 24. When the target speaker ID is a speaker of t, the speaker encoder 22 generates a target speaker feature y t and outputs it to the speech decoder 26.

音声エンコーダ24は、ソース話者の音声から得られた音響特徴量及びソース話者特徴量の入力を受けて、当該音響特徴量及び当該ソース話者特徴量を潜在表現に変換する処理を行う。音声デコーダ26は、音声エンコーダ24によって得られた潜在表現及びターゲット話者特徴量の入力を受けて、当該潜在表現及び当該ターゲット話者特徴量から音響特徴量を再構築する処理を行う。 The speech encoder 24 receives the acoustic features and source speaker features obtained from the speech of the source speaker, and performs a process of converting the acoustic features and the source speaker features into latent representations. The speech decoder 26 receives the latent representation and target speaker features obtained by the speech encoder 24, and performs a process of reconstructing the acoustic features from the latent representation and the target speaker features.

図8を参照して、音声処理装置100における音声処理について説明する。音声処理では、上記の音声学習処理において学習された音声エンコーダ24及び音声デコーダ26を用いて行われる。 The voice processing in the voice processing device 100 will be described with reference to FIG. 8. The voice processing is performed using the voice encoder 24 and the voice decoder 26 that have been trained in the above-mentioned voice training process.

音声エンコーダ24では、階層nに対してソース話者の音声から得られた音響特徴量x及びソース話者特徴量yが入力され、潜在表現hが出力される。以下、学習時と同様に、階層kでは、前段である階層k+1から出力された潜在表現hk+1及びソース話者特徴量yが入力され、潜在表現hが出力される。最終段である階層1では、前段である階層2から出力された潜在表現h及びソース話者特徴量yが入力され、潜在表現hが出力される。当該潜在表現hから音声デコーダ26の初段である階層1の潜在表現zがサンプリングされる。 In the speech encoder 24, acoustic features xs and source speaker features ys obtained from the speech of the source speaker are input to layer n, and a latent representation hn is output. Thereafter, as in the learning process, latent representation hk +1 and source speaker features ys output from the previous layer k+1 are input to layer k, and latent representation hk is output. In layer 1, which is the final layer, latent representation h2 and source speaker features ys output from the previous layer 2 are input, and latent representation h1 is output. From this latent representation h1 , latent representation z1 of layer 1, which is the first layer of the speech decoder 26, is sampled.

音声デコーダ26では、初段である階層1に対して潜在表現zが入力され、潜在表現zが出力される。音声デコーダ26の出力から遠い階層では、ターゲット話者特徴量yを入力に含めず、音声デコーダ26においてより前段の階層k-1、階層k-2・・・階層1の潜在表現zk-1、潜在表現zk-2・・・潜在表現z及び音声エンコーダ24のk階層目の潜在表現hに基づく事後分布p(z|zk-1,zk-2・・・z,h)からサンプリングを行う。音声デコーダ26の出力に近い階層では音声エンコーダ24からサンプリングを行わず、直前の階層k-1の潜在表現zk-1及びターゲット話者特徴量yに基づく事前分布p(z|zk-1,y)からサンプリングを行う。図8では、音声デコーダ26の階層n-1及び階層nにおいて事前分布からサンプリングを行う例を示している。このとき、事前分布からのサンプリングにはソース話者特徴量yではなく、ターゲット話者特徴量yを入力に含めることが好適である。 In the speech decoder 26, latent expression z1 is input to the first layer, layer 1, and latent expression z2 is output. In layers far from the output of the speech decoder 26, the target speaker feature yt is not included in the input, and sampling is performed from the posterior distribution p(zk|zk-1, zk-2 ... z1, hk) based on the latent expression zk -1 , latent expression zk -2 ...latent expression z1 of the previous layers k -1 , k-2 ...layer 1 in the speech decoder 26 and the latent expression hk of the kth layer of the speech encoder 24. In layers close to the output of the speech decoder 26, sampling is not performed from the speech encoder 24, but is performed from the prior distribution p( zk |zk -1 , yt ) based on the latent expression zk - 1 of the immediately preceding layer k-1 and the target speaker feature yt . FIG. 8 shows an example of sampling from the prior distribution in layers n-1 and n of the speech decoder 26. In this case, it is preferable to include target speaker features yt as input for sampling from the prior distribution, rather than source speaker features ys .

音声エンコーダ24及び音声デコーダ26における音声処理によって、音声デコーダ26の最終段である階層nからソース話者の音声から得られた音響特徴量xをターゲット話者の音声に合わせた音響特徴量xが構築されて出力される。 Through speech processing in the speech encoder 24 and speech decoder 26, acoustic features xt are constructed and output from the final stage, hierarchical layer n , of the speech decoder 26, by matching the acoustic features xs obtained from the source speaker's speech to the target speaker's speech.

ボコーダ30は、音声デコーダ26から出力された音響特徴量xを音声データに変換して出力する。ボコーダ30は、音声分析部20における音声データから音響特徴量を抽出する処理の逆の処理を行うことによって音響特徴量xを音声データに変換することができる。 The vocoder 30 converts the acoustic feature xt output from the voice decoder 26 into voice data and outputs it. The vocoder 30 can convert the acoustic feature xt into voice data by performing a process reverse to the process performed by the voice analysis unit 20 to extract the acoustic feature from the voice data.

以上のように、本実施の形態の音声処理装置100によれば、任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する音声処理装置、音声処理プログラム及び音声処理方法並びに音声学習処理装置、音声学習処理プログラム及び音声学習処理方法を提供することができる。すなわち、学習された音声エンコーダ24及び音声デコーダ26を含む音声処理装置100によって、ソース話者が発した音声をターゲット話者が発したような音声に変換する音声処理を実現することができる。 As described above, the voice processing device 100 of this embodiment can provide a voice processing device, a voice processing program, and a voice processing method, as well as a voice learning processing device, a voice learning processing program, and a voice learning processing method, that appropriately convert the voice uttered by an arbitrary speaker into the sound quality of the voice uttered by a target speaker. In other words, the voice processing device 100 including the trained voice encoder 24 and voice decoder 26 can realize voice processing that converts the voice uttered by a source speaker into a voice that sounds like the voice uttered by a target speaker.

特に、音声エンコーダ24及び音声デコーダ26に対してヌーヴォー・バリエーショナル・オート-エンコーダ(NVAE:Nouveau Variational Auto-Encoder)を適用することによって、従来よりもソース話者の音声をターゲット話者が発した自然な感じの音声に変換することができる。 In particular, by applying the Nouveau Variational Auto-Encoder (NVAE) to the speech encoder 24 and speech decoder 26, the speech of the source speaker can be converted into a more natural-sounding speech of the target speaker than in the past.

10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 音声分析部、22 話者エンコーダ、24 音声エンコーダ、26 音声デコーダ、28 学習器、30 ボコーダ、100 音声処理装置、102 ネットワーク。 10 Processing unit, 12 Memory unit, 14 Input unit, 16 Output unit, 18 Communication unit, 20 Voice analysis unit, 22 Speaker encoder, 24 Voice encoder, 26 Voice decoder, 28 Learning device, 30 Vocoder, 100 Voice processing device, 102 Network.

Claims (10)

コンピュータを、
音声を入力音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
入力音響特徴量と話者特徴量とを潜在表現に変換する階層n(ただしnは2以上の整数)のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する階層nのサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備えた音声処理学習装置として機能させ、
前記音声エンコーダにおける初段の階層nのサンプリング階層では、前記入力音響特徴量と、前記話者特徴量と、の入力を受けて潜在表現hnを出力し、
前記音声エンコーダにおける2段目以降の各階層(m-1)(ただしmはn~2の整数)のサンプリング階層では、前記音声エンコーダにおける前段の階層mのサンプリング階層から出力された潜在表現hmと、前記話者特徴量と、の入力を受けて潜在表現h(m-1)を出力し、
前記音声デコーダにおける初段の階層1のサンプリング階層では、前記音声エンコーダにおける最終段の階層1から出力された潜在表現h1の入力を受けて潜在表現Z1を出力し、
前記音声デコーダにおける2段目以降の各階層k(ただしkは2~nの整数)のサンプリング階層では、前記音声デコーダにおける前段の階層(k-1)のサンプリング階層から出力された潜在表現Z(k-1)と、前記音声エンコーダにおける階層kから出力された潜在表現hkの入力を受けて潜在表現Zkを出力し、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダから出力された潜在表現Znから生成された出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習プログラム。
Computer,
an acoustic feature extractor that converts speech into input acoustic features;
A speaker encoder that converts the speaker labels of the speech into speaker features;
A speech encoder including a variational autoencoder having a sampling hierarchy of hierarchy n (where n is an integer equal to or greater than 2) that converts input acoustic features and speaker features into latent representations;
A speech decoder including a variational autoencoder having a sampling hierarchy of n layers that generates acoustic features using at least a latent representation and speaker features;
and functioning as a speech processing learning device having the
In a sampling hierarchical level n of the first stage in the speech encoder, the input acoustic feature and the speaker feature are input, and a latent representation h is output;
In each sampling hierarchical layer (m-1) (where m is an integer from n to 2) from the second stage onwards in the speech encoder, a latent representation h(m-1) is output in response to an input of the latent representation h(m-1) output from the sampling hierarchical layer (m) in the previous stage in the speech encoder and the speaker feature;
In the sampling layer of the first layer 1 of the speech decoder, a latent representation h1 output from the final layer 1 of the speech encoder is received as an input and a latent representation Z1 is output;
In each sampling hierarchical layer k (where k is an integer from 2 to n) from the second stage onwards in the speech decoder, a latent representation Z(k-1) output from a sampling hierarchical layer (k-1) in the preceding stage in the speech decoder and a latent representation hk output from hierarchical layer k in the speech encoder are input, and a latent representation Zk is output;
The speech encoder, the speech decoder, and the speaker encoder are trained to reduce the distance between an input acoustic feature input to the speech encoder and an output acoustic feature generated from a latent representation Zn output from the speech decoder.
請求項1に記載の音声処理学習プログラムであって、
前記音声デコーダは、前記サンプリング階層において話者特徴量を入力する階層が限定されていることを特徴とする音声処理学習プログラム。
2. The speech processing training program according to claim 1,
2. A speech processing training program, comprising: a speech decoder, the speech decoder being configured such that a hierarchy for inputting speaker features is limited in the sampling hierarchy.
請求項2に記載の音声処理学習プログラムであって、
前記音声デコーダは、前記サンプリング階層において所定の階層より前段の階層には話者特徴量を入力せず、前記所定の階層より後段の階層には話者特徴量を入力することを特徴とする音声処理学習プログラム。
3. The speech processing training program according to claim 2,
the speech decoder does not input speaker features to layers preceding a predetermined layer in the sampling layers, and inputs speaker features to layers following the predetermined layer.
請求項3に記載の音声処理学習プログラムであって、
前記音声デコーダは、前記サンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことを特徴とする音声処理学習プログラム。
4. The speech processing training program according to claim 3,
The speech decoder is characterized in that it samples from a posterior distribution in layers prior to the specified layer in the sampling layer, and samples from a prior distribution in layers subsequent to the specified layer.
請求項1~4のいずれか1項に記載の音声処理学習プログラムであって、
前記音声デコーダは、話者特徴量を条件付きインスタンス正規化層に入力することを特徴とする音声処理学習プログラム。
The speech processing training program according to any one of claims 1 to 4,
The speech processing training program is characterized in that the speech decoder inputs speaker features to a conditional instance normalization layer.
コンピュータを、
音声を音響特徴量に変換する音響特徴量抽出器と、
請求項1に記載の音声処理学習プログラムによって学習させた前記話者エンコーダ、前記音声エンコーダ及び前記音声デコーダと、
音響特徴量を音声に変換するボコーダと、
して機能させ、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを前記音声エンコーダに入力して潜在表現に変換し、
当該潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を前記音声デコーダに入力してターゲット音響特徴量を生成し、
前記ボコーダに前記音声デコーダで生成された前記ターゲット音響特徴量を入力して音声に変換することを特徴とする音声処理プログラム。
Computer,
an acoustic feature extractor that converts speech into acoustic features;
The speaker encoder, the speech encoder, and the speech decoder trained by the speech processing training program according to claim 1;
A vocoder for converting acoustic features into speech;
and make it work.
inputting source acoustic features obtained by converting the speech of the source speaker in the acoustic feature extractor and source speaker features obtained by converting the speaker label of the source speaker in the speaker encoder into the speech encoder and converting them into latent representations;
The latent representation and a target speaker feature obtained by converting the speaker label of the target speaker in the speaker encoder are input to the speech decoder to generate a target acoustic feature;
A speech processing program, comprising : inputting the target acoustic feature generated by the speech decoder into the vocoder to convert the target acoustic feature into speech.
音声を入力音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
音響特徴量と話者特徴量とを潜在表現に変換する階層n(ただしnは2以上の整数)のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する階層nのサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備え、
前記音声エンコーダにおける初段の階層nのサンプリング階層では、前記入力音響特徴量と、前記話者特徴量と、の入力を受けて潜在表現hnを出力し、
前記音声エンコーダにおける2段目以降の各階層(m-1)(ただしmはn~2の整数)のサンプリング階層では、前記音声エンコーダにおける前段の階層mのサンプリング階層から出力された潜在表現hmと、前記話者特徴量と、の入力を受けて潜在表現h(m-1)を出力し、
前記音声デコーダにおける初段の階層1のサンプリング階層では、前記音声エンコーダにおける最終段の階層1から出力された潜在表現h1の入力を受けて潜在表現Z1を出力し、
前記音声デコーダにおける2段目以降の各階層k(ただしkは2~nの整数)のサンプリング階層では、前記音声デコーダにおける前段の階層(k-1)のサンプリング階層から出力された潜在表現Z(k-1)と、前記音声エンコーダにおける階層kから出力された潜在表現hkの入力を受けて潜在表現Zkを出力し、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダから出力された潜在表現Znから生成された出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習装置。
an acoustic feature extractor that converts speech into input acoustic features;
A speaker encoder that converts the speaker labels of the speech into speaker features;
a speech encoder including a variational autoencoder having a sampling hierarchy of n (where n is an integer equal to or greater than 2) that converts acoustic features and speaker features into a latent representation;
A speech decoder including a variational autoencoder having a sampling hierarchy of n layers that generates acoustic features using at least a latent representation and speaker features;
Equipped with
In a sampling hierarchical level n of the first stage in the speech encoder, the input acoustic feature and the speaker feature are input, and a latent representation h is output;
In each sampling hierarchical layer (m-1) (where m is an integer from n to 2) from the second stage onwards in the speech encoder, a latent representation h(m-1) is output in response to an input of the latent representation h(m-1) output from the sampling hierarchical layer (m) in the previous stage in the speech encoder and the speaker feature;
In the sampling layer of the first layer 1 of the speech decoder, a latent representation h1 output from the final layer 1 of the speech encoder is received as an input and a latent representation Z1 is output;
In each sampling hierarchical layer k (where k is an integer from 2 to n) from the second stage onwards in the speech decoder, a latent representation Z(k-1) output from a sampling hierarchical layer (k-1) in the preceding stage in the speech decoder and a latent representation hk output from hierarchical layer k in the speech encoder are input, and a latent representation Zk is output;
The speech processing training device is characterized in that the speech encoder, the speech decoder, and the speaker encoder are trained to reduce the distance between an input acoustic feature input to the speech encoder and an output acoustic feature generated from a latent representation Zn output from the speech decoder.
音声を音響特徴量に変換する音響特徴量抽出器と、
請求項7に記載の音声処理学習装置によって学習させた前記話者エンコーダ、前記音声エンコーダ及び前記音声デコーダと、
音響特徴量を音声に変換するボコーダと、
を備え、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを前記音声エンコーダに入力して潜在表現に変換し、
当該潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を前記音声デコーダに入力してターゲット音響特徴量を生成し、
前記ボコーダに前記音声デコーダで生成された前記ターゲット音響特徴量を入力して音声に変換することを特徴とする音声処理装置。
an acoustic feature extractor that converts speech into acoustic features;
The speaker encoder, the speech encoder, and the speech decoder trained by the speech processing training device according to claim 7;
A vocoder for converting acoustic features into speech;
Equipped with
inputting source acoustic features obtained by converting the speech of the source speaker in the acoustic feature extractor and source speaker features obtained by converting the speaker label of the source speaker in the speaker encoder into the speech encoder and converting them into latent representations;
The latent representation and a target speaker feature obtained by converting the speaker label of the target speaker in the speaker encoder are input to the speech decoder to generate a target acoustic feature ;
The speech processing device according to claim 1, wherein the target acoustic feature generated by the speech decoder is input to the vocoder to convert the target acoustic feature into speech.
音声を入力音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
音響特徴量と話者特徴量とを潜在表現に変換する階層n(ただしnは2以上の整数)のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する階層nのサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備える音声処理学習装置において、
前記音声エンコーダにおける初段の階層nのサンプリング階層では、前記入力音響特徴量と、前記話者特徴量と、の入力を受けて潜在表現hnを出力し、
前記音声エンコーダにおける2段目以降の各階層(m-1)(ただしmはn~2の整数)のサンプリング階層では、前記音声エンコーダにおける前段の階層mのサンプリング階層から出力された潜在表現hmと、前記話者特徴量と、の入力を受けて潜在表現h(m-1)を出力し、
前記音声デコーダにおける初段の階層1のサンプリング階層では、前記音声エンコーダにおける最終段の階層1から出力された潜在表現h1の入力を受けて潜在表現Z1を出力し、
前記音声デコーダにおける2段目以降の各階層k(ただしkは2~nの整数)のサンプリング階層では、前記音声デコーダにおける前段の階層(k-1)のサンプリング階層から出力された潜在表現Z(k-1)と、前記音声エンコーダにおける階層kから出力された潜在表現hkの入力を受けて潜在表現Zkを出力し、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダから出力された潜在表現Znから生成された出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習方法。
an acoustic feature extractor that converts speech into input acoustic features;
A speaker encoder that converts the speaker labels of the speech into speaker features;
a speech encoder including a variational autoencoder having a sampling hierarchy of n (where n is an integer equal to or greater than 2) that converts acoustic features and speaker features into a latent representation;
A speech decoder including a variational autoencoder having a sampling hierarchy of n layers that generates acoustic features using at least a latent representation and speaker features;
A speech processing training device comprising:
In a sampling hierarchical level n of the first stage in the speech encoder, the input acoustic feature and the speaker feature are input, and a latent representation h is output;
In each sampling hierarchical layer (m-1) (where m is an integer from n to 2) from the second stage onwards in the speech encoder, a latent representation h(m-1) is output in response to an input of the latent representation h(m-1) output from the sampling hierarchical layer (m) in the previous stage in the speech encoder and the speaker feature;
In the sampling layer of the first layer 1 of the speech decoder, a latent representation h1 output from the final layer 1 of the speech encoder is received as an input and a latent representation Z1 is output;
In each sampling hierarchical layer k (where k is an integer from 2 to n) from the second stage onwards in the speech decoder, a latent representation Z(k-1) output from a sampling hierarchical layer (k-1) in the preceding stage in the speech decoder and a latent representation hk output from hierarchical layer k in the speech encoder are input, and a latent representation Zk is output;
The speech processing training method is characterized in that the speech encoder, the speech decoder, and the speaker encoder are trained to reduce the distance between an input acoustic feature input to the speech encoder and an output acoustic feature generated from a latent representation Zn output from the speech decoder.
音声を音響特徴量に変換する音響特徴量抽出器と、
請求項9に記載の音声処理学習方法によって学習させた前記話者エンコーダ、前記音声エンコーダ及び前記音声デコーダと、
音響特徴量を音声に変換するボコーダと、
を備える音声処理装置において、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを前記音声エンコーダに入力して潜在表現に変換し、
当該潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を前記音声デコーダに入力してターゲット音響特徴量を生成し、
前記ボコーダに前記音声デコーダで生成された前記ターゲット音響特徴量を入力して音声に変換することを特徴とする音声処理方法。
an acoustic feature extractor that converts speech into acoustic features;
The speaker encoder, the speech encoder and the speech decoder trained by the speech processing training method of claim 9;
A vocoder for converting acoustic features into speech;
In a voice processing device comprising:
inputting source acoustic features obtained by converting the speech of the source speaker in the acoustic feature extractor and source speaker features obtained by converting the speaker label of the source speaker in the speaker encoder into the speech encoder and converting them into latent representations;
The latent representation and a target speaker feature obtained by converting the speaker label of the target speaker in the speaker encoder are input to the speech decoder to generate a target acoustic feature;
a voice processing method comprising: inputting the target acoustic feature generated by the voice decoder to the vocoder to convert the target acoustic feature into voice;
JP2021106955A 2021-06-28 2021-06-28 Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method Active JP7680893B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021106955A JP7680893B2 (en) 2021-06-28 2021-06-28 Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021106955A JP7680893B2 (en) 2021-06-28 2021-06-28 Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method

Publications (2)

Publication Number Publication Date
JP2023005191A JP2023005191A (en) 2023-01-18
JP7680893B2 true JP7680893B2 (en) 2025-05-21

Family

ID=85108336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021106955A Active JP7680893B2 (en) 2021-06-28 2021-06-28 Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method

Country Status (1)

Country Link
JP (1) JP7680893B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144402A (en) 2018-02-20 2019-08-29 日本電信電話株式会社 Voice conversion learning device, voice conversion device, method and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144402A (en) 2018-02-20 2019-08-29 日本電信電話株式会社 Voice conversion learning device, voice conversion device, method and program

Also Published As

Publication number Publication date
JP2023005191A (en) 2023-01-18

Similar Documents

Publication Publication Date Title
US20230197057A1 (en) Speech Recognition Using Unspoken Text and Speech Synthesis
JP6989951B2 (en) Speech chain device, computer program and DNN speech recognition / synthesis mutual learning method
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
O’Shaughnessy Automatic speech recognition: History, methods and challenges
CN113205793B (en) Audio generation method and device, storage medium and electronic equipment
US20230197061A1 (en) Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device
JP2020034624A (en) Signal generation device, signal generation system, signal generation method, and program
Eskimez et al. Adversarial training for speech super-resolution
WO2019171415A1 (en) Speech feature compensation apparatus, method, and program
CN113096636B (en) Speech synthesis apparatus, speech synthesis method, electronic device, and storage medium
Li et al. A two-stage approach to quality restoration of bone-conducted speech
CN108198566B (en) Information processing method and device, electronic device and storage medium
Shanthamallappa Robust speech enhancement using dabauchies wavelet based adaptive wavelet thresholding for the development of robust automatic speech recognition: A comprehensive review
Al-Anzi et al. The capacity of mel frequency cepstral coefficients for speech recognition
JP7680893B2 (en) Speech processing training program, speech processing training device, speech processing training method, speech processing program, speech processing device, and speech processing method
JP2023030678A (en) Learning device, data generation device and program
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
JP7360814B2 (en) Audio processing device and audio processing program
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
JP2021189402A (en) Voice processing program, voice processing device and voice processing method
JP7769262B2 (en) Signal analysis system, signal analysis method and program
Reddy et al. MusicNet: Compact convolutional neural network for real-time background music detection
CN119404248A (en) Voice-quality conversion device, voice-quality conversion method, voice-quality conversion neural network, program, and recording medium
Dalva Automatic speech recognition system for Turkish spoken language
Cory Speaker encoding for zero-shot speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250509

R150 Certificate of patent or registration of utility model

Ref document number: 7680893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150