Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7650132B2 - Learning method, speaker identification method, and program - Google Patents
[go: Go Back, main page]

JP7650132B2 - Learning method, speaker identification method, and program - Google Patents

Learning method, speaker identification method, and program Download PDF

Info

Publication number
JP7650132B2
JP7650132B2 JP2020077113A JP2020077113A JP7650132B2 JP 7650132 B2 JP7650132 B2 JP 7650132B2 JP 2020077113 A JP2020077113 A JP 2020077113A JP 2020077113 A JP2020077113 A JP 2020077113A JP 7650132 B2 JP7650132 B2 JP 7650132B2
Authority
JP
Japan
Prior art keywords
speaker
voice data
voice
feature
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020077113A
Other languages
Japanese (ja)
Other versions
JP2021033260A (en
Inventor
美沙貴 土井
孝浩 釜井
光佑 板倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to US16/996,408 priority Critical patent/US11580989B2/en
Priority to CN202010829027.7A priority patent/CN112420021B/en
Publication of JP2021033260A publication Critical patent/JP2021033260A/en
Application granted granted Critical
Publication of JP7650132B2 publication Critical patent/JP7650132B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本開示は、話者を識別する技術に関する。 This disclosure relates to technology for identifying speakers.

従来、話者識別モデルを用いて話者を識別する技術が知られている(例えば、非特許文献1参照)。 Technology for identifying speakers using a speaker identification model is known (see, for example, Non-Patent Document 1).

David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey, Sanjeev Khudanpur, “X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION” ICASSP 2018:5329-5333.David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey, Sanjeev Khudanpur, “X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION” ICASSP 2018:5329-5333.

精度よく話者を識別したい。 I want to identify speakers with high accuracy.

本開示の一態様に係る学習方法は、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習方法であって、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成し、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う。 A learning method according to one aspect of the present disclosure is a method for learning a speaker identification model that, when voice data is input, outputs speaker identification information that identifies the speaker of an utterance contained in the voice data, and performs a voice conversion process on first voice data of a first speaker to generate second voice data of a second speaker, and performs a learning process of the speaker identification model using the first voice data and the second voice data as learning data.

本開示の一態様に係る話者識別方法は、上記学習方法により予め学習処理を行った前記話者識別モデルに音声データを入力して、前記話者識別モデルに前記話者識別情報を出力させる。 A speaker identification method according to one aspect of the present disclosure inputs voice data to the speaker identification model that has been trained in advance using the training method described above, and causes the speaker identification model to output the speaker identification information.

本開示の一態様に係るプログラムは、コンピュータに、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習を行う処理を実行させるためのプログラムであって、前記処理は、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成する第1のステップと、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う第2のステップと、を含む。 A program according to one aspect of the present disclosure is a program for causing a computer to execute a process of training a speaker identification model that, when voice data is input, outputs speaker identification information that identifies the speaker of an utterance contained in the voice data, the process including a first step of generating second voice data of a second speaker by performing a voice quality conversion process on first voice data of a first speaker, and a second step of performing a training process of the speaker identification model using the first voice data and the second voice data as training data.

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。 These general or specific aspects may be realized as a system, method, integrated circuit, computer program, or computer-readable recording medium such as a CD-ROM, or may be realized as any combination of a system, method, integrated circuit, computer program, and recording medium.

本開示に係る学習方法等によると、精度よく話者を識別することができる。 The learning method and other methods disclosed herein enable accurate speaker identification.

図1は、実施の形態に係る話者識別装置の構成例を示すブロック図である。FIG. 1 is a block diagram showing an example of the configuration of a speaker identification device according to an embodiment. 図2は、実施の形態に係る音声データ保持部が、音声データと話者識別情報とを互いに対応付けて記憶する様子の一例を示す模式図である。FIG. 2 is a schematic diagram showing an example of how the voice data storage unit according to the embodiment stores voice data and speaker identification information in association with each other. 図3は、実施の形態に係る声質変換部が、一の話者の音声データを、複数の他の話者の音声データに変換して出力する様子を示す模式図である。FIG. 3 is a schematic diagram showing how the voice conversion unit according to the embodiment converts voice data of one speaker into voice data of a plurality of other speakers and outputs the converted voice data. 図4は、実施の形態に係る声質変換部の構成例を示すブロック図である。FIG. 4 is a block diagram showing an example of the configuration of a voice quality conversion unit according to an embodiment. 図5は、実施の形態に係る話者識別モデル学習処理のフローチャートである。FIG. 5 is a flowchart of a speaker identification model training process according to the embodiment. 図6は、実施の形態に係る声質変換モデル学習処理のフローチャートである。FIG. 6 is a flowchart of a voice conversion model training process according to the embodiment. 図7は、実施の形態に係る話者識別処理のフローチャートである。FIG. 7 is a flowchart of a speaker identification process according to the embodiment.

(本開示の一態様を得るに至った経緯)
話者を識別する識別情報に紐付けされた音声データを学習データとして予め学習処理を行った話者識別モデルを用いて話者を識別する話者識別技術が知られている。
(How one aspect of the present disclosure was achieved)
2. Description of the Related Art There is known a speaker identification technology that identifies a speaker by using a speaker identification model that has been previously trained using speech data linked to identification information that identifies a speaker as training data.

従来、学習データの数を増やす(以下、「学習データの数を増やす」ことを「学習データの拡張」とも称する。)ために、オリジナルの学習用音声データに対して、ノイズ付与、残響付与等が行われている。しかしながら、上記従来のノイズ付与、残響付与等による学習データの拡張では、一の話者における発話内容、言語(日本語、英語等)を増やすことはできない。このため、話者識別モデルの学習処理における、発話内容、言語による影響を十分に低減できないことがある。 Conventionally, in order to increase the amount of training data (hereinafter, "increasing the amount of training data" is also referred to as "expanding the training data"), noise, reverberation, etc. are added to the original training speech data. However, the above-mentioned conventional expansion of training data by adding noise, reverberation, etc. does not allow for an increase in the speech content or language (Japanese, English, etc.) of a single speaker. For this reason, it may not be possible to sufficiently reduce the influence of speech content and language in the training process of a speaker identification model.

そこで、発明者らは、話者識別モデルを用いて行う話者の識別において、精度よく話者を識別すべく、鋭意検討、実験を重ねた。その結果、発明者らは、下記学習方法等に想到した。 The inventors therefore conducted extensive research and experiments to identify speakers with high accuracy when using a speaker identification model. As a result, the inventors came up with the following learning method, etc.

本開示の一態様に係る学習方法は、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習方法であって、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成し、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う。 A learning method according to one aspect of the present disclosure is a method for learning a speaker identification model that, when voice data is input, outputs speaker identification information that identifies the speaker of an utterance contained in the voice data, and performs a voice conversion process on first voice data of a first speaker to generate second voice data of a second speaker, and performs a learning process of the speaker identification model using the first voice data and the second voice data as learning data.

上記学習方法によると、話者識別モデルの学習処理における学習データの拡張において、第2の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。 According to the above learning method, when expanding the learning data in the learning process of the speaker identification model, the amount of voice data of the second speaker can be increased without being limited by the speech content or language. This makes it possible to improve the accuracy of speaker identification by the speaker identification model.

従って、上記学習方法によると、精度よく話者を識別することができる。 Therefore, the above learning method allows for accurate speaker identification.

また、前記声質変換処理は、前記第1の話者の音声データと前記第2の話者の音声データとに基づく処理であるとしてもよい。 The voice conversion process may be based on the voice data of the first speaker and the voice data of the second speaker.

また、前記声質変換処理は、前記第1の話者の音声データを入力すると、前記第2の話者の音声データを出力するように予め学習処理を行った声質変換モデルに、前記第1の音声データを入力することで、前記声質変換モデルから前記第2の音声データを出力する処理を含むとしてもよい。 The voice conversion process may also include a process of inputting the first voice data into a voice conversion model that has been trained in advance to output the voice data of the second speaker when the voice data of the first speaker is input, thereby outputting the second voice data from the voice conversion model.

また、前記声質変換モデルは、WAVフォーマットの音声データを入力とし、WAVフォーマットの音声データを出力とする深層ニューラルネットワークを含むとしてもよい。 The voice conversion model may also include a deep neural network that receives audio data in WAV format as input and outputs audio data in WAV format.

また、前記声質変換処理は、前記第1の話者の音声データと第3の話者の音声データとに基づく処理であるとしてもよい。 The voice conversion process may be based on the voice data of the first speaker and the voice data of the third speaker.

また、前記話者識別モデルは、音声データに含まれる発話の特徴を示す発話特徴量を入力とし、話者の特徴を示す話者性特徴量を出力する深層ニューラルネットワークを含むとしてもよい。 The speaker identification model may also include a deep neural network that receives speech features indicating characteristics of speech contained in the audio data and outputs speaker characteristics features indicating characteristics of the speaker.

本開示の一態様に係る話者識別方法は、上記学習方法により予め学習処理を行った前記話者識別モデルに音声データを入力して、前記話者識別モデルに前記話者識別情報を出力させる。 A speaker identification method according to one aspect of the present disclosure inputs voice data to the speaker identification model that has been trained in advance using the training method described above, and causes the speaker identification model to output the speaker identification information.

上記話者識別方法によると、話者識別モデルの学習処理における学習データの拡張において、第2の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。 According to the above speaker identification method, when expanding the training data in the training process of the speaker identification model, the amount of speech data of the second speaker can be increased without being limited by the speech content or language. This makes it possible to improve the accuracy of speaker identification by the speaker identification model.

従って、上記話者識別方法によると、精度よく話者を識別することができる。 Therefore, the above speaker identification method allows for accurate speaker identification.

本開示の一態様に係るプログラムは、コンピュータに、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習を行う処理を実行させるためのプログラムであって、前記処理は、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成する第1のステップと、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う第2のステップと、を含む。 A program according to one aspect of the present disclosure is a program for causing a computer to execute a process of training a speaker identification model that, when voice data is input, outputs speaker identification information that identifies the speaker of an utterance contained in the voice data, the process including a first step of generating second voice data of a second speaker by performing a voice quality conversion process on first voice data of a first speaker, and a second step of performing a training process of the speaker identification model using the first voice data and the second voice data as training data.

上記プログラムによると、話者識別モデルの学習処理における学習データの拡張において、第2の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。 According to the above program, when expanding the learning data in the learning process of the speaker identification model, the amount of voice data of the second speaker can be increased without being restricted by the speech content or language. This makes it possible to improve the accuracy of speaker identification by the speaker identification model.

従って、上記プログラムによると、精度よく話者を識別することができる。 Therefore, the above program can accurately identify speakers.

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。 These comprehensive or specific aspects may be realized as a system, method, integrated circuit, computer program, or computer-readable recording medium such as a CD-ROM, or may be realized as any combination of a system, method, integrated circuit, computer program, and recording medium.

以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、全ての実施の形態において、各々の内容を組み合わせることもできる。 Embodiments of the present disclosure will be described below with reference to the drawings. Each embodiment described below shows a specific example of the present disclosure. The numerical values, shapes, components, steps, and order of steps shown in the following embodiments are merely examples and are not intended to limit the present disclosure. Furthermore, the contents of each of the embodiments can be combined.

(実施の形態)
以下、実施の形態に係る話者識別装置について説明する。この話者識別装置は、音声データを取得して、その音声データに含まれる発話の話者を識別する識別情報を出力する。
(Embodiment)
A speaker identification device according to an embodiment of the present invention will be described below. The speaker identification device acquires voice data and outputs identification information for identifying the speaker of an utterance contained in the voice data.

<構成>
図1は、実施の形態に係る話者識別装置1の構成例を示すブロック図である。
<Configuration>
FIG. 1 is a block diagram showing an example of the configuration of a speaker identification device 1 according to an embodiment.

図1に示すように、話者識別装置1は、音声データ拡張部10と、話者識別モデル20と、学習部30と、識別対象音声データ取得部40とを備える。 As shown in FIG. 1, the speaker identification device 1 includes a voice data expansion unit 10, a speaker identification model 20, a learning unit 30, and a recognition target voice data acquisition unit 40.

音声データ拡張部10は、話者識別モデル20の学習処理を行うための学習データを拡張する(すなわち、学習データの数を増やす)。音声データ拡張部10は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、音声データ拡張部10の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、音声データ拡張部10は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。 The voice data expansion unit 10 expands the training data for performing the training process of the speaker identification model 20 (i.e., increases the number of training data). The voice data expansion unit 10 may be realized, for example, by a computer equipped with a microprocessor, memory, a communication interface, etc. In this case, the various functions of the voice data expansion unit 10 are realized by the microprocessor executing a program stored in the memory. The voice data expansion unit 10 may also be realized, for example, by distributed computing or cloud computing using multiple computers that communicate with each other.

図1に示すように、音声データ拡張部10は、音声データ保持部11と、第1音声データ取得部12と、声質変換部13と、ノイズ残響付与部14と、第1特徴量算出部15と、比較部16と、音声データ保存部17と、拡張音声データ保持部18とを有する。 As shown in FIG. 1, the voice data expansion unit 10 includes a voice data storage unit 11, a first voice data acquisition unit 12, a voice quality conversion unit 13, a noise reverberation adding unit 14, a first feature calculation unit 15, a comparison unit 16, a voice data storage unit 17, and an extended voice data storage unit 18.

学習部30は、音声データ拡張部10により拡張された学習データを用いて、話者識別モデル20の学習処理を行う。学習部30は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、学習部30の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、学習部30は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。 The learning unit 30 performs a learning process for the speaker identification model 20 using the learning data expanded by the voice data expansion unit 10. The learning unit 30 may be realized, for example, by a computer equipped with a microprocessor, memory, a communication interface, etc. In this case, the various functions of the learning unit 30 are realized by the microprocessor executing a program stored in the memory. The learning unit 30 may also be realized, for example, by distributed computing or cloud computing using multiple computers that communicate with each other.

図1に示すように、学習部30は、第2音声データ取得部31と、第2特徴量算出部32と、第1学習部33とを有する。 As shown in FIG. 1, the learning unit 30 has a second voice data acquisition unit 31, a second feature calculation unit 32, and a first learning unit 33.

話者識別モデル20は、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力する。話者識別モデル20は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、話者識別モデル20の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、話者識別モデル20は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。 When voice data is input, the speaker identification model 20 outputs speaker identification information that identifies the speaker of the utterance contained in the voice data. The speaker identification model 20 may be realized, for example, by a computer equipped with a microprocessor, memory, a communication interface, etc. In this case, the various functions of the speaker identification model 20 are realized by the microprocessor executing a program stored in the memory. The speaker identification model 20 may also be realized, for example, by distributed computing or cloud computing using multiple computers that communicate with each other.

図1に示すように、話者識別モデル20は、第3特徴量算出部21と、深層ニューラルネットワーク(DNN:Deep Neural Network)22と、判定部23とを有する。 As shown in FIG. 1, the speaker identification model 20 has a third feature calculation unit 21, a deep neural network (DNN) 22, and a determination unit 23.

識別対象音声データ取得部40は、話者識別モデル20が行う話者の識別における識別の対象とする音声データを取得する。識別対象音声データ取得部40は、例えば、外部装置と通信する通信インターフェースを有し、通信インターフェースを介して外部装置から音声データを取得してもよい。また、識別対象音声データ取得部40は、例えば、入出力ポート(例えば、USBポート)を有し、入出力ポートに接続された外部記憶装置(例えばUSBメモリ)から音声データを取得してもよい。また、識別対象音声データ取得部40は、例えば、マイクロフォンを有し、マイクロフォンに入力された音声を電気信号に変換することで音声データを取得してもよい。 The recognition target voice data acquisition unit 40 acquires voice data to be recognized in the speaker recognition performed by the speaker recognition model 20. The recognition target voice data acquisition unit 40 may have, for example, a communication interface for communicating with an external device, and may acquire voice data from the external device via the communication interface. The recognition target voice data acquisition unit 40 may also have, for example, an input/output port (for example, a USB port), and may acquire voice data from an external storage device (for example, a USB memory) connected to the input/output port. The recognition target voice data acquisition unit 40 may also have, for example, a microphone, and may acquire voice data by converting voice input to the microphone into an electrical signal.

以下、音声データ拡張部10を構成する各構成要素について説明する。 The components that make up the audio data expansion unit 10 are explained below.

音声データ保持部11は、音声データと、その音声データに紐付けされた、その音声データに含まれる発話の話者を識別する話者識別情報とを、互いに対応付けて記憶する。 The voice data storage unit 11 stores voice data and speaker identification information associated with the voice data, which identifies the speaker of the utterance contained in the voice data, in association with each other.

図2は、音声データ保持部11が、音声データと話者識別情報とを互いに対応付けて記憶する様子の一例を示す模式図である。 Figure 2 is a schematic diagram showing an example of how the voice data storage unit 11 stores voice data and speaker identification information in association with each other.

図2に示すように、音声データ保持部11は、互いに異なる複数の話者識別情報に紐付けされた複数の音声データを記憶する。音声データ保持部11が記憶する音声データ及び話者識別情報は、話者識別モデル20の学習処理を行うための学習データとして利用される。 As shown in FIG. 2, the voice data storage unit 11 stores multiple pieces of voice data linked to multiple different speaker identification information. The voice data and speaker identification information stored in the voice data storage unit 11 are used as learning data for performing the learning process of the speaker identification model 20.

再び図1に戻って、話者識別装置1の説明を続ける。 Returning to Figure 1, we will continue explaining the speaker identification device 1.

音声データ保持部11は、例えば、外部装置と通信する通信インターフェースを有し、通信インターフェースを介して外部装置から取得した音声データ及びその音声データに紐付けされた話者識別情報を記憶するとしてもよい。また、音声データ保持部11は、例えば、入出力ポート(例えば、USBポート)を有し、入出力ポートに接続された外部記憶装置(例えばUSBメモリ)から取得した音声データ及びその音声データに紐付けされた話者識別情報を記憶するとしてもよい。 The voice data storage unit 11 may, for example, have a communication interface for communicating with an external device, and store voice data acquired from the external device via the communication interface and speaker identification information linked to the voice data. The voice data storage unit 11 may also, for example, have an input/output port (for example, a USB port), and store voice data acquired from an external storage device (for example, a USB memory) connected to the input/output port, and speaker identification information linked to the voice data.

ここでは、音声データは、WAVフォーマットであるとして説明する。しかしながら、音声データは、必ずしもWAVフォーマットに限定される必要はなく、例えば、AIFFフォーマット、AACフォーマット等であっても構わない。 Here, the audio data will be described as being in WAV format. However, the audio data does not necessarily have to be limited to WAV format, and may be in, for example, AIFF format, AAC format, etc.

第1音声データ取得部12は、音声データ保持部11から、音声データと、その音声データに紐付けされた話者識別情報とを取得する。 The first voice data acquisition unit 12 acquires voice data and speaker identification information linked to the voice data from the voice data storage unit 11.

声質変換部13は、第1音声データ取得部12により取得された音声データを、その音声データに紐付けされた話者識別情報により識別される話者以外の話者(以下、「他の話者」とも称する)により発話された音声データに変換して出力する。より具体的には、声質変換部13は、音声データに含まれる発話の周波数成分を変更することで、他の話者により発話された音声データを生成して出力する。 The voice conversion unit 13 converts the voice data acquired by the first voice data acquisition unit 12 into voice data spoken by a speaker (hereinafter also referred to as "other speaker") other than the speaker identified by the speaker identification information linked to the voice data, and outputs the voice data. More specifically, the voice conversion unit 13 generates and outputs voice data spoken by another speaker by changing the frequency components of the speech included in the voice data.

声質変換部13は、一の話者の音声データを、複数の他の話者の音声データに変換して出力することで、互いに話者が異なる一方で同一の発話内容となる複数の音声データを出力することができる。また、声質変換部13は、一の話者の音声データが日本語による発話を含む音声データである場合には、必ずしも日本語を話すことができない他の話者の日本語による発話を含む音声データに変換することができる。すなわち、声質変換部13は、変換前の音声データの発話内容、言語に制限されることなく、一の話者の音声データを、複数の他の話者の音声データに変換して出力することができる。 The voice conversion unit 13 converts the voice data of one speaker into voice data of multiple other speakers and outputs the converted voice data, thereby making it possible to output multiple voice data that are different speakers but have the same speech content. Furthermore, when the voice data of one speaker is voice data that includes speech in Japanese, the voice conversion unit 13 can convert it into voice data that includes speech in Japanese of other speakers who do not necessarily speak Japanese. In other words, the voice conversion unit 13 can convert the voice data of one speaker into voice data of multiple other speakers and output the converted voice data, without being limited by the speech content or language of the voice data before conversion.

図3は、声質変換部13が、一の話者の音声データを、複数の他の話者の音声データに変換して出力する様子を示す模式図である。 Figure 3 is a schematic diagram showing how the voice conversion unit 13 converts voice data of one speaker into voice data of multiple other speakers and outputs it.

図3に示すように、声質変換部13は、話者識別モデル20の学習処理を行うための学習データとして利用される音声データの数を、発話内容、言語により制限されることなく増やすことができる。 As shown in FIG. 3, the voice quality conversion unit 13 can increase the amount of voice data used as training data for performing the training process of the speaker identification model 20, without being limited by the speech content or language.

再び図1に戻って、話者識別装置1の説明を続ける。 Returning to Figure 1, we will continue explaining the speaker identification device 1.

声質変換部13は、例えば、広く入手可能な従来型の声質変換器により実現されてもよい。また、声質変換部13は、例えば、第1の話者の音声データを入力すると、第2の話者の音声データを出力するように予め学習処理を行った声質変換モデルを利用することにより実現されてもよい。ここでは、声質変換部13は、第1の話者の音声データを入力すると、第2の話者の音声データを出力するように予め学習処理を行った声質変換モデルを利用することにより実現されるとして説明する。 The voice conversion unit 13 may be realized, for example, by a conventional voice conversion device that is widely available. The voice conversion unit 13 may also be realized, for example, by using a voice conversion model that has been trained in advance so that when voice data of a first speaker is input, voice data of a second speaker is output. Here, the voice conversion unit 13 is described as being realized by using a voice conversion model that has been trained in advance so that when voice data of a first speaker is input, voice data of a second speaker is output.

図4は、声質変換部13の構成例を示すブロック図である。 Figure 4 is a block diagram showing an example configuration of the voice quality conversion unit 13.

図4に示すように、声質変換部13は、声質変換学習用データ保持部131と、第2学習部132と、声質変換モデル133とを有する。 As shown in FIG. 4, the voice conversion unit 13 has a voice conversion training data storage unit 131, a second learning unit 132, and a voice conversion model 133.

声質変換モデル133は、複数の話者ペアのそれぞれについて、話者ペアの一方の話者である第1の話者の音声データを入力すると、話者ペアの他方の話者である第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように予め学習処理を行った深層ニューラルネットワーク(DNN:Deep Neural Network)である。ここでは、一例として、声質変換モデル133は、複数の話者ペアのそれぞれについて、第1の話者のWAVフォーマットの音声データを入力すると、第2の話者のWAVフォーマットの音声データを出力するように、及び、第2の話者のWAVフォーマットの音声データを入力すると、第1の話者のWAVフォーマットの音声データを出力するように予め学習処理を行ったcycleVAEであるとして説明する。しかしながら、声質変換モデル133は、複数の話者ペアのそれぞれについて、第1の話者の音声データを入力すると、第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように予め学習処理を行ったDNNであれば、必ずしも上記cycleVAEに限定される必要はない。 The voice conversion model 133 is a deep neural network (DNN) that has been trained in advance to output voice data of a second speaker, the other speaker of the speaker pair, when voice data of a first speaker, one of the speakers of the speaker pair, is input, and to output voice data of the first speaker when voice data of the second speaker is input. Here, as an example, the voice conversion model 133 is described as a cycleVAE that has been trained in advance to output voice data of a second speaker in WAV format when voice data of a first speaker is input, and to output voice data of a first speaker in WAV format when voice data of a second speaker is input. However, the voice conversion model 133 does not necessarily have to be limited to the above cycleVAE, as long as it is a DNN that has been trained in advance to output voice data of a second speaker when voice data of a first speaker is input for each of a plurality of speaker pairs, and to output voice data of a first speaker when voice data of a second speaker is input.

声質変換学習用データ保持部131は、声質変換モデル133の学習処理を行うための学習データを記憶する。より具体的には、声質変換学習用データ保持部131は、声質変換モデル133が対象とする複数の話者それぞれの音声データ(ここでは、WAVフォーマットの音声データ)を記憶する。 The voice conversion training data storage unit 131 stores training data for performing training processing for the voice conversion model 133. More specifically, the voice conversion training data storage unit 131 stores voice data (here, voice data in WAV format) for each of multiple speakers targeted by the voice conversion model 133.

第2学習部132は、声質変換学習用データ保持部131に記憶される学習用データを用いて、複数の話者ペアのそれぞれについて、話者ペアの一方の話者である第1の話者の音声データを入力すると、話者ペアの他方の話者である第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように声質変換モデル133の学習処理を行う。 The second learning unit 132 performs a learning process of the voice conversion model 133 using the learning data stored in the voice conversion learning data storage unit 131, so that for each of a plurality of speaker pairs, when voice data of a first speaker, one of the speakers in the speaker pair, is input, voice data of a second speaker, the other speaker in the speaker pair, is output, and when voice data of the second speaker is input, voice data of the first speaker is output.

再び図1に戻って、話者識別装置1の説明を続ける。 Returning to Figure 1, we will continue explaining the speaker identification device 1.

ノイズ残響付与部14は、声質変換部13から出力される音声データのそれぞれに対して、ノイズ付与(例えば4種類)及び残響付与(例えば1種類)を行い、ノイズ付与後の音声データ及びノイズ付与後の音声データを出力する。これにより、ノイズ残響付与部14は、音声データの数を更に増やすことができる。 The noise reverberation unit 14 adds noise (e.g., four types) and reverberation (e.g., one type) to each piece of voice data output from the voice quality conversion unit 13, and outputs the voice data after noise addition and the voice data after noise addition. This allows the noise reverberation unit 14 to further increase the number of pieces of voice data.

第1特徴量算出部15は、声質変換部13から出力される音声データと、ノイズ残響付与部14から出力される音声データとのそれぞれから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第1特徴量算出部15は、発話特徴量として、話者の声道特性を示すMFCC(Mel-Freuyency Cepstrum Coefficients)を算出するとして説明する。しかしながら、第1特徴量算出部15は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもMFCCを算出する例に限定される必要はない。第1特徴量算出部15は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。 The first feature calculation unit 15 calculates speech features indicating the characteristics of speech contained in the speech data from each of the speech data output from the voice quality conversion unit 13 and the noise reverberation adding unit 14. Here, as an example, the first feature calculation unit 15 calculates MFCC (Mel-Freuyency Cepstrum Coefficients) indicating the vocal tract characteristics of a speaker as the speech feature. However, as long as the first feature calculation unit 15 can calculate speech features indicating the characteristics of a speaker, it is not necessarily limited to the example of calculating MFCC. For example, the first feature calculation unit 15 may calculate the speech feature by applying a Mel filter bank to the speech audio signal, or may calculate the spectrogram of the speech audio signal as the speech feature.

比較部16は、第1特徴量算出部15から出力される話者特徴量(以下、「第1の話者特徴量」とも称する)のそれぞれについて、第1の話者特徴量と、その第1の話者特徴量の算出元となる音声データに含まれる発話の話者の話者特徴量(以下、「第2の話者特徴量」とも称する)とを比較する。 The comparison unit 16 compares, for each speaker feature (hereinafter also referred to as "first speaker feature") output from the first feature calculation unit 15, the first speaker feature with the speaker feature (hereinafter also referred to as "second speaker feature") of the speaker whose utterance is included in the voice data from which the first speaker feature is calculated.

比較部16は、比較の結果、(1)第1の話者特徴量と第2の話者特徴量との類似度が所定の範囲内である場合には、第1の話者特徴量の算出元となる音声データに、その音声データに含まれる発話の話者を識別する話者識別情報を紐付ける。これにより、比較部16は、一の話者識別情報に紐付けされた音声データの数を増やすことができる。そして、比較部16は、音声データと、その音声データに紐付けされた話者識別情報とを出力する。 If, as a result of the comparison, (1) the similarity between the first speaker feature and the second speaker feature is within a predetermined range, the comparison unit 16 links the voice data from which the first speaker feature is calculated to speaker identification information that identifies the speaker of the utterance contained in the voice data. In this way, the comparison unit 16 can increase the number of voice data linked to one speaker identification information. The comparison unit 16 then outputs the voice data and the speaker identification information linked to the voice data.

比較部16は、比較の結果、(2)第1の話者特徴量と第2の話者特徴量との類似度が所定の範囲内でない場合には、第1の話者特徴量の算出元となる音声データに、その音声データに含まれる発話の話者とは異なる第三者を識別する識別情報を紐付ける。これにより、比較部16は、音声データに紐付けされた話者識別情報の数を増やすことができる。すなわち、比較部16は、話者識別モデル20の学習処理を行うための学習データにおける話者の数を増やすことができる。話者の数を増やすことで、後述する話者識別モデル20の学習処理における過学習を抑制することができる。これにより、話者識別モデル20の汎化性能を向上させることができる。そして、比較部16は、音声データと、その音声データに紐付けされた話者識別情報とを出力する。 If, as a result of the comparison, (2) the similarity between the first speaker feature and the second speaker feature is not within a predetermined range, the comparison unit 16 links the voice data from which the first speaker feature is calculated with identification information that identifies a third party different from the speaker of the utterance contained in the voice data. This allows the comparison unit 16 to increase the number of speaker identification information linked to the voice data. That is, the comparison unit 16 can increase the number of speakers in the training data for performing the training process of the speaker identification model 20. By increasing the number of speakers, it is possible to suppress over-training in the training process of the speaker identification model 20 described below. This allows the generalization performance of the speaker identification model 20 to be improved. Then, the comparison unit 16 outputs the voice data and the speaker identification information linked to the voice data.

拡張音声データ保持部18は、音声データ保持部11と同様に、音声データと、その音声データに紐付けされた、その音声データに含まれる発話の話者を識別する話者識別情報とを、互いに対応付けて記憶する。 Like the voice data storage unit 11, the extended voice data storage unit 18 stores voice data and speaker identification information associated with the voice data that identifies the speaker of the utterance contained in the voice data, in association with each other.

音声データ保存部17は、比較部16から出力される、音声データ及びその音声データに紐付けされた話者識別情報のそれぞれについて、音声データとその音声データに紐付けされた話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる。また、音声データ保存部17は、第1音声データ取得部12により取得される、音声データ及びその音声データに紐付けされた話者識別情報のそれぞれについて、音声データとその音声データに紐付けされた話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる。これにより、拡張音声データ保持部18は、音声データ保持部11が話者識別モデル20の学習処理を行うための学習データとして記憶する音声データに加えて、比較部16から出力された音声データをも、話者識別モデルの学習処理を行うための学習データとして記憶する。 The voice data storage unit 17 stores in the extended voice data holding unit 18, in correspondence with each other, the voice data and the speaker identification information linked to the voice data, for each of the voice data and the speaker identification information linked to the voice data output from the comparison unit 16. The voice data storage unit 17 also stores in the extended voice data holding unit 18, in correspondence with each of the voice data and the speaker identification information linked to the voice data, for each of the voice data and the speaker identification information linked to the voice data acquired by the first voice data acquisition unit 12. As a result, in addition to the voice data stored by the voice data storage unit 11 as learning data for performing the learning process of the speaker identification model 20, the extended voice data holding unit 18 also stores the voice data output from the comparison unit 16 as learning data for performing the learning process of the speaker identification model.

以下、話者識別モデル20を構成する各構成要素について説明する。 The components that make up the speaker identification model 20 are explained below.

第3特徴量算出部21は、識別対象音声データ取得部40により取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第3特徴量算出部21は、発話特徴量として、話者の声道特性を示すMFCCを算出するとして説明する。しかしながら、第3特徴量算出部21は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもMFCCを算出する例に限定される必要はない。第3特徴量算出部21は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。 The third feature calculation unit 21 calculates speech features indicating characteristics of speech contained in the speech data acquired by the recognition target speech data acquisition unit 40 from the speech data. Here, as an example, the third feature calculation unit 21 is described as calculating an MFCC indicating the vocal tract characteristics of a speaker as the speech feature. However, as long as the third feature calculation unit 21 can calculate speech features indicating characteristics of a speaker, it is not necessarily limited to the example of calculating an MFCC. The third feature calculation unit 21 may, for example, calculate a speech feature by applying a Mel filter bank to the speech audio signal, or may, for example, calculate a spectrogram of the speech audio signal as the speech feature.

深層ニューラルネットワーク22は、第3特徴量算出部21により算出される発話特徴量を入力すると、その発話特徴量の算出元となる音声データに含まれる発話の話者の特徴を示す話者性特徴量を出力するように予め学習処理を行った深層ニューラルネットワーク(DNN)である。ここでは、一例として、深層ニューラルネットワーク22は、話者の声道特性を示すMFCCを入力すると、可変長の発話を固定次元埋め込みにマッピングした発話の音響特徴量であるx-Vectorを話者性特徴量として出力するように予め学習処理を行ったKaldiであるとして説明する。しかしながら、深層ニューラルネットワーク22は、第3特徴量算出部21により算出される発話特徴量を入力すると、話者の特徴を示す話者性特徴量を出力するように予め学習処理を行ったDNNであれば、必ずしも上記Kaldiに限定される必要はない。なお、x-Vectorの算出方法等の詳細は、非特許文献1に開示されているため、ここでの詳述を省略する。 The deep neural network 22 is a deep neural network (DNN) that has been trained in advance so that, when the speech feature calculated by the third feature calculation unit 21 is input, it outputs a speaker feature indicating the characteristics of the speaker of the utterance included in the voice data from which the speech feature is calculated. Here, as an example, the deep neural network 22 is described as Kaldi that has been trained in advance so that, when the MFCC indicating the vocal tract characteristics of the speaker is input, it outputs an x-Vector, which is an acoustic feature of the utterance in which a variable-length utterance is mapped to a fixed-dimensional embedding, as a speaker feature. However, the deep neural network 22 does not necessarily need to be limited to the above-mentioned Kaldi, as long as it is a DNN that has been trained in advance so that, when the speech feature calculated by the third feature calculation unit 21 is input, it outputs a speaker feature indicating the characteristics of the speaker. Note that details of the calculation method of the x-Vector are disclosed in Non-Patent Document 1, and therefore will not be described in detail here.

判定部23は、深層ニューラルネットワーク22から出力される話者性特徴量に基づいて、識別対象音声データ取得部40により取得された音声データに含まれる発話の話者を判定する。より具体的には、判定部23は、複数の話者のx-Vectorを記憶し、記憶する複数のx-Vectorのうち、深層ニューラルネットワーク22から出力されるx-Vectorに最も類似するx-Vectorを特定し、特定したx-Vectorの話者を、識別対象音声データ取得部40により取得された音声データに含まれる発話の話者と判定する。そして、判定部23は、判定した話者を識別する話者識別情報を出力する。 The determination unit 23 determines the speaker of the utterance included in the voice data acquired by the recognition target voice data acquisition unit 40 based on the speaker feature values output from the deep neural network 22. More specifically, the determination unit 23 stores the x-Vector of multiple speakers, identifies the x-Vector that is most similar to the x-Vector output from the deep neural network 22 from among the multiple stored x-Vector, and determines the speaker of the identified x-Vector as the speaker of the utterance included in the voice data acquired by the recognition target voice data acquisition unit 40. The determination unit 23 then outputs speaker identification information that identifies the determined speaker.

以下、学習部30を構成する各構成要素について説明する。 The components that make up the learning unit 30 are explained below.

第2音声データ取得部31は、拡張音声データ保持部18から、音声データと、その音声データに紐付けされた話者識別情報とを取得する。 The second voice data acquisition unit 31 acquires voice data and speaker identification information linked to the voice data from the extended voice data storage unit 18.

第2特徴量算出部32は、第2音声データ取得部31により取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第2特徴量算出部32は、発話特徴量として、話者の声道特性を示すMFCCを算出するとして説明する。しかしながら、第2特徴量算出部32は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもMFCCを算出する例に限定される必要はない。第2特徴量算出部32は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。 The second feature calculation unit 32 calculates speech features indicating characteristics of speech contained in the speech data acquired by the second speech data acquisition unit 31 from the speech data. Here, as an example, the second feature calculation unit 32 is described as calculating an MFCC indicating the vocal tract characteristics of a speaker as the speech feature. However, as long as the second feature calculation unit 32 can calculate speech features indicating the characteristics of a speaker, it is not necessarily limited to the example of calculating an MFCC. For example, the second feature calculation unit 32 may calculate a speech feature by applying a Mel filter bank to the speech audio signal, or may calculate a spectrogram of the speech audio signal as the speech feature.

第1学習部33は、第2特徴量算出部32により算出された発話特徴量と、その発話特徴量の算出元となる音声データに含まれる発話の話者を識別する話者識別情報とを学習データとして、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力するように話者識別モデル20の学習処理を行う。 The first learning unit 33 performs a learning process for the speaker identification model 20 using the speech features calculated by the second feature calculation unit 32 and speaker identification information that identifies the speaker of the utterance included in the voice data from which the speech features are calculated as learning data, and outputs speaker identification information that identifies the speaker of the utterance included in the voice data when voice data is input.

より具体的には、第1学習部33は、第2特徴量算出部32により算出されたMFCCと、そのMFCCに対応する話者識別情報とを学習データとして、MFCCを入力すると、そのMFCC算出元となる音声データに含まれる発話の話者の特徴を示すx-Vectorを出力するように深層ニューラルネットワーク22の学習処理を行う。 More specifically, the first learning unit 33 uses the MFCC calculated by the second feature calculation unit 32 and the speaker identification information corresponding to the MFCC as learning data, and when the MFCC is input, performs a learning process on the deep neural network 22 so as to output an x-Vector indicating the characteristics of the speaker of the utterance contained in the voice data from which the MFCC is calculated.

<動作>
上記構成の話者識別装置1は、話者識別モデル学習処理と、声質変換モデル学習処理と、話者識別処理とを行う。
<Operation>
The speaker identification device 1 having the above configuration performs a speaker identification model training process, a voice quality conversion model training process, and a speaker identification process.

以下、これらの処理について、図面を参照しながら順に説明する。 These processes are explained below in order with reference to the drawings.

図5は、話者識別モデル学習処理のフローチャートである。 Figure 5 is a flowchart of the speaker identification model training process.

話者識別モデル学習処理は、話者識別モデル20の学習処理を行う処理である。 The speaker identification model training process is a process that performs training processing of the speaker identification model 20.

話者識別モデル学習処理は、例えば、話者識別装置1を利用するユーザが、話者識別装置1に対して、話者識別モデル学習処理を開始する旨の操作を行うことで開始される。 The speaker identification model training process is started, for example, when a user of the speaker identification device 1 performs an operation on the speaker identification device 1 to start the speaker identification model training process.

話者識別モデル学習処理が開始されると、第1音声データ取得部12は、音声データ保持部11から、一の音声データと、その一の音声データに紐付けされた一の話者識別情報とを取得する(ステップS100)。 When the speaker identification model learning process is started, the first voice data acquisition unit 12 acquires one voice data and one speaker identification information linked to the one voice data from the voice data storage unit 11 (step S100).

一の音声データと一の話者識別情報とが取得されると、音声データ保存部17は、その一の音声データとその一の話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる(ステップS110)。 When a piece of voice data and a piece of speaker identification information are acquired, the voice data storage unit 17 associates the piece of voice data with the piece of speaker identification information and stores them in the extended voice data holding unit 18 (step S110).

一方で、声質変換部13は、その一の話者識別情報により識別される話者以外の話者である他の話者の中から一の話者を選択する(ステップS120)。そして、声質変換部13は、一の音声データを、その一の話者により発話された音声データに変換して(ステップS130)出力する。 On the other hand, the voice conversion unit 13 selects one speaker from among the other speakers who are speakers other than the speaker identified by the one speaker identification information (step S120).Then, the voice conversion unit 13 converts the one voice data into voice data spoken by the one speaker (step S130) and outputs it.

声質変換部13から音声データが出力されると、ノイズ残響付与部14は、声質変換部13から出力された音声データに対して、ノイズ付与及び残響付与を行い(ステップS140)、1以上の音声データを出力する。 When the voice data is output from the voice conversion unit 13, the noise reverberation adding unit 14 adds noise and reverberation to the voice data output from the voice conversion unit 13 (step S140) and outputs one or more pieces of voice data.

ノイズ残響付与部14から1以上の音声データが出力されると、第1特徴量算出部15は、声質変換部13から出力された音声データと、ノイズ残響付与部14から出力された1以上の音声データとのそれぞれから、発話特徴量を算出する(ステップS150)。 When one or more pieces of voice data are output from the noise reverberation unit 14, the first feature calculation unit 15 calculates speech features from each of the voice data output from the voice conversion unit 13 and the one or more pieces of voice data output from the noise reverberation unit 14 (step S150).

発話特徴量が算出されると、比較部16は、算出された発話特徴量のそれぞれについて、選択した一の話者の発話特徴量と比較して、算出された発話特徴量と一の話者の発話特徴量との類似度が所定の範囲内であるか否かを判定する(ステップS160)。 Once the speech features are calculated, the comparison unit 16 compares each of the calculated speech features with the speech features of the selected speaker and determines whether the similarity between the calculated speech features and the speech features of the selected speaker is within a predetermined range (step S160).

比較部16は、ステップS160の処理において肯定的に判定した場合に(ステップS160:Yes)、肯定的に判定した発話特徴量の算出元となる音声データに、選択した一の話者を識別する話者識別情報を紐付けする(ステップS170)。そして、比較部16は、その音声データと、その音声データに紐付けされた話者識別情報とを出力する。 If the comparison unit 16 judges the result of the process of step S160 to be positive (step S160: Yes), the comparison unit 16 links speaker identification information that identifies the selected speaker to the voice data from which the positively judged speech feature is calculated (step S170). Then, the comparison unit 16 outputs the voice data and the speaker identification information linked to the voice data.

比較部16は、ステップS160の処理において否定的に判定した場合に(ステップS160:No)、否定的に判定した発話特徴量の算出元となる音声データに、選択した一の話者とは異なる第三者を識別する識別情報を紐付けする(ステップS180)。そして、比較部16は、その音声データと、その音声データに紐付けされた話者識別情報とを出力する。 If the comparison unit 16 judges the result of the process of step S160 to be negative (step S160: No), the comparison unit 16 links the voice data from which the speech feature quantity judged to be negative was calculated with identification information that identifies a third party different from the selected speaker (step S180). Then, the comparison unit 16 outputs the voice data and the speaker identification information linked to the voice data.

ステップS160の処理において比較対象となった全ての発話特徴量に対して、比較部16によりステップS170の処理又はステップS180の処理が実行されると、音声データ保存部17は、比較部16から出力された、音声データと、その音声データに紐付けされた話者識別情報とのそれぞれについて、その音声データとその話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる(ステップS190)。 When the comparison unit 16 performs the process of step S170 or the process of step S180 for all the speech features that were compared in the process of step S160, the voice data storage unit 17 stores the voice data and the speaker identification information linked to the voice data output from the comparison unit 16 in the extended voice data holding unit 18 in association with each other (step S190).

ステップS190の処理が終了すると、声質変換部13は、他の話者の中に、ステップS120の処理において選択されていない一の話者(以下、「未選択の話者」とも称する)があるか否かを判定する(ステップS200)。 When the processing of step S190 is completed, the voice quality conversion unit 13 determines whether or not there is a speaker among the other speakers who has not been selected in the processing of step S120 (hereinafter also referred to as an "unselected speaker") (step S200).

ステップS200の処理において、未選択の話者があると判定された場合に(ステップS200:Yes)、声質変換部13は、未選択の話者の中から一の話者を選択し(ステップS210)、ステップS130の処理に進む。 If it is determined in the processing of step S200 that there is an unselected speaker (step S200: Yes), the voice conversion unit 13 selects one speaker from the unselected speakers (step S210) and proceeds to the processing of step S130.

ステップS200の処理において、未選択の話者がないと判定された場合に(ステップS200:No)、第1音声データ取得部12は、音声データ保持部11が記憶する音声データのうち、未だ取得していない未取得の音声データがあるか否かを判定する(ステップS220)。 If it is determined in the processing of step S200 that there is no unselected speaker (step S200: No), the first voice data acquisition unit 12 determines whether there is any unacquired voice data among the voice data stored in the voice data storage unit 11 (step S220).

ステップS220の処理において、未取得の音声データがあると判定された場合に(ステップS220:Yes)、第1音声データ取得部12は、未取得の音声データの中から一の音声データを取得して(ステップS230)、ステップS110の処理に進む。 If it is determined in the processing of step S220 that there is unacquired voice data (step S220: Yes), the first voice data acquisition unit 12 acquires one piece of voice data from the unacquired voice data (step S230) and proceeds to the processing of step S110.

ステップS220の処理において、未取得の音声データがないと判定された場合に(ステップS220:No)、第2音声データ取得部31は、拡張音声データ保持部18から、拡張音声データ保持部18が記憶する全ての音声データについて、音声データと、その音声データに紐付けされた話者識別情報とを取得する(ステップS240)。 If it is determined in the processing of step S220 that there is no unacquired voice data (step S220: No), the second voice data acquisition unit 31 acquires voice data and speaker identification information linked to the voice data from the extended voice data storage unit 18 for all voice data stored in the extended voice data storage unit 18 (step S240).

全ての音声データについて、音声データと、その音声データに紐付けされた話者識別情報とが取得されると、第2特徴量算出部32は、全ての音声データに対して、音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する(ステップS250)。 Once the voice data and the speaker identification information linked to the voice data have been acquired for all the voice data, the second feature calculation unit 32 calculates speech features indicating the characteristics of the speech contained in the voice data from the voice data for all the voice data (step S250).

全ての音声データに対して、発話特徴量が算出されると、第1学習部33は、全ての発話特徴量について、発話特徴量と、その発話特徴量の算出元となる音声データに含まれる発話の話者を識別する話者識別情報とを学習データとして、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力するように話者識別モデル20の学習処理を行う(ステップS260)。 Once the speech features have been calculated for all the speech data, the first learning unit 33 performs a learning process for the speaker identification model 20 using the speech features and the speaker identification information identifying the speaker of the utterance included in the speech data from which the speech features were calculated as learning data for all the speech features, so that when speech data is input, the speaker identification information identifying the speaker of the utterance included in the speech data is output (step S260).

ステップS260の処理が終了すると、話者識別装置1は、その話者識別モデル学習処理を終了する。 When the processing of step S260 is completed, the speaker identification device 1 ends the speaker identification model training process.

図6は、声質変換モデル学習処理のフローチャートである。 Figure 6 is a flowchart of the voice conversion model training process.

声質変換モデル学習処理は、声質変換モデル133の学習処理を行う処理である。 The voice conversion model training process is a process that performs training processing of the voice conversion model 133.

声質変換モデル学習処理は、例えば、話者識別装置1を利用するユーザが、話者識別装置1に対して、声質変換モデル学習処理を開始する旨の操作を行うことで開始される。 The voice conversion model training process is started, for example, when a user of the speaker identification device 1 performs an operation on the speaker identification device 1 to start the voice conversion model training process.

声質変換モデル学習処理が開始されると、第2学習部132は、声質変換モデル133が対象とする複数の話者のうち、一の話者ペアを選択する(ステップS300)。そして、第2学習部132は、声質変換学習用データ保持部131が保持する学習データのうち、選択中の一の話者ペアを構成する2名の話者それぞれについての学習データを用いて、選択中の一の話者ペアについて、話者ペアの一方の話者である第1の話者の音声データを入力すると、話者ペアの他方の話者である第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように声質変換モデル133の学習処理を行う(ステップS310)。 When the voice conversion model training process is started, the second training unit 132 selects one speaker pair from among the multiple speakers targeted by the voice conversion model 133 (step S300). Then, the second training unit 132 performs training process of the voice conversion model 133 using training data for each of the two speakers constituting the selected speaker pair from among the training data stored in the voice conversion training data storage unit 131, so that when voice data of a first speaker, one of the speakers in the speaker pair, is input, voice data of a second speaker, the other speaker in the speaker pair, is output, and when voice data of the second speaker is input, voice data of the first speaker is output (step S310).

第2学習部132は、一の話者ペアについて声質変換モデル133の学習処理を行うと、声質変換モデル133が対象とする複数の話者のうち、未だ選択していない未選択の話者ペアがあるか否かを判定する(ステップS320)。 When the second learning unit 132 has performed the learning process of the voice conversion model 133 for one speaker pair, it determines whether there are any unselected speaker pairs among the multiple speakers targeted by the voice conversion model 133 (step S320).

ステップS320の処理において、未取得の話者ペアがあると判定された場合に(ステップS320:Yes)、第2学習部132は、未選択の話者ペアの中から一の話者ペアを選択して(ステップS330)、ステップS310の処理に進む。 If it is determined in the processing of step S320 that there is an unobtained speaker pair (step S320: Yes), the second learning unit 132 selects one speaker pair from the unselected speaker pairs (step S330) and proceeds to the processing of step S310.

ステップS320の処理において、未取得の話者ペアがないと判定された場合に(ステップS320:No)、話者識別装置1は、その声質変換モデル学習処理を終了する。 If it is determined in the processing of step S320 that there are no unacquired speaker pairs (step S320: No), the speaker identification device 1 ends the voice conversion model training processing.

図7は、話者識別処理のフローチャートである。 Figure 7 is a flowchart of the speaker identification process.

話者識別処理は、音声データに含まれる発話の話者を識別する処理である。より具体的には、話者識別処理は、予め学習処理を行った話者識別モデル20に音声データを入力して、話者識別モデル20に話者識別情報を出力させる処理である。 The speaker identification process is a process for identifying the speaker of an utterance contained in voice data. More specifically, the speaker identification process is a process for inputting voice data to a speaker identification model 20 that has undergone a learning process in advance, and causing the speaker identification model 20 to output speaker identification information.

話者識別処理は、例えば、話者識別装置1を利用するユーザが、話者識別装置1に対して、話者識別処理を開始する旨の操作を行うことで開始される。 The speaker identification process is started, for example, when a user of the speaker identification device 1 performs an operation on the speaker identification device 1 to start the speaker identification process.

話者識別処理が開始されると、識別対象音声データ取得部40は、識別の対象とする音声データを取得する(ステップS400)。 When the speaker identification process is started, the identification target voice data acquisition unit 40 acquires the voice data to be identified (step S400).

音声データが取得されると、第3特徴量算出部21は、取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出し(ステップS410)、算出した発話特徴量を深層ニューラルネットワーク22に入力する。すると、深層ニューラルネットワーク22は、入力された発話特徴量の算出元となる音声データに含まれる発話の話者の特徴を示す話者性特徴量を出力する(ステップS420)。 When the voice data is acquired, the third feature calculation unit 21 calculates speech features indicating characteristics of the speech contained in the acquired voice data from the voice data (step S410), and inputs the calculated speech features to the deep neural network 22. The deep neural network 22 then outputs speaker characteristics indicating characteristics of the speaker of the utterance contained in the voice data from which the input speech features were calculated (step S420).

話者性特徴量が出力されると、判定部23は、出力された話者性特徴量に基づいて、識別対象音声データ取得部40により取得された音声データに含まれる発話の話者を判定する(ステップS430)。そして、判定部23は、判定した話者を識別する話者識別情報を出力する(ステップS440)。 When the speaker characteristic features are output, the determination unit 23 determines the speaker of the utterance contained in the voice data acquired by the recognition target voice data acquisition unit 40 based on the output speaker characteristic features (step S430). Then, the determination unit 23 outputs speaker identification information that identifies the determined speaker (step S440).

ステップS440の処理が終了すると、話者識別装置1は、その話者識別処理を終了する。 When the processing of step S440 is completed, the speaker identification device 1 ends the speaker identification processing.

<考察>
上述したように、話者識別装置1は、音声データ保持部11が記憶する、話者識別モデル20の学習を行うための学習データを、発話内容、言語により制限されることなく拡張する。そして、拡張した学習データを用いて、話者識別モデル20の学習処理を行う。このため、話者識別装置1によると、話者識別モデル20を用いて行う話者の識別精度を向上することができる。従って、話者識別装置1によると、精度よく話者を識別することができる。
<Considerations>
As described above, the speaker identification device 1 expands the training data stored in the voice data storage unit 11 for training the speaker identification model 20 without being restricted by speech content or language. Then, the expanded training data is used to perform training processing for the speaker identification model 20. Therefore, the speaker identification device 1 can improve the accuracy of speaker identification performed using the speaker identification model 20. Therefore, the speaker identification device 1 can accurately identify speakers.

(補足)
以上、実施の形態に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。
(supplement)
Although the speaker identification device according to the embodiment has been described above, the present disclosure is not limited to this embodiment.

例えば、上記実施の形態に係る話者識別装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。 For example, each processing unit included in the speaker identification device according to the above embodiment is typically realized as an LSI, which is an integrated circuit. These may be implemented individually as single chips, or may be implemented as a single chip that includes some or all of the processing units.

また、集積回路化はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、またはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。 In addition, the integrated circuit is not limited to LSI, but may be realized by a dedicated circuit or a general-purpose processor. It is also possible to use an FPGA (Field Programmable Gate Array) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI.

また、本開示は、実施の形態に係る話者識別装置により実行される、話者識別モデルの学習方法として実現されてもよいし、話者識別方法として実現されてもよい。 The present disclosure may also be realized as a method for learning a speaker identification model, or as a speaker identification method, executed by a speaker identification device according to an embodiment.

また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 In the above embodiment, each component may be configured with dedicated hardware, or may be realized by executing a software program suitable for each component. Each component may be realized by a program execution unit such as a CPU or processor reading and executing a software program recorded on a recording medium such as a hard disk or semiconductor memory.

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。 The division of functional blocks in the block diagram is just one example, and multiple functional blocks may be realized as one functional block, one functional block may be divided into multiple blocks, or some functions may be transferred to other functional blocks. In addition, the functions of multiple functional blocks with similar functions may be processed in parallel or in a time-shared manner by a single piece of hardware or software.

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。 The order in which each step in the flowchart is performed is merely an example to specifically explain the present disclosure, and orders other than those described above may also be used. Some of the steps may also be performed simultaneously (in parallel) with other steps.

以上、一つまたは複数の態様に係る話者認識装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、各種変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。 The above describes a speaker recognition device according to one or more aspects based on an embodiment, but the present disclosure is not limited to this embodiment. As long as it does not deviate from the spirit of the present disclosure, various modifications conceivable by a person skilled in the art to this embodiment, and forms constructed by combining components in various modifications, etc. may also be included within the scope of one or more aspects.

本開示は、話者を識別する装置等に広く利用可能である。 This disclosure can be widely used in devices for identifying speakers, etc.

1 話者識別装置
10 音声データ拡張部
11 音声データ保持部
12 第1音声データ取得部
13 声質変換部
14 ノイズ残響付与部
15 第1特徴量算出部
16 比較部
17 音声データ保持部
18 拡張音声データ保持部
20 話者識別モデル
21 第3特徴量算出部
22 深層ニューラルネットワーク
23 判定部
30 学習部
31 第2音声データ取得部
32 第2特徴量算出部
33 第1学習部
40 識別対象音声データ取得部
131 声質変換学習用データ保持部
132 第2学習部
133 音声変換モデル
REFERENCE SIGNS LIST 1 Speaker identification device 10 Voice data expansion unit 11 Voice data storage unit 12 First voice data acquisition unit 13 Voice quality conversion unit 14 Noise reverberation adding unit 15 First feature amount calculation unit 16 Comparison unit 17 Voice data storage unit 18 Extended voice data storage unit 20 Speaker identification model 21 Third feature amount calculation unit 22 Deep neural network 23 Judgment unit 30 Learning unit 31 Second voice data acquisition unit 32 Second feature amount calculation unit 33 First learning unit 40 Identification target voice data acquisition unit 131 Voice quality conversion training data storage unit 132 Second learning unit 133 Voice conversion model

Claims (8)

音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習方法であって、
第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成し、
前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行い、
さらに、前記声質変換処理を行うことで生成した前記第2の音声データの話者特徴量である第1の話者特徴量と、前記声質変換処理を行うことで前記第2の音声データを生成した元となる前記第1の音声データに含まれる発話の話者である前記第1の話者の話者特徴量である第2の話者特徴量とを比較して、前記第1の話者特徴量と、前記第2の話者特徴量との類似度が所定の範囲内であるか否かを判定し、
前記判定において、前記類似度が前記所定の範囲内でないと判定した場合には、前記学習処理では、前記声質変換処理を行うことで前記第2の音声データを生成した元となる前記第1の音声データを、前記声質変換処理を行うことで前記第2の音声データを生成した元となる前記第の音声データに含まれる発話の話者である前記第1の話者とは異なる第三者の音声データとして、前記学習処理を行う
学習方法。
A method for training a speaker identification model, which receives voice data and outputs speaker identification information for identifying a speaker of an utterance included in the voice data, comprising the steps of:
performing a voice conversion process on the first voice data of the first speaker to generate second voice data of a second speaker;
performing a learning process of the speaker identification model using the first voice data and the second voice data as learning data;
further comparing a first speaker feature which is a speaker feature of the second voice data generated by performing the voice conversion process with a second speaker feature which is a speaker feature of the first speaker who is a speaker of an utterance included in the first voice data from which the second voice data is generated by performing the voice conversion process, and determining whether or not a similarity between the first speaker feature and the second speaker feature is within a predetermined range;
If it is determined in the judgment that the similarity is not within the predetermined range, the learning process performs the learning process by treating the first voice data, which is the source of the second voice data generated by the voice conversion process, as voice data of a third party other than the first speaker, who is the speaker of the utterance contained in the first voice data, which is the source of the second voice data generated by the voice conversion process.
前記声質変換処理は、前記第1の話者の音声データと前記第2の話者の音声データとに基づく処理である、
請求項1に記載の学習方法。
The voice conversion process is a process based on the voice data of the first speaker and the voice data of the second speaker.
The learning method according to claim 1 .
前記声質変換処理は、前記第1の話者の音声データを入力すると、前記第2の話者の音声データを出力するように予め学習処理を行った声質変換モデルに、前記第1の音声データを入力することで、前記声質変換モデルから前記第2の音声データを出力する処理を含む、
請求項2に記載の学習方法。
the voice conversion process includes a process of inputting the first voice data into a voice conversion model that has been trained in advance so as to output the voice data of the second speaker when the voice data of the first speaker is input, and outputting the second voice data from the voice conversion model;
The learning method according to claim 2 .
前記声質変換モデルは、WAVフォーマットの音声データを入力とし、WAVフォーマットの音声データを出力とする深層ニューラルネットワークを含む、
請求項3に記載の学習方法。
The voice conversion model includes a deep neural network that receives voice data in a WAV format as input and outputs voice data in a WAV format.
The learning method according to claim 3.
前記声質変換処理は、前記第1の話者の音声データと第3の話者の音声データとに基づく処理である、
請求項1に記載の学習方法。
The voice conversion process is a process based on the voice data of the first speaker and the voice data of a third speaker.
The learning method according to claim 1 .
前記話者識別モデルは、音声データに含まれる発話の特徴を示す発話特徴量を入力とし、話者の特徴を示す話者性特徴量を出力する深層ニューラルネットワークを含む、
請求項1に記載の学習方法。
The speaker identification model includes a deep neural network that receives an utterance feature indicating a feature of an utterance included in the voice data and outputs a speaker characteristic feature indicating a feature of a speaker.
The learning method according to claim 1 .
請求項1に記載の学習方法により予め学習処理を行った前記話者識別モデルに音声データを入力して、前記話者識別モデルに前記話者識別情報を出力させる、
話者識別方法。
2. A method for learning a speaker identification model comprising: inputting speech data to the speaker identification model that has been trained in advance by the training method according to claim 1; and causing the speaker identification model to output the speaker identification information.
Speaker identification methods.
コンピュータに、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習を行う処理を実行させるためのプログラムであって、
前記処理は、
第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成する第1のステップと、
前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う第2のステップと、を含み、
さらに、前記声質変換処理を行うことで生成した前記第2の音声データの話者特徴量である第1の話者特徴量と、前記声質変換処理を行うことで前記第2の音声データを生成した元となる前記第1の音声データに含まれる発話の話者である前記第1の話者の話者特徴量である第2の話者特徴量とを比較して、前記第1の話者特徴量と、前記第2の話者特徴量との類似度が所定の範囲内であるか否かを判定する第3のステップを含み、
前記第3のステップにおいて、前記類似度が前記所定の範囲内でないと判定した場合には、前記第2のステップでは、前記声質変換処理を行うことで前記第2の音声データを生成した元となる前記第1の音声データを、前記声質変換処理を行うことで前記第2の音声データを生成した元となる前記第の音声データに含まれる発話の話者である前記第1の話者と異なる第三者の音声データとして、前記学習処理を行う、
プログラム。
A program for causing a computer to execute a process of learning a speaker identification model that outputs speaker identification information for identifying a speaker of an utterance included in voice data when voice data is input, the program comprising:
The process comprises:
A first step of generating second voice data of a second speaker by performing a voice conversion process on first voice data of a first speaker;
a second step of performing a learning process of the speaker identification model using the first voice data and the second voice data as learning data;
and a third step of comparing a first speaker feature which is a speaker feature of the second voice data generated by performing the voice conversion process with a second speaker feature which is a speaker feature of the first speaker who is a speaker of an utterance included in the first voice data from which the second voice data is generated by performing the voice conversion process, and determining whether or not a similarity between the first speaker feature and the second speaker feature is within a predetermined range,
When it is determined in the third step that the similarity is not within the predetermined range, in the second step, the first voice data, which is the source of generating the second voice data by performing the voice conversion process, is treated as voice data of a third party different from the first speaker, who is the speaker of the utterance included in the first voice data, which is the source of generating the second voice data by performing the voice conversion process, and the learning process is performed.
program.
JP2020077113A 2019-08-23 2020-04-24 Learning method, speaker identification method, and program Active JP7650132B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/996,408 US11580989B2 (en) 2019-08-23 2020-08-18 Training method of a speaker identification model based on a first language and a second language
CN202010829027.7A CN112420021B (en) 2019-08-23 2020-08-18 Learning method, speaker recognition method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962890872P 2019-08-23 2019-08-23
US62/890,872 2019-08-23

Publications (2)

Publication Number Publication Date
JP2021033260A JP2021033260A (en) 2021-03-01
JP7650132B2 true JP7650132B2 (en) 2025-03-24

Family

ID=74677379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020077113A Active JP7650132B2 (en) 2019-08-23 2020-04-24 Learning method, speaker identification method, and program

Country Status (2)

Country Link
JP (1) JP7650132B2 (en)
CN (1) CN112420021B (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083419B (en) * 2021-03-16 2026-01-16 京东科技控股股份有限公司 Speaker recognition method and device, equipment and storage medium
JP7715339B2 (en) * 2021-06-22 2025-07-30 パナソニックホールディングス株式会社 Articulation abnormality detection method, articulation abnormality detection device, and program
JP7792430B2 (en) 2021-11-08 2025-12-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Information processing method, information processing device, and information processing program
JP2023124301A (en) * 2022-02-25 2023-09-06 株式会社大林組 Teacher information creation system, teacher information creation method and teacher information creation program
JP7254316B1 (en) 2022-04-11 2023-04-10 株式会社アープ Program, information processing device, and method
CN116092512B (en) * 2022-12-30 2026-04-21 重庆邮电大学 A few-sample speech separation method based on data generation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019116889A1 (en) 2017-12-12 2019-06-20 ソニー株式会社 Signal processing device and method, learning device and method, and program
JP2019219574A (en) 2018-06-21 2019-12-26 株式会社東芝 Speaker model creation system, recognition system, program and control device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594993B2 (en) * 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
JP5777178B2 (en) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for constructing a deep neural network, and statistical acoustic model adaptation Computer programs
JP6613560B2 (en) * 2014-12-12 2019-12-04 カシオ計算機株式会社 Electronic device, learning support method and program
JP7197259B2 (en) * 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Information processing method, information processing device and program
JP6773634B2 (en) * 2017-12-15 2020-10-21 日本電信電話株式会社 Voice converter, voice conversion method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019116889A1 (en) 2017-12-12 2019-06-20 ソニー株式会社 Signal processing device and method, learning device and method, and program
JP2019219574A (en) 2018-06-21 2019-12-26 株式会社東芝 Speaker model creation system, recognition system, program and control device

Also Published As

Publication number Publication date
CN112420021B (en) 2025-09-19
JP2021033260A (en) 2021-03-01
CN112420021A (en) 2021-02-26

Similar Documents

Publication Publication Date Title
JP7650132B2 (en) Learning method, speaker identification method, and program
CN111009248B (en) Speaker recognition device, speaker recognition method, and recording medium
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
Metze et al. Models of tone for tonal and non-tonal languages
CN114937455B (en) Voice detection method and device, device and storage medium
CN112825249A (en) Voice processing method and device
JP6985221B2 (en) Speech recognition device and speech recognition method
CN111933140B (en) Method, device and storage medium for detecting voice of headphone wearer
JP2017167188A (en) Information processing apparatus, information processing method, program, and recognition system
CN111145748B (en) Audio recognition confidence determining method, device, equipment and storage medium
CN113646837A (en) Signal processing device, method and program
CN115699170B (en) Text echo cancellation
US11580989B2 (en) Training method of a speaker identification model based on a first language and a second language
WO2021036046A1 (en) Sound separating method and apparatus, and electronic device
CN112185342A (en) Voice conversion and model training method, device and system and storage medium
CN111816164A (en) Method and device for speech recognition
JP2020060757A (en) Speaker recognition device, speaker recognition method, and program
JP2020012928A (en) Noise resistant voice recognition device, noise resistant voice recognition method, and computer program
CN114267363B (en) Voice adversarial sample generation method and device, electronic device and storage medium
JP7264282B2 (en) Speech enhancement device, learning device, method thereof, and program
JP7291099B2 (en) Speech recognition method and device
US11636844B2 (en) Method and apparatus for audio signal processing evaluation
CN113450768B (en) Speech synthesis system evaluation method and device, readable storage medium and terminal equipment
JP5104732B2 (en) Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof
JP7715339B2 (en) Articulation abnormality detection method, articulation abnormality detection device, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250311

R150 Certificate of patent or registration of utility model

Ref document number: 7650132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150