JP7010905B2 - Information processing equipment, information processing methods and programs - Google Patents
Information processing equipment, information processing methods and programs Download PDFInfo
- Publication number
- JP7010905B2 JP7010905B2 JP2019161765A JP2019161765A JP7010905B2 JP 7010905 B2 JP7010905 B2 JP 7010905B2 JP 2019161765 A JP2019161765 A JP 2019161765A JP 2019161765 A JP2019161765 A JP 2019161765A JP 7010905 B2 JP7010905 B2 JP 7010905B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- noise
- partial time
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method and a program.
人間の声等をコンピュータに認識させる技術として、音声認識が従来から知られている。音声認識では、音響モデル、認識辞書及び言語モデルと呼ばれる3つのモデルを用いて、入力された音声の認識が行われる(例えば、非特許文献1参照)。音響モデルとは音素と声の特徴とを対応付けたモデルであり、音素の音響的な特徴を構造化し、確率値として表現したものである。 Speech recognition has been conventionally known as a technique for causing a computer to recognize a human voice or the like. In speech recognition, input speech is recognized using three models called an acoustic model, a recognition dictionary, and a language model (see, for example, Non-Patent Document 1). The acoustic model is a model in which phonemes and voice characteristics are associated with each other, and the acoustic characteristics of phonemes are structured and expressed as probability values.
音響モデルの性能は、その学習に用いられる音声データの質と量とに依存する。このため、音響モデルの学習には、十分な品質の音声データを大量に準備(例えば、合計再生時間が1000時間を超える分量の音声データを準備)する必要がある。 The performance of an acoustic model depends on the quality and quantity of audio data used for its learning. Therefore, in order to learn the acoustic model, it is necessary to prepare a large amount of voice data of sufficient quality (for example, prepare a quantity of voice data having a total playback time exceeding 1000 hours).
しかしながら、音声データには個人情報や機密情報等が含まれる場合があるため、大量の音声データの入手が困難なことがある。例えば、音声認識を利用したサービスを提供するサービス提供者と音声データの所有者とが異なる者である場合には、サービス提供者は、個人情報や機密情報等が含まれる可能性がある音声データの提供を所有者から受けることは一般に困難である。 However, since the voice data may include personal information, confidential information, and the like, it may be difficult to obtain a large amount of voice data. For example, if the service provider who provides the service using voice recognition and the owner of the voice data are different persons, the service provider may include personal information, confidential information, and the like. It is generally difficult to receive an offer from the owner.
このため、例えば、個人情報や機密情報等が含まれないことが確認された比較的少量の音声データ(例えば、合計再生時間が数時間~数十時間程度の分量の音声データ)で音響モデルを学習することになり、音響モデルの性能が十分でない場合があった。 For this reason, for example, an acoustic model can be created with a relatively small amount of voice data (for example, voice data having a total playback time of several hours to several tens of hours) that is confirmed not to contain personal information or confidential information. There were cases where the performance of the acoustic model was not sufficient due to learning.
一方で、各音声データの再生時間が非常に短い時間(例えば、数百ミリ秒以下)であっても、音声データが大量にあれば、音響モデルは十分な性能を獲得可能であることが知られている。このため、音響モデルの学習には、個人情報や機密情報等が聴取可能な再生時間(例えば、1秒~数秒以上)の音声データは必ずしも必要ない。 On the other hand, it is known that even if the playback time of each audio data is very short (for example, several hundred milliseconds or less), the acoustic model can acquire sufficient performance if there is a large amount of audio data. Has been done. Therefore, in order to learn the acoustic model, it is not always necessary to have audio data having a reproduction time (for example, 1 second to several seconds or more) in which personal information, confidential information, and the like can be heard.
本発明の実施形態は、上記の点に鑑みてなされたもので、音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成することを目的とする。 The embodiment of the present invention has been made in view of the above points, and an object of the present invention is to create subdivided data as learning data of an acoustic model so that the information represented by the original voice data cannot be restored.
上記目的を達成するため、本実施形態に係る情報処理装置は、入力された音声データから、特徴量の時系列データを抽出する抽出手段と、前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、を有することを特徴とする。 In order to achieve the above object, the information processing apparatus according to the present embodiment is predetermined from the extraction means for extracting the time-series data of the feature amount from the input voice data and the time-series data extracted by the extraction means. The partial time-series creation means that creates a plurality of partial time-series data by cutting out the feature amount for each time width of the above and the plurality of partial time-series data created by the partial time-series creation means are randomly connected. It is characterized by having a training data creating means for creating training data used for learning an acoustic model.
音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成することができる。 As the learning data of the acoustic model, it is possible to create subdivided data so that the information represented by the original voice data cannot be restored.
以下、本発明の実施形態(以降、「本実施形態」とも表す。)について説明する。本実施形態では、音声によって表現された情報を聴取可能な再生時間(例えば、1秒~数秒以上)の音声データを用いて、この音声データが表す情報を復元できないように細分化することで、音響モデルの学習データを作成する場合について説明する。 Hereinafter, an embodiment of the present invention (hereinafter, also referred to as “the present embodiment”) will be described. In the present embodiment, the information expressed by the voice is subdivided so that the information represented by the voice data cannot be restored by using the voice data having a audible reproduction time (for example, 1 second to several seconds or more). The case of creating the training data of the acoustic model will be described.
ここで、本実施形態が想定する音声データとしては、例えば、コールセンタの通話記録を表す音声データ等が挙げられる。このような音声データには顧客の個人情報(例えば、氏名や住所等)が含まれることが多いためである。そこで、本実施形態では、音声データとしてコールセンタの通話記録を想定し、当該音声データには個人情報が含まれるものとする。ただし、これは一例であって、本実施形態は任意の音声データに対して適用可能である。なお、機密情報が含まれる音声データの一例としては、会議の議事記録を表す音声データ等が挙げられる。 Here, examples of the voice data assumed by the present embodiment include voice data representing a call record of a call center. This is because such voice data often includes customer's personal information (for example, name, address, etc.). Therefore, in the present embodiment, it is assumed that the call record of the call center is used as the voice data, and the voice data includes personal information. However, this is only an example, and this embodiment can be applied to arbitrary voice data. An example of voice data containing confidential information is voice data representing a meeting record.
<全体構成>
まず、本実施形態の全体構成について、図1を参照しながら説明する。図1は、本実施形態の全体構成の一例を示す図である。
<Overall configuration>
First, the overall configuration of this embodiment will be described with reference to FIG. FIG. 1 is a diagram showing an example of the overall configuration of the present embodiment.
図1に示すように、本実施形態では、音響モデルの学習データを作成する学習データ作成装置10と、この学習データを用いて音響モデルの学習(チューニング)を行う音響モデル学習装置20とが用いられる。学習データ作成装置10及び音響モデル学習装置20は、例えば、PC(パーソナルコンピュータ)や汎用サーバ等のコンピュータ(情報処理装置)又はコンピュータシステム(情報処理システム)で実現される。なお、学習データ作成装置10及び音響モデル学習装置20は、例えば、スマートフォンやタブレット端末等で実現されてもよい。
As shown in FIG. 1, in the present embodiment, a learning
学習データ作成装置10は、音声データ1000を入力として、この音声データ1000が表す情報を聴取可能でない時間に細分化することで学習データ2000を作成する。なお、音声データ1000には個人情報が含まれているものとする。
The learning
ここで、学習データ作成装置10は、特徴量抽出部101と、部分時系列作成部102と、ノイズ付加部103と、順序並べ替え部104と、学習データ作成部105とを有する。これら各機能部は、学習データ作成装置10のメモリ装置(例えば、補助記憶装置等)に格納されている1以上のプログラムがプロセッサ等に実行させる処理により実現される。なお、これらの1以上のプログラムは、例えば、学習データ作成装置10に接続された外部記録媒体(例えば、CD、DVD、USBメモリ等)に格納されていてもよい。
Here, the learning
特徴量抽出部101は、音響的な特徴を表す特徴量を音声データ1000から抽出して、特徴量の時系列データ(以降、「特徴量時系列」とも表す。)を作成する。この特徴量時系列は、音声データ1000に対して既知の手法(例えば、ケプストラム分析等)を適用することで得ることが可能である。なお、この特徴量時系列を逆変換することにより元の音声データ1000に復元することが可能であるため、この特徴量時系列には個人情報が含まれているということができる。
The feature
なお、特徴量抽出部101は、メモリ装置に格納されている音声データ1000を入力してもよいし、外部記録媒体に格納されている音声データ1000を入力してもよいし、通信ネットワークを介して接続されるサーバ装置等に格納されている音声データ1000をダウンロードして入力してもよい。
The feature
部分時系列作成部102は、特徴量抽出部101によって作成された特徴量時系列を所定の切り出し時間幅(以降、「フレーム長」とも表す。)単位で切り出した時系列データ(以降、「部分時系列」とも表す。)を作成する。このとき、部分時系列作成部102は、フレーム長よりも短い所定の時間幅(以降、「フレームシフト量」とも表す。)ずつ、切り出し開始時刻をシフト(スライド)させながら特徴量時系列から部分時系列を作成する。なお、各部分時系列には、音響モデルの学習の際に用いられる正解ラベル(つまり、正解の音素を表す情報)が付与される。
The partial time
ノイズ付加部103は、部分時系列作成部102によって作成された複数の部分時系列のそれぞれに対してノイズを付加する。これは、後述するように、複数の部分時系列から元の特徴量時系列を復元することが可能であるため、ノイズを付加することで元の特徴量時系列に復元することができないようにするためである。
The
順序並べ替え部104は、ノイズ付加部103によってノイズが付加された複数の部分時系列の順序をランダムに並べ替える。これは、元の特徴量時系列への復元をより困難にするためである。
The order rearranging
学習データ作成部105は、順序並べ替え部104によって並べ替えられた部分時系列同士を結合した学習データを作成する。この学習データは、学習データ作成装置10のメモリ装置等に格納されてもよいし、音響モデル学習装置20に渡されてもよい。なお、学習データが音響モデル学習装置20に渡される際には、通信ネットワークを介して学習データが送信されてもよいし、学習データが格納された外部記録媒体等を介して学習データが渡されてもよい。
The learning
音響モデル学習装置20は、学習データ2000を入力として、この学習データ2000を用いて音響モデル3000を学習(チューニング)する。
The acoustic
ここで、音響モデル学習装置20は、音響モデル学習部201を有する。音響モデル学習部201は、音響モデル学習装置20のメモリ装置(例えば、補助記憶装置等)に格納されている1以上のプログラムがプロセッサ等に実行させる処理により実現される。なお、これらの1以上プログラムは、例えば、音響モデル学習装置20に接続された外部記録媒体(例えば、CD、DVD、USBメモリ等)に格納されていてもよい。
Here, the acoustic
音響モデル学習部201は、学習データ作成装置10から渡された学習データを用いて、音響モデル学習装置20のメモリ装置等に格納されている音響モデル3000を学習(チューニング)する。このとき、音響モデル学習部201は、上述したフレーム長と同じ時間幅毎に学習データを切り出した上で、これらの切り出されたデータ(つまり、ノイズが付加された部分時系列とその正解ラベル)を用いて音響モデル3000を学習する。なお、音響モデル3000としては音素と特徴量とを対応付けた任意のモデルを用いることが可能であるが、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等を用いることが可能である。また、音響モデル3000を学習するための学習アルゴリズムとしてはモデルに応じて任意のアルゴリズムを用いることが可能であるが、例えば、EM(Expectation-Maximization)アルゴリズム等を用いることが可能である。
The acoustic
なお、図1に示す例では、学習データ作成装置10と音響モデル学習装置20とが異なる装置である場合について説明したが、これに限られず、学習データ作成装置10と音響モデル学習装置20とが一体で構成されていてもよい。
In the example shown in FIG. 1, the case where the learning
<処理の流れ>
次に、本実施形態に係る学習データ作成装置10で学習データ2000を作成した上で、本実施形態に係る音響モデル学習装置20で当該学習データ2000を用いて音響モデル3000を学習する場合の処理の流れについて、図2を参照しながら説明する。図2は、学習データの作成及び音響モデルの学習の一例を示すフローチャートである。
<Processing flow>
Next, processing in the case where the
まず、学習データ作成装置10の特徴量抽出部101は、入力した音声データ1000から特徴量を抽出して特徴量時系列を作成する(ステップS101)。例えば、図3に示すように、「おでんわありがとう」との音声を表す音声データ1000が入力された場合、特徴量抽出部101は、この音声データ1000から特徴量を抽出して特徴量時系列1100を作成する。なお、特徴量抽出部101は、上述したように、例えばケプストラム分析等の既知の手法により音声データ1000から特徴量を抽出して特徴量時系列を作成することができる。
First, the feature
次に、学習データ作成装置10の部分時系列作成部102は、フレームシフト量ずつ切り出し開始時刻をシフトさせながら、フレーム長の特徴量を特徴量時系列1100から切り出すことで、複数の部分時系列を作成する(ステップS102)。例えば、フレームシフト量及びフレーム長は共に固定であるものとしてそれぞれをΔ及びTと表した場合、図3に示すように、部分時系列作成部102は、特徴量時系列1100の先頭からフレームシフト量Δずつ切り出し開始時刻をシフトさせながら、フレーム長Tの時間幅の特徴量を部分時系列1200として切り出す。なお、フレーム長T及びフレームシフト量ΔはT>Δを満たすことを条件として任意に設定することが可能であるが、例えば、フレーム長Tとしては数百ミリ秒程度、フレームシフト量Δとしては数十ミリ秒程度とすることが考えられる。
Next, the partial time
具体的には、まず、部分時系列作成部102は、切り出し開始時刻t=0から切り出し終了時刻t=Tまでの時間幅の特徴量を部分時系列1200-1として特徴量時系列1100から切り出す。次に、部分時系列作成部102は、切り出し開始時刻t=Δから切り出し終了時刻t=T+Δまでの時間幅の特徴量を部分時系列1200-2として特徴量時系列1100から切り出す。以降も同様に、n回目の切り出しを行う際には、部分時系列作成部102は、切り出し開始時刻t=(n-1)Δから切り出し終了時刻t=T+(n-1)Δまでの時間幅の特徴量を部分時系列1200-nとして特徴量時系列1100から切り出す。
Specifically, first, the partial time
以上により、複数の部分時系列1200が得られる。以降では、部分時系列1200の総数をNとして、各部分時系列1200を区別して表す場合は「部分時系列1200-1」、「部分時系列1200-2」、・・・、「部分時系列1200-N」とも表す。
As a result, a plurality of
ここで、各部分時系列1200には、音響モデル3000の学習の際に用いられる正解ラベルが付与される。図3に示す例では、部分時系列1200-1に対しては正解ラベル「/o/」が付与されており、部分時系列1200-2に対しては正解ラベル「/d/」が付与されている。また、部分時系列1200-3に対しては正解ラベル「/e/」が付与されており、部分時系列1200-4に対しては正解ラベル「/n/」が付与されている。これらの正解ラベルは任意の方法で各部分時系列1200に付与されればよく、例えば、ユーザの手作業により正解ラベルが付与されてもよいし、音声データに対して音素単位にラベル付けを行うツール(例えば、音素セグメンテーションツール)等により正解ラベルが付与されてもよい。
Here, each
次に、学習データ作成装置10のノイズ付加部103は、複数の部分時系列1200のそれぞれに対してノイズを付加する(ステップS103)。
Next, the
上述したように、フレーム長T及びフレームシフト量ΔはT>Δを満たすため、n回目に切り出された部分時系列1200-nとn+1回目に切り出された部分時系列1200-(n+1)とは少なくとも一部の時間区間が重畳し、この時間区間内で特徴量が同じ変化をすることになる。このため、複数の部分時系列1200の中で特徴量が同じ変化をする時間区間が含まれる部分時系列1200を探し出して、当該時間区間が重畳するように互いに結合させることで特徴量時系列1100を復元することが可能となってしまう(つまり、部分時系列1200から音声データ1000を復元することが可能である。)。そこで、各部分時系列1200のそれぞれに対して異なるノイズを付加することで、部分時系列1200から特徴量時系列1100を復元するこができないようにする。
As described above, since the frame length T and the frame shift amount Δ satisfy T> Δ, the partial time series 1200-n cut out at the nth time and the partial time series 1200- (n + 1) cut out at the n + 1th time are different. At least a part of the time interval is superimposed, and the feature quantity changes in the same time within this time interval. Therefore, the feature
ノイズ付加部103は、任意の方法によって各部分時系列1200のそれぞれに対して異なるノイズを付加すればよいが、例えば、n=1,・・・,Nとして、部分時系列1200-nに対して乱数rnを生成した上で、部分時系列1200-nに含まれる各特徴量に対して乱数rnを加算(又は、減算等)することが考えられる。ただし、各乱数rnは、部分時系列1200-nと部分時系列1200-(n+1)とで重畳する時間区間の特徴量が異なるものとなり、かつ、音響モデル3000の学習に影響が出ない程度の軽微な値とすることが好ましい。なお、以降では、ノイズが付加された部分時系列1200も「部分時系列1200」と表す。
The
次に、学習データ作成装置10の順序並べ替え部104は、各部分時系列1200の順序をランダムに並べ替える(ステップS104)。すなわち、例えば、図4に示すように、順序並べ替え部104は、部分時系列1200-1、部分時系列1200-2、・・・、部分時系列1200-Nを、部分時系列1200-n1、部分時系列1200-n2、・・・、部分時系列1200-nNに並び替える。ここで、n1∈{1,・・・,N},n2∈{1,・・・,N}\{n1},n3∈{1,・・・,N}\{n1,n2},・・・,nN∈{1,・・・,N}\{n1,・・・,nN-1}である。なお、図4に示す例では、n1=3、n2=4、n3=1、n4=2である。
Next, the
順序並べ替え部104は、任意の方法によって各部分時系列1200の順序をランダムに並べ替えればよいが、例えば、n=1,・・・,Nとして、部分時系列1200-nに対して乱数snを生成した上で、乱数snの昇順(又は降順)に部分時系列1200-nを並べ替えることが考えられる。このとき、部分時系列1200の総数Nを十分に超える範囲から乱数snを生成する(例えば、SをNより十分大きい整数として、[0,S]から乱数snを生成する、又は[-S,S]から乱数snを生成する等)ことが好ましい。また、異なる部分時系列1200に対して同一の乱数が生成されないようにすることが好ましい。
The
以上により、部分時系列1200-1、部分時系列1200-2、・・・、部分時系列1200-Nをランダムに並べ替えた部分時系列1200-n1、部分時系列1200-n2、・・・、部分時系列1200-nNが得られる。これにより、元の特徴量時系列1100への復元がより困難となる。
Based on the above, the partial time series 1200-1, the partial time series 1200-2, ..., The partial time series 1200-n 1 in which the partial time series 1200-N are randomly rearranged, the partial time series 1200-n 2 , ... ..., Partial time series 1200-n N is obtained. This makes it more difficult to restore the original feature
次に、学習データ作成装置10の学習データ作成部105は、並べ替え後の部分時系列1200を結合して学習データ2000を作成する(ステップS105)。すなわち、例えば、図4に示すように、学習データ作成部105は、m=1,・・・,N-1として、部分時系列1200-nmと部分時系列1200-nm+1とを互いに結合する(つまり、部分時系列1200-nmの最終時刻の次の時刻を、部分時系列1200-nm+1の開始時刻とする)ことで、学習データ2000を作成する。これにより、学習データ2000が作成される。なお、学習データ2000を構成する各部分時系列1200にはそれぞれ正解ラベルが付与されている。
Next, the learning
続いて、音響モデル学習装置20の音響モデル学習部201は、学習データ作成装置10で作成された学習データ2000を用いて、音響モデル3000を学習する(ステップS106)。このとき、音響モデル学習部201は、学習データ2000の先頭から順にフレーム長Tと同じ時間幅のデータを切り出した上で、これらの切り出したデータ及びその正解ラベルを用いて既知の学習アルゴリズムにより音響モデル3000を学習する。なお、学習データ2000の先頭から順にフレーム長Tと同じ時間幅のデータを切り出すことは、図4に示す部分時系列1200-n1、部分時系列1200-n2、・・・、部分時系列1200-nNを学習データ2000から順に得ることを意味する。
Subsequently, the acoustic
<まとめ>
以上のように、本実施形態では、個人情報や機密情報等が含まれる音声データ1000を用いて、この音声データ1000が表す情報を復元できないように細分化した部分時系列1200で構成される学習データ2000を作成することができる。本実施形態を用いることで、学習データ2000からは個人情報や機密情報等を復元することができないため、個人情報や機密情報等が含まれる音声データ1000であっても音響モデル3000の学習に利用することができるようになる。このため、例えば、音声認識を利用したサービスを提供するサービス提供者は、音響モデル3000の学習に必要な学習データ2000を容易に入手することができるようになり、音響モデル3000の性能を向上させることが可能になる。
<Summary>
As described above, in the present embodiment, learning composed of a
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変更や変更、公知技術との組み合わせ等が可能である。 The present invention is not limited to the above-described embodiment disclosed specifically, and various changes and changes, combinations with known techniques, and the like can be made without departing from the scope of claims.
10 学習データ作成装置
20 音響モデル学習装置
101 特徴量抽出部
102 部分時系列作成部
103 ノイズ付加部
104 順序並べ替え部
105 学習データ作成部
201 音響モデル学習部
1000 音声データ
2000 学習データ
3000 音響モデル
10 Learning
Claims (5)
前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、
前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれに対してノイズを付加するノイズ付加手段と、
前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、
を有することを特徴とする情報処理装置。 An extraction method that extracts time-series data of features from the input voice data,
A partial time-series creation means for creating a plurality of partial time-series data by cutting out a feature amount for each predetermined time width from the time-series data extracted by the extraction means.
A noise adding means for adding noise to each of the plurality of partial time series data created by the partial time series creating means,
A learning data creating means for randomly connecting each of a plurality of partial time-series data to which noise is added by the noise adding means to create learning data used for learning an acoustic model.
An information processing device characterized by having.
前記複数の部分時系列データのそれぞれに対して生成した第1の乱数を前記ノイズとして付加し、
前記学習データ作成手段は、
前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データのそれぞれに対して第2の乱数を生成し、前記第2の乱数の昇順又は降順に前記複数の部分時系列データを接続して、前記学習データを作成する、ことを特徴とする請求項1に記載の情報処理装置。 The noise adding means is
A first random number generated for each of the plurality of partial time series data is added as the noise, and the noise is added.
The learning data creation means is
A second random number is generated for each of the plurality of partial time-series data to which noise is added by the noise-adding means, and the plurality of partial time-series data are connected in ascending or descending order of the second random number. The information processing apparatus according to claim 1 , wherein the learning data is created.
前記抽出手順で抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手順と、
前記部分時系列作成手順により作成された複数の部分時系列データのそれぞれに対してノイズを付加するノイズ付加手順と、
前記ノイズ付加手順によりノイズがそれぞれ付加された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手順と、
をコンピュータが実行することを特徴とする情報処理方法。 Extraction procedure to extract feature amount time series data from input voice data,
A partial time-series creation procedure for creating a plurality of partial time-series data by cutting out feature quantities at predetermined time widths from the time-series data extracted by the extraction procedure, and
A noise addition procedure for adding noise to each of a plurality of partial time series data created by the partial time series creation procedure, and a noise addition procedure.
A training data creation procedure for randomly connecting each of a plurality of partial time-series data to which noise has been added by the noise addition procedure to create training data used for learning an acoustic model, and a training data creation procedure.
An information processing method characterized by the execution of a computer.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019161765A JP7010905B2 (en) | 2019-09-05 | 2019-09-05 | Information processing equipment, information processing methods and programs |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019161765A JP7010905B2 (en) | 2019-09-05 | 2019-09-05 | Information processing equipment, information processing methods and programs |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021039293A JP2021039293A (en) | 2021-03-11 |
| JP7010905B2 true JP7010905B2 (en) | 2022-01-26 |
Family
ID=74847069
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019161765A Active JP7010905B2 (en) | 2019-09-05 | 2019-09-05 | Information processing equipment, information processing methods and programs |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7010905B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7567940B2 (en) * | 2021-01-15 | 2024-10-16 | 日本電信電話株式会社 | Learning method, learning system and learning program |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018128913A (en) | 2017-02-09 | 2018-08-16 | 日本電信電話株式会社 | Data distribution mediation apparatus, data distribution mediation system, and data distribution mediation method |
-
2019
- 2019-09-05 JP JP2019161765A patent/JP7010905B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018128913A (en) | 2017-02-09 | 2018-08-16 | 日本電信電話株式会社 | Data distribution mediation apparatus, data distribution mediation system, and data distribution mediation method |
Non-Patent Citations (1)
| Title |
|---|
| 三村正人,講演音声認識のための類似話者選択に基づくDNN-HMMの教師なし適応,電子情報通信学会論文誌D,日本,一般社団法人電子情報通信学会,2015年12月02日,Vol.J98-D,No11,p1411-1418 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021039293A (en) | 2021-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8812314B2 (en) | Method of and system for improving accuracy in a speech recognition system | |
| JP7243760B2 (en) | Audio feature compensator, method and program | |
| US10410615B2 (en) | Audio information processing method and apparatus | |
| CN114596879B (en) | False voice detection method and device, electronic equipment and storage medium | |
| CN110650250B (en) | Method, system, device and storage medium for processing voice dialogue | |
| CN102132341A (en) | Robust media fingerprints | |
| CN113205793A (en) | Audio generation method and device, storage medium and electronic equipment | |
| CN113436609B (en) | Voice conversion model, training method thereof, voice conversion method and system | |
| JP2009210829A (en) | Sound model learning device and program | |
| CN113611281B (en) | Speech synthesis method, device, electronic equipment and storage medium | |
| KR20110099434A (en) | Method and Device for Improving Learning-Based Dialog System Using Dialog Log | |
| CN114461852A (en) | Audio and video abstract extraction method, device, equipment and storage medium | |
| CN112712793A (en) | ASR (error correction) method based on pre-training model under voice interaction and related equipment | |
| CN111698552A (en) | Video resource generation method and device | |
| CN111048065B (en) | Text error correction data generation method and related device | |
| US20230410787A1 (en) | Speech processing system with encoder-decoder model and corresponding methods for synthesizing speech containing desired speaker identity and emotional style | |
| JP7010905B2 (en) | Information processing equipment, information processing methods and programs | |
| CN114283782B (en) | Speech synthesis method and device, electronic device and storage medium | |
| CN119229845B (en) | Speech synthesis method and device, electronic device and storage medium | |
| CN117649846B (en) | Speech recognition model generation method, speech recognition method, device and medium | |
| JP7769262B2 (en) | Signal analysis system, signal analysis method and program | |
| CN114758650B (en) | A method, device, equipment and storage medium for optimizing speech recognition model | |
| WO2025007610A1 (en) | Model determination method, model application method, and related device | |
| CN113724690A (en) | PPG feature output method, target audio output method and device | |
| Melhem et al. | Towards solving cocktail-party: The first method to build a realistic dataset with ground truths for speech separation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200717 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210615 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210729 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211014 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211214 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220113 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7010905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |