JP7052866B2 - 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム - Google Patents
自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム Download PDFInfo
- Publication number
- JP7052866B2 JP7052866B2 JP2020514039A JP2020514039A JP7052866B2 JP 7052866 B2 JP7052866 B2 JP 7052866B2 JP 2020514039 A JP2020514039 A JP 2020514039A JP 2020514039 A JP2020514039 A JP 2020514039A JP 7052866 B2 JP7052866 B2 JP 7052866B2
- Authority
- JP
- Japan
- Prior art keywords
- certainty
- feature
- estimation model
- estimation
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Description
第一実施形態の推定モデル学習装置1は、図3に例示するように、教師ラベルあり発話記憶部10a、教師ラベルなし発話記憶部10b、韻律特徴推定モデル学習部11a、言語特徴推定モデル学習部11b、韻律特徴パラ言語情報推定部12a、言語特徴パラ言語情報推定部12b、韻律特徴データ選別部13a、言語特徴データ選別部13b、韻律特徴推定モデル再学習部14a、言語特徴推定モデル再学習部14b、韻律特徴推定モデル記憶部15a、および言語特徴推定モデル記憶部15bを備える。推定モデル学習装置1が備える各処理部のうち、韻律特徴推定モデル学習部11a、言語特徴推定モデル学習部11b、韻律特徴パラ言語情報推定部12a、言語特徴パラ言語情報推定部12b、韻律特徴データ選別部13a、言語特徴データ選別部13b、韻律特徴推定モデル記憶部15a、および言語特徴推定モデル記憶部15bにより、自己訓練データ選別装置9を構成することができる。韻律特徴推定モデル学習部11aは、図4に例示するように、韻律特徴抽出部111aおよびモデル学習部112aを備える。言語特徴推定モデル学習部11bは、同様に、言語特徴抽出部111bおよびモデル学習部112bを備える。韻律特徴パラ言語情報推定部12aは、図5に例示するように、韻律特徴抽出部121aおよびパラ言語情報推定部122aを備える。言語特徴パラ言語情報推定部12bは、同様に、言語特徴抽出部121bおよびパラ言語情報推定部122bを備える。この推定モデル学習装置1が、図6に例示する各ステップの処理を行うことにより第一実施形態の推定モデル学習方法が実現される。
第二実施形態では、二つの側面からのデータ選別に基づく自己訓練を再帰的に行う。すなわち、自己訓練で強化した推定モデルを用いて学習すべき発話を選別し、選別した発話を用いて推定モデルを強化し、・・・を繰り返す。このループ処理を繰り返すことで、より推定精度が向上した韻律特徴のみに基づく推定モデルと言語特徴のみに基づく推定モデルとを構築することができる。各ループ処理を行った際にループ終了判定を実施し、推定モデルがこれ以上改善しないと判断された場合にループ処理を終了する。このことにより、確実に学習すべき発話だけを選別することを維持しつつ、学習すべき発話のバリエーションを増やすことができ、さらにパラ言語情報推定モデルの推定精度を向上させることができる。
第三実施形態では、第二実施形態の再帰的な自己訓練において、韻律特徴確信度閾値または言語特徴確信度閾値またはその両方を、ループ処理済回数に応じて下げるように変更する。このことにより、ループ処理済回数が少なくモデル学習が十分に行われていない段階では推定誤りが少ない発話を、ループ処理済回数が増えてモデル学習がある程度行われてきた段階ではより多様な発話を自己訓練に利用することができる。その結果、パラ言語情報推定モデルの学習が安定し、モデルの推定精度を向上させることができる。
(韻律特徴向け韻律特徴確信度閾値)=(韻律特徴向け韻律特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
(韻律特徴向け言語特徴確信度閾値)=(韻律特徴向け言語特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
(言語特徴向け韻律特徴確信度閾値)=(言語特徴向け韻律特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
(言語特徴向け言語特徴確信度閾値)=(言語特徴向け言語特徴確信度閾値初期値)×(閾値減衰係数)^(ループ処理回数)
韻律特徴データ選別部13aは、次のループ処理において、確信度閾値決定部17が更新した韻律特徴向け韻律特徴確信度閾値および韻律特徴向け言語特徴確信度閾値を用いて韻律特徴自己訓練データの選別を行う。同様に、言語特徴データ選別部13bは、次のループ処理において、確信度閾値決定部17が更新した言語特徴向け韻律特徴確信度閾値および言語特徴向け言語特徴確信度閾値を用いて言語特徴自己訓練データの選別を行う。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- 教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルを記憶する推定モデル記憶部と、
教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定する確信度推定部と、
上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別するデータ選別部と、
を含み、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
自己訓練データ選別装置。 - 請求項1記載の自己訓練データ選別装置であって、
上記複数の独立した特徴量は、発話音声から抽出する韻律特徴と言語特徴とである、
自己訓練データ選別装置。 - 教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルを記憶する推定モデル記憶部と、
教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定する確信度推定部と、
上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別するデータ選別部と、
上記学習対象の自己訓練データを用いて上記学習対象の特徴量に対応する上記推定モデルを再学習する推定モデル再学習部と、
を含み、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
推定モデル学習装置。 - 請求項3に記載の推定モデル学習装置であって、
上記確信度推定部と上記データ選別部と上記推定モデル再学習部とを実行することを1回のループ処理として、上記ループ処理を実行した回数に応じて上記確信度閾値の値が下がるように上記確信度閾値を決定する確信度閾値決定部をさらに含む、
推定モデル学習装置。 - 推定モデル記憶部に、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルが記憶されており、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
確信度推定部が、教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定し、
データ選別部が、上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別し、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
自己訓練データ選別方法。 - 推定モデル記憶部に、教師ラベルありデータから抽出した複数の独立した特徴量を用いて学習した、入力データから抽出した上記特徴量それぞれから所定のラベルごとに確信度を推定する上記特徴量それぞれに対応した複数の推定モデルが記憶されており、
上記所定のラベルは、パラ言語情報に関する複数のラベルであり、
確信度推定部が、教師ラベルなしデータから抽出した上記特徴量から上記の複数の推定モデルを用いて上記ラベルごとの確信度を推定し、
データ選別部が、上記特徴量から選択した1つの特徴量を学習対象として、上記教師ラベルなしデータから得たラベルごとの確信度が上記学習対象の特徴量に対して上記特徴量ごとに予め設定した確信度閾値をすべて上回り、また確信度閾値を上回ったラベルがすべての特徴量で一致するとき、上記確信度閾値をすべて上回る確信度に対応するラベルを教師ラベルとして当該教師ラベルなしデータに付加して上記学習対象の自己訓練データとして選別し、
推定モデル再学習部が、上記学習対象の自己訓練データを用いて上記学習対象の特徴量に対応する上記推定モデルを再学習し、
上記確信度閾値は、上記学習対象とする特徴量に対応する確信度閾値より、上記学習対象としない特徴量に対応する確信度閾値の方が高く設定されている、
推定モデル学習方法。 - 請求項1または2に記載の自己訓練データ選別装置としてコンピュータを機能させるためのプログラム。
- 請求項3または4に記載の推定モデル学習装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018080044 | 2018-04-18 | ||
| JP2018080044 | 2018-04-18 | ||
| PCT/JP2019/013689 WO2019202941A1 (ja) | 2018-04-18 | 2019-03-28 | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2019202941A1 JPWO2019202941A1 (ja) | 2021-03-25 |
| JP7052866B2 true JP7052866B2 (ja) | 2022-04-12 |
Family
ID=68240087
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020514039A Active JP7052866B2 (ja) | 2018-04-18 | 2019-03-28 | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20210166679A1 (ja) |
| JP (1) | JP7052866B2 (ja) |
| WO (1) | WO2019202941A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4704077A1 (en) | 2024-08-27 | 2026-03-04 | Ricoh Company, Ltd. | Speech processing apparatus, system, method, and carrier medium |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6992725B2 (ja) * | 2018-10-22 | 2022-01-13 | 日本電信電話株式会社 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
| JP7206898B2 (ja) * | 2018-12-25 | 2023-01-18 | 富士通株式会社 | 学習装置、学習方法および学習プログラム |
| US11322135B2 (en) * | 2019-09-12 | 2022-05-03 | International Business Machines Corporation | Generating acoustic sequences via neural networks using combined prosody info |
| KR20210106814A (ko) * | 2020-02-21 | 2021-08-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 방법 및 장치 |
| US20230206085A1 (en) * | 2020-06-05 | 2023-06-29 | Nippon Telegraph And Telephone Corporation | Processing device, processing method and processing program |
| US20230281394A1 (en) * | 2020-07-15 | 2023-09-07 | Sony Group Corporation | Information processing device and information processing method |
| CN114004328A (zh) * | 2020-07-27 | 2022-02-01 | 华为技术有限公司 | Ai模型更新的方法、装置、计算设备和存储介质 |
| JP7041374B2 (ja) | 2020-09-04 | 2022-03-24 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
| JP6997401B1 (ja) * | 2020-09-04 | 2022-01-17 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
| US20250201250A1 (en) * | 2022-03-17 | 2025-06-19 | Nec Corporation | Sound classification apparatus, sound classification method, and computer-readable recording medium |
| CN120220654B (zh) * | 2025-05-28 | 2025-08-05 | 杭州秋果计划科技有限公司 | 语音识别模型训练方法、装置和计算机设备 |
-
2019
- 2019-03-28 JP JP2020514039A patent/JP7052866B2/ja active Active
- 2019-03-28 US US17/048,041 patent/US20210166679A1/en not_active Abandoned
- 2019-03-28 WO PCT/JP2019/013689 patent/WO2019202941A1/ja not_active Ceased
Non-Patent Citations (3)
| Title |
|---|
| BOAKYE, Kofi et al.,Any Questions? Automatic Question Detection in Meetings,Proceedings of the 2009 IEEE Workshop on Automatic Speech Recognition & Understanding,2009年11月13日,pp.485-489 |
| GUAN, Donghai et al.,Activity Recognition Based on Semi-supervised Learning,Proceedings the 13th IEEE International Conference on Embedded and Real-Time Computing Systems and A,2007年08月21日 |
| 小薮駿 他,"複数の分類器に基づく半教師あり学習を用いた文献からの蛋白質間相互作用抽出",情報処理学会研究報告,2012年06月28日,Vol.2012-BIO-29, No.15,pp.1-8 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4704077A1 (en) | 2024-08-27 | 2026-03-04 | Ricoh Company, Ltd. | Speech processing apparatus, system, method, and carrier medium |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2019202941A1 (ja) | 2019-10-24 |
| JPWO2019202941A1 (ja) | 2021-03-25 |
| US20210166679A1 (en) | 2021-06-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7052866B2 (ja) | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム | |
| Sarikaya et al. | Application of deep belief networks for natural language understanding | |
| JP5853029B2 (ja) | 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム | |
| WO2021208719A1 (zh) | 基于语音的情绪识别方法、装置、设备及存储介质 | |
| US20170372694A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
| JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
| CN115497465B (zh) | 语音交互方法、装置、电子设备和存储介质 | |
| CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
| WO2008001486A1 (en) | Voice processing device and program, and voice processing method | |
| CN110298044B (zh) | 一种实体关系识别方法 | |
| US12045700B1 (en) | Systems and methods of generative machine-learning guided by modal classification | |
| CN116881080A (zh) | 日志检测方法、装置、电子设备及存储介质 | |
| CN118170668A (zh) | 一种测试用例生成方法、装置、存储介质和设备 | |
| Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
| Sundarprasad | Speech emotion detection using machine learning techniques | |
| CN115238068A (zh) | 语音转录文本聚类方法、装置、电子设备和存储介质 | |
| Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
| CN114036956A (zh) | 一种旅游知识语义分析方法及装置 | |
| CN116821691B (zh) | 基于任务融合的训练情感识别模型的方法和装置 | |
| CN119514531A (zh) | 文本特定信息识别判定方法 | |
| JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
| KR102547000B1 (ko) | 화자 감정 분석에 기초하여 화자 인증을 개선하는 방법 | |
| Lee | Principles of spoken language recognition | |
| JP7540494B2 (ja) | 学習装置、方法およびプログラム | |
| US12394406B2 (en) | Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200917 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210810 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211005 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220301 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220314 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7052866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |