JP5201053B2 - 合成音声判別装置、方法及びプログラム - Google Patents
合成音声判別装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5201053B2 JP5201053B2 JP2009084194A JP2009084194A JP5201053B2 JP 5201053 B2 JP5201053 B2 JP 5201053B2 JP 2009084194 A JP2009084194 A JP 2009084194A JP 2009084194 A JP2009084194 A JP 2009084194A JP 5201053 B2 JP5201053 B2 JP 5201053B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- synthesized
- text
- voices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000000605 extraction Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 8
- 238000012850 discrimination method Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 2
- 240000000220 Panda oleosa Species 0.000 description 11
- 235000016496 Panda oleosa Nutrition 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008451 emotion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Description
以下では、本発明の合成音声判別装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。
図1は、第1の実施形態の合成音声判別装置10の機能を示す機能ブロック図である。
次に、第1の実施形態の合成音声判別方法の処理の動作について図面を参照しながら詳細に説明する。
音声認識部1が入力音声信号を漢字仮名テキストに変換すると、音声蓄積部2により、音声認識部1からの漢字仮名テキストのうち、対象テキストに該当する音声部分が切り出され、この切り出した音声が音声蓄積部2に蓄積される(ステップS103)。
ここで、w1、w2、w3、w4は重み係数であり、w1+w2+w3+w4=1の関係がある。
以上のように、第1の実施形態では、音声合成装置による合成音声と人間による実際の発声音声とを判別することが可能なため、音声合成技術を悪用した他人への「なりすまし」を発見できるといった効果がある。
(B−1)第1の実施形態では、合成音声判別装置10による合成音声判別方法を詳細に説明したが、本発明の合成音声判別装置10を電話端末(例えば電話機やソフトフォン搭載のコンピュータ等)に搭載した場合の実施形態を例示する。
Claims (4)
- 入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置において、
入力された音声信号をテキストに変換する音声認識手段と、
上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段と
を備え、
上記合成音声判別手段が、
上記音声認識手段により変換されたテキストから上記対象テキストに該当する音声部分を入力音声信号から切り出し、上記対象テキストに該当する複数の音声を蓄積する音声蓄積部と、
上記音声蓄積部に蓄積されている複数の音声の特徴を抽出する特徴抽出部と、
上記特徴抽出部により抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別部と
を有する
ことを特徴とする合成音声判別装置。 - 上記判別部が、上記各音声間の特徴量の距離と分割閾値との比較により上記グループを構成するものであり、上記グループ個数と判別閾値とを比較することにより合成音声信号か否かを判別するものであることを特徴とする請求項1に記載の合成音声判別装置。
- 入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置の合成音声判別方法において、
音声認識手段が、入力された音声信号をテキストに変換する音声認識工程と、
合成音声判別手段が、上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別工程と
を有し、
上記合成音声判別手段が、
上記音声認識手段により変換されたテキストから上記対象テキストに該当する音声部分を入力音声信号から切り出し、上記対象テキストに該当する複数の音声を蓄積する音声蓄積工程と、
上記音声蓄積工程で蓄積される複数の音声の特徴を抽出する特徴抽出工程と、
上記特徴抽出工程で抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別工程と
を有する
ことを特徴とする合成音声判別方法。 - 入力された音声信号が合成音声信号であるか否かを判別する合成音声判別プログラムにおいて、
コンピュータを、
入力された音声信号をテキストに変換する音声認識手段、
上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段
として機能させ、
上記合成音声判別手段が、
上記音声認識手段により変換されたテキストから上記対象テキストに該当する音声部分を入力音声信号から切り出し、上記対象テキストに該当する複数の音声を蓄積する音声蓄積部と、
上記音声蓄積部に蓄積されている複数の音声の特徴を抽出する特徴抽出部と、
上記特徴抽出部により抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別部と
して機能する
ことを特徴とする合成音声判別プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009084194A JP5201053B2 (ja) | 2009-03-31 | 2009-03-31 | 合成音声判別装置、方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009084194A JP5201053B2 (ja) | 2009-03-31 | 2009-03-31 | 合成音声判別装置、方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010237364A JP2010237364A (ja) | 2010-10-21 |
| JP5201053B2 true JP5201053B2 (ja) | 2013-06-05 |
Family
ID=43091754
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009084194A Expired - Fee Related JP5201053B2 (ja) | 2009-03-31 | 2009-03-31 | 合成音声判別装置、方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5201053B2 (ja) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7056340B2 (ja) | 2018-04-12 | 2022-04-19 | 富士通株式会社 | 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 |
| JP6833216B2 (ja) * | 2019-05-09 | 2021-02-24 | 国立大学法人千葉大学 | 音声認証システム |
| CN110689885B (zh) * | 2019-09-18 | 2023-05-23 | 平安科技(深圳)有限公司 | 机器合成语音识别方法、装置、存储介质及电子设备 |
| CN113744724A (zh) * | 2021-08-30 | 2021-12-03 | 苏州浪潮智能科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
| CN115022087B (zh) * | 2022-07-20 | 2024-02-27 | 中国工商银行股份有限公司 | 一种语音识别验证处理方法及装置 |
| JP7726199B2 (ja) * | 2022-12-27 | 2025-08-20 | トヨタ自動車株式会社 | 本人認証装置 |
| CN116645981B (zh) * | 2023-06-07 | 2026-04-03 | 中科极限元(杭州)智能科技股份有限公司 | 一种基于声码器痕迹指纹比对的深度合成语音检测方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3251460B2 (ja) * | 1995-04-12 | 2002-01-28 | 株式会社エヌ・ティ・ティ・データ | 話者照合方法および装置 |
-
2009
- 2009-03-31 JP JP2009084194A patent/JP5201053B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010237364A (ja) | 2010-10-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6470315B1 (en) | Enrollment and modeling method and apparatus for robust speaker dependent speech models | |
| EP1936606B1 (en) | Multi-stage speech recognition | |
| JP4914295B2 (ja) | 力み音声検出装置 | |
| EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
| JP5201053B2 (ja) | 合成音声判別装置、方法及びプログラム | |
| JP5098613B2 (ja) | 音声認識装置及びコンピュータプログラム | |
| Mouaz et al. | Speech recognition of Moroccan dialect using hidden Markov models | |
| US20020052742A1 (en) | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system | |
| JP6708035B2 (ja) | 発話内容認識装置 | |
| US12424223B2 (en) | Voice-controlled communication requests and responses | |
| JPH09500223A (ja) | 多言語音声認識システム | |
| CN106548775B (zh) | 一种语音识别方法和系统 | |
| JP5040778B2 (ja) | 音声合成装置、方法及びプログラム | |
| CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
| CN1639768B (zh) | 自动语音识别方法及装置 | |
| CN100578612C (zh) | 语音处理装置 | |
| JP5549506B2 (ja) | 音声認識装置及び音声認識方法 | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
| JP2005352151A (ja) | 人間の感情状態に応じた音楽出力装置及び音楽出力方法 | |
| JPH11231895A (ja) | 音声認識方法及びその装置 | |
| JP2020008730A (ja) | 感情推定システムおよびプログラム | |
| Shahin | Speaking style authentication using suprasegmental hidden Markov models | |
| JP2002189487A (ja) | 音声認識装置および音声認識方法 | |
| JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111115 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121011 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121219 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130115 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130128 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5201053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160222 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |