Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6633466B2 - ポーズ長制御装置、ポーズ長制御方法、およびプログラム - Google Patents
[go: Go Back, main page]

JP6633466B2 - ポーズ長制御装置、ポーズ長制御方法、およびプログラム - Google Patents

ポーズ長制御装置、ポーズ長制御方法、およびプログラム Download PDF

Info

Publication number
JP6633466B2
JP6633466B2 JP2016137889A JP2016137889A JP6633466B2 JP 6633466 B2 JP6633466 B2 JP 6633466B2 JP 2016137889 A JP2016137889 A JP 2016137889A JP 2016137889 A JP2016137889 A JP 2016137889A JP 6633466 B2 JP6633466 B2 JP 6633466B2
Authority
JP
Japan
Prior art keywords
sentence
feature amount
target document
pause length
synthesis target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016137889A
Other languages
English (en)
Other versions
JP2018010095A (ja
Inventor
秀治 中嶋
秀治 中嶋
裕司 青野
裕司 青野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016137889A priority Critical patent/JP6633466B2/ja
Publication of JP2018010095A publication Critical patent/JP2018010095A/ja
Application granted granted Critical
Publication of JP6633466B2 publication Critical patent/JP6633466B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、音声合成技術に関し、特に、音声合成される文と文との間に挿入されるポーズの長さを制御する技術に関する。
近年、コーパスに基づく手法や統計的手法の導入により、1つ1つの文に対応する合成音声の自然性は改善されてきた。しかし、文と文との間のポーズの長さを制御する方法は明らかとなっていない。音声分析によれば、文と文との間のポーズの長さは一定値ではない。複数の合成音声を適度で自然な長さのポーズを挟んで並べた合成音声コンテンツを、人間のナレーションによって作成された音声コンテンツに近づけるには、文と文との間のポーズの長さを適切に制御する技術が必要となる。
文間のポーズの長さを制御するための知見として非特許文献1がある。非特許文献1では、文書のレイアウト構造に基づいた分析の結果、1)タイトルと文との間のポーズ長は、タイトルが文である場合にはそれに続く本文との間のポーズ長が長く取られるが、タイトルが句である場合には異なること、2)箇条書き項目の文と文との間のポーズ長がほぼ一定に近い値をとること、が示されている。これらに基づけば、それらの文間でのポーズの長さの制御は可能である。
中嶋秀治,宮崎昇,阪内澄宇,"高齢者への語りかけ音声におけるポーズ長の分析",日本音響学会秋季研究発表会講演論文集,3−Q−49,平成27年9月
しかしながら、非特許文献1の知見だけでは、文書レイアウト構造では差異化が不可能な、段落内の文間のポーズの長さを制御することは不可能である。
この発明は、このような点に鑑みて、合成対象となる各文の構造に基づいて、文間ポーズの長さを適切に制御できるポーズ長制御技術を提供することを目的とする。
上記の課題を解決するために、この発明のポーズ長制御装置は、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、合成対象文書に含まれる各文の係り受け解析結果から合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、文間ポーズ長予測モデルを用いて合成対象文書に含まれる各文の特徴量から合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、を含む。
この発明によれば、文と文との間のポーズの長さを、各ポーズ位置の前後の文の構造情報のみから予測できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。
図1は、ポーズ長制御装置の機能構成を例示する図である。 図2は、ポーズ長制御方法の処理フローを例示する図である。 図3は、文間ポーズ長予測モデルの一例を示す図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施形態のポーズ長制御装置は、複数の文が含まれる音声合成の対象とする文書(以下、合成対象文書と呼ぶ)の各文の係り受け解析結果を入力とし、合成対象文書から生成する合成音声における文間ポーズ長を出力する装置である。ポーズ長制御装置1は、図1に示すように、モデル記憶部10、特徴量抽出部11、およびポーズ長予測部12を含む。このポーズ長制御装置1が後述する各ステップの処理を行うことにより実施形態のポーズ長制御方法が実現される。
ポーズ長制御装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ポーズ長制御装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ポーズ長制御装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、ポーズ長制御装置1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ポーズ長制御装置1の各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
図2を参照して、実施形態のポーズ長制御方法の処理手続きを説明する。
ポーズ長制御装置には、合成対象文書の各文の係り受け解析結果が入力される。係り受け解析結果は、各文を構成する文節間の係り受け解析結果でもよいし、各文を構成するアクセント句間の係り受け解析結果でもよい。係り受け解析の方法は、既存のどのような係り受け解析技術を用いてもよい。入力された係り受け解析結果は、特徴量抽出部11へ入力される。
モデル記憶部10には、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されている。以下、係り受け解析結果から抽出する特徴量および文間ポーズ長予測モデルについて詳しく説明する。
係り受け解析結果から抽出する特徴量について説明する。文間、すなわち、ポーズの位置の前後両側の文を構成する文節間の係り受け関係から、文節の係り先が直後の文節ではない文節境界の数を間接係り受け数として数える。入力された係り受け解析結果がアクセント句間の係り受け解析結果である場合は、アクセント句間の係り受け関係から間接係り受け数を数える。この間接係り受け数は、文間の直前の文および直後の文のみでなく、さらにそれらの1つ前後の文、2つ前後の文、・・・、というように一定の幅内に属する複数の文から抽出してもよい。つまり、ポーズの長さを予測しようとする文間のN個前の文からM個後の文までを所定の幅として設定し、その所定の幅に含まれる各文から抽出した間接係り受け数の(N+M)個の組を、特徴量として抽出する。この特徴量は次式で表すことができる。
Figure 0006633466
ここで、xは各文の間接係り受け数を表し、下付き添え字は予測対象の文間を0としてその文間との相対的な位置を表す。すなわち、x-1は予測対象の文間の直前の文の間接係り受け数であり、x1は直後の文の間接係り受け数であり、x-NはN個前の文の間接係り受け数であり、xMはM個後の文の間接係り受け数である。なお、NとMの値は異なっていてもよいし、同じであってもよい。
文間ポーズ長予測モデルは、例えば、特徴量を説明変数(入力変数)とし、予測対象のポーズ長を従属変数(出力変数)とする回帰式である。予測しようとする文間、すなわち、x-1とx1との間の位置のポーズ長をYとすると、Yを予測する文間ポーズ長予測モデルは、下記の線形式で表すことができる。
Figure 0006633466
ここで、aは各説明変数xの係数であり、bは定数項である。線形式のこれらの係数と定数項は、間接係り受け数とポーズ長とがペアになった大量の学習データから、最小二乗法によって計算しておくことができる。線形回帰式のほかに、入力変数および出力変数が同様である非線形回帰式や、回帰木またはニューラルネットワークなどの機械学習による回帰モデルを用いてもよい。
文間ポーズ長予測モデルは、例えば、予測対象の文間の直前の文から得た特徴量のみを引数とする階段状関数でもよい。階段状関数の一例を図3に示す。図3は、横軸が特徴量、すなわち、文間の直前の文から得られた間接係り受け数であり、縦軸がその間接係り受け数に対応するポーズ長である。階段状関数では、例えば、図3に示すように、間接係り受け数が1または2の場合は同じポーズ長(1.25秒)とし、3から5の場合は別の値で同じポーズ長(1.45秒)に設定する。
文間ポーズ長予測モデルは、例えば、図3における縦軸の高さを間接係り受け数が1および2のポーズ長の平均値とし、それらの分散値をもち、ポーズ長がそれらの平均値と分散に従う正規分布などの確率分布としてモデル化し、ポーズ長を確率的に設定することも可能である。
ステップS1において、特徴量抽出部11は、入力された合成対象文書に含まれる各文の係り受け解析結果から、その合成対象文書に含まれる各文の特徴量を抽出する。各文から抽出された特徴量の例を表1に示す。
Figure 0006633466
文番号は合成対象文書に含まれる各文のインデックスであり、特徴量は各文に対応する特徴量である。表1の例では、各文の間接係り受け数が特徴量として設定されている。所定の幅に含まれる文の間接係り受け数を特徴量に含める場合、文書の先頭に位置する文1のように前側の文が存在しない文については、前側N個の間接係り受け数には、例えば0を設定する。抽出した特徴量はポーズ長予測部12へ送られる。
ステップS2において、ポーズ長予測部12は、モデル記憶部10に記憶された文間ポーズ長予測モデルを読み出し、その文間ポーズ長予測モデルを用いて、合成対象文書に含まれる各文の特徴量から、合成対象文書に含まれる各文間に対応するポーズ長を予測する。表1の特徴量の例から予測されたポーズ長の例を表2に示す。
Figure 0006633466
表2の例では、ポーズ長予測値は同じ行の文の直後の文間のポーズ長を秒単位で表している。すなわち、文1と文2の文間のポーズ長は1.2秒であり、文2と文3の文間のポーズ長は1.3秒である。
ポーズ長制御装置は、ポーズ長予測部12が予測した、合成対象文書の各文間に対応するポーズ長を出力する。このポーズ長を用いて合成対象文書を音声合成することで、適切な長さのポーズを挿入した合成音声を生成することができる。
このように構成することにより、この発明のポーズ長制御装置は、文と文との間のポーズの長さを、各ポーズ位置の前後の文の構造情報のみから予測できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 ポーズ長制御装置
10 モデル記憶部
11 特徴量抽出部
12 ポーズ長予測部

Claims (7)

  1. 文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、
    合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、
    上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、
    を含み、
    上記文間ポーズ長予測モデルは、予測対象とする文間の直前の文から抽出した上記特徴量のみを引数とする階段状関数である、
    ポーズ長制御装置。
  2. 文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、
    合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、
    上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、
    を含み、
    上記特徴量は、各文を構成する文節間で直前の文節の係り先が直後の文節ではない文節境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
    ポーズ長制御装置。
  3. 文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、
    合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、
    上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、
    を含み、
    上記特徴量は、各文を構成するアクセント句間で直前のアクセント句の係り先が直後のアクセント句ではないアクセント句境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
    ポーズ長制御装置。
  4. モデル記憶部に、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されており、
    特徴量抽出部が、合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出し、
    ポーズ長予測部が、上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測し、
    上記文間ポーズ長予測モデルは、予測対象とする文間の直前の文から抽出した上記特徴量のみを引数とする階段状関数である、
    ポーズ長制御方法。
  5. モデル記憶部に、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されており、
    特徴量抽出部が、合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出し、
    ポーズ長予測部が、上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測し、
    上記特徴量は、各文を構成する文節間で直前の文節の係り先が直後の文節ではない文節境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
    ポーズ長制御方法。
  6. モデル記憶部に、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されており、
    特徴量抽出部が、合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出し、
    ポーズ長予測部が、上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測し、
    上記特徴量は、各文を構成するアクセント句間で直前のアクセント句の係り先が直後のアクセント句ではないアクセント句境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
    ポーズ長制御方法。
  7. 請求項1からのいずれかに記載のポーズ長制御装置としてコンピュータを機能させるためのプログラム。
JP2016137889A 2016-07-12 2016-07-12 ポーズ長制御装置、ポーズ長制御方法、およびプログラム Active JP6633466B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016137889A JP6633466B2 (ja) 2016-07-12 2016-07-12 ポーズ長制御装置、ポーズ長制御方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016137889A JP6633466B2 (ja) 2016-07-12 2016-07-12 ポーズ長制御装置、ポーズ長制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018010095A JP2018010095A (ja) 2018-01-18
JP6633466B2 true JP6633466B2 (ja) 2020-01-22

Family

ID=60993808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016137889A Active JP6633466B2 (ja) 2016-07-12 2016-07-12 ポーズ長制御装置、ポーズ長制御方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6633466B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4584511B2 (ja) * 2001-09-10 2010-11-24 Okiセミコンダクタ株式会社 規則音声合成装置
JP2003280680A (ja) * 2002-03-25 2003-10-02 Canon Inc 音声合成装置およびその方法およびそのプログラムならびに記憶媒体
JP6193737B2 (ja) * 2013-11-19 2017-09-06 日本電信電話株式会社 ポーズ推定装置、方法、プログラム
JP6441177B2 (ja) * 2015-07-29 2018-12-19 日本電信電話株式会社 ポーズ長決定装置、ポーズ長決定方法、およびプログラム

Also Published As

Publication number Publication date
JP2018010095A (ja) 2018-01-18

Similar Documents

Publication Publication Date Title
US11055497B2 (en) Natural language generation of sentence sequences from textual data with paragraph generation model
US20220261545A1 (en) Systems and methods for producing a semantic representation of a document
US10949615B2 (en) Apparatus and method for verifying sentence
US11553085B2 (en) Method and apparatus for predicting customer satisfaction from a conversation
JP4762103B2 (ja) 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置
CN108875059A (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN113887200B (zh) 文本变长纠错方法、装置、电子设备及存储介质
JP2017059205A (ja) 主題推定システム、主題推定方法およびプログラム
JP7272060B2 (ja) 生成方法、学習方法、生成プログラム、及び生成装置
CN119360818A (zh) 基于人工智能的语音生成方法、装置、计算机设备及介质
JP2020071690A (ja) パターン認識モデル及びパターン学習装置、その生成方法、それを用いたfaqの抽出方法及びパターン認識装置、並びにプログラム
JP7211011B2 (ja) 学習方法、学習プログラム及び生成方法
JP2018205945A (ja) 対話応答文書自動作成人工知能装置
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6192166B2 (ja) 意見種別推定装置及びそのプログラム
JP6633466B2 (ja) ポーズ長制御装置、ポーズ長制御方法、およびプログラム
CN113378561A (zh) 词语预测模板生成方法及装置
JP2016045769A (ja) 対話システム評価方法、対話システム評価装置及びプログラム
JP7099254B2 (ja) 学習方法、学習プログラム及び学習装置
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP5755603B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム
JP2008226104A (ja) 情報処理装置、情報処理方法、及びプログラム
Chen et al. MRMI-TTS: Multi-Reference Audios and Mutual Information Driven Zero-Shot Voice Cloning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191212

R150 Certificate of patent or registration of utility model

Ref document number: 6633466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350