JP6633466B2

JP6633466B2 - ポーズ長制御装置、ポーズ長制御方法、およびプログラム

Info

Publication number: JP6633466B2
Application number: JP2016137889A
Authority: JP
Inventors: 秀治中嶋; 裕司青野
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2020-01-22
Anticipated expiration: 2036-07-12
Also published as: JP2018010095A

Description

この発明は、音声合成技術に関し、特に、音声合成される文と文との間に挿入されるポーズの長さを制御する技術に関する。

近年、コーパスに基づく手法や統計的手法の導入により、１つ１つの文に対応する合成音声の自然性は改善されてきた。しかし、文と文との間のポーズの長さを制御する方法は明らかとなっていない。音声分析によれば、文と文との間のポーズの長さは一定値ではない。複数の合成音声を適度で自然な長さのポーズを挟んで並べた合成音声コンテンツを、人間のナレーションによって作成された音声コンテンツに近づけるには、文と文との間のポーズの長さを適切に制御する技術が必要となる。

文間のポーズの長さを制御するための知見として非特許文献１がある。非特許文献１では、文書のレイアウト構造に基づいた分析の結果、１）タイトルと文との間のポーズ長は、タイトルが文である場合にはそれに続く本文との間のポーズ長が長く取られるが、タイトルが句である場合には異なること、２）箇条書き項目の文と文との間のポーズ長がほぼ一定に近い値をとること、が示されている。これらに基づけば、それらの文間でのポーズの長さの制御は可能である。

中嶋秀治，宮崎昇，阪内澄宇，"高齢者への語りかけ音声におけるポーズ長の分析"，日本音響学会秋季研究発表会講演論文集，３−Ｑ−４９,平成２７年９月

しかしながら、非特許文献１の知見だけでは、文書レイアウト構造では差異化が不可能な、段落内の文間のポーズの長さを制御することは不可能である。

この発明は、このような点に鑑みて、合成対象となる各文の構造に基づいて、文間ポーズの長さを適切に制御できるポーズ長制御技術を提供することを目的とする。

上記の課題を解決するために、この発明のポーズ長制御装置は、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、合成対象文書に含まれる各文の係り受け解析結果から合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、文間ポーズ長予測モデルを用いて合成対象文書に含まれる各文の特徴量から合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、を含む。

この発明によれば、文と文との間のポーズの長さを、各ポーズ位置の前後の文の構造情報のみから予測できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。

図１は、ポーズ長制御装置の機能構成を例示する図である。図２は、ポーズ長制御方法の処理フローを例示する図である。図３は、文間ポーズ長予測モデルの一例を示す図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施形態のポーズ長制御装置は、複数の文が含まれる音声合成の対象とする文書（以下、合成対象文書と呼ぶ）の各文の係り受け解析結果を入力とし、合成対象文書から生成する合成音声における文間ポーズ長を出力する装置である。ポーズ長制御装置１は、図１に示すように、モデル記憶部１０、特徴量抽出部１１、およびポーズ長予測部１２を含む。このポーズ長制御装置１が後述する各ステップの処理を行うことにより実施形態のポーズ長制御方法が実現される。

ポーズ長制御装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ポーズ長制御装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ポーズ長制御装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、ポーズ長制御装置１の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ポーズ長制御装置１の各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

図２を参照して、実施形態のポーズ長制御方法の処理手続きを説明する。

ポーズ長制御装置には、合成対象文書の各文の係り受け解析結果が入力される。係り受け解析結果は、各文を構成する文節間の係り受け解析結果でもよいし、各文を構成するアクセント句間の係り受け解析結果でもよい。係り受け解析の方法は、既存のどのような係り受け解析技術を用いてもよい。入力された係り受け解析結果は、特徴量抽出部１１へ入力される。

モデル記憶部１０には、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されている。以下、係り受け解析結果から抽出する特徴量および文間ポーズ長予測モデルについて詳しく説明する。

係り受け解析結果から抽出する特徴量について説明する。文間、すなわち、ポーズの位置の前後両側の文を構成する文節間の係り受け関係から、文節の係り先が直後の文節ではない文節境界の数を間接係り受け数として数える。入力された係り受け解析結果がアクセント句間の係り受け解析結果である場合は、アクセント句間の係り受け関係から間接係り受け数を数える。この間接係り受け数は、文間の直前の文および直後の文のみでなく、さらにそれらの１つ前後の文、２つ前後の文、・・・、というように一定の幅内に属する複数の文から抽出してもよい。つまり、ポーズの長さを予測しようとする文間のＮ個前の文からＭ個後の文までを所定の幅として設定し、その所定の幅に含まれる各文から抽出した間接係り受け数の（Ｎ＋Ｍ）個の組を、特徴量として抽出する。この特徴量は次式で表すことができる。

ここで、xは各文の間接係り受け数を表し、下付き添え字は予測対象の文間を０としてその文間との相対的な位置を表す。すなわち、x_-1は予測対象の文間の直前の文の間接係り受け数であり、x₁は直後の文の間接係り受け数であり、x_-NはＮ個前の文の間接係り受け数であり、x_MはＭ個後の文の間接係り受け数である。なお、ＮとＭの値は異なっていてもよいし、同じであってもよい。

文間ポーズ長予測モデルは、例えば、特徴量を説明変数（入力変数）とし、予測対象のポーズ長を従属変数（出力変数）とする回帰式である。予測しようとする文間、すなわち、x_-1とx₁との間の位置のポーズ長をＹとすると、Ｙを予測する文間ポーズ長予測モデルは、下記の線形式で表すことができる。

ここで、ａは各説明変数ｘの係数であり、ｂは定数項である。線形式のこれらの係数と定数項は、間接係り受け数とポーズ長とがペアになった大量の学習データから、最小二乗法によって計算しておくことができる。線形回帰式のほかに、入力変数および出力変数が同様である非線形回帰式や、回帰木またはニューラルネットワークなどの機械学習による回帰モデルを用いてもよい。

文間ポーズ長予測モデルは、例えば、予測対象の文間の直前の文から得た特徴量のみを引数とする階段状関数でもよい。階段状関数の一例を図３に示す。図３は、横軸が特徴量、すなわち、文間の直前の文から得られた間接係り受け数であり、縦軸がその間接係り受け数に対応するポーズ長である。階段状関数では、例えば、図３に示すように、間接係り受け数が１または２の場合は同じポーズ長（１．２５秒）とし、３から５の場合は別の値で同じポーズ長（１．４５秒）に設定する。

文間ポーズ長予測モデルは、例えば、図３における縦軸の高さを間接係り受け数が１および２のポーズ長の平均値とし、それらの分散値をもち、ポーズ長がそれらの平均値と分散に従う正規分布などの確率分布としてモデル化し、ポーズ長を確率的に設定することも可能である。

ステップＳ１において、特徴量抽出部１１は、入力された合成対象文書に含まれる各文の係り受け解析結果から、その合成対象文書に含まれる各文の特徴量を抽出する。各文から抽出された特徴量の例を表１に示す。

文番号は合成対象文書に含まれる各文のインデックスであり、特徴量は各文に対応する特徴量である。表１の例では、各文の間接係り受け数が特徴量として設定されている。所定の幅に含まれる文の間接係り受け数を特徴量に含める場合、文書の先頭に位置する文１のように前側の文が存在しない文については、前側Ｎ個の間接係り受け数には、例えば０を設定する。抽出した特徴量はポーズ長予測部１２へ送られる。

ステップＳ２において、ポーズ長予測部１２は、モデル記憶部１０に記憶された文間ポーズ長予測モデルを読み出し、その文間ポーズ長予測モデルを用いて、合成対象文書に含まれる各文の特徴量から、合成対象文書に含まれる各文間に対応するポーズ長を予測する。表１の特徴量の例から予測されたポーズ長の例を表２に示す。

表２の例では、ポーズ長予測値は同じ行の文の直後の文間のポーズ長を秒単位で表している。すなわち、文１と文２の文間のポーズ長は１．２秒であり、文２と文３の文間のポーズ長は１．３秒である。

ポーズ長制御装置は、ポーズ長予測部１２が予測した、合成対象文書の各文間に対応するポーズ長を出力する。このポーズ長を用いて合成対象文書を音声合成することで、適切な長さのポーズを挿入した合成音声を生成することができる。

このように構成することにより、この発明のポーズ長制御装置は、文と文との間のポーズの長さを、各ポーズ位置の前後の文の構造情報のみから予測できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１ポーズ長制御装置
１０モデル記憶部
１１特徴量抽出部
１２ポーズ長予測部

Claims

文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、
合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、
上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、
を含み、
上記文間ポーズ長予測モデルは、予測対象とする文間の直前の文から抽出した上記特徴量のみを引数とする階段状関数である、
ポーズ長制御装置。
文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、
合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、
上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、
を含み、
上記特徴量は、各文を構成する文節間で直前の文節の係り先が直後の文節ではない文節境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
ポーズ長制御装置。
文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルを記憶するモデル記憶部と、
合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出する特徴量抽出部と、
上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測するポーズ長予測部と、
を含み、
上記特徴量は、各文を構成するアクセント句間で直前のアクセント句の係り先が直後のアクセント句ではないアクセント句境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
ポーズ長制御装置。
モデル記憶部に、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されており、
特徴量抽出部が、合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出し、
ポーズ長予測部が、上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測し、
上記文間ポーズ長予測モデルは、予測対象とする文間の直前の文から抽出した上記特徴量のみを引数とする階段状関数である、
ポーズ長制御方法。
モデル記憶部に、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されており、
特徴量抽出部が、合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出し、
ポーズ長予測部が、上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測し、
上記特徴量は、各文を構成する文節間で直前の文節の係り先が直後の文節ではない文節境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
ポーズ長制御方法。
モデル記憶部に、文の係り受け解析結果から抽出した特徴量に応じて文間のポーズ長を出力する文間ポーズ長予測モデルが記憶されており、
特徴量抽出部が、合成対象文書に含まれる各文の係り受け解析結果から上記合成対象文書に含まれる各文の特徴量を抽出し、
ポーズ長予測部が、上記文間ポーズ長予測モデルを用いて上記合成対象文書に含まれる各文の特徴量から上記合成対象文書に含まれる各文間に対応するポーズ長を予測し、
上記特徴量は、各文を構成するアクセント句間で直前のアクセント句の係り先が直後のアクセント句ではないアクセント句境界の数である間接係り受け数を、各文間の前後所定の数の文について組み合わせたものである、
ポーズ長制御方法。
請求項１から３のいずれかに記載のポーズ長制御装置としてコンピュータを機能させるためのプログラム。