JP7614877B2 - Content production device and program - Google Patents
Content production device and program Download PDFInfo
- Publication number
- JP7614877B2 JP7614877B2 JP2021022463A JP2021022463A JP7614877B2 JP 7614877 B2 JP7614877 B2 JP 7614877B2 JP 2021022463 A JP2021022463 A JP 2021022463A JP 2021022463 A JP2021022463 A JP 2021022463A JP 7614877 B2 JP7614877 B2 JP 7614877B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- content
- duration
- pause
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本発明は、コンテンツ制作装置およびプログラムに関する。 The present invention relates to a content production device and a program.
合成音声をつなぎ合わせて用いることによって、人の発話を含まないコンテンツを制作する試みが為されている。 Attempts are being made to create content that does not contain human speech by using pieced together synthetic speech.
特許文献1には、音声合成装置の構成が記載されている。具体的には、音声合成装置は、「合成音間に挟む無音の長さを予め定められた方法で推定又は無音を生成し、当該合成音と合成音間に挾む無音の長さの情報を格納した音声ファイルを作成する複数の合成音作成手段300」を含むことが記載されている。特許文献1に記載の音声合成装置は、上記の構成により、所定の時間長に収まる合成音声(放送番組等)を生成する。
また、特許文献1の段落0018等には、番組を所望の長さに合わせるために、音声の話速変換を行うこととも記載されている。
文面を固定的に作ってしまうと場合によっては話速を「大きく」変えなければならないため、品質を保つためには文面を加減しなければならない。 If the text is created in a fixed format, the speaking speed may have to be changed "significantly," so the text must be adjusted to maintain quality.
本発明は、上記の課題認識に基づいて行なわれたものであり、話速変換に依らずに、所定の長さを有する自然な、音声としての品質の高いコンテンツを制作することのできるコンテンツ制作装置およびプログラムを提供しようとするものである。 The present invention was developed based on the recognition of the above problems, and aims to provide a content production device and program that can produce content of a predetermined length that is natural and has high audio quality without relying on speech rate conversion.
[1]上記の課題を解決するため、本発明の一態様によるコンテンツ制作装置は、文章を生成するための文章テンプレートを複数のバリエーションについて持つコンテンツテンプレートを記憶するテンプレート記憶部と、データを取得するデータ取得部と、前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章の合計時間長を決定するバリエーション生成部と、前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記文章の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、前記ポーズの時間長に関する条件を満たし、且つ前記文章の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、を備える。 [1] In order to solve the above problem, a content production device according to one aspect of the present invention includes a template storage unit that stores a content template having a plurality of variations of sentence templates for generating sentences, a data acquisition unit that acquires data, a variation generation unit that generates sentences by applying the data to the sentence templates for each of the plurality of variations included in the content template and determines the total length of the generated sentences, a search processing unit that searches for combinations of variations using an evaluation function that is an appropriately determined total of evaluation values for the variations under constraints regarding conditions regarding the length of pauses that are joints when connecting the sentences and conditions regarding the length of the sentences and the total length of the pauses, a selection unit that selects a combination of variations that satisfies the constraints based on the value of the evaluation function, and a pause adjustment unit that adjusts the length of the pauses so as to satisfy the conditions regarding the length of the pauses and the conditions regarding the length of the sentences and the total length of the pauses.
[2]また、本発明の一態様は、上記のコンテンツ制作装置において、前記コンテンツテンプレートは、トピックの列として構成されており、前記トピックは、相互に排他的に選択され得る複数の前記バリエーションを含むように構成されているものである。 [2] In one aspect of the present invention, in the content production device described above, the content template is configured as a sequence of topics, and the topics are configured to include a plurality of the variations that can be selected mutually exclusively.
[3]また、本発明の一態様は、上記のコンテンツ制作装置において、前記ポーズの時間長に関する条件は、前記バリエーションに含まれる文の区切りにおけるポーズである文間ポーズの時間長に関する条件と、前記トピックの区切りにおけるポーズであるトピック間ポーズに時間長に関する条件と、を含むものである。 [3] In one aspect of the present invention, in the content production device described above, the conditions regarding the duration of the pauses include a condition regarding the duration of an inter-sentence pause, which is a pause at a division of a sentence included in the variation, and a condition regarding the duration of an inter-topic pause, which is a pause at a division of a topic.
[4]また、本発明の一態様は、上記のコンテンツ制作装置において、前記ポーズ調整部は、前記文間ポーズの時間長がすべて同一になるように調整するとともに、前記トピック間ポーズの時間長がすべて同一になるように調整するものである。 [4] In one aspect of the present invention, in the content production device described above, the pause adjustment unit adjusts the duration of the inter-sentence pauses so that they are all the same, and adjusts the duration of the inter-topic pauses so that they are all the same.
[5]また、本発明の一態様は、上記のコンテンツ制作装置において、前記バリエーションごとの評価値は、前記コンテンツテンプレートに含まれる前記バリエーションの属性値として予め定められているものである。 [5] In one aspect of the present invention, in the content production device described above, the evaluation value for each variation is predefined as an attribute value of the variation included in the content template.
[6]また、本発明の一態様は、文章を生成するための文章テンプレートを複数のバリエーションについて持つコンテンツテンプレートを記憶するテンプレート記憶部と、データを取得するデータ取得部と、前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章の合計時間長を決定するバリエーション生成部と、前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記文章の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、前記ポーズの時間長に関する条件を満たし、且つ前記文章の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、を備えるコンテンツ制作装置としてコンピューターを機能させるためのプログラムである。 [6] Also, one aspect of the present invention is a program for causing a computer to function as a content production device, the program comprising: a template storage unit that stores a content template having a plurality of variations of sentence templates for generating sentences; a data acquisition unit that acquires data; a variation generation unit that generates sentences by applying the data to the sentence templates for each of the plurality of variations included in the content template and determines the total length of the generated sentences; a search processing unit that searches for combinations of variations using an appropriately determined total of evaluation values for each of the variations as an evaluation function under constraints regarding a condition regarding the length of a pause that is a joint when connecting the sentences and a condition regarding the length of the sentences and the total length of the pauses; a selection unit that selects a combination of variations that satisfies the constraints based on the value of the evaluation function; and a pause adjustment unit that adjusts the length of the pause so as to satisfy the condition regarding the length of the pause and the condition regarding the length of the sentences and the total length of the pauses.
本発明によれば、音声の話速変換(音声の時間の伸び縮み)の技術に依らずに、所望の時間長を有するコンテンツを制作することが可能である。 According to the present invention, it is possible to create content of a desired length without relying on speech speed conversion technology (expansion and contraction of speech time).
次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態によるコンテンツ制作装置1は、取得したデータを用いて、コンテンツを自動的に生成する。コンテンツ制作装置1が生成するコンテンツは、例えば、放送信号に載せて広い範囲に伝送されたり、インターネット等を介して端末装置に向けて送信されたり、することが可能である。コンテンツ制作装置1は、コンテンツを制作するために、予め、コンテンツのテンプレートのデータを保持している。コンテンツ制作装置1は、上記のデータを、コンテンツのテンプレートに適用することによって、コンテンツを制作する。コンテンツは、例えば、音声によるコンテンツである。コンテンツ制作装置1は、音声合成の技術を用いることによって、音声によるコンテンツを自動的に生成する。また、コンテンツ制作装置1は、所望の時間長のコンテンツを自動生成するために、コンテンツの多数のバリエーション(候補)を探索する処理を行う。本実施形態では、例として、天気予報の番組(音声のみによる番組)を自動的に生成するコンテンツ制作装置1を説明する。
Next, an embodiment of the present invention will be described with reference to the drawings. The
図1は、本実施形態によるコンテンツ制作装置の概略機能構成を示すブロック図である。同図において、1は、コンテンツ制作装置である。コンテンツ制作装置1は、データ受信部10と、テンプレート記憶部20と、バリエーション生成部30と、探索処理部40と、選択部50と、ポーズ調整部60と、出力部70とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
FIG. 1 is a block diagram showing the schematic functional configuration of a content production device according to this embodiment. In the figure, 1 is a content production device. The
データ受信部10は、外部の装置から、通信ネットワーク(例えば、インターネット等)を介して、天気予報データを受信する。外部の装置とは、例えば、気象予報機関が運営するデータサーバー装置である。データ受信部10が受信する天気予報データは、天気予報に関する情報を含む。天気予報データの構成例については、別の図面を参照しながら後で説明する。データ受信部10は、受信した天気予報データを、バリエーション生成部30に渡す。なお、データ受信部10を「データ取得部」と呼んでもよい。データ受信部10は、通信によってデータを受信する代わりに、例えば記録媒体から読み出すなどといった通信に頼らない方法でデータを取得してもよい。
The
テンプレート記憶部20は、コンテンツを制作するためのテンプレートのデータを記憶する。コンテンツを制作するためのテンプレートをコンテンツテンプレートと呼ぶ。コンテンツテンプレートは、1文もしくは複数の文からなる文章を生成するための文章テンプレートを、複数のバリエーションについて持つものである。その一形態として、コンテンツテンプレートは、トピックの列として構成してよい。トピックは、1つあるいは複数のバリエーションを含むように構成される。1つのトピック内において、それらのバリエーションは、相互に排他的に選択され得るものである。また、コンテンツテンプレート内の上記バリエーションの属性値として、バリエーションごとの評価値を、あらかじめ定める形で持つようにしてもよい。この評価値は、バリエーションの組み合わせを探索し選択する際の評価のための情報として用いられる。なお、テンプレート記憶部20が記憶する上記の文章テンプレートは、自然言語の文章のテキスト(文字コードの系列)であってもよく、合成指示形式で表わされる文章であってもよく、あるいはそれら両方であってもよい。合成指示形式とは、音声合成器に対する合成指示のためのデータの形式であり、音の並びのデータおよび韻律指示のデータを含むものである。合成指示形式の具体的な形態は、音声合成器に依って異なっていてもよい。テンプレートの具体的な構成については、別の図を参照しながら後で説明する。
The
バリエーション生成部30は、テンプレートに含まれる複数のバリエーションのそれぞれについて、文章テンプレートに受信データを適用することによって文章を生成する。また、バリエーション生成部30は、生成された文章の合計時間長を決定する。バリエーション生成部30がこの合計時間長を決定するための方法の例は次の通りである。つまり、バリエーション生成部30は、音声合成器の機能を用いて、生成された文章が持つ各文に対応する合成音声を生成する。また、バリエーション生成部30は、この生成された各文の合成音声の時間長の総和である、バリエーションの合計時間長を決定する。例えば、バリエーション生成部30が合成音声を生成することにより必然的にその合成音声の時間長は決定される。
The
探索処理部40は、合成音声を連結する際のつなぎ目であるポーズの時間長に関する条件と、合成音声の時間長およびポーズの時間長の総計に関する条件と、に関する制約の下で、探索処理を行う。探索処理部40が探索処理を行う際の評価関数は、選択するバリエーションの評価値の総計としてよい。つまり、探索処理部40は、評価関数の値が高くなるように、バリエーションの組み合わせを探索する。なお、ポーズの時間長に関する条件は、バリエーションに含まれる文の区切りにおけるポーズである文間ポーズの時間長に関する条件と、トピックの区切りにおけるポーズであるトピック間ポーズに時間長に関する条件とを含んでいてもよい。これらの条件の具体例については、図9を参照しながら説明する。また、探索処理部40の処理の詳細についても、後述する。
The
選択部50は、時間に関する制約を満たすバリエーションの組み合わせを、評価関数の値に基づいて1つ選択する。例えば、選択部50は、上記制約を満たすバリエーションの組み合わせの中から、評価関数値が最も良い組み合わせを選択する。あるいは、選択部50は、上記の探索処理部40が実行する探索アルゴリズムに依存して、評価関数の値が良いと判定される組み合わせ(必ずしも評価関数の値が最良でなくてもよい)を1つ選択する。
The
ポーズ調整部60は、ポーズ(pause)の時間長に関する条件を満たし、且つ合成音声の時間長およびポーズの時間長の総計(つまり、生成されるコンテンツのトータルな時間長)に関する条件を満たすように、ポーズの時間長を調整する。ポーズとは、音声のコンテンツにおける無音の区間である。本実施形態では、文の区切りの箇所に挿入される文間ポーズと、トピックの区切りの箇所に挿入されるトピック間ポーズとのそれぞれについて、ポーズ調整部60が調整を行う。ポーズ調整部60がポーズの長さを調整することにより、コンテンツ制作装置1が生成するコンテンツ全体の長さが与えられた所定の条件を満足するように、調整できる。
The
ポーズ調整部60は、その処理の一例として、文間ポーズの時間長がすべて同一になるように調整してもよい。また、ポーズ調整部60は、トピック間ポーズの時間長がすべて同一になるように調整してもよい。また、逆に、文間ポーズの時間長は一定でなくてもよい。また、トピック間ポーズの時間長が一定でなくてもよい。
As an example of its processing, the
出力部70は、選択部50によって選択されたバリエーションの組み合わせによるコンテンツ(複数のトピックが連結された1本の音声コンテンツ)を出力する。出力部70が出力するコンテンツにおいて、ポーズの長さ(文間ポーズ、トピック間ポーズ)は既にポーズ調整部60が調整した長さとなっている。ポーズの区間には、無音ないしはそれに類する音声が既に挿入されている。出力部70が出力するコンテンツは、放送のための設備や、インターネット配信のための設備に渡される。
The
図2は、天気予報データの構成の一例を示す概略図である。前述の通り、データ受信部10が、この天気予報データを受信する。図示するように、天気予報データ100は、日付、都道府県、内容の3つのデータ項目を含むように構成されている。日付は、この天気予報データが対象とする日付を表す。図示する例では、日付は「2020年01月25日」である。都道府県は、この天気予報データが対象とする都道府県名(地域名)を表す。
図示する例では、都道府県は「神奈川県」である。内容は、天気予報データの実体を有する部分である。内容は、複数のデータの塊の列を持つ。図示する例では、内容は、「警報・注意報」データ101と、「天気予報(今日)」データ102と、「予想気温(今日)」データ103と、「降水確率(今日)」データ104とを含むデータの列を持つ。「降水確率(今日)」データ104の後に、さらに別のデータの塊が続いていてもよい。ここでは、「警報・注意報」データ101、「天気予報(今日)」データ102、「予想気温(今日)」データ103、「降水確率(今日)」データ104のそれぞれが、後述するトピックに対応するようにデータを構成している。これらのうちの、「天気予報(今日)」データ102のさらに具体的な構成例を、次に説明する。
2 is a schematic diagram showing an example of the configuration of weather forecast data. As described above, the
In the illustrated example, the prefecture is "Kanagawa Prefecture." The content is a portion having the substance of the weather forecast data. The content has a sequence of a plurality of data chunks. In the illustrated example, the content has a sequence of data including "alert/advisory"
図3は、「天気予報(今日)」データ102の構成の一例を示す概略図である。図示するように、「天気予報(今日)」データ102は、表形式のデータとして表現されており、地域、風向、天気、時間推移、局所天気の各項目を持つ。地域は、都道府県内をさらに小さい単位に分けたときの地域名である。風向は、天気予報における風向の予報である。
天気は、晴れ、曇り、雨、雪等といった言葉で表される天候の区分である。時間推移は、天気の時間的推移を表す表現である。例えば、天気予報で多用される時間推移の表現は、「後 曇り」、「時々 雨」、「一時 雪」などといった表現である。局所天気は、上記地域の中のさらに局所的な位置に依存して異なり得る天候の様相を表す表現である。図示する例では、地域「東部」に関しては、風向「西」、天気「晴れ」、時間推移「後 曇り」であり、局所天気はない。また、地域「西部」に関しては、風向「南」、天気「晴れ」、時間推移「後 曇り」、局所天気「所により 雨」である。
3 is a schematic diagram showing an example of the configuration of the "weather forecast (today)"
Weather is a weather classification expressed by words such as sunny, cloudy, rain, snow, etc. Time transition is an expression that expresses the time transition of weather. For example, expressions of time transition often used in weather forecasts are "later cloudy", "occasional rain", "temporary snow", etc. Local weather is an expression that expresses the weather aspect that may differ depending on a more local location within the above-mentioned region. In the illustrated example, for the region "East", the wind direction is "West", the weather is "sunny", the time transition is "later cloudy", and there is no local weather. Also, for the region "West", the wind direction is "South", the weather is "sunny", the time transition is "later cloudy", and the local weather is "rain in places".
図3に示した例では、表形式のデータとして「天気予報(今日)」データ102を表現した。ただし、データの表現形式としては、いかなる形式を用いてもよい。図3に示したデータに関して、一例として、XML(拡張マークアップ言語、eXtensible Markup Language)を用いた表現形式を用いてもよい。また、その他の形式でデータを表現してもよい。
In the example shown in FIG. 3, the "Weather forecast (today)"
図3においては、「天気予報(今日)」データ102の構成例を示したが、「警報・注意報」データ101や、「予想気温(今日)」データ103や、「降水確率(今日)」データ104や、その他のデータについても、適宜、適切な形でデータを構成するようにする。このようにして、データ受信部10は、コンテンツを生成するために必要な情報を外部から獲得する。
Figure 3 shows an example of the configuration of "Weather forecast (today)"
図4は、テンプレート記憶部20が記憶するコンテンツテンプレートのデータの構成例を示す概略図である。図示するように、コンテンツテンプレートは、複数のトピックテンプレートを含むように構成される。また、これら複数のトピックテンプレートは、順序を有する。言い換えれば、1つのコンテンツテンプレートは、順序を有するトピックテンプレートの列として構成される。図示する例では、コンテンツテンプレートは、「あいさつ1」、「トピック 警報・注意報」、「トピック 今日の天気」、「トピック 今日の予想気温」、「トピック 降水確率」、「あいさつ2」といったトピックテンプレートを含む。トピックテンプレートのさらに詳細な構成については、次に説明する。
Figure 4 is a schematic diagram showing an example of the data configuration of a content template stored in the
図5は、1つのトピックテンプレートのデータの構成例を示す概略図である。図示するように、トピックテンプレートのデータは、必須フラグと、バリエーションのデータとを含むように構成される。必須フラグは、コンテンツ内において当該トピックが必須であるか否かを示す情報である。必須であるトピックは、コンテンツを生成する際に必ず含まれなければならない。必須ではないトピックは、例えばコンテンツ全体の時間長を調整する目的で、省略することが許される。必須フラグをtrue(真)とするかfalse(偽)とするかを、コンテンツテンプレートの作成者が適宜決定してよい。バリエーションは、そのトピックに関してコンテンツ制作装置1が生成し得る文章の複数の態様を表すデータである。バリエーションのデータを、図示するように、例えば表形式のデータとして構成してもよい。図示する例では、この表は、1番から5番までの5種類のバリエーションの情報を保持する。バリエーションの数は、5に限らず、任意である。この表は、番号、文章テンプレート、評価値、生成文章、各文の合成音声、合計時間長(duration)の各項目を持つ。文章テンプレートは、バリエーション生成部30が文章を生成する際の基となるテンプレートである。個々の文章テンプレートは、天気予報データを用いて置換することのできる部分(パラメーター)を持つ。評価値は、そのバリエーションを選択する場合の評価として用いられる数値である。例えば、評価値を、バリエーションごとに予め定めた固定値としてもよい。生成文章と合成音声と時間長の各項目は、テンプレートの段階では空欄であり、バリエーション生成部30が実際の文章を生成した際に埋められる項目である。生成文章は、前記の文章テンプレートを基にバリエーション生成部30が生成した文章を格納する欄である。合成音声は、前記の生成文章を基にバリエーション生成部30が合成した各文の合成音声を格納する欄である。合成音声のデータは、例えば、音圧レベルの系列のデータ(あるいは、それを符号化したデータ)として格納される。合計時間長は、前記の各文の合成音声を再生した場合の時間の長さの総和であり、例えば秒の単位で表わされる。
5 is a schematic diagram showing an example of the configuration of data of one topic template. As shown in the figure, the data of the topic template is configured to include a required flag and variation data. The required flag is information indicating whether the topic is required in the content. A required topic must be included when generating the content. A non-required topic is allowed to be omitted, for example, for the purpose of adjusting the overall time length of the content. The creator of the content template may appropriately decide whether to set the required flag to true or false. A variation is data representing multiple forms of a sentence that the
なお、コンテンツテンプレート内において、トピックが必須であるか否かや、あるいはトピックが省略されなければならないか否かが、他のトピックの採否に依存するように規定されてもよい。例えば、トピックAがトピックBより先行する場合、「トピックAが存在する場合にはトピックBは必須」と規定されてもよい。また例えば、トピックAがトピックBより先行する場合、「トピックAが存在する場合にはトピックBは採用不可」と規定されてもよい。つまり、複数のトピックがセットで採用されたり、複数のトピックが排他的に採用されたりするという関係を導入できるようにしてもよい。なお、コンテンツテンプレート内における複数のトピック間の依存の態様は、ここに例示したものには限られず、任意の関係を導入してよい。 Note that within a content template, whether a topic is required or must be omitted may be specified so as to depend on whether other topics are adopted. For example, if topic A precedes topic B, it may be specified that "topic B is required if topic A exists." Or, for example, if topic A precedes topic B, it may be specified that "topic B cannot be adopted if topic A exists." In other words, it may be possible to introduce a relationship in which multiple topics are adopted as a set or multiple topics are adopted exclusively. Note that the manner of dependency between multiple topics within a content template is not limited to the examples given here, and any relationship may be introduced.
以上、コンテンツテンプレートと、そのコンテンツテンプレートを構成するためのトピックテンプレートの、それぞれのデータについて説明した。つまり、音声コンテンツは、コンテンツテンプレートにしたがって、複数のトピックが決められた順番で並べられることによって生成されるものである。ただし、必須ではないトピックは省略されてもよい。
また、1つのトピックは、複数のバリエーションを持つことができる。トピックテンプレートは各バリエーションの文章テンプレートを持つため、バリエーション生成部30は、トピックテンプレートを用いて、各バリエーションの文章を生成することができる。また、バリエーション生成部30が生成文章に基づいて実際に音声合成することにより、その合成音声の合計時間長がわかる。また、トピックテンプレートにおいて、バリエーションごとの評価値が与えられている。つまり、バリエーション生成部30がそれぞれのトピックの複数のバリエーションを生成した後、その時間長や評価値に基づいて、コンテンツ全体の最適な形態を探索することが可能となる。この探索処理については、後述する。
The above describes the data of the content template and the topic template for constructing the content template. In other words, audio content is generated by arranging multiple topics in a predetermined order according to the content template. However, non-essential topics may be omitted.
Furthermore, one topic can have multiple variations. Since the topic template has a sentence template for each variation, the
バリエーションごとの評価値としては、予め固定値が与えられている例を上で説明した。ただし、バリエーションごとの評価値は、必ずしも予め固定されていなくてもよい。例えば、文章テンプレートを基に生成された生成文章の内容等に応じて、評価値を可変としてもよい。 An example was described above in which a fixed value was assigned in advance as the evaluation value for each variation. However, the evaluation value for each variation does not necessarily have to be fixed in advance. For example, the evaluation value may be variable depending on the content of the generated sentence generated based on the sentence template.
図6は、上で説明したトピックテンプレートに含まれる文章テンプレートと、その文章テンプレートを基に生成される生成文章との関係の例を示す概略図である。図示する例では、文章テンプレートは、「(都道府県)の今日の天気です。」という文の後に、「(地域)は、(風向)の風、(天気)(時間推移)(局所天気)でしょう。」という文を複数回繰り返し得る、ことを表すデータである。本例において、この繰り返しは、都道府県内の地域ごとの繰り返しである。文章テンプレートに含まれる、(都道府県)、(地域)、(風向)、(天気)、(時間推移)、(局所天気)のそれぞれは、いずれもパラメーターである。パラメーターは、生成文章に変換される際に、実データで置換され得るものである。パラメーターを置換する実データは、データ受信部10が取得した天気予報データに含まれるものである。本例では、パラメーター(都道府県)は、実際の都道府県名である「神奈川県」(図2を参照)で置換される。これにより、「(都道府県)の今日の天気です。」というテンプレートに基づいて、バリエーション生成部30は、「神奈川県の今日の天気です。」という文を生成する。また、パラメーターである(地域)、(風向)、(天気)、(時間推移)、(局所天気)のそれぞれは、図3に示した「天気予報(今日)」のデータ内の情報で置換される。例えば、神奈川県の東部に関しては、「(地域)は、(風向)の風、(天気)(時間推移)(局所天気)でしょう。」というテンプレートに基づいて、バリエーション生成部30は、「東部は、西の風、晴れ 後 曇りでしょう。」という文を生成する。また、神奈川県の西部に関しては、「(地域)は、(風向)の風、(天気)(時間推移)(局所天気)でしょう。」というテンプレートに基づいて、バリエーション生成部30は、「西部は、南の風、晴れ 後 曇り 所により 雨でしょう。」という文を生成する。
6 is a schematic diagram showing an example of the relationship between the sentence template included in the topic template described above and the generated sentence generated based on the sentence template. In the illustrated example, the sentence template is data representing that the sentence "This is the weather today in (prefecture)." may be followed by a sentence "In (region), the wind is (wind direction), (weather) (time transition) (local weather)." multiple times. In this example, this repetition is for each region within the prefecture. Each of the (prefecture), (region), (wind direction), (weather), (time transition), and (local weather) included in the sentence template is a parameter. The parameters can be replaced with actual data when converted into the generated sentence. The actual data that replaces the parameters is included in the weather forecast data acquired by the
図7は、上で説明したトピックテンプレートに含まれる文章テンプレートと、その文章テンプレートを基に生成される生成文章との関係の別の例を示す概略図である。なお、図6と図7とは、同一のトピックである「今日の天気」に含まれる、互いに別のバリエーションである。図7の例では、文章テンプレートは、「(都道府県)の今日の天気は、県内全域、(天気)(時間推移)でしょう。」という表現を表すデータである。この図7の文章テンプレートは、図6に示した文章テンプレートの例と比較して、(風向)や(局地天気)の情報が省略されている。つまり、図6より情報が省略された伝え方になっている。また、この文章テンプレートは、(都道府県)内の全ての(地域)において、(天気)(時間推移)が同一であるときにしか文章を生成しない。それ以外の時には、このバリエーションは存在しないものとして取り扱う。この文章テンプレートに含まれる(都道府県)、(天気)、(時間推移)のそれぞれは、いずれも、パラメーターである。図6の場合と同様に、文章テンプレート内に存在するパラメーターは、実データ(天気予報データ)の情報を用いて置換される。バリエーション生成部30は、図7の文章テンプレートを基に、実データを用いてパラメーターの置換を行うことにより、「神奈川県の今日の天気は、県内全域、晴れ 後 曇りでしょう。」という文を生成する。
Figure 7 is a schematic diagram showing another example of the relationship between the sentence template included in the topic template described above and the generated sentence generated based on the sentence template. Note that Figures 6 and 7 are different variations included in the same topic, "Today's Weather". In the example of Figure 7, the sentence template is data expressing the expression "Today's weather in (prefecture) will be (weather) (time transition) throughout the prefecture." This sentence template in Figure 7 omits information on (wind direction) and (local weather) compared to the example sentence template shown in Figure 6. In other words, the information is omitted from the way of conveying information in Figure 6. In addition, this sentence template generates a sentence only when (weather) (time transition) is the same in all (areas) within (prefecture). In other cases, this variation is treated as not existing. Each of (prefecture), (weather), and (time transition) included in this sentence template is a parameter. As in the case of Figure 6, the parameters present in the sentence template are replaced with information from actual data (weather forecast data). The
以上説明したように、図6および図7でそれぞれ示した2種類の文章テンプレートは、同一のトピックのための、情報の詳細さが異なる2つのバリエーションに属するものである。バリエーション生成部30は、同一の受信データ(ここでは、天気予報データ)に基づいて、1つのトピックに関して、複数の文章テンプレートを用いることにより、複数の生成文章をバリエーションとして生成する。また、バリエーション生成部30は、これらの複数の生成文章のそれぞれに対応して、音声合成処理により、音声を生成する。音声の合計時間長は、バリエーションに応じて異なるものである。例として示した図6および図7では、図6の文章テンプレートに基づいて作られる生成文章のほうが、図7の文章テンプレートに基づいて作られる生成文章よりも長い。また、それぞれの生成文章に対応して生成される合成音声についても、図6の文章テンプレートに対応した合成音声の合計時間長のほうが、図7の文章テンプレートに対応した合成音声の合計時間長よりも長い。このように、バリエーション生成部30は、異なる文章テンプレートを用いることにより、1つのトピックに対して、異なる合計時間長を有する合成音声を生成する。
As described above, the two types of sentence templates shown in FIG. 6 and FIG. 7 belong to two variations of the same topic with different information details. The
図8は、コンテンツテンプレートに基づいてバリエーション生成部30が生成したトピックおよびそのバリエーションの相互関係を示す概略図である。言い換えれば、図8は、トピックごとに複数のバリエーションを有する探索空間を示すものである。図示するように、探索空間は、シリアルなトピックの列を持っている。また、その列に含まれる各トピックは、並列する1個以上のバリエーションを持つことができる。図8に示す例において、「あいさつ1」は1個のバリエーションを持つ。また、「トピック1」は、並列する3個のバリエーションを持つ。また、「トピック2」は、並列する3個のバリエーションを持ち、そのうちの1つのバリエーションには「なし」と記されている。この「なし」は、当該バリエーションが、生成文および合成音声を持たないことを表している。そして、「あいさつ2」は1個のバリエーションを持つ。「なし」と記されたバリエーション以外の通常のバリエーションの各々は、生成文章と、各文の合成音声と、合計時間長と、評価値とを持つ。生成文章は、バリエーション生成部30が文章テンプレートに基づいて生成した文章である。合成音声は、バリエーション生成部30が生成文章の各文に基づいて合成した音声である。合計時間長は、バリエーション生成部30によって生成された各文の合成音声の先頭から最後までの時間の長さの総和である。評価値は、そのバリエーションの評価値である。評価値は、そのバリエーションが選択されることの好ましさを表す数値である。評価値は、原則として、より詳細であり、結果としてより大きな合計時間長を持つようなバリエーションに対してより大きな値を与える。
Figure 8 is a schematic diagram showing the interrelationships between the topics and their variations generated by the
バリエーション生成部30がこの図8に示すような探索空間を構築する。言い換えれば、バリエーション生成部30は、探索空間内の各バリエーションの生成文章を生成し、その生成文章に対応する合成音声を生成し、その合成音声の合計時間長を確定する。また、各バリエーションの評価値は、予め定められているか、あるいは生成文章や合成音声が生成された時点で確定される。つまり、バリエーション生成部30がこの探索空間を構築した時点までには、各バリエーションの評価値は確定している。このように、図8に示す探索空間内の各バリエーションにおける、時間長および評価値の具体的な値が定まっている状態において、探索処理部40は、評価値の総計を最大にするようなバリエーションの選択を行うことができる。具体的には、探索処理部40は、各トピックから1個のバリエーションを選択することができる。そして、探索処理部40は、所定の条件を満しながら、評価値の総計が最大になる解を求める。ここでの解とは、コンテンツ内の各トピックにおいて選択するバリエーションの組み合わせである。バリエーション生成部30は、図8に示す探索空間を表現するデータをメモリー等の記憶媒体に書き込み、探索処理部40が参照できるようにする。
The
図9は、探索処理部40が探索処理を行う際の拘束条件を示す概略図である。図示するように、探索処理を行う際の条件は、トータルコンテンツ長と、文間ポーズ下限と、文間ポーズ上限と、トピック間ポーズ下限と、トピック間ポーズ上限とを含む。これらの条件は、例えば、あらかじめ設定され、探索処理部40から参照可能なメモリー等に書き込まれている。トータルコンテンツ長は、コンテンツ制作装置1が生成するコンテンツ全体の時間長である。制作対象であるコンテンツ内のすべてのトピックの音声を連結したときの時間長は、トータルコンテンツ長を超えてはならない。文間ポーズ下限は、文間のポーズの時間長の下限である。文間ポーズ上限は、文間のポーズの時間長の上限である。トピック間ポーズ下限は、トピック間のポーズの下限である。トピック間ポーズ上限は、トピック間のポーズの上限である。これらの設定値の単位は、すべて秒である。
Figure 9 is a schematic diagram showing constraint conditions when the
文間とは、生成されたトピック内の各文のつなぎである。言い換えれば、文間とは、図6や図7に示した文章テンプレートや生成文章において「<文区切り>」が存在する場所である。トピック間とは、コンテンツテンプレートにおけるトピックとトピックとの間の場所である。図8において「<トピック区切り>」で示している箇所が、トピック間である。 Between sentences is the connection between each sentence in the generated topic. In other words, between sentences is the location where a "<sentence separator>" exists in the sentence template and generated sentence shown in Figures 6 and 7. Between topics is the location between topics in the content template. The location indicated by "<topic separator>" in Figure 8 is between topics.
図示する例では、トータルコンテンツ長は、240.000[秒]である。また、文間ポーズ下限は、0.700[秒]である。また、文間ポーズ上限は、1.500[秒]である。また、トピック間ポーズ下限は、1.000[秒]である。また、トピック間ポーズ上限は、3.000[秒]である。 In the illustrated example, the total content length is 240.000 seconds. The lower limit of the inter-sentence pause is 0.700 seconds. The upper limit of the inter-sentence pause is 1.500 seconds. The lower limit of the inter-topic pause is 1.000 seconds. The upper limit of the inter-topic pause is 3.000 seconds.
探索処理部40は、設定された条件を満たしながら、選択されたバリエーションの評価値の総和を最大化するバリエーションの組み合わせを探索する。文間ポーズは、その下限と上限との間に差があるように設定される。トピック間ポーズもまた、その下限と上限との間に差があるように設定される。したがって、探索処理部40は、これらのポーズの時間長が後で調整可能であることを前提として、バリエーションを選択する。つまり、探索処理部40は、選択されたバリエーションの合成音声をすべて連結し、且つ文間ポーズおよびトピック間ポーズを各々の下限値とした結果の長さが、上記コンテンツ長以下であり、且つ文間ポーズおよびトピック間ポーズを各々の上限値とした結果の長さが、上記コンテンツ長以上であるような組み合わせの中から、評価値の総和が最大であるバリエーションの組み合わせを探索する。文間ポーズやトピック間ポーズが調整可能であるということは、それらそれぞれのポーズの時間長が、設定された条件内で伸び縮み可能であるということである。
The
上記のコンテンツ長に関する制約を数式で表すと、次の通りである。即ち、コンテンツ長をa秒(固定長)として、コンテンツ内に含まれるトピック数をb、総文数をc、音声部分の時間長の総和をd秒、文間ポーズ下限をe秒、文間ポーズ上限をf秒、トピック間ポーズ下限をg秒、トピック間ポーズ上限をh秒とする。この場合の制約条件は、次の式(1)で表わされる。 The above constraints on content length can be expressed mathematically as follows. That is, the content length is a seconds (fixed length), the number of topics included in the content is b, the total number of sentences is c, the total duration of the audio portion is d seconds, the lower limit of inter-sentence pauses is e seconds, the upper limit of inter-sentence pauses is f seconds, the lower limit of inter-topic pauses is g seconds, and the upper limit of inter-topic pauses is h seconds. The constraints in this case are expressed by the following formula (1).
d+(c-b)×e+(b-1)×g≦a≦d+(c-b)×f+(b-1)×h
・・・(1)
d+(c-b)×e+(b-1)×g≦a≦d+(c-b)×f+(b-1)×h
...(1)
この式の制約条件を満たすように探索を行えば、文間ポーズの長さおよびトピック間ポーズの長さを適切に調整することにより、トータルコンテンツ長をちょうどa秒とすることができる。 If we perform a search to satisfy the constraints in this formula, we can make the total content length exactly a seconds by appropriately adjusting the length of the inter-sentence pauses and the inter-topic pauses.
なお、コンテンツ長を上記のように固定値とする代わりに、コンテンツ長の上限および下限を設けて、その制約条件下で探索処理を行うようにしてもよい。 Instead of setting the content length to a fixed value as described above, an upper and lower limit may be set for the content length, and the search process may be performed under those constraints.
なお、探索処理部40は、オプショントピックに関しては、そのトピックに属するバリエーションを選択しないような解を求めてもよい。オプショントピックは、図5に示したトピックテンプレートにおいて、必須フラグが「false」に設定されているトピックである。なお、オプショントピックに関してバリエーションを選択しないことは、生成文や合成音声の存在しないバリエーション(例えば、図8において「(なし)」と表記しているバリエーション)を選択することと等価である。
For optional topics, the
探索処理部40は、どのような探索方法(アルゴリズム)を用いて探索処理を行ってもよい。探索処理部40は、一例として、予め決められた長さの制約付きのA*探索(A* search algorithm)を使ってもよい。A*探索自体は、既存の手法である。この場合、探索処理部40は、コンテンツの先頭のトピックから始め、評価値の高いバリエーションを優先して深さ方向の探索を行う。探索処理部40は、その探索処理中のあるトピックの箇所において、残っているトピックの期待評価値(各トピックについて最大評価値であるバリエーションを選んだ場合の評価値の総和)と、残っているトピックのトータルの最大時間長(各トピックについて最大合計時間長であるバリエーションを選び、かつ、各ポーズ長として上限値を選んだ場合の時間長の総計)および最小時間長(各トピックについて最小合計時間長であるバリエーションを選び、かつ、各ポーズ長として下限値を選んだ場合の時間長の総計)を保持する。そして、探索処理部40は、そのトピックの箇所までの時間長の総和の最大値(各ポーズ長として上限値を選んだ場合の時間長の総計)および最小値(各ポーズ長として下限値を選んだ場合の時間長の総計)に、残っているトピックのトータルの最大時間長および最小時間長を各々加算して、生成するコンテンツのトータルの時間長の最大および最小を見積もる。そして、探索処理部40は、そのトータルの時間長の最大および最小が所定範囲内に収まる仮説の中から、(そのトピックの箇所までの評価値の総和と、残っているトピックの期待評価値との和)が、最大である仮説について探索処理を伸ばしていく。
The
ただし、探索処理部40による処理は、必ずしも上に例示したアルゴリズムに基づく必要はない。いずれの探索手法を用いる場合も、探索処理部40は、コンテンツのトータルの時間長が制約を満たし得ないようなバリエーションの組み合わせを排除しながら、探索空間内で、評価値の総和が最大となる解を探索する。
However, the processing by the
なお、探索処理部40が探索を行う際のコンテンツ全体の時間長Tは、次のように計算される。バリエーションの組み合わせが決まると、それらのバリエーションが持つ合成音声の長さと、それらのバリエーションを用いてコンテンツを生成する場合の文間ポーズの数およびトピック間ポーズの数が定まる。また、1個の文間ポーズの時間長と、1個のトピック間ポーズの時間長とは、図9に示した制約条件の中で可変である。なお、すべての文間ポーズの時間長が互いに等しくなるようにする。また、すべてのトピック間ポーズの時間長が互いに等しくなるようにする。このとき、次のA,B,Cの値(いずれも、時間の長さ)は、次の通りである。
A:選択されたバリエーションが持つ合成音声の時間長の合計B:文間ポーズの時間長×文間ポーズの数(=総文数-トピック数)C:トピック間ポーズの時間長×トピック間ポーズの数(=トピック数-1)そして、コンテンツ全体の時間長Tは、T=(A+B+C)で表わされる。ただし、BおよびCは、可変であり、各々最大値~最小値の間の値を取りうる。探索処理部40は、このTが前述の条件を満たす制約の中で、バリエーションの組み合わせを探索する。
The duration T of the entire content when the
A: Total duration of synthetic speech of selected variations B: Duration of inter-sentence pauses × number of inter-sentence pauses (= total number of sentences - number of topics) C: Duration of inter-topic pauses × number of inter-topic pauses (= number of topics - 1) And the duration T of the entire content is expressed as T = (A + B + C), where B and C are variable and can each take a value between the maximum and minimum values. The
図10は、コンテンツ制作装置1の全体的な処理手順を示すフローチャートである。以下、このフローチャートに沿って処理の手順を説明する。
Figure 10 is a flowchart showing the overall processing procedure of the
まず、ステップS1において、データ受信部10は、コンテンツ制作用のデータを受信する。コンテンツ制作用のデータは、例えば、前述の天気予報データ100(図2を参照)である。データ受信部10は、受信したデータを、バリエーション生成部30に渡す。
First, in step S1, the
次に、ステップS2において、バリエーション生成部30は、テンプレート記憶部20から、コンテンツのテンプレートのデータを読み出す。コンテンツのテンプレートのデータの例は、図4に示したとおりである。
Next, in step S2, the
次に、ステップS3において、バリエーション生成部30は、ステップS1において受け取ったデータを、ステップS2で読み込んだテンプレートに適用して、コンテンツのバリエーションを生成する。ここで、バリエーション生成部30は、使用する可能性のあるすべてのバリエーションを生成する。各々のバリエーションは、生成文章と、その各文の合成音声と、その音声の合計時間長の情報とを含むものである。また、各バリエーションには評価値が付与されている。
Next, in step S3, the
次に、ステップS4において、探索処理部40は、ステップS3で生成されたバリエーションの探索を行う。探索処理については既に述べたとおりであり、探索処理部40は、コンテンツの長さ(時間長)に関する条件を満たすように、且つ評価値が高くなるように、バリエーションの組み合わせを探索する。探索処理部40は、探索処理の結果を、選択部50に渡す。探索処理の結果は、バリエーションの組み合わせの情報と、その組み合わせを選択する場合の評価値の情報とを含む。
Next, in step S4, the
次に、ステップS5において、選択部50は、バリエーションの組み合わせを選択する。具体的には、選択部50は、評価値の総計が高くなるようにバリエーションの組み合わせを選択する。一例として、選択部50は、コンテンツの長さの制約条件を満たす組み合わせの中で、評価値の総計が最も高くなるバリエーションの組み合わせを選択する。選択部50は、選択したバリエーションの組み合わせに関する情報を、ポーズ調整部60に渡す。
Next, in step S5, the
次に、ステップS6において、ポーズ調整部60は、ポーズの長さを調整する。具体的には、ポーズ調整部60は、文間ポーズ1個あたりの時間長と、トピック間ポーズ1個あたりの時間長とを調整する。ポーズ調整部60は、制作するコンテンツ全体の長さLに基づき、次の等式(2)を満たすPSおよびPTを決定する。
Next, in step S6, the
LU+NS・PS+NT・PT=L ・・・ (2) L U +N S・P S +N T・P T =L... (2)
ただし、式(2)において、NSおよびNTは、それぞれ、選択されたバリエーションの組み合わせを採用する場合の、文間ポーズの数およびトピック間ポーズの数である。バリエーションの組み合わせが決まれば、NSおよびNTそれぞれの値は決まる。PSおよびPTは、それぞれ、文間ポーズ1個あたりの時間長およびトピック間ポーズ1個あたりの時間長である。PSおよびPTは、ポーズ調整部60が決定すべき値である。LUは、合成音声の時間長の総和である。なお、ポーズ調整部60は、必要に応じて、PSの値とPTの値との間で、適切なバランスをとるようにしてもよい。
In formula (2), N S and N T are the number of inter-sentence pauses and the number of inter-topic pauses, respectively, when the selected combination of variations is adopted. Once the combination of variations is determined, the values of N S and N T are determined. P S and P T are the duration of one inter-sentence pause and one inter-topic pause, respectively. P S and P T are values to be determined by the
PSおよびPTの値が求まると、ポーズ調整部60は、文間およびトピック間に、それぞれ、PSおよびPTで定まる長さのポーズ(無音区間)を挿入しながら、生成された合成音声をすべて連結して、全体として1本の音声コンテンツを作成する。ポーズ調整部60は、作成した音声コンテンツを出力部70に渡す。
Once the values of PS and PT are determined, the
次に、ステップS7において、出力部70は、作成した音声コンテンツを外部に出力する。音声コンテンツは、例えば、放送(ラジオあるいはテレビ)やインターネット配信などの手段で、配信される。
Next, in step S7, the
図11は、コンテンツ制作装置1のユーザーインターフェースの画面例を示す概略図である。コンテンツ制作装置1が想定するユーザーは、コンテンツ制作者である。コンテンツ制作装置1は、例えばサーバー装置として機能して、クライアント装置であるユーザー端末(PC等)のディスプレイ装置に、この画面を表示する。図示する画面例は、コンテンツ制作装置1が制作した音声コンテンツ(気象情報の番組)の構成をユーザーに提示するためのものである。
Figure 11 is a schematic diagram showing an example of a screen of the user interface of the
この画面では、画面タイトルとして「コンテンツ制作」という文字列が表示される。また、コンテンツ名として、「2020/1/25 午前10時 気象情報」という文字列が表示される。このコンテンツ名は、適宜、設定されたものである。また、コンテンツ長が「240秒」であることが表示される。コンテンツ長は予め設定されているもの(図9を参照)である。また、放送日時として、「2020/1/25 10:00:00」という文字列が表示される。放送日時は、予め設定されるものである。コンテンツ制作装置1が、放送日時の設定に基づいて、生成した音声コンテンツを適切なタイミングで自動的に外部に出力するようにしてもよい。また、送出状態として、「未了」という文字列が表示されている。この送出状態は、例えば、コンテンツ制作装置1内の管理部(不図示)が管理しているコンテンツごと状態の情報に基づいて表示されるようにしてよい。
On this screen, the character string "Content Production" is displayed as the screen title. In addition, the character string "2020/1/25 10:00 AM Weather Information" is displayed as the content name. This content name is set appropriately. In addition, it is displayed that the content length is "240 seconds". The content length is set in advance (see FIG. 9). In addition, the character string "2020/1/25 10:00:00" is displayed as the broadcast date and time. The broadcast date and time are set in advance. The
また、この画面の下側には、トピックごとの情報の列が表示される。画面は、適宜、上下方向にスクロール可能としてよい。トピックの情報としては、トピックの名称や、バリエーションの種類を表す名称や、生成文の文字列が表示される。また、画面が、試聴ボタンや編集ボタンを持つようにしてもよい。ユーザーが視聴ボタンを押す(クリック等)操作を行うと、ユーザーはそのトピックの合成音声を試聴することができる。ユーザーが編集ボタンを押す操作を行うと、編集画面を用いてユーザーが生成文を修正(編集)したり、修正後の文に基づいて音声を再合成したりできるようにしてよい。 In addition, a column of information for each topic is displayed at the bottom of this screen. The screen may be scrollable up and down as appropriate. Topic information displayed includes the name of the topic, a name indicating the type of variation, and the character string of the generated sentence. The screen may also have a listen button and an edit button. When the user presses (clicks, etc.) the listen button, the user can listen to the synthesized speech for that topic. When the user presses the edit button, the user may be able to use the edit screen to modify (edit) the generated sentence or resynthesize speech based on the modified sentence.
なお、ここに示したユーザーインターフェースは一例であり、コンテンツ制作装置1が、他の情報を画面に表示したり、ユーザーに他の操作を行わせたりできるようにしてもよい。
Note that the user interface shown here is just an example, and the
本実施形態によれば、コンテンツ制作装置1は、テンプレートに基づいて、複数のバリエーションの中から適切な文章を選択し、組み合わせて、コンテンツを自動的に制作することができる。また、本実施形態によれば、コンテンツ制作装置1は、コンテンツ全体の長さ(時間長)が所望の値となるようにコンテンツを自動的に制作することができる。また、本実施形態によれば、コンテンツ制作装置1は、話速変換の処理を行うことなく、自然な速度でのアナウンスによるコンテンツを自動的に制作することができる。また、本実施形態によれば、コンテンツ制作装置1は、時間(コンテンツの時間長)の制約の中で、評価値に基づいてバリエーションを選択するため、結果として評価値の高い(即ち、内容としてより好ましい)コンテンツを自動的に制作することができる。
According to this embodiment, the
なお、上述した実施形態におけるコンテンツ制作装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
At least some of the functions of the content production device in the above-mentioned embodiment can be realized by a computer. In that case, a program for realizing the functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed to realize the functions. Note that the term "computer system" here includes hardware such as an OS and peripheral devices. Furthermore, the term "computer-readable recording medium" refers to portable media such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, a DVD-ROM, a USB memory, and a storage device such as a hard disk built into a computer system.
Furthermore, the term "computer-readable recording medium" may include a medium that temporarily and dynamically stores a program, such as a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line, and a medium that stores a program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or client in such a case. The above program may be one that realizes part of the above-mentioned functions, or may be one that can realize the above-mentioned functions in combination with a program already recorded in the computer system.
以上、実施形態を説明したが、本発明をさらに次のような変形例で実施してもよい。 Although the embodiment has been described above, the present invention may be further embodied in the following modified examples.
実施形態で説明したコンテンツの例では、トピックとして「あいさつ1」と「あいさつ2」とを含むようにした。これらのトピックに関しては、バリエーションがそれぞれ1種類ずつしか含まれていなかった。このように複数のバリエーションを持たないトピックに関しては、コンテンツ制作装置1による自動生成(時間長の調整のための解の探索)を行わないようにしてもよい。例えば、あいさつに相当する部分を、他の方法で制作するようにしてもよい。
In the example of content described in the embodiment, the topics include "
実施形態では、各文の時間長を特定するために全てのバリエーションの音声合成を事前に実施していたが、音声合成処理は一般に時間や計算資源を要する処理である。そこで、実際に音声合成処理を実施する前に、より簡易な処理によって各文の時間長を正確に求める処理のみをまず実施してもよい。実際に音声合成処理を行わずに文の時間長のみを正確に求める処理は、既存技術によって可能である(例えば、DNN音声合成技術において一般的なduration modelを用いるなど)。つまり、探索に先立って行う音声合成処理の代わりに時間長のみを求めておき、そして探索処理を行い、探索処理の終了後に、解として使われることになった文についてのみ音声合成処理を実施することにしてもよい。
一般に、音声の時間長のみを求める処理のコストは、実際にその音声波形を生成する処理のコストよりも十分に小さい。
In the embodiment, voice synthesis of all variations is performed in advance to specify the duration of each sentence, but voice synthesis processing generally requires time and computational resources. Therefore, before actually performing voice synthesis processing, a process for accurately determining the duration of each sentence using a simpler process may be performed first. A process for accurately determining only the duration of a sentence without actually performing voice synthesis processing is possible using existing technology (for example, using a duration model that is common in DNN voice synthesis technology). In other words, instead of performing voice synthesis processing prior to search, only the duration may be obtained, and then a search process may be performed, and after the search process is completed, voice synthesis processing may be performed only for the sentence that was used as a solution.
Generally, the cost of processing to obtain only the duration of a voice is significantly smaller than the cost of processing to actually generate the voice waveform.
上記実施形態では、音声合成処理を含む構成で説明したが、コンテンツ制作装置1が音声合成処理を含まないようにしてもよい。探索処理終了後に、解として使われることになった文のみについて、発話文を出力するものでもよい。この出力された発話文を、別途音声合成処理するようにしてもかまわない。
In the above embodiment, a configuration including voice synthesis processing has been described, but the
上記実施形態では、各文の時間長を正確に求める処理を行う例をあげて説明したが、各文の時間長が誤差を含むようにしてもよい。つまり、探索する段階において、各文の時間長がある程度の誤差が含むことを許容する。探索する段階においては、各文の時間長に所定程度の精度があれば、ポーズ調整部での調整や話速変換技術などを用いた尺調整でその誤差を吸収することが可能だからである。その場合、図9に示すトータルコンテンツ長が、他のパラメーターと同様に、下限や上限で表わされるパラメーターであってもかまわない。あるいは、トータルコンテンツ長が、許容される誤差範囲を持つものであってもかまわない。許容される誤差範囲は、秒数(例えば、±10秒)で表わされてもよいし、トータルコンテンツ長に対する比率(例えば、±5%)で表わされてもよい。 In the above embodiment, an example of processing to accurately obtain the duration of each sentence has been described, but the duration of each sentence may include an error. In other words, in the search stage, the duration of each sentence is allowed to include a certain degree of error. This is because, in the search stage, if the duration of each sentence has a certain degree of accuracy, the error can be absorbed by length adjustment using pause adjustment units or speech rate conversion technology. In that case, the total content length shown in FIG. 9 may be a parameter expressed by a lower limit and an upper limit, like other parameters. Alternatively, the total content length may have an allowable error range. The allowable error range may be expressed in seconds (e.g., ±10 seconds) or as a ratio to the total content length (e.g., ±5%).
上記実施形態では、バリエーションの評価値として、予め固定値が与えられている例を説明したが、必ずしも予め固定された値でなくてもよい。バリエーションの評価値は、探索処理が行われる際に決まっていればよい。例えば、探索する際に、それまでに採用した文の中に同一の文や同意の文が含まれるか否かに応じて評価値を可変としてよい。そうすることにより、同じ表現や同じ情報が繰り返されるのを避けることができる。また、それまでに採用した文の時間長の合計値に応じて評価値を変えてもよい。そうすることにより、残った時間長によってコンテンツの内容を変えることもできる。つまり、同じ生成文であっても、コンテンツの中の出てくるタイミングや文の前後関係などに応じて、評価値を変えてもかまわない。 In the above embodiment, an example was described in which a fixed value was given as the evaluation value of the variation, but the value does not necessarily have to be fixed in advance. The evaluation value of the variation only needs to be determined when the search process is performed. For example, when searching, the evaluation value may be made variable depending on whether the sentences used up to that point include the same sentence or an equivalent sentence. This makes it possible to avoid repeating the same expression or the same information. The evaluation value may also be changed depending on the total value of the duration of the sentences used up to that point. This makes it possible to change the content depending on the remaining duration. In other words, even if the generated sentence is the same, the evaluation value may be changed depending on the timing at which it appears in the content or the context of the sentence.
上記実施形態においては、各文の正確な尺を予め確定させてから行う処理を説明したが、この長さは概算値であっても良い。その場合、本手法で制作されたコンテンツの実際の長さについて、各概算値と正確な値との差異に応じて、目標とする長さからずれが生じる場合がある。そのずれが微小なものであるならば、話速変換技術等を用いて正確な尺に調整することにしても良い。ある程度以下の範囲ならば話速変換を採用しても自然さが損なわれないことが知られている(A. Nakamura et al. “A New Approach to Compensate Degeneration of Speech Intelligibility for Elderly Listeners”, IEEE Transaction on Broadcasting, Vol.42, No3, 1996 など)。例えば、コンテンツとしての最終的な時間長が240秒である場合に、本発明で許容する誤差を12秒として文を作成した上で、この誤差を話速変換等で聴感上不自然にならないように調節することが考えられる。ここで、許容誤差の範囲内でコンテンツを制作することが求められるが、その方法の一例として、当該装置の音声合成器の平均的な発話速度を予め調べてこれを基準の話速とし、その値を用いて文字数から発話時間の推定をすることが考えられる。一般に音声合成による発話速度は一定であるため、許容誤差の範囲での発話時間推定が期待できる。また、コンテンツの用途によって、少し発話速度を速くあるいは遅く発話をすることが求められる場合がある。この場合は、上記、音声合成器の平均的な発話速度を話速変換技術等によって所望の値に一律にシフトさせて、これを新たに基準の話速として、上述の方法と同様に、その基準の発話速度に応じた誤差の少ない発話時間の推定を行うことができる。基準の話速を管理することで、その話速に応じた情報量によるコンテンツが制作される。 In the above embodiment, the process is performed after the exact length of each sentence is determined in advance, but this length may be an approximate value. In that case, the actual length of the content created by this method may deviate from the target length depending on the difference between each approximate value and the exact value. If the deviation is small, it may be adjusted to the exact length using speech speed conversion technology or the like. It is known that naturalness is not lost even if speech speed conversion is adopted within a certain range (A. Nakamura et al. "A New Approach to Compensate Degeneration of Speech Intelligibility for Elderly Listeners", IEEE Transaction on Broadcasting, Vol.42, No3, 1996, etc.). For example, if the final length of the content is 240 seconds, it is possible to create sentences with an error allowable in the present invention of 12 seconds, and then adjust this error by speech speed conversion or the like so that it does not sound unnatural to the ear. Here, it is required to produce content within the range of allowable error. One example of a method for doing so is to check the average speech speed of the speech synthesizer of the device in advance and use this as a reference speech speed, and estimate the speech time from the number of characters using this value. Since the speech speed produced by speech synthesis is generally constant, it is expected that the speech time can be estimated within the range of allowable error. Depending on the use of the content, it may be required to speak a little faster or slower. In this case, the average speech speed of the speech synthesizer can be uniformly shifted to a desired value using speech speed conversion technology or the like, and this can be used as a new reference speech speed. As with the above method, it is possible to estimate the speech time with little error according to the reference speech speed. By managing the reference speech speed, content can be produced with an amount of information according to that speech speed.
実施形態では、天気予報(気象情報)の音声コンテンツを自動的に生成する処理について説明した。生成するコンテンツは、天気予報以外であってもよい。例えば、合成音声によってニュースを読み上げる形のニュース番組や、合成音声を用いて証券の銘柄ごとの価格の情報を流す証券市況番組や、演奏する曲目等を合成音声によって紹介する音楽番組や、その他のコンテンツを、コンテンツ制作装置1が制作するようにしてもよい。
In the embodiment, a process for automatically generating audio content for a weather forecast (weather information) has been described. The generated content may be something other than a weather forecast. For example, the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The above describes an embodiment of the present invention in detail with reference to the drawings, but the specific configuration is not limited to this embodiment and includes designs that do not deviate from the gist of the present invention.
本発明は、例えば、コンテンツの制作等に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。 The present invention can be used, for example, in content production. However, the scope of use of the present invention is not limited to the examples given here.
1 コンテンツ制作装置
10 データ受信部(データ取得部)
20 テンプレート記憶部
30 バリエーション生成部
40 探索処理部
50 選択部
60 ポーズ調整部
70 出力部
1
20
Claims (6)
データを取得するデータ取得部と、
前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章が持つ各文に対応する合成音声の時間長の総和である合成音声の時間長を決定するバリエーション生成部と、
前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記合成音声の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、
前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、
前記ポーズの時間長に関する条件を満たし、且つ前記合成音声の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、
を備えるコンテンツ制作装置。 a template storage unit that stores a content template having a plurality of variations of a sentence template for generating a sentence;
A data acquisition unit for acquiring data;
a variation generation unit that generates a sentence by applying the data to the sentence template for each of the plurality of variations included in the content template, and determines a duration of the synthetic speech that is a sum of durations of the synthetic speech corresponding to each sentence of the generated sentence;
a search processing unit that searches for combinations of variations using an appropriately determined total sum of evaluation values for each of the variations as an evaluation function under constraints related to conditions related to the duration of pauses that serve as joints when connecting the sentences and conditions related to the total duration of the synthetic voice and the pauses;
a selection unit that selects a combination of variations that satisfies the constraints based on a value of the evaluation function;
a pause adjustment unit that adjusts the duration of the pause so as to satisfy a condition regarding the duration of the pause and a condition regarding a total duration of the synthetic voice and the duration of the pause;
A content production device comprising:
前記トピックは、相互に排他的に選択され得る複数の前記バリエーションを含むように構成されている、
請求項1に記載のコンテンツ制作装置。 the content template is organized as a sequence of topics;
the topic is configured to include a plurality of the variations that may be selected mutually exclusively;
The content production device according to claim 1 .
請求項2に記載のコンテンツ制作装置。 The condition regarding the duration of the pause includes a condition regarding the duration of an inter-sentence pause, which is a pause at a division of a sentence included in the variation, and a condition regarding the duration of an inter-topic pause, which is a pause at a division of a topic.
The content production device according to claim 2 .
請求項3に記載のコンテンツ制作装置。 the pause adjustment unit adjusts the time lengths of the inter-sentence pauses so that they are all the same, and adjusts the time lengths of the inter-topic pauses so that they are all the same;
The content production device according to claim 3 .
請求項1から4までのいずれか一項に記載のコンテンツ制作装置。 the evaluation value for each variation is predetermined as an attribute value of the variation included in the content template;
The content production device according to any one of claims 1 to 4.
データを取得するデータ取得部と、
前記コンテンツテンプレートに含まれる前記複数のバリエーションのそれぞれについて前記文章テンプレートに前記データを適用することによって文章を生成し、生成された前記文章が持つ各文に対応する合成音声の時間長の総和である合成音声の時間長を決定するバリエーション生成部と、
前記文章を連結する際のつなぎ目であるポーズの時間長に関する条件と前記合成音声の時間長および前記ポーズの時間長の総計に関する条件とに関する制約の下で、適宜定められた前記バリエーションごとの評価値の総計を評価関数として、バリエーションの組み合わせを探索する探索処理部と、
前記制約を満たすバリエーションの組み合わせを、前記評価関数の値に基づいて選択する選択部と、
前記ポーズの時間長に関する条件を満たし、且つ前記合成音声の時間長および前記ポーズの時間長の総計に関する条件を満たすように、前記ポーズの時間長を調整するポーズ調整部と、
を備えるコンテンツ制作装置としてコンピューターを機能させるためのプログラム。 a template storage unit that stores a content template having a plurality of variations of a sentence template for generating a sentence;
A data acquisition unit for acquiring data;
a variation generation unit that generates a sentence by applying the data to the sentence template for each of the plurality of variations included in the content template, and determines a duration of the synthetic speech that is a sum of durations of the synthetic speech corresponding to each sentence of the generated sentence;
a search processing unit that searches for combinations of variations using a suitably determined total of evaluation values for each of the variations as an evaluation function under constraints related to conditions related to the duration of pauses that serve as joints when connecting the sentences and conditions related to the total duration of the synthetic voice and the pauses;
a selection unit that selects a combination of variations that satisfies the constraints based on a value of the evaluation function;
a pause adjustment unit that adjusts the duration of the pause so as to satisfy a condition regarding the duration of the pause and a condition regarding a total duration of the synthetic voice and the duration of the pause;
A program for causing a computer to function as a content production device comprising:
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020025203 | 2020-02-18 | ||
| JP2020025203 | 2020-02-18 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021131537A JP2021131537A (en) | 2021-09-09 |
| JP7614877B2 true JP7614877B2 (en) | 2025-01-16 |
Family
ID=77552214
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021022463A Active JP7614877B2 (en) | 2020-02-18 | 2021-02-16 | Content production device and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7614877B2 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006313274A (en) | 2005-05-09 | 2006-11-16 | Nhk Computer Service:Kk | Program audio production apparatus and program audio production program |
| US20140350918A1 (en) | 2013-05-24 | 2014-11-27 | Tencent Technology (Shenzhen) Co., Ltd. | Method and system for adding punctuation to voice files |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0916195A (en) * | 1995-07-03 | 1997-01-17 | Canon Inc | Information processing apparatus and method |
| JP2003005774A (en) * | 2001-06-25 | 2003-01-08 | Matsushita Electric Ind Co Ltd | Speech synthesizer |
| JP5112479B2 (en) * | 2010-07-23 | 2013-01-09 | 三菱電機インフォメーションシステムズ株式会社 | Sentence creation system and sentence creation program |
| JP6323905B2 (en) * | 2014-06-24 | 2018-05-16 | 日本放送協会 | Speech synthesizer |
-
2021
- 2021-02-16 JP JP2021022463A patent/JP7614877B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006313274A (en) | 2005-05-09 | 2006-11-16 | Nhk Computer Service:Kk | Program audio production apparatus and program audio production program |
| US20140350918A1 (en) | 2013-05-24 | 2014-11-27 | Tencent Technology (Shenzhen) Co., Ltd. | Method and system for adding punctuation to voice files |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021131537A (en) | 2021-09-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11462207B1 (en) | Method and apparatus for editing audio, electronic device and storage medium | |
| US5943648A (en) | Speech signal distribution system providing supplemental parameter associated data | |
| US9318100B2 (en) | Supplementing audio recorded in a media file | |
| US20070106513A1 (en) | Method for facilitating text to speech synthesis using a differential vocoder | |
| US7035794B2 (en) | Compressing and using a concatenative speech database in text-to-speech systems | |
| JP2885372B2 (en) | Audio coding method | |
| US6510413B1 (en) | Distributed synthetic speech generation | |
| US20040073428A1 (en) | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database | |
| CN110390928B (en) | Method and system for training speech synthesis model of automatic expansion corpus | |
| CN115966196B (en) | Text-based voice editing method, system, electronic device and storage medium | |
| CN104916284A (en) | Prosody and acoustics joint modeling method and device for voice synthesis system | |
| CN106373580A (en) | Singing synthesis method based on artificial intelligence and device | |
| US9196241B2 (en) | Asynchronous communications using messages recorded on handheld devices | |
| CN112669815B (en) | Song customization generation method and corresponding device, equipment and medium thereof | |
| CN1559068A (en) | Text-to-Speech Native Coding in Communication Systems | |
| JPWO2006008871A1 (en) | Speech synthesizer | |
| CN111883100B (en) | Voice conversion method, device and server | |
| JP2003536112A (en) | Sine wave coding | |
| JP7614877B2 (en) | Content production device and program | |
| US20230056128A1 (en) | Speech processing method and apparatus, device and computer storage medium | |
| JP4537886B2 (en) | Program audio production apparatus and program audio production program | |
| US20080162559A1 (en) | Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device | |
| JP4744338B2 (en) | Synthetic speech generator | |
| JP2014013340A (en) | Music composition support device, music composition support method, music composition support program, recording medium storing music composition support program and melody retrieval device | |
| CN118918912A (en) | Singing voice synthesizing method, singing voice synthesizing equipment and computer readable storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210219 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231222 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240116 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20241001 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241015 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241120 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241203 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241227 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7614877 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |