JP7601649B2 - Voice synthesis adjustment device - Google Patents
Voice synthesis adjustment device Download PDFInfo
- Publication number
- JP7601649B2 JP7601649B2 JP2021011012A JP2021011012A JP7601649B2 JP 7601649 B2 JP7601649 B2 JP 7601649B2 JP 2021011012 A JP2021011012 A JP 2021011012A JP 2021011012 A JP2021011012 A JP 2021011012A JP 7601649 B2 JP7601649 B2 JP 7601649B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- text data
- accent
- pause
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本開示は、音声合成装置による音声合成処理の調整(チューニング)を行う音声合成調整装置に関する。 This disclosure relates to a voice synthesis adjustment device that adjusts (tunes) the voice synthesis process performed by a voice synthesis device.
入力された文(入力文)を自然言語処理することにより、入力文の韻律情報を求め、得られた韻律情報に基づいて、入力文に対応した合成音を生成する音声合成装置が知られており、例えば、合成音を人間の発話に近づけるために、予め定められた韻律情報生成規則に沿って合成音を生成する技術が知られている。なお、ここでの「韻律情報」とは、人間の発話時の音声学的性質を示す情報を意味し、例えば、文節間のポーズ、単語のアクセントなどが挙げられる。従来の音声合成装置では、誰にとっても最適な音声の出力を目指すが、最適とされる音声は、音声が利用されるドメイン(本件では「利用シーンおよび用途により定められる分類」を意味する)によって変動する。そのため,上記の韻律情報生成規則を適宜、調整する(チューニングする)作業は必須となる。 There is known a speech synthesis device that performs natural language processing on an input sentence to obtain prosodic information of the input sentence and generates synthetic speech corresponding to the input sentence based on the obtained prosodic information. For example, a technology is known that generates synthetic speech according to predetermined prosodic information generation rules in order to make the synthetic speech closer to human speech. Note that "prosodic information" here means information that indicates the phonetic properties of human speech, such as pauses between phrases and accents of words. Conventional speech synthesis devices aim to output optimal speech for everyone, but the optimal speech varies depending on the domain in which the speech is used (which in this case means "classification determined by the usage scene and purpose"). Therefore, it is essential to adjust (tune) the prosodic information generation rules as appropriate.
ところが、従来の音声合成装置では、上記のような調整作業に多くの時間を要するとの課題、および、専門的な知識を要するとの課題があった。 However, with conventional voice synthesis devices, the adjustment work described above had the drawback of taking a lot of time and requiring specialized knowledge.
また、特許文献1には、韻律情報のうちポーズを用途に応じて設定して音声合成を行う点が示唆されているものの、入力文を解析して得られた文構造に応じたポーズを用いるなど、より適切な韻律情報に基づく調整作業を目指すための詳細な点までは開示されておらず、改良の余地があった。 In addition, although Patent Document 1 suggests that speech synthesis is performed by setting pauses from the prosodic information according to the purpose, it does not disclose details for aiming for adjustment work based on more appropriate prosodic information, such as using pauses according to the sentence structure obtained by analyzing the input sentence, leaving room for improvement.
そこで、本開示は、専門的な知識を要さずとも、音声合成における調整作業に要する時間を短縮しつつ、より適切な韻律情報に基づいて音声合成の調整を行うことを目的とする。 The present disclosure therefore aims to adjust speech synthesis based on more appropriate prosodic information while shortening the time required for adjustment work in speech synthesis without requiring specialized knowledge.
本開示の一実施形態に係る音声合成調整装置は、音声の利用シーンおよび用途により定められるドメインに応じた音声を、音声合成装置により作成させ出力させる音声合成調整装置であって、外部からのドメイン情報に基づいて前記ドメインを設定するドメイン設定部と、外部からの入力データに対応した、韻律情報を含むテキストデータを取得するテキストデータ取得部と、前記テキストデータ取得部により取得された前記テキストデータから得られる韻律情報が、ドメインごとの韻律情報を予め記憶した韻律情報辞書に記憶されていない新規の韻律情報であるか否かを判定する判定部と、前記判定部により新規の韻律情報と判定された場合、前記テキストデータ取得部により取得された前記テキストデータを前記音声合成装置へ転送し、前記音声合成装置により出力される合成音声についての韻律情報の修正情報を取得する修正情報取得部と、前記修正情報取得部により取得された韻律情報の修正情報に基づいて、該当するドメインに関する前記新規の韻律情報を前記韻律情報辞書へ登録するとともに、前記音声合成装置により前記韻律情報の修正情報に基づき修正した音声を再作成させ出力させる修正制御部と、を備える。 A speech synthesis adjustment device according to an embodiment of the present disclosure is a speech synthesis adjustment device that creates and outputs a speech according to a domain determined by a usage scene and a purpose of the speech by a speech synthesis device, and includes: a domain setting unit that sets the domain based on domain information from an external source; a text data acquisition unit that acquires text data including prosodic information corresponding to input data from an external source; a determination unit that determines whether the prosodic information obtained from the text data acquired by the text data acquisition unit is new prosodic information that is not stored in a prosodic information dictionary that stores prosodic information for each domain in advance; a correction information acquisition unit that transfers the text data acquired by the text data acquisition unit to the speech synthesis device when the text data is determined to be new prosodic information and acquires correction information for the prosodic information for the synthetic speech output by the speech synthesis device; and a correction control unit that registers the new prosodic information for the corresponding domain in the prosodic information dictionary based on the correction information for the prosodic information acquired by the correction information acquisition unit, and causes the speech synthesis device to recreate and output a speech corrected based on the correction information for the prosodic information.
上記の音声合成調整装置では、ドメイン設定部が外部からのドメイン情報に基づいてドメインを設定するとともに、テキストデータ取得部が外部からの入力データに対応した、韻律情報を含むテキストデータを取得し、判定部が、取得されたテキストデータから得られる韻律情報が、ドメインごとの韻律情報を予め記憶した韻律情報辞書に記憶されていない新規の韻律情報であるか否かを判定する。ここで、テキストデータから得られる韻律情報が新規の韻律情報と判定された場合、修正情報取得部は、取得された上記テキストデータを音声合成装置へ転送し、音声合成装置により出力される合成音声についての韻律情報の修正情報を取得する。ここでの「韻律情報の修正情報」は、例えば、音声合成装置により合成音声がユーザ向けに出力された後、ユーザにより入力され、音声合成装置経由で音声合成調整装置へ転送されることで、修正情報取得部により取得される。そして、修正制御部は、取得された韻律情報の修正情報に基づいて、該当するドメインに関する上記新規の韻律情報を韻律情報辞書へ登録するとともに、音声合成装置によって、韻律情報の修正情報に基づき修正した音声を再作成させ出力させる。これにより、ユーザは、韻律情報の修正情報に基づき修正された音声を聴くことができる。上記のように、取得されたテキストデータから得られる韻律情報が韻律情報辞書に記憶されていない新規の韻律情報である場合に、取得された韻律情報の修正情報に基づいて、該当するドメインに関する上記新規の韻律情報を韻律情報辞書へ登録することで、次回以降、取得されたテキストデータから同じ韻律情報が得られたときに従来の処理を一部自動化・簡易化できる。これにより、専門的な知識を要さずとも、音声合成における調整作業に要する時間を短縮しつつ、より適切な韻律情報に基づいて音声合成の調整を行うことができる。 In the above voice synthesis adjustment device, the domain setting unit sets a domain based on domain information from outside, the text data acquisition unit acquires text data including prosodic information corresponding to the input data from outside, and the judgment unit judges whether the prosodic information acquired from the acquired text data is new prosodic information not stored in the prosodic information dictionary that stores prosodic information for each domain in advance. Here, if the prosodic information acquired from the text data is judged to be new prosodic information, the correction information acquisition unit transfers the acquired text data to the voice synthesis device and acquires correction information of the prosodic information for the synthetic voice output by the voice synthesis device. The "correction information of the prosodic information" here is, for example, input by the user after the synthetic voice is output to the user by the voice synthesis device, and transferred to the voice synthesis adjustment device via the voice synthesis device, and is acquired by the correction information acquisition unit. Then, the correction control unit registers the new prosodic information related to the corresponding domain in the prosodic information dictionary based on the acquired correction information of the prosodic information, and causes the voice synthesis device to recreate and output a voice corrected based on the correction information of the prosodic information. This allows the user to listen to speech that has been corrected based on the prosodic information correction information. As described above, when the prosodic information obtained from the acquired text data is new prosodic information not stored in the prosodic information dictionary, the new prosodic information for the corresponding domain is registered in the prosodic information dictionary based on the correction information for the acquired prosodic information, so that the conventional process can be partially automated and simplified the next time the same prosodic information is obtained from the acquired text data. This makes it possible to adjust the speech synthesis based on more appropriate prosodic information while shortening the time required for adjustment work in speech synthesis without requiring specialized knowledge.
本開示によれば、専門的な知識を要さずとも、音声合成における調整作業に要する時間を短縮しつつ、より適切な韻律情報に基づいて音声合成の調整を行うことができる。 According to the present disclosure, it is possible to adjust speech synthesis based on more appropriate prosodic information while reducing the time required for adjustment work in speech synthesis without requiring specialized knowledge.
以下、添付図面を参照して、本開示に係るさまざまな実施形態を順に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Various embodiments of the present disclosure will be described below in order with reference to the accompanying drawings. Note that in the description of the drawings, the same elements are given the same reference numerals and duplicate descriptions will be omitted.
[第1実施形態]
以下、第1実施形態として、設定されたドメイン(音声の利用シーンおよび用途)に応じた、入力テキストの文構造のポーズルール(ポーズ挿入パターン)を新規登録又は選択し、当該ポーズルールに基づいて音声合成の調整を行う実施形態を説明する。
[First embodiment]
Below, as a first embodiment, an embodiment will be described in which a pause rule (pause insertion pattern) for the sentence structure of the input text according to a set domain (audio usage scene and purpose) is newly registered or selected, and speech synthesis is adjusted based on the pause rule.
図1は、第1実施形態における音声合成調整装置10および関連装置の構成例を示しており、関連装置としては、音声合成装置20と制御装置30と他の関連装置40が挙げられる。このうち制御装置30は、図1に示す複数の装置から成るシステム全体を制御する装置であり、通常時はユーザからテキスト入力およびドメイン情報を、修正時には音声入力およびドメイン情報を、それぞれ受け取るとともに、ユーザへ合成音声を出力するユーザインタフェースの機能を有する。他の関連装置40は、必要に応じて、ユーザからの入力に対し音声認識、自然言語処理などの処理を行うことで、韻律情報を含むテキストデータに変換する機能を有する。
Figure 1 shows an example of the configuration of a voice
音声合成装置20は、後述する音声合成調整装置10による調整を受けながら、上記テキストデータに対し適切な韻律情報に基づく音声合成処理(例えば、第1実施形態では適切なポーズルールに応じたポーズが付された合成音声を作成する処理)を行う機能を有し、さまざまなドメインについての文構造に応じたポーズルールを記憶したポーズ辞書21を内蔵している。
The
音声合成調整装置10は、上記の音声合成装置20による音声合成処理において、より適切な韻律情報(例えば、第1実施形態ではポーズルール)が用いられるように調整(チューニング)を行う機能を有する。
The voice
音声合成調整装置10は、上記の機能を実現するために、ドメイン設定部11、テキストデータ取得部12、文構造判定部13、ポーズ修正情報取得部14、ポーズ修正制御部15、および、第1の作成制御部16を含む。
To realize the above functions, the voice
このうち、ドメイン設定部11は、外部からのドメイン情報に基づいてドメインを設定する機能部であり、テキストデータ取得部12は、外部からの入力データに対応した、韻律情報を含むテキストデータを取得する機能部であり、文構造判定部13は、テキストデータ取得部12により取得されたテキストデータの文構造を解析し、解析により得られた文構造が、上記のポーズ辞書21における新規の文構造であるか否かを判定する機能部である。文構造判定部13によるテキストデータの文構造の解析は、例えば、テキストデータの文を文節ごとに分割し、いくつの文節に分割されるか、文中の切れ目(例えばテキスト表記した場合に読点「、」が入る位置)がどこに有るかなどの観点で分類することで実行される。例えば、文構造ごとのポーズルールを示した図3(a)における文構造id1の例文に示すように、文構造の解析によって「昨日の/夜は/かなり/冷え込みましたが、/ぐっすり/眠れましたか?」のように「/」で区切られる第1~第6文節に分割され、第4文節「冷え込みましたが、」の後に文中の切れ目が有ると解析される。また、文構造id3の例文に示すように、文構造の解析によって「昨日は/3000歩/歩いたので、/今日は/身体を/休めましょう!」のように「/」で区切られる第1~第6文節に分割され、第3文節「歩いたので、」の後に文中の切れ目が有ると解析される。これらの文構造id1とid3は、計6つの文節に分割される点で共通するものの、文中の切れ目の場所が異なるため、異なる文構造とされる。なお、上記の文構造の解析手法は、一例であり、上記と異なる解析手法を用いても構わない。
Of these, the
ポーズ修正情報取得部14は、文構造判定部13により新規の文構造と判定された場合に、解析後のテキストデータを音声合成装置20へ転送し、その後、ユーザからの修正音声に対応した、合成音声に対するポーズ修正情報を含むテキストデータを音声合成装置20経由で取得する機能部であり、ポーズ修正制御部15は、ポーズ修正情報取得部14により取得されたポーズ修正情報に基づいて、該当するドメインに関する該当の文構造のポーズルールをポーズ辞書21へ登録するとともに、音声合成装置20によって、ポーズ修正情報に基づきポーズを修正した音声を再作成させ出力させる機能部である。
The pause correction
第1の作成制御部16は、文構造判定部13により新規の文構造でないと判定された場合に、該当のドメインに関する該当の文構造のポーズルールおよびテキストデータを音声合成装置20に転送し、音声合成装置20によって、上記ポーズルールに応じたポーズが付された音声を作成させ出力させる機能部である。
The first
以上のような機能部を備えた音声合成調整装置10、および関連装置により実行される一連の処理は、後述する。
The series of processes executed by the voice
図2には、音声の利用シーンおよび用途の組合せにより定められるさまざまなドメインの例を示す。図2に示すように、利用シーンとしては、「介護」、「保育」、「ニュース読み上げ」などが例示され、同じ利用シーンでも複数の用途が挙げられ、利用シーンおよび用途の組合せそれぞれにつき、1つのドメインとされる。例えば、利用シーン「介護」については、用途として「健康的な70代向け」および「認知判断が遅い層向け」が例示され、利用シーン「介護」および用途「健康的な70代向け」について1つのドメイン(図3(a)におけるドメインA)とされ、また、利用シーン「介護」および用途「認知判断が遅い層向け」について1つのドメイン(図3(b)におけるドメインB)とされる。 Figure 2 shows examples of various domains determined by combinations of audio usage scenarios and applications. As shown in Figure 2, examples of usage scenarios include "nursing care," "childcare," and "news reading," and the same usage scenario can have multiple applications, with each combination of usage scenario and application being treated as one domain. For example, for the usage scenario "nursing care," examples of applications include "healthy people in their 70s" and "people with slow cognitive judgment," and the usage scenario "nursing care" and application "healthy people in their 70s" are treated as one domain (domain A in Figure 3(a)), and the usage scenario "nursing care" and application "people with slow cognitive judgment" are treated as one domain (domain B in Figure 3(b)).
図3(a)、(b)は、ポーズ辞書21に記憶されたさまざまなポーズルールを例示する。図3(a)に示すように、ポーズ辞書21には、利用シーン「介護」および用途「健康的な70代向け」のドメインAについての文構造ごとのポーズルールが文構造idに対応付けられて記憶されており、同様に、図3(b)に示すように、ポーズ辞書21には、利用シーン「介護」および用途「認知判断が遅い層向け」のドメインBについての文構造ごとのポーズルールが文構造idに対応付けられて記憶されている。同じ文構造において図3(a)、(b)を比較すれば明らかなように、用途「認知判断が遅い層向け」と「健康的な70代向け」の違いを考慮して、図3(b)のポーズルールは、図3(a)のポーズルールよりも、全般的に長いポーズが付されるルールとされている。例えば、文中の切れ目(例えばテキスト表記した場合に読点「、」が入る位置)、即ち、文構造id1の第4文節、文構造id2の第4文節、文構造id3の第3文節におけるポーズに着目すると、ドメインAについてのポーズルールでは、上記箇所は全て「中ポーズ」とされているのに対し、ドメインBについてのポーズルールでは、上記箇所は全て「大ポーズ」とされている。
3(a) and (b) show various examples of pause rules stored in the
以下、図4のフロー図を用いて、音声合成調整装置10および関連装置により実行される一連の処理を説明する。
Below, a series of processes executed by the voice
まず、音声合成調整装置10は、ドメイン設定部11により、ユーザから入力されたドメイン情報を制御装置30経由で受け取り、当該ドメイン情報に示されたドメインを設定する(ステップS1)。具体的には、ドメイン設定部11は、上記ドメイン情報に示されたドメインがポーズ辞書21における既存のドメインであればドメイン選択を行い、上記ドメイン情報に示されたドメインがポーズ辞書21に登録されていない新規のドメインであればドメイン登録を行う。
First, the voice
また、ユーザからの入力は、他の関連装置40による音声認識、自然言語処理などの処理が施されて、韻律情報を含むテキストデータに変換され、変換後のテキストデータは、制御装置30および音声合成装置20経由で音声合成調整装置10に出力される(ステップS2)。
In addition, the input from the user is subjected to processing such as speech recognition and natural language processing by other
音声合成調整装置10は、テキストデータ取得部12により、ステップS2で出力されたテキストデータを取得し(ステップS3)、文構造判定部13により、上記取得されたテキストデータの文構造を解析し(ステップS4)、解析により得られた文構造が、上記のポーズ辞書21における新規の文構造であるか否かを判定する(ステップS5)。
The voice
ここで、解析により得られた文構造が新規の文構造であると判定された場合(ステップS5でYES)、音声合成調整装置10は、ポーズ修正情報取得部14により、解析後のテキストデータ(韻律情報を含む)をそのまま音声合成装置20へ転送し、音声合成装置20経由で届くポーズ修正情報を待つ(ステップS6)。その後、音声合成装置20は、転送されたテキストデータに含まれた韻律情報(ここではポーズルール)に沿ってポーズが挿入された音声を作成し、作成された合成音声を制御装置30経由でユーザへ出力する(ステップS7)。出力された合成音声を聴いたユーザにより、修正音声が制御装置30に入力されると、他の関連装置40による音声認識、自然言語処理などの処理が修正音声に施されて、修正された韻律情報(ここでは修正されたポーズルール)を含むテキストデータに変換され、変換後のテキストデータ(修正されたポーズルールを含む)が、制御装置30および音声合成装置20経由で音声合成調整装置10に出力される(ステップS8)。
Here, if it is determined that the sentence structure obtained by the analysis is a new sentence structure (YES in step S5), the speech
音声合成調整装置10は、ポーズ修正情報取得部14により、上記変換後のテキストデータ(修正されたポーズルールを含む)を取得し、ポーズ修正制御部15により、上記変換後のテキストデータから得られる、該当するドメインに関する該当の文構造のポーズルール(修正されたポーズルール)をポーズ辞書21へ登録するとともに、音声合成装置20に対し、修正されたポーズルールに基づきポーズを修正し、修正後のポーズが付された合成音声を再作成して出力するように指示する(ステップS9)。ステップS9における指示を受けた音声合成装置20は、修正されたポーズルールに基づきポーズを修正し、修正後のポーズが付された合成音声を再作成して、制御装置30経由でユーザへ出力する(ステップS10)。これにより、ユーザは、修正されたポーズルールに基づき修正された音声を聴くことができる。
The voice
なお、音声合成装置20は、ステップS7で合成音声を制御装置30経由でユーザへ出力した後、予め定められた時間内に、変換後のテキストデータ(修正されたポーズルールを含む)を制御装置30から受信しない場合は、ステップS7で出力した音声に対し、ポーズ修正が無いものと見做し、その旨を音声合成調整装置10へ通知する(図4におけるS7からS9への破線部分)。この場合、音声合成調整装置10は、ステップS9において、ポーズ修正制御部15により、解析により得られた新規の文構造については、ステップS3で取得されたテキストデータに含まれたポーズルールを、該当するドメインに関する該当の文構造のポーズルールとしてポーズ辞書21へ登録する。この場合は、ステップS10の音声再作成・出力の処理は不要となる。
If the
一方、ステップS5で、解析により得られた文構造が新規の文構造でないと判定された場合(ステップS5でNO)、音声合成調整装置10は、第1の作成制御部16により、該当のドメインに関する該当の文構造のポーズルールおよび解析後のテキストデータを音声合成装置20に転送し、音声合成装置20に対し、上記ポーズルールに沿ったポーズが付された合成音声を再作成して出力するように指示する(ステップS11)。ステップS11における指示を受けた音声合成装置20は、上記ポーズルールに沿ったポーズが付された合成音声を再作成して、制御装置30経由でユーザへ出力する(ステップS12)。これにより、ユーザは、ポーズ辞書21に登録されたポーズルールに基づく適切なポーズが付された音声を聴くことができる。
On the other hand, if it is determined in step S5 that the sentence structure obtained by analysis is not a new sentence structure (NO in step S5), the voice
以上説明した第1実施形態によれば、上記のように、取得されたテキストデータから得られた文構造が新規である、即ち、設定されたドメインについての当該文構造のポーズ情報がポーズ辞書21における新規の情報である場合に、修正音声から取得されたポーズ修正情報に基づき修正された、該当するドメインについてのポーズ情報を、ポーズ辞書21へ登録することで、次回以降、取得されたテキストデータから同じ文構造の入力が得られたときに従来の処理を一部自動化・簡易化できる。これにより、専門的な知識を要さずとも、音声合成における調整作業に要する時間を短縮しつつ、より適切なポーズ情報に基づいて音声合成の調整を行うことができる。また、ユーザは、修正音声に基づきポーズが適切に修正された音声を聴くことができる。
According to the first embodiment described above, when the sentence structure obtained from the acquired text data is new, that is, when the pause information of the sentence structure for the set domain is new information in the
また、取得されたテキストデータから得られた文構造が新規でない場合は、第1の作成制御部16によって、該当のドメインに関する該当の文構造のポーズルールおよびテキストデータを音声合成装置20に転送し、音声合成装置20によって、上記ポーズルールに応じたポーズが付された音声を作成させ出力させる。そのため、ユーザは、ポーズ辞書21に登録されたポーズルールに基づく適切なポーズが付された音声を聴くことができる。
In addition, if the sentence structure obtained from the acquired text data is not new, the first
[第2実施形態]
次に、第2実施形態として、設定されたドメイン(音声の利用シーンおよび用途)に応じた、入力テキスト中の単語のアクセントに関するルール(以下「アクセント型」という)を新規登録又は選択し、当該アクセント型に基づいて音声合成の調整を行う実施形態を説明する。
[Second embodiment]
Next, as a second embodiment, we will explain an embodiment in which rules regarding the accent of words in the input text (hereinafter referred to as "accent type") according to a set domain (speech usage scene and purpose) are newly registered or selected, and speech synthesis is adjusted based on the accent type.
図5は、第2実施形態における音声合成調整装置10および関連装置の構成例を示しており、関連装置としては、音声合成装置20と制御装置30と他の関連装置40が挙げられる。このうち制御装置30および他の関連装置40については、第1実施形態と同様の機能を有するため、重複した説明は省略する。
Figure 5 shows an example of the configuration of the voice
音声合成装置20は、後述する音声合成調整装置10による調整を受けながら、音声テキストに対し適切な韻律情報に基づく音声合成処理(例えば、第2実施形態では適切なアクセント型に応じた単語アクセントが付された合成音声を作成する処理)を行う機能を有し、さまざまなドメインについての単語ごとのアクセント型を記憶したアクセント辞書22を内蔵している。
The
音声合成調整装置10は、上記の音声合成装置20による音声合成処理において、より適切な韻律情報(例えば、第2実施形態ではアクセント型)が用いられるように調整(チューニング)を行う機能を有する。
The voice
音声合成調整装置10は、上記の機能を実現するために、ドメイン設定部11、テキストデータ取得部12、単語判定部13S、アクセント修正情報取得部14S、アクセント修正制御部15S、および、第2の作成制御部16Sを含む。このうち、ドメイン設定部11およびテキストデータ取得部12については、第1実施形態と同様の機能を有するため、重複した説明は省略する。
To realize the above functions, the voice
単語判定部13Sは、テキストデータ取得部12により取得されたテキストデータがアクセント辞書22における新規の単語を含むか否かを判定する機能部である。
The
アクセント修正情報取得部14Sは、単語判定部13Sにより新規の単語を含むと判定された場合に、テキストデータ取得部12により取得されたテキストデータをそのまま音声合成装置20へ転送し、その後、ユーザからの修正音声(ここでは、アクセント型を修正すべき修正単語の音声を含んだ音声)に対応した、合成音声に対するアクセント修正情報を含むテキストデータを、音声合成装置20経由で取得する機能部であり、アクセント修正制御部15Sは、アクセント修正情報取得部14Sにより取得されたアクセント修正情報に基づいて、該当するドメインに関する該当の単語のアクセント型をアクセント辞書22へ登録するとともに、音声合成装置20によって、アクセント修正情報に基づき単語のアクセントを修正した音声を再作成させ出力させる機能部である。
The accent correction
第2の作成制御部16Sは、単語判定部13Sにより新規の単語を含まないと判定された場合に、該当のドメインに関する該当の単語のアクセント型およびテキストデータを音声合成装置20に転送し、音声合成装置20によって、上記単語のアクセント型に応じたアクセントが付された音声を作成させ出力させる機能部である。
The second
図6には、アクセント辞書22に記憶された、第2実施形態におけるさまざまなドメインについての単語ごとのアクセント型が例示されている。なお、ドメインは、図2を用いて説明したように、「利用シーン」と「用途」の組合せに相当するが、図6では、説明を分かりやすくするために、ドメインを「標準語向け」、「ビジネスの場向け」、「年配の方向け」など簡易な表現で例示している。
Figure 6 illustrates examples of accent types for each word for various domains in the second embodiment, stored in the
図6から分かるように、例えば、単語「ほうれん草」では、ドメインA(標準語向け)については「れ」の位置がアクセント核(即ち、アクセントが置かれる位置)となるのに対し、ドメインB(関西弁向け)についてはアクセント核が存在しない。また、単語「まじ?」では、ドメインA(標準語向け)については「ま」の位置がアクセント核となるのに対し、ドメインB(関西弁向け)については「じ」の位置がアクセント核となる。このように同じ単語であっても、ドメインが異なれば、異なる位置がアクセント核となるような異なるアクセント型が設定される。 As can be seen from Figure 6, for example, in the word "horensa" (spinach), in domain A (standard Japanese), the position of the accent nucleus (i.e., the position where the accent is placed) is "re," whereas in domain B (Kansai dialect), there is no accent nucleus. Also, in the word "maji?" (real?), in domain A (standard Japanese), the accent nucleus is "ma," whereas in domain B (Kansai dialect), the accent nucleus is "ji." In this way, even for the same word, different accent types are set depending on the domain, with the accent nucleus being in a different position.
以下、図7のフロー図を用いて、音声合成調整装置10および関連装置により実行される一連の処理を説明する。
Below, a series of processes executed by the voice
ステップS1~S3では、第1実施形態と同様に、ユーザからのドメイン情報に示されたドメインの設定、ユーザからの入力データのテキスト変換・出力、および、変換後の音声テキストデータの取得が行われる。 In steps S1 to S3, similar to the first embodiment, the domain indicated in the domain information from the user is set, the input data from the user is converted into text and output, and the converted voice text data is obtained.
その後、音声合成調整装置10は、単語判定部13Sにより、テキストデータ取得部12により取得されたテキストデータがアクセント辞書22における新規の単語を含むか否かを判定する(ステップS21)。
Then, the voice
ここで、テキストデータがアクセント辞書22における新規の単語を含むと判定された場合(ステップS21でYES)、音声合成調整装置10は、アクセント修正情報取得部14Sにより、テキストデータ(韻律情報を含む)をそのまま音声合成装置20へ転送し、音声合成装置20経由で届く修正音声(アクセント修正単語の音声を含んだ音声)を待つ(ステップS22)。その後、音声合成装置20は、転送されたテキストデータに含まれた韻律情報(ここではアクセント型)に沿って単語アクセントが付された音声を作成し、作成された合成音声を制御装置30経由でユーザへ出力する(ステップS23)。出力された合成音声を聴いたユーザにより、修正音声が制御装置30に入力され、音声合成装置20経由で音声合成調整装置10に転送されると、音声合成調整装置10は、アクセント修正情報取得部14Sにより、修正音声から音声分析によって基本周波数(声の高さ)を抽出する(ステップS24)。つまり、図8に示すように、修正音声における時間軸に沿った周波数の変化を検出し、基本周波数(声の高さ)がどのように変化したかを把握する。そして、基本周波数(声の高さ)が高い位置が単語のアクセント核として検出される。
Here, if it is determined that the text data contains a new word in the accent dictionary 22 (YES in step S21), the speech
そして、音声合成調整装置10は、アクセント修正制御部15Sにより、上記ステップS24の処理結果から、単語のアクセント核の位置に応じた、修正された単語アクセント型を推定し、推定結果を該当のドメインに関する該当の単語のアクセント型としてアクセント辞書22へ登録するとともに、音声合成装置20に対し、アクセント修正情報(ここでは、推定で得られた修正された単語アクセント型の情報)に基づき単語のアクセントを修正し、修正後のアクセントが付された合成音声を再作成して出力するように指示する(ステップS25)。ステップS25における指示を受けた音声合成装置20は、アクセント修正情報に基づき単語のアクセントを修正し、修正後のアクセントが付された合成音声を再作成して、制御装置30経由でユーザへ出力する(ステップS26)。これにより、ユーザは、アクセント修正情報に基づき修正された音声を聴くことができる。
Then, the speech
なお、音声合成調整装置10は、ステップS22でテキストデータを音声合成装置20へ転送した後、予め定められた時間内に、ユーザからの修正音声を受信しない場合は、アクセントに関する修正が無いものと見做し、ステップS24、S25の実行を回避して処理を終了する。即ち、アクセントに関する修正が有った場合のみ、ステップS25のアクセント辞書22への登録が実行される。
If the voice
一方、ステップS21で、テキストデータがアクセント辞書22における新規の単語を含まないと判定された場合(ステップS21でNO)、音声合成調整装置10は、第2の作成制御部16Sにより、該当のドメインに関する該当の単語のアクセント型およびテキストデータを音声合成装置20に転送し、音声合成装置20に対し、上記アクセント型に沿ったアクセントが付された合成音声を再作成して出力するように指示する(ステップS27)。ステップS27における指示を受けた音声合成装置20は、上記アクセント型に沿ったアクセントが付された合成音声を再作成して、制御装置30経由でユーザへ出力する(ステップS28)。これにより、ユーザは、アクセント辞書22に登録されたアクセント型に基づく適切なアクセントが付された音声を聴くことができる。
On the other hand, if it is determined in step S21 that the text data does not include a new word in the accent dictionary 22 (NO in step S21), the voice
以上説明した第2実施形態によれば、上記のように、取得されたテキストデータから得られた単語が新規である、即ち、設定されたドメインについての当該単語のアクセント型がアクセント辞書22における新規の情報である場合に、修正音声から取得された単語のアクセント修正情報に基づいて、該当するドメインについての単語のアクセント型をアクセント辞書22へ登録することで、次回以降、取得されたテキストデータから同じ単語のアクセント型が得られたときに従来の処理を一部自動化・簡易化できる。これにより、専門的な知識を要さずとも、音声合成における調整作業に要する時間を短縮しつつ、より適切なアクセント修正情報に基づいて音声合成の調整を行うことができる。また、ユーザは、修正音声に基づき単語のアクセントが適切に修正された音声を聴くことができる。
According to the second embodiment described above, when a word obtained from the acquired text data is new, that is, when the accent type of the word for the set domain is new information in the
また、取得されたテキストデータから得られた単語が新規でない場合は、第2の作成制御部16Sによって、該当のドメインに関する該当の単語のアクセント型およびテキストデータを音声合成装置20に転送し、音声合成装置20によって、上記アクセント型に応じたアクセントが付された音声を作成させ出力させる。そのため、ユーザは、アクセント辞書22に登録された適切な単語のアクセント型に基づくアクセントが付された音声を聴くことができる。
In addition, if the word obtained from the acquired text data is not new, the second
なお、音声合成調整装置10は、第1実施形態で説明したポーズの修正機能と、第2実施形態で説明したアクセントの修正機能の両方を兼ね備えてもよい。
The voice
また、第1実施形態における図4の処理に関する変形例として、第1段階(学習段階)として、さまざまなドメインについてのさまざまな文構造のポーズルールをポーズ辞書へ登録する処理を多数回繰り返し行うことで、学習済みのポーズ辞書を作成し、その後、第2段階(ルール適用段階)として、学習済みのポーズ辞書に個別ケースを適用することで、個別ケースのポーズに関する音声合成調整を行う実施形態、即ち、時期的に大別される2つの段階で処理を行う実施形態を採用してもよい。 As a modified example of the process of FIG. 4 in the first embodiment, in the first stage (learning stage), a learned pause dictionary is created by repeatedly registering pause rules for various sentence structures for various domains in a pause dictionary, and then in the second stage (rule application stage), individual cases are applied to the learned pause dictionary to adjust the speech synthesis for the pauses of the individual cases, i.e., an embodiment in which the process is performed in two stages roughly divided in terms of time may be adopted.
同様に、第2実施形態における図7の処理に関する変形例として、第1段階(学習段階)として、さまざまなドメインについてのさまざまな単語のアクセント型をアクセント辞書へ登録する処理を多数回繰り返し行うことで、学習済みのアクセント辞書を作成し、その後、第2段階(ルール適用段階)として、学習済みのアクセント辞書に個別ケースを適用することで、個別ケースのアクセントに関する音声合成調整を行う実施形態、即ち、時期的に大別される2つの段階で処理を行う実施形態を採用してもよい。 Similarly, as a variation of the process of FIG. 7 in the second embodiment, in the first stage (learning stage), a learned accent dictionary is created by repeatedly registering accent types of various words for various domains in an accent dictionary many times, and then in the second stage (rule application stage), individual cases are applied to the learned accent dictionary to adjust the speech synthesis for the accent of each individual case, i.e., an embodiment in which the process is performed in two stages roughly divided in terms of time may be adopted.
[用語、変形態様などについて]
なお、上記の実施形態の説明に用いられたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェアおよびソフトウェアの少なくとも一方の任意の組み合わせによって実現される。各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的または論理的に結合した1つの装置を用いて実現されてもよいし、物理的または論理的に分離した2つ以上の装置を直接的または間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置または上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
[Terminology, variations, etc.]
The block diagrams used in the description of the above embodiments show functional blocks. These functional blocks (components) are realized by any combination of at least one of hardware and software. The method of realizing each functional block is not particularly limited. That is, each functional block may be realized using one device that is physically or logically coupled, or may be realized using two or more devices that are physically or logically separated and directly or indirectly connected (for example, using wires, wirelessly, etc.). The functional block may be realized by combining the one device or the multiple devices with software.
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、および割り振り(assigning)などがあるが、これらの機能に限られない。例えば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)または送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。 Functions include, but are not limited to, judgement, determination, judgment, calculation, computation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, resolution, selection, selection, establishment, comparison, assumption, expectation, regard, broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, and assignment. For example, a functional block (component) that performs the transmission function is called a transmitting unit or transmitter. As mentioned above, there are no particular limitations on the method of realization for either of these functions.
例えば、本開示の第1、第2実施形態における音声合成調整装置10は、本開示の処理を行うコンピュータとして機能してもよい。図9に示されるように、上述の音声合成調整装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、およびバス1007などを含むコンピュータ装置として構成されてもよい。この点は、音声合成調整装置10以外の装置についても同様であるが、ここでは、音声合成調整装置10の構成例として説明する。
For example, the voice
なお、以下の説明では、「装置」という文言は、回路、デバイス、およびユニットなどに読み替えることができる。音声合成調整装置10のハードウェア構成は、図に示された各装置を1つまたは複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
In the following description, the term "apparatus" may be interpreted as a circuit, device, unit, etc. The hardware configuration of the voice
音声合成調整装置10における各機能は、プロセッサ1001およびメモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002およびストレージ1003におけるデータの読み出しおよび書き込みの少なくとも一方を制御したりすることによって実現される。
The functions of the voice
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、およびレジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述の音声合成調整装置10の各機能は、プロセッサ1001によって実現されてもよい。
The
プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、およびデータなどを、ストレージ1003および通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施形態において説明された動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声合成調整装置10の各機能は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時または逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。
The
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、およびRAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、またはメインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施形態に係る情報提供方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、および磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002およびストレージ1003の少なくとも一方を含むデータベース、サーバ、その他の適切な媒体であってもよい。
通信装置1004は、有線ネットワークおよび無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、または通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)および時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。
The
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005および出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
The
プロセッサ1001およびメモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
Each device, such as the
音声合成調整装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部または全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
The voice
情報の通知は、本開示において説明された態様/実施形態に限られず、他の方法を用いて行われてもよい。 Notification of information is not limited to the aspects/embodiments described in this disclosure and may be performed using other methods.
本開示において説明された各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明された方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示された特定の順序に限定されない。 The processing steps, sequences, flow charts, etc. of each aspect/embodiment described in this disclosure may be reordered unless inconsistent. For example, the methods described in this disclosure present elements of various steps using an example order and are not limited to the particular order presented.
情報等は、上位レイヤから下位レイヤへ、または下位レイヤから上位レイヤへ出力され得る。情報等は、複数のネットワークノードを介して入出力されてもよい。 Information, etc. may be output from a higher layer to a lower layer, or from a lower layer to a higher layer. Information, etc. may be input/output via multiple network nodes.
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理されてもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input and output information may be stored in a specific location (e.g., memory) or may be managed using a management table. The input and output information may be overwritten, updated, or added to. The output information may be deleted. The input information may be transmitted to another device.
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be based on a value represented by one bit (0 or 1), a Boolean (true or false) value, or a numerical comparison (e.g., with a predetermined value).
本開示において説明された各態様/実施形態は単独で用いられてもよいし、組み合わせて用いられてもよいし、実行に伴って切り替えて用いられてもよい。所定の情報の通知(例えば、「Xであること」の通知)は、明示的な通知に限られず、暗黙的に(例えば、当該所定の情報の通知を行わないことによって)行われてもよい。 Each aspect/embodiment described in this disclosure may be used alone, in combination, or switched according to execution. Notification of specific information (e.g., notification that "X is the case") is not limited to explicit notification, but may be performed implicitly (e.g., by not notifying the specific information).
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明された実施形態に限定されないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨および範囲を逸脱することなく修正および変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とし、本開示に対して何ら制限的な意味を有しない。 Although the present disclosure has been described in detail above, it is clear to those skilled in the art that the present disclosure is not limited to the embodiments described herein. The present disclosure can be implemented in modified and altered forms without departing from the spirit and scope of the present disclosure as defined by the claims. Therefore, the description of the present disclosure is intended as an illustrative example and does not have any limiting meaning on the present disclosure.
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software shall be construed broadly to mean instructions, instruction sets, code, code segments, program code, programs, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executable files, threads of execution, procedures, functions, etc., whether referred to as software, firmware, middleware, microcode, hardware description language, or otherwise.
ソフトウェア、命令、および情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)および無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、これらの有線技術および無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。 Software, instructions, information, and the like may be transmitted and received via a transmission medium. For example, if the software is transmitted from a website, server, or other remote source using wired technologies (such as coaxial cable, fiber optic cable, twisted pair, Digital Subscriber Line (DSL)), and/or wireless technologies (such as infrared, microwave), these wired and/or wireless technologies are included within the definition of a transmission medium.
本開示において説明された情報、および信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、およびチップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、またはこれらの任意の組み合わせによって表されてもよい。 The information, signals, and the like described in this disclosure may be represented using any of a variety of different technologies. For example, the data, instructions, commands, information, signals, bits, symbols, chips, and the like that may be referred to throughout the above description may be represented by voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, optical fields or photons, or any combination thereof.
なお、本開示において説明された用語および本開示の理解に必要な用語については、同一のまたは類似する意味を有する用語と置き換えられてもよい。 Note that terms explained in this disclosure and terms necessary for understanding this disclosure may be replaced with terms having the same or similar meanings.
本開示において使用される「システム」および「ネットワーク」という用語は、互換的に使用される。 As used in this disclosure, the terms "system" and "network" are used interchangeably.
本開示において説明された情報、およびパラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。 The information, parameters, etc. described in this disclosure may be expressed using absolute values, may be expressed using relative values from a predetermined value, or may be expressed using other corresponding information.
上述したパラメータに使用される名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示した数式等と異なる場合もある。 The names used for the parameters described above are not limiting in any way. Furthermore, the formulas etc. using these parameters may differ from the formulas etc. explicitly disclosed in this disclosure.
本開示で使用される「判断(determining)」、および「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、または「みなす(considering)」などで読み替えられてもよい。 The terms "determining" and "determining" as used in this disclosure may encompass a wide variety of actions. "Determining" may include, for example, judging, calculating, computing, processing, deriving, investigating, looking up, searching, inquiring (e.g., searching in a table, database, or other data structure), ascertaining, and the like. "Determining" may include receiving (e.g., receiving information), transmitting (e.g., sending information), input, output, accessing (e.g., accessing data in a memory), and the like. "Determining" may include resolving, selecting, choosing, establishing, comparing, and the like. In other words, "judgment" and "decision" can include regarding some action as having been "judged" or "decided." "Judgment" ("decision") can also be interpreted as "assuming," "expecting," or "considering," etc.
「接続された(connected)」、「結合された(coupled)」という用語、またはこれらのあらゆる変形は、2またはそれ以上の要素間の直接的または間接的なあらゆる接続または結合を意味し、互いに「接続」または「結合」された2つの要素間に1またはそれ以上の中間要素が存在することを含むことができる。要素間の結合または接続は、物理的に行われてもよく、論理的に行われてもよく、或いはこれらの組み合わせで実現されてもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用される場合、2つの要素は、1またはそれ以上の電線、ケーブルおよびプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域および光(可視および不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」または「結合」されると考えることができる。 The terms "connected" and "coupled", or any variation thereof, refer to any direct or indirect connection or coupling between two or more elements, and may include the presence of one or more intermediate elements between two elements that are "connected" or "coupled" to each other. The coupling or connection between elements may be physical, logical, or a combination thereof. For example, "connected" may be read as "access". As used in this disclosure, two elements may be considered to be "connected" or "coupled" to each other using at least one of one or more wires, cables, and printed electrical connections, as well as electromagnetic energy having wavelengths in the radio frequency range, microwave range, and optical (both visible and invisible) range, as some non-limiting and non-exhaustive examples.
本開示において使用される「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 As used in this disclosure, the phrase "based on" does not mean "based only on," unless expressly stated otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."
本開示において使用される「第1の」、および「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量または順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみが採用され得ること、および何らかの形で第1の要素が第2の要素に先行しなければならないことのいずれも意味しない。 Any reference to elements using designations such as "first" and "second" used in this disclosure does not generally limit the quantity or order of those elements. These designations may be used in this disclosure as a convenient way to distinguish between two or more elements. Thus, a reference to a first and a second element does not imply either that only two elements may be employed or that the first element must precede the second element in some way.
上記の各装置の構成における「部」は、「回路」、または「デバイス」等に置き換えられてもよい。 The "part" in the configuration of each of the above devices may be replaced with a "circuit" or a "device", etc.
本開示において、「含む(include)」、「含んでいる(including)」およびそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 When the terms "include," "including," and variations thereof are used in this disclosure, these terms are intended to be inclusive, similar to the term "comprising." Additionally, the term "or," as used in this disclosure, is not intended to be an exclusive or.
本開示において、例えば、英語での「a」,「an」および「the」のように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。 In this disclosure, where articles have been added by translation, such as "a," "an," and "the" in English, this disclosure may include that the nouns following these articles are plural.
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、および「結合される」などの用語も、「異なる」と同様に解釈されてもよい。 In this disclosure, the term "A and B are different" may mean "A and B are different from each other." The term may also mean "A and B are each different from C." Terms such as "separate" and "combined" may also be interpreted in the same way as "different."
10…音声合成調整装置、11…ドメイン設定部、12…テキストデータ取得部、13…文構造判定部、13S…単語判定部、14…ポーズ修正情報取得部、14S…アクセント修正情報取得部、15…ポーズ修正制御部、15S…アクセント修正制御部、16…第1作成制御部、16S…第2作成制御部、20…音声合成装置、21…ポーズ辞書、22…アクセント辞書、30…制御装置、40…他の関連装置、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。 10... speech synthesis adjustment device, 11... domain setting unit, 12... text data acquisition unit, 13... sentence structure determination unit, 13S... word determination unit, 14... pause correction information acquisition unit, 14S... accent correction information acquisition unit, 15... pause correction control unit, 15S... accent correction control unit, 16... first creation control unit, 16S... second creation control unit, 20... speech synthesis device, 21... pause dictionary, 22... accent dictionary, 30... control device, 40... other related devices, 1001... processor, 1002... memory, 1003... storage, 1004... communication device, 1005... input device, 1006... output device, 1007... bus.
Claims (5)
外部からのドメイン情報に基づいて前記ドメインを設定するドメイン設定部と、
外部からの入力データに対応した、韻律情報を含むテキストデータを取得するテキストデータ取得部と、
前記テキストデータ取得部により取得された前記テキストデータから得られる韻律情報が、ドメインごとの韻律情報を予め記憶した韻律情報辞書に記憶されていない新規の韻律情報であるか否かを判定する判定部と、
前記判定部により新規の韻律情報と判定された場合、前記テキストデータ取得部により取得された前記テキストデータを前記音声合成装置へ転送し、前記音声合成装置により出力される合成音声についての韻律情報の修正情報を取得する修正情報取得部と、
前記修正情報取得部により取得された韻律情報の修正情報に基づいて、該当するドメインに関する前記新規の韻律情報を前記韻律情報辞書へ登録するとともに、前記音声合成装置により前記韻律情報の修正情報に基づき修正した音声を再作成させ出力させる修正制御部と、
を備え、
前記判定部は、前記テキストデータ取得部により取得された前記テキストデータの文構造を解析し、解析により得られた文構造が、文構造に応じたポーズルールを前記ドメインごとに予め記憶したポーズ辞書における新規の文構造であるか否かを判定する文構造判定部、を含み、
前記修正情報取得部は、前記文構造判定部により新規の文構造と判定された場合、前記文構造判定部による解析後のテキストデータを前記音声合成装置へ転送し、前記音声合成装置により出力される合成音声に対するポーズ修正情報を取得するポーズ修正情報取得部、を含み、
前記修正制御部は、前記ポーズ修正情報取得部により取得されたポーズ修正情報に基づいて、該当するドメインに関する該当の文構造のポーズルールを前記ポーズ辞書へ登録するとともに、前記音声合成装置により、前記ポーズ修正情報に基づきポーズを修正した音声を再作成させ出力させるポーズ修正制御部、を含む、
音声合成調整装置。 A voice synthesis adjustment device that creates and outputs a voice according to a domain determined by a usage scene and a purpose of the voice by a voice synthesis device,
a domain setting unit that sets the domain based on domain information from an external source;
a text data acquisition unit for acquiring text data including prosodic information corresponding to input data from an external source;
a determination unit that determines whether or not the prosodic information obtained from the text data acquired by the text data acquisition unit is new prosodic information that is not stored in a prosodic information dictionary that stores prosodic information for each domain in advance;
a correction information acquisition unit that transfers the text data acquired by the text data acquisition unit to the speech synthesizer when the prosodic information is determined to be new by the determination unit, and acquires correction information for the prosodic information for the synthetic speech output by the speech synthesizer;
a modification control unit that registers the new prosodic information for a corresponding domain in the prosodic information dictionary based on the modification information for the prosodic information acquired by the modification information acquisition unit, and causes the speech synthesis device to regenerate and output a speech modified based on the modification information for the prosodic information;
Equipped with
the determination unit includes a sentence structure determination unit that analyzes a sentence structure of the text data acquired by the text data acquisition unit, and determines whether or not the sentence structure obtained by the analysis is a new sentence structure in a pause dictionary that stores pause rules corresponding to the sentence structure in advance for each domain;
the correction information acquisition unit includes a pause correction information acquisition unit that, when the sentence structure determination unit determines that the sentence structure is a new sentence structure, transfers text data analyzed by the sentence structure determination unit to the speech synthesizer and acquires pause correction information for the synthetic speech output by the speech synthesizer;
the correction control unit includes a pause correction control unit that registers a pause rule of a corresponding sentence structure related to a corresponding domain in the pause dictionary based on the pause correction information acquired by the pause correction information acquisition unit, and causes the speech synthesis device to recreate and output a speech in which a pause is corrected based on the pause correction information;
Speech synthesis adjustment device.
をさらに備える請求項1に記載の音声合成調整装置。 a creation control unit that transfers the prosodic information related to the corresponding domain and the text data to the speech synthesizer when the determination unit determines that the prosodic information is not new, and causes the speech synthesizer to create and output a speech to which prosody corresponding to the prosodic information has been added;
The voice synthesis adjustment device of claim 1 further comprising:
をさらに含む請求項1に記載の音声合成調整装置。 a first creation control unit that, when it is determined by the sentence structure determination unit that the sentence structure is not a new sentence structure, transfers a pause rule of the sentence structure for the corresponding domain and the text data to the speech synthesizer, and causes the speech synthesizer to create and output a speech to which pauses are added in accordance with the pause rule;
The voice synthesis adjustment device of claim 1 further comprising:
前記修正情報取得部は、前記単語判定部により新規の単語を含むと判定された場合、前記テキストデータ取得部により取得された前記テキストデータを前記音声合成装置へ転送し、前記音声合成装置により出力される合成音声についてのアクセント修正情報を取得するアクセント修正情報取得部、を含み、
前記修正制御部は、前記アクセント修正情報取得部により取得されたアクセント修正情報に基づいて、該当するドメインに関する該当の単語のアクセント型を前記アクセント辞書へ登録するとともに、前記音声合成装置により前記アクセント修正情報に基づき前記単語のアクセントを修正した音声を再作成させ出力させるアクセント修正制御部、を含む、
請求項1に記載の音声合成調整装置。 the determination unit includes a word determination unit that determines whether the text data acquired by the text data acquisition unit includes a new word in an accent dictionary that stores in advance accent types of words for each of the domains;
the correction information acquisition unit includes an accent correction information acquisition unit that, when it is determined by the word determination unit that the text data includes a new word, transfers the text data acquired by the text data acquisition unit to the speech synthesis device and acquires accent correction information for the synthetic speech output by the speech synthesis device;
The correction control unit includes an accent correction control unit that registers the accent type of the corresponding word related to the corresponding domain in the accent dictionary based on the accent correction information acquired by the accent correction information acquisition unit, and causes the speech synthesis device to recreate and output a speech in which the accent of the word is corrected based on the accent correction information.
2. The voice synthesis adjustment device according to claim 1.
をさらに含む請求項4に記載の音声合成調整装置。 a second creation control unit that transfers the accent type of the word in question and the text data for the domain to the speech synthesizer when the word determination unit determines that the word does not contain a new word, and causes the speech synthesizer to create and output a voice with an accent according to the accent type of the word;
The voice synthesis adjustment device of claim 4 further comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021011012A JP7601649B2 (en) | 2021-01-27 | 2021-01-27 | Voice synthesis adjustment device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021011012A JP7601649B2 (en) | 2021-01-27 | 2021-01-27 | Voice synthesis adjustment device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022114640A JP2022114640A (en) | 2022-08-08 |
| JP7601649B2 true JP7601649B2 (en) | 2024-12-17 |
Family
ID=82747183
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021011012A Active JP7601649B2 (en) | 2021-01-27 | 2021-01-27 | Voice synthesis adjustment device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7601649B2 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002229585A (en) | 2001-01-31 | 2002-08-16 | Mitsubishi Electric Corp | Speech recognition sentence input device |
| JP2005345699A (en) | 2004-06-02 | 2005-12-15 | Toshiba Corp | Voice editing apparatus, voice editing method, and voice editing program |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0679230B2 (en) * | 1987-03-05 | 1994-10-05 | シャープ株式会社 | Japanese sentence / speech converter |
| JP3330719B2 (en) * | 1994-03-03 | 2002-09-30 | 沖電気工業株式会社 | Text-to-speech conversion system |
| JPH0962286A (en) * | 1995-08-22 | 1997-03-07 | Sony Corp | Speech synthesizer and speech synthesis method |
-
2021
- 2021-01-27 JP JP2021011012A patent/JP7601649B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002229585A (en) | 2001-01-31 | 2002-08-16 | Mitsubishi Electric Corp | Speech recognition sentence input device |
| JP2005345699A (en) | 2004-06-02 | 2005-12-15 | Toshiba Corp | Voice editing apparatus, voice editing method, and voice editing program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022114640A (en) | 2022-08-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20210312919A1 (en) | Conversation device | |
| JP7724205B2 (en) | splitting device | |
| US12248758B2 (en) | Generation device and normalization model | |
| JP7601649B2 (en) | Voice synthesis adjustment device | |
| JP7229347B2 (en) | internal state changer | |
| US20230401384A1 (en) | Translation device | |
| JP7682862B2 (en) | Punctuation deletion model learning device, punctuation deletion model and determination device | |
| JP7326596B2 (en) | Voice data creation device | |
| WO2020070943A1 (en) | Pattern recognition device and learned model | |
| JP6911191B2 (en) | Function execution instruction system | |
| US20210142007A1 (en) | Entity identification system | |
| JPWO2018079379A1 (en) | Communication terminal device, program and information processing method | |
| US20210034824A1 (en) | Machine translation control device | |
| JP7691411B2 (en) | Translation text calculation device | |
| JP7575894B2 (en) | Compositional text evaluation device | |
| JP7608603B2 (en) | Voice Recognition Device | |
| US11862167B2 (en) | Voice dialogue system, model generation device, barge-in speech determination model, and voice dialogue program | |
| JP7789084B2 (en) | String output device | |
| JP7805309B2 (en) | Sentence generation model generating device, sentence generation model and sentence generation device | |
| JP2018025613A (en) | Musical instrument sound recognition device | |
| JP7547077B2 (en) | Text translation device and translation model | |
| JP7809817B2 (en) | Delimiter insertion device and speech recognition system | |
| JP7696296B2 (en) | Translation device | |
| WO2024203390A1 (en) | Voice recognition error correction device | |
| WO2019235100A1 (en) | Interactive device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230815 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240628 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240709 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240827 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241112 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241205 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7601649 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |