JP6440967B2 - End-of-sentence estimation apparatus, method and program thereof - Google Patents
End-of-sentence estimation apparatus, method and program thereof Download PDFInfo
- Publication number
- JP6440967B2 JP6440967B2 JP2014105124A JP2014105124A JP6440967B2 JP 6440967 B2 JP6440967 B2 JP 6440967B2 JP 2014105124 A JP2014105124 A JP 2014105124A JP 2014105124 A JP2014105124 A JP 2014105124A JP 6440967 B2 JP6440967 B2 JP 6440967B2
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- speaker
- sentence
- ending symbol
- dialog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
この発明は、音声認識結果に意味情報を持たせるための文末記号を推定するための技術に関する。 The present invention relates to a technique for estimating a sentence end symbol for giving semantic information to a speech recognition result.
音声認識技術を応用し、ある会議の参加者の発話ごとに発話メモを自動作成したいという需要が存在する。音声認識により作成した発話メモは、会議中における個々の発話内容の振り返りを可能とし、議論を円滑化させる。また、会議後における会議の振り返りの容易化や議事録作成の手間の削減という利点も持つ。 There is a demand for applying speech recognition technology to automatically create an utterance memo for each utterance of a conference participant. The utterance memo created by voice recognition enables the reflection of individual utterance contents during the conference and facilitates discussion. It also has the advantage of facilitating reviewing the meeting after the meeting and reducing the time and effort of creating the minutes.
発話メモの自動作成を実現するためには、音声認識による音韻情報のみのテキスト化では不十分である。その理由の一つに、音韻情報のみではどこが文章の区切りかを判断できない点が挙げられる。その結果、文章の可読性の低下による議事録の作成時間の増加、意味の取り違えによる意味誤りを含む議事録の作成などの不利益が発生する。 In order to realize automatic creation of an utterance memo, it is not sufficient to make text only phonemic information by speech recognition. One of the reasons is that it is not possible to determine where the sentence breaks based on phonological information alone. As a result, there are disadvantages such as an increase in the time for creating the minutes due to a decrease in the readability of the text, and the creation of the minutes including a meaning error due to a misunderstanding.
このため、音声認識結果に句読点を自動付与する技術が非特許文献1において開示されている。非特許文献1における句読点自動付与技術の処理の流れを図13に示す。該当技術では、音声認識結果を形態素解析することで得られる単語・品詞・文節境界・係り受け情報と発話と発話の間の時間情報を利用し、条件付き確率場と呼ばれる機械学習の一手法を用いて句読点を付与すべき位置を推定している。その後、音声認識結果のうち、先ほどの処理から推定した句読点付与位置に句読点の付与を行っている。
For this reason, Non-Patent
会議などの二人以上の対話では、質問や強調の意味が含まれる発話が多数含まれており、結果として音韻情報が同一でも意味が異なる発話が存在する。例えば、「そうですか」という音韻情報は、質問の意味での発話「そうですか?」と、納得の意味での発話「そうですか。」のいずれからも抽出されうる。これに対し、従来技術により文末に同一の句読点を付与した場合、発話の意味の情報が失われ、発話の意味が誤解される恐れがある。上記の例であれば、「そうですか」という音韻情報を持つ全ての発話が納得の意味だととらえられてしまう可能性がある。その結果、発話の意味に誤りのある議事録が作成され、議事録を読んだ人間に誤解が生じるという不利益が発生する。以上から、会議などの二名以上の対話を想定する場合には、音声認識結果に意味情報を持たせる必要がある。 A dialogue between two or more people such as a conference includes many utterances including meanings of questions and emphasis. As a result, there are utterances having the same phonological information but different meanings. For example, the phonological information “is it?” Can be extracted from both the utterance “is it?” In the meaning of the question and the utterance “is it?” In the sense of convincing. On the other hand, when the same punctuation mark is given to the end of the sentence according to the conventional technique, information on the meaning of the utterance is lost, and the meaning of the utterance may be misunderstood. In the above example, there is a possibility that all utterances having phonological information “Is that so?” Are considered to be satisfactory. As a result, the minutes with the meaning of the utterance are created, and there is a disadvantage that the human being who read the minutes has a misunderstanding. From the above, when two or more conversations such as a conference are assumed, it is necessary to have semantic information in the speech recognition result.
文章に意味情報を持たせる方法として、文末記号の活用が挙げられる。例えば、文末に疑問符「?」を付与することで質問の意味を持たせることが可能である。したがって、複数の文末記号を用意し、発話の意味と合致した文末記号を自動的に付与できれば、意味情報を持たせることができたといえる。 One way to give semantic information to sentences is to use sentence endings. For example, it is possible to give the meaning of a question by adding a question mark “?” At the end of the sentence. Therefore, if a plurality of sentence ending symbols are prepared and a sentence ending symbol that matches the meaning of the utterance can be automatically given, it can be said that the semantic information can be provided.
文末記号の自動付与を行う場合、従来技術の句読点自動付与の付与対象を句読点から文末記号に拡張しても、高精度に記号付与を行うことは困難である。これは、対話に参加する話者の発話の傾向や文末記号の出現傾向が、対話状況、つまり対話の場や話者の位置づけに依存するためである。 When automatically assigning an end-of-sentence symbol, it is difficult to assign the symbol with high accuracy even if the subject of the prior art automatic punctuation-point assignment is expanded from the punctuation mark to the end-of-sentence symbol. This is because the utterance tendency of the speakers participating in the dialogue and the appearance tendency of the end-of-sentence symbols depend on the dialogue situation, that is, the location of the dialogue and the position of the speaker.
図14に対話状況と発話の傾向及び文末記号の出現傾向の関連性の例を示す。例えば、講演における講演者は発話の韻律変動が小さい傾向にあり、発話内容も平静の発話が多く質問発話が少ないため、文末記号には句点の出現が多く疑問符の出現は少ない。したがって、講演における講演者の発話に文末記号を自動で付与する際には、韻律変動の小さな変化も検出し文末記号付与に利用する、句点が出現しやすく疑問符が出現しにくい基準を設けるなどが有効である。しかし、自由討論における参加者は発話の韻律変動が大きい傾向にあり、質問や強調などの感情表現発話が多いため文末記号にも疑問符や感嘆符が出現しやすい。したがって、自由討論における参加者の発話に文末記号を自動で付与する際には、韻律変動の大きな変化のみ検出し文末記号付与に利用する、疑問符や感嘆符が出現しやすく句点が出現しにくい基準を設けるなどの方が有効である。 FIG. 14 shows an example of the relationship between the dialogue status, the utterance tendency, and the appearance tendency of sentence ending symbols. For example, speakers in lectures tend to have less prosodic fluctuations in utterances, and the utterance contents are calm and many question utterances. Therefore, there are many punctuation marks and few question marks. Therefore, when automatically assigning a sentence ending symbol to a speaker's utterance in a lecture, a small change in prosodic variation is detected and used for adding a sentence ending symbol. It is valid. However, participants in free discussions tend to have large prosodic fluctuations in utterances, and there are many emotional utterances such as questions and emphasis, so question marks and exclamation marks are likely to appear at the end of sentences. Therefore, when automatically assigning end-of-sentence symbols to utterances of participants in free discussions, a standard that detects only large changes in prosodic changes and uses them to add end-of-sentence marks, making it difficult for question marks and exclamation points to appear It is more effective to provide
以上から、高精度な文末記号付与を実現するためには、対話状況に合わせた文末記号の付与基準を与えるべきである。しかし、従来技術では話者が一名であることを想定しているため、対話状況は考慮されず、常に同一の基準により文末記号の付与を行うこととなる。その結果、文末記号の自動付与の精度が低下する可能性があった。 From the above, in order to achieve high-accuracy sentence ending symbol assignment, a criterion for assigning sentence ending symbols according to the conversation situation should be given. However, since it is assumed in the prior art that there is only one speaker, the conversation situation is not considered and the end-of-sentence symbol is always given according to the same standard. As a result, there is a possibility that the accuracy of automatic assignment of sentence ending symbols is lowered.
この発明の目的は、対話状況特徴を用いて文末記号を推定する文末記号推定装置、この方法及びプログラムを提供することである。 The purpose of this invention, the end of the sentence symbol estimator for estimating the end of the sentence symbols using dialogue situation wherein, to provide a method and a program.
この発明の一態様による文末記号推定装置は、複数の話者によって実施される対話のそれぞれの話者の中心話者度をその対話においてそれぞれの話者の発話の割合を示す指標とし、対話の話者偏り度をその対話における話者の発話の長さの偏り度を表す指標とし、対話の対話厳格度をその対話中の話者の口調の厳格さを表す指標とし、中心話者度、話者偏り度及び対話厳格度の少なくとも1つを対話状況特徴として、対話の対話状況特徴を計算する対話状況特徴計算装置と、対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定部と、を備えている。 The sentence ending symbol estimation device according to one aspect of the present invention uses the central speaker degree of each speaker of a dialog carried out by a plurality of speakers as an index indicating the ratio of each speaker's utterance in the dialog. The speaker bias is used as an index representing the length of the speaker's utterance in the dialogue, the dialogue severity is used as an index representing the tone of the speaker during the dialogue, A dialog situation feature calculation device for calculating a dialog situation feature of a dialogue using at least one of speaker bias and dialogue severity as a dialogue situation feature, and a plurality of dialogue situation features calculated by the dialogue situation feature calculation device. Select the end-of-sentence giving standard corresponding to the dialogue from the end-of-sentence giving norms, and use the selected end-of-sentence giving norm, the acoustic features and language features of the dialogue to end the text And a, and endnotes symbol estimator for estimating the.
発話の意味に対応する文末記号を推定するために用いる対話状況特徴を計算することができる。また、発話の意味に対応する文末記号を推定することができる。 It is possible to calculate the dialogue situation feature used to estimate the sentence ending symbol corresponding to the meaning of the utterance. Moreover, the sentence end symbol corresponding to the meaning of the utterance can be estimated.
[全体の流れ]
まず、対話に参加した話者ごとの音声を用いて、話者の発話の長さの偏り度合いと対話中の話者の口調の厳格度合いを表す尺度に基づいて対話の場を推定するとともに、対話中の各話者の発話割合を分析して、対話の場における話者の位置づけを推定する。
[Overall flow]
First, using the voice of each speaker who participated in the dialogue, we estimated the place of dialogue based on the scale representing the degree of bias of the speaker's utterance length and the severity of the speaker's tone during the dialogue, Analyzing the utterance rate of each speaker during the dialogue, the position of the speaker in the dialogue is estimated.
次に、対話の場及び話者の位置づけごとに文末記号付与モデルを学習する。まず、様々な対話の場・話者の位置づけの音声が含まれる音声データベースと、各音声データに対応した文末記号付きの書き起こしのテキストデータを用意する。推定した対話の場及び話者の位置づけの情報に基づいて、対話の場や話者の位置づけが近い音声が同じ組となるよう音声データベースを分割する。分割後の各音声データベースに対し、対話音声の音響特徴と、音声認識結果の単語境界ごとに文末記号を付与したテキストデータを学習データとして、文末記号付与モデルを学習する。この文末記号付与モデルは、ある対話の場や話者の位置づけにおける文末記号付与規範となる。なお、文末記号付与モデルの学習は必ずしも行われてなくてもよいが、その場合は文末記号付与規範として音響特徴または言語特徴のしきい値を用いる。 Next, the sentence ending symbol assignment model is learned for each dialogue place and speaker position. First, a speech database including speeches of various dialogue places / speaker positions and transcript text data with sentence ending symbols corresponding to each speech data are prepared. Based on the estimated dialogue field and speaker positioning information, the speech database is divided so that the voices having the same dialogue field and speaker positioning are in the same set. For each divided speech database, a sentence ending symbol assignment model is learned by using, as learning data, acoustic data of conversational speech and text data to which a sentence ending symbol is assigned for each word boundary of the speech recognition result. This end-of-sentence symbol assignment model is a norm for the end-of-sentence symbol in a certain dialogue place or speaker position. Note that learning of the sentence ending symbol assignment model does not necessarily have to be performed, but in that case, a threshold value of an acoustic feature or a language feature is used as a sentence ending symbol assignment criterion.
文末記号自動付与の際には、入力の対話音声から対話の場や話者の位置づけを推定し、対話の場や話者の位置づけの近い文末記号付与規範を用いて文末記号付与を行うことで、対話中の各話者の位置づけに即した文末記号を自動付与した音声認識結果テキストを得ることができる。 When automatically assigning end-of-sentence symbols, the location of the dialogue and the position of the speaker are estimated from the input dialogue voice, and the end-of-sentence symbol is assigned using the end-of-sentence assignment standard that is close to the location of the dialogue and the speaker. Thus, it is possible to obtain a speech recognition result text to which a sentence ending symbol is automatically assigned in accordance with the position of each speaker during the conversation.
[対話状況特徴]
実世界での対話状況を表現でき、かつ対話参加者の音声から計算可能な「対話厳格度」「話者偏り度」「中心話者度」の3つの尺度を定義する。これらの3つの尺度をまとめて「対話状況特徴」とも呼ぶ。
[Dialogue status features]
Three scales are defined: "Dialogue severity", "Speaker bias degree", and "Central speaker degree" that can express the conversation situation in the real world and can be calculated from the speech of the conversation participants. These three measures are collectively called “dialogue situation characteristics”.
「対話厳格度」は、対話参加者の口調が厳格かを示す尺度である。言い換えれば、ある対話の対話厳格度は、その対話の厳格さを表す指標である。これは、例えば対話参加者の韻律変化の大きさと対話全体における非発話区間の長さに基づいて求めるものとする。 “Dialogue severity” is a scale indicating whether the tone of dialogue participants is strict. In other words, the dialogue severity of a dialogue is an index representing the severity of the dialogue. This is determined based on, for example, the size of the prosody change of the conversation participant and the length of the non-speech interval in the entire conversation.
「話者偏り度」は、対話において話者ごとの発話区間の長さに偏りがあるかを示す尺度である。言い換えれば、ある対話の話者偏り度は、その対話における話者の発話の長さの偏り度を表す指標である。これは、対話で最も発話した話者の、全体に占める発話割合の大きさから求めるものとする。 The “speaker bias degree” is a scale indicating whether or not there is a bias in the length of the utterance section for each speaker in the dialogue. In other words, the speaker bias degree of a certain dialog is an index representing the speaker's utterance length bias degree in the dialog. This is calculated from the size of the utterance ratio of the speaker who speaks most in the dialogue.
これらの「対話厳格度」及び「話者偏り度」の尺度は、対話が行われた場を表現する。例えば、講演の場では対話厳格度と話者偏り度が高い値をとり、議会の場では対話厳格度は高いが話者偏り度は低い値をとる。図5に、対話厳格度・話者偏り度と実世界での対話の場との関係性の例を示す。 These measures of “dialogue severity” and “speaker bias” express the place where the dialogue took place. For example, in the lecture, the dialogue severity and speaker bias are high, and in the parliament, the dialogue severity is high but the speaker bias is low. FIG. 5 shows an example of the relationship between the degree of dialogue severity and speaker bias and the real-world dialogue field.
「中心話者度」は対話における話者の発話割合の大小を示す尺度であり、ある対話の場における話者の位置づけに関連している。言い換えれば、ある対話のある話者の中心話者度は、その対話においてその話者の発話の割合を示す指標である。これは、対話参加者ごとの全体に占める発話割合の大きさから求めるものとする。例えば、講演の場で中心話者度が高い話者は講演者であり、中心話者度が低い話者は質問者である。 “Central speaker degree” is a scale indicating the size of a speaker's utterance ratio in a dialog, and is related to the position of the speaker in a certain dialog. In other words, the central speaker degree of a speaker having a certain dialogue is an index indicating the ratio of the speaker's utterance in the dialogue. This is obtained from the size of the utterance ratio in the entire conversation participant. For example, a speaker having a high degree of central speaker at a lecture is a speaker, and a speaker having a low degree of central speaker is a questioner.
図6に、対話の場ごとの中心話者度と話者の位置づけの例を示す。対話厳格度や話者偏り度は対話全体に対して一つ求められるのに対し、中心話者度は対話に参加する話者ごとに求められる。また、これらの対話状況特徴は対話内では不変であるとし、対話開始から対話終了までの全ての区間を用いて一つの対話厳格度と話者偏り度、話者数分の中心話者度を求めるものとする。 FIG. 6 shows an example of the degree of central speaker and the position of the speaker for each dialogue place. One degree of dialogue severity and one degree of speaker bias are required for the entire dialogue, whereas a central speaker degree is obtained for each speaker participating in the dialogue. In addition, these dialogue situation features are assumed to be invariant in the dialogue, and the single speaker severity, speaker bias, and the number of speakers as many as the number of speakers are calculated using all intervals from the beginning of the dialogue to the end of the dialogue. Suppose you want.
対話状況特徴の値を基準として複数の文末記号付与規範を事前準備する。文末記号付与規範は、後述するように、例えば対話状況特徴が近い値をとる音声のみを収集し、それらの音声を用いて事前学習した文末記号付与モデルの確率値であってもよいし、音響特徴と言語特徴のしきい値処理であってもよい。文末記号自動付与時には、対話状況特徴を入力音声から自動推定し、それらが近い値をとる場合の文末記号付与規範を選択して文末記号推定を行う。上記の通り、対話状況特徴に基づいて文末記号付与規範を変化させることで、対話状況に合わせた文末記号付与が可能となり、文末記号付与精度が向上する。 Prepare multiple end-of-sentence assignment rules based on the value of the dialog status feature. As will be described later, the ending symbol assignment norm may be, for example, a probability value of a ending symbol assignment model obtained by collecting only voices having similar values of dialogue situation characteristics and learning in advance using those voices. It may be threshold processing of features and language features. When automatically assigning end-of-sentence symbols, the conversation situation feature is automatically estimated from the input speech, and the end-of-sentence estimation is selected by selecting the end-of-sentence giving standard when the values are close. As described above, by changing the sentence ending symbol provision norm based on the conversation situation characteristics, sentence ending symbols can be assigned according to the conversation situation, and the sentence ending symbol assignment accuracy is improved.
[実施形態]
以下、文末記号推定装置及び方法の実施形態の説明をする。
[Embodiment]
Hereinafter, embodiments of the sentence ending symbol estimation apparatus and method will be described.
文末記号推定装置は、図1に示すように、対話状況特徴計算装置1、音声認識部2、音響特徴抽出部3、テキスト解析部4、文末記号推定部5及び文末記号付与部6を例えば備えている。文末記号付与部6は設けられていなくてもよい。
As shown in FIG. 1, the sentence ending symbol estimation device includes, for example, a dialog situation
文末記号推定方法は、文末記号推定装置が、図2のステップS1からステップS6の処理を行うことにより例えば実現される。 The sentence ending symbol estimation method is realized, for example, by the sentence ending symbol estimation device performing the processing from step S1 to step S6 in FIG.
この実施形態では、複数人の話者の対話を収録した音声を入力とする。このとき、話者ごとの音声が個別に収録されているものとする。この入力は、話者ごとにヘッドセット等の接話型マイクロホンを装着させた状態で収録を行った音声でもよいし、単一又は複数マイクロホンで収録した音を話者分類や音源分離の技術(例えば、特許第4964204号)を用いて話者ごとに分離した音声であってもよい。なお、音声を収録した話者数を、対話状況特徴抽出部で用いる話者数Nとする。このとき、対話の場に存在したが一度も発言しなかった話者や個別の音声が収録されなかった話者は話者数に含まれないものとする。入力された話者ごとの音声は、対話状況特徴計算装置1及び音声認識部2に入力される。
In this embodiment, it is assumed that a voice recording dialogues of a plurality of speakers is input. At this time, it is assumed that the sound for each speaker is individually recorded. This input may be a voice recorded with a close-up microphone such as a headset attached to each speaker, or a technique for speaker classification and sound source separation using a single or a plurality of microphones. For example, the voice may be separated for each speaker using Japanese Patent No. 4964204). Note that the number of speakers recording voice is the number N of speakers used in the dialog situation feature extraction unit. At this time, it is assumed that speakers who existed in the dialog but never spoken or speakers whose individual voices were not recorded are not included in the number of speakers. The input voice for each speaker is input to the dialog situation
<対話状況特徴計算装置1(図1、図3)>
対話状況特徴計算装置1は、入力された話者ごとの音声を用いて、対話状況特徴を計算する(ステップS1)。計算された対話状況特徴は、文末記号推定部5に出力される。
<Dialogue situation feature calculation device 1 (FIGS. 1 and 3)>
The dialog situation
対話状況特徴計算装置1は、図3に示すように、発話区間検出部11、基本周波数抽出部12、全体発話区間検出部13、中心話者度話者偏り度計算部14、対話厳格度推定特徴計算部15及び対話厳格度計算部16を例えば備えている。
As shown in FIG. 3, the conversation situation
対話状況特徴計算方法は、対話状況特徴計算装置が、図4のステップS11からステップS17の処理を行うことにより例えば実現される。 The dialog situation feature calculation method is realized, for example, by the dialog situation feature calculation apparatus performing the processing from step S11 to step S17 in FIG.
以下、対話状況特徴計算装置1における各部の詳細について述べる。なお、以下の発話区間検出部11及び基本周波数抽出部12においては、入力された音声を例えば10msec程度の短時間ごとに区切って分析する手法が例えばとられるものとする。
Hereinafter, details of each part in the dialog situation
<<発話区間検出部11(図3)>>
発話区間検出部11は、入力された話者ごとの音声を用いて、話者ごとの発話区間を検出する(ステップS11)。検出された発話区間についての情報は、全体発話区間検出部13、基本周波数抽出部12及び中心話者度話者偏り度計算部14に出力される。
<< Speech section detector 11 (FIG. 3) >>
The utterance
発話区間とは話者の一発話の開始時刻から終了時刻までの区間を指し、話者ごとの音声は一つ以上の発話区間を含むとする。また、息継ぎなどの短い間は発話区間に含まれるが、他者の発話の聴取区間などの長い間は発話区間に含まれないものとする。間が発話区間に含まれるかの判別は、例えば発話と発話の間の時間のしきい値処理により実現される。例えば、1秒以下の間は発話区間に含み、1秒より長い間は発話区間に含まれないとする。図7に話者ごとの音声の発話区間の例を示す。この実施形態では、短時間音声パワーのしきい値処理により発話区間検出を行うが、既存のどの発話区間検出手法を用いてもよい。 The utterance section refers to a section from the start time to the end time of one utterance of the speaker, and the voice for each speaker includes one or more utterance sections. Further, it is assumed that a short period such as breathing is included in the utterance section, but a long period such as a listening section of another person's utterance is not included in the utterance section. The determination of whether the interval is included in the utterance section is realized by threshold processing of the time between utterances, for example. For example, suppose that it is included in the utterance interval for less than 1 second and is not included in the utterance interval for longer than 1 second. FIG. 7 shows an example of a speech utterance section for each speaker. In this embodiment, the speech segment detection is performed by the threshold processing of the short time voice power, but any existing speech segment detection method may be used.
<<基本周波数抽出部12(図3)>>
基本周波数抽出部12は、入力された話者ごとの音声及び入力された発話区間についての情報を用いて、話者ごとの基本周波数を抽出する(ステップS12)。これにより基本周波数の時系列が生成される。抽出された基本周波数についての情報は、対話厳格度推定特徴計算部15に出力される。
<< Basic frequency extraction unit 12 (FIG. 3) >>
The fundamental
基本周波数抽出の処理は、話者ごとの音声の各発話区間に対して行われる。例えば、自己相関法を用いて基本周波数抽出は行われる。もちろん、既存のどの基本周波数抽出手法を用いてもよい。 The fundamental frequency extraction process is performed for each utterance section of the voice for each speaker. For example, the fundamental frequency extraction is performed using an autocorrelation method. Of course, any existing fundamental frequency extraction method may be used.
<<全体発話区間検出部13(図3)>>
全体発話区間検出部13は、入力された全話者の発話区間を用いて、全体の発話区間を検出する(ステップS13)。検出された全体の発話区間についての情報は、中心話者度話者偏り度計算部14及び対話厳格度推定特徴計算部15に出力される。
<< Whole utterance section detector 13 (FIG. 3) >>
The entire utterance
全体の発話区間とは、対話において一名以上の話者の発話区間である区間を指す。図7に、全体の発話区間の検出例を示す。このように、全体の発話区間とは、一名以上の話者の発話区間を結合した区間のことである。 The entire utterance interval refers to an interval that is an utterance interval of one or more speakers in the dialogue. FIG. 7 shows an example of detecting the entire utterance section. Thus, the entire utterance interval is an interval obtained by combining the utterance intervals of one or more speakers.
<<中心話者度話者偏り度計算部14(図3)>>
中心話者度話者偏り度計算部14は、入力された全話者の発話区間についての情報及び入力された全体の発話区間についての情報を用いて、中心話者度及び話者偏り度を計算する(ステップS14、ステップS15)。中心話者度は話者ごとに計算されるため、中心話者度のことを「話者ごとの中心話者度」と表記することもある。
<< Center speaker degree Speaker bias calculator 14 (Fig. 3) >>
The central speaker degree speaker bias
まず、中心話者度話者偏り度計算部14は、話者ごとの発話割合を求める。これは、ある話者の発話区間の長さの総和を全体の発話区間の長さの総和で割ることで求められる。発話割合rnを式で表すと以下のようになる。Nは話者数であり、n=1,…,NとしてTnは話者nの発話区間の長さの総和であり、Tは全体の発話区間の長さの総和である。
First, the central speaker degree speaker bias
次に、話者ごとの発話割合から中心話者度を求める(ステップS14)。これは、話者ごとの発話割合を発話割合の最大値で割ることで求められる。中心話者度cnを式で表すと以下のようになる。 Next, the central speaker degree is obtained from the utterance ratio for each speaker (step S14). This is obtained by dividing the utterance ratio for each speaker by the maximum value of the utterance ratio. The central speaker degree c n is expressed as follows.
最後に、中心話者度話者偏り度計算部14は、話者偏り度を求める(ステップS15)。これは、発話割合の最大値から参加者が平均的に発話した際の割合を引いたものを、0から1の値にスケーリングすることで得られる。話者偏り度Bを式で表すと以下のようになる。
Finally, the central speaker degree speaker bias
中心話者度は、ある対話において最も長く発話した話者を1とする話者ごとの発話割合を表す。話者偏り度は、ある対話において最も長く発話した話者の全体の発話区間に占める発話割合を表す。話者偏り度が0のとき、対話に参加した全話者が均等に発話したことを表す。話者偏り度が1のとき、終始一人の話者が発話したことを表す。図8に中心話者度と話者偏り度の例を示す。 The central speaker degree represents the utterance ratio for each speaker, where the speaker who has spoken the longest in a certain dialogue is 1. The degree of speaker bias represents the utterance ratio in the entire utterance section of the speaker who spoke the longest in a certain dialogue. When the speaker bias degree is 0, it means that all the speakers who participated in the dialogue spoke equally. When the speaker bias is 1, it means that one speaker has spoken from the beginning. FIG. 8 shows an example of the central speaker degree and the speaker bias degree.
<<対話厳格度推定特徴計算部15(図3)>>
対話厳格度推定特徴計算部15は、入力された全話者の基本周波数の時系列及び入力された全体の発話区間を用いて、平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合を計算する(ステップS16)。計算された平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合は、対話厳格度計算部16に出力される。
<< Dialogue severity estimation feature calculator 15 (Fig. 3) >>
The dialogue severity estimation
対話厳格度推定特徴計算部15は、後段の対話厳格度推定のための特徴抽出を行う。まず話者ごとの基本周波数の時系列から、基本周波数の時間変化及び加速度を求める。基本周波数は離散時間で与えられるので、時間変化の計算は一階差分を、加速度の計算は二階差分を利用する。これらの時間変化及び加速度のそれぞれの絶対値を全発話区間・全話者で平均化し、対話全体での韻律変化の大きさを表す値とする。前者を平均基本周波数時間変化、後者を平均基本周波数加速度と呼ぶ。
The dialogue severity estimation
全体の発話区間のうち、最初の発話の開始時刻を対話開始時刻、最後の発話の終了時刻を対話終了時刻とする。対話開始時刻から対話終了時刻までの区間のうち、一人の発話もない区間を非発話区間とする。対話開始時刻から対話終了時刻までの長さに対する非発話区間の合計の長さの割合を非発話区間の割合とする。図9に対話における全体の発話区間と非発話区間の例を示す。 Of the entire utterance section, the start time of the first utterance is the dialog start time, and the end time of the last utterance is the dialog end time. Among the sections from the dialog start time to the dialog end time, a section where no one utters is defined as a non-speaking section. The ratio of the total length of the non-speech section to the length from the conversation start time to the conversation end time is defined as the ratio of the non-speech section. FIG. 9 shows an example of the entire utterance interval and non-utterance interval in the dialogue.
<<対話厳格度計算部16(図3)>>
対話厳格度計算部16は、入力された平均基本周波数時間変化、入力された平均基本周波数加速度及び入力された非発話区間の割合及び入力された対話厳格度推定のための回帰係数を用いて、対話厳格度を計算する(ステップS17)。
<< Dialog severity calculator 16 (Fig. 3) >>
The
一般に、厳格な対話(議会など)であるほど基本周波数の変動が小さくなり、非発話区間が長くなる傾向にある。対話厳格度は上記を表現する尺度であり、1から0までの値を取るものとする。対話厳格度が1であれば厳格な対話を、0であれば厳格でない対話(自由討論など)を表す。 In general, the stricter the dialogue (such as parliament), the smaller the fluctuation of the fundamental frequency and the longer the non-speech interval. The dialogue severity is a scale expressing the above, and takes a value from 1 to 0. If the dialogue severity is 1, it represents a strict dialogue, and if it is 0, it represents a less strict dialogue (such as free discussion).
対話厳格度の計算はしきい値処理により実現可能である。例えば、平均基本周波数時間変化及び平均基本周波数加速度が一定値より小さく非発話区間が別の一定値より大きい場合は対話厳格度を1とする。もちろん、ロジスティック回帰等の統計的回帰モデルにより対話厳格度の計算を行ってもよい。ただし、統計的回帰モデルを適用する場合、その出力の値を0から1に正規化する処理が加わるものとする。また統計的回帰モデルを用いて対話厳格度を推定する場合、事前に回帰係数を学習する必要がある。回帰係数の事前学習法については後述する。 The calculation of the dialogue severity can be realized by threshold processing. For example, when the average fundamental frequency time variation and the average fundamental frequency acceleration are smaller than a certain value and the non-speech interval is larger than another certain value, the dialogue severity is set to 1. Of course, the dialogue severity may be calculated by a statistical regression model such as logistic regression. However, when a statistical regression model is applied, processing for normalizing the output value from 0 to 1 is added. In addition, when estimating the severity of dialogue using a statistical regression model, it is necessary to learn the regression coefficient in advance. The prior learning method of the regression coefficient will be described later.
<音声認識部2(図1)>
音声認識部2は、入力された話者ごとの音声を用いて、音声認識結果テキストを出力する(ステップS2)。音声認識結果テキストは、テキスト解析部4及び文末記号付与部6に出力される。
<Voice recognition unit 2 (Fig. 1)>
The
音声認識結果テキストは、話者ごとの音声に対し音声認識を適用し、音声波形を文字へと変換することにより例えば生成される。 The speech recognition result text is generated, for example, by applying speech recognition to the speech for each speaker and converting the speech waveform into characters.
<音響特徴抽出部3(図1)>
音響特徴抽出部3は、入力された話者ごとの音声を用いて、音響特徴を抽出する(ステップS3)。抽出された音響特徴は、文末記号推定部5に出力される。
<Acoustic feature extraction unit 3 (FIG. 1)>
The acoustic
音響特徴は、基本周波数、短時間信号パワー、音声スペクトル包絡及び間の長さの少なくとも1つである。 The acoustic feature is at least one of a fundamental frequency, a short time signal power, a speech spectrum envelope, and a length between.
音響特徴抽出部3は、各時刻での音声に対し、基本周波数・短時間信号パワー・音声スペクトル包絡(MFCC)を抽出する。また、発話区間検出を用いて発話と発話の間の長さを抽出する。間の長さとは、発話区間検出部11における「息継ぎなどの、発話区間に含まれる短い間」の時間を指す。人間が発話への意味情報を付与する場合、発話の基本周波数や短時間パワーに変化を付けることが多いが、音声スペクトル包絡にもその変化が表れることが知られている。例えば、リラックスして発声した場合と緊張して発声した場合などで音声スペクトル包絡に違いが表れる。また、間の情報は文末かどうかを判断する大きな基準となる。以上から、文末記号推定の際には例えばこれら4種類の音響特徴を用いる。
The acoustic
<テキスト解析部4(図1)>
テキスト解析部4は、入力された音声認識結果テキストを用いて、言語特徴を求める(ステップS4)。求まった言語特徴は、文末記号推定部5に出力される。
<Text analysis unit 4 (Fig. 1)>
The
言語特徴は、単語、品詞及び係り受け構造の少なくとも1つである。例えば、単語、品詞及び係り受け構造の全てが言語特徴とされる。 The language feature is at least one of a word, a part of speech, and a dependency structure. For example, words, parts of speech, and dependency structures are all language features.
テキスト解析部4は、形態素解析器を用いて音声認識結果のテキストを単語ごとに分割し、単語ごとの品詞を求める。音声認識結果に含まれる全ての三単語の連鎖及び三品詞の連鎖を作成し、これを単語および品詞の言語特徴としてもよい。また、テキスト全体を構文解析し、単語ごとの係り受け構造を求め、これも言語特徴としてもよい。なお、単語及び品詞にはそれぞれ時刻情報が付与されており、音響特徴との時間的対応が取れているものとする。
The
<文末記号推定部5(図1)>
文末記号推定部5は、入力された音響特徴、入力された言語特徴及び入力された対話状況特徴を用いて、単語境界ごとの文末記号付与判定を行う(ステップS5)。単語境界ごとの文末記号付与判定は、文末記号付与部6に出力される。
<End-of-sentence estimation unit 5 (Fig. 1)>
The sentence ending
文末記号推定部5は、対話状況特徴に基づいて選択された文末記号付与規範を用いて、単語境界ごとの最適文末記号の推定を行う。文末記号付与規範は、対話状況特徴に基づいて選択される。文末記号付与規範とは、文末記号付与基準又は文末記号付与モデルのことである。文末記号付与基準は、例えば音響特徴・言語特徴のしきい値処理により最適な文末符号を推定するルールベースの手法を利用する。文末記号付与モデルは、例えば条件付き確率場やサポートベクターマシンなどの機械学習により学習した文末記号の出現確率を表すモデル及び識別器を表す。
The sentence ending
文末記号と音響特徴及び言語特徴には強い関連性があることが知られている。例えば、疑問符が付与される場合には、基本周波数の上昇や助詞・格助詞の出現が増加する傾向がある。しかし、対話状況によって文末記号と音響特徴や言語特徴との関連性は変化する。例えば、厳格な会議では質問以外の場面での基本周波数の変化が少ないため、主に基本周波数を用いて疑問符を推定すべきである。しかし、厳格でない会議の場合は様々な場面で基本周波数の変化が生じるため、主に言語特徴を用いて疑問符を推定すべきである。上記の変化への自動的な対応を可能とすることを目的とし、対話状況特徴の自動推定と対話状況特徴を用いた文末記号推定規範の選択を導入する。 It is known that there is a strong relationship between the end-of-sentence symbol and the acoustic and language features. For example, when a question mark is given, there is a tendency that the fundamental frequency increases and the appearance of particles / case particles increases. However, the relationship between the sentence ending symbol and the acoustic or language features changes depending on the conversation situation. For example, in a strict meeting, there is little change in the fundamental frequency in scenes other than questions, so the question mark should be estimated mainly using the fundamental frequency. However, in the case of a non-strict meeting, the fundamental frequency changes in various situations, so the question mark should be estimated mainly using language features. For the purpose of enabling automatic response to the above changes, we introduce automatic estimation of dialogue situation features and selection of sentence ending symbol estimation criteria using dialogue situation features.
また、音響特徴及び言語特徴の複数の要因に基づいて文末記号が決定する場合も多い。例えば、基本周波数の上昇と、疑問を表す助詞の出現とが同時に発生した場合に疑問符が付与される。このため、音響特徴や言語特徴を単純にしきい値処理するだけでは誤検出が頻出する可能性がある。そのため、複合的な要因も考慮することが可能な、機械学習により学習した文末記号推定モデルを用いて文末記号推定を行うことも有効である。 In many cases, a sentence ending symbol is determined based on a plurality of factors of acoustic features and language features. For example, a question mark is given when an increase in fundamental frequency and the appearance of a particle indicating a question occur simultaneously. For this reason, there is a possibility that false detections frequently occur by simply thresholding acoustic features and language features. Therefore, it is also effective to perform sentence ending symbol estimation using a sentence ending symbol estimation model learned by machine learning, which can take into account complex factors.
なお、文末記号付与モデルを用いて最適な文末記号を推定する場合、モデルの事前学習が必要となる。このときの事前学習の概要については後述する。 Note that when an optimal sentence ending symbol is estimated using a sentence ending symbol assignment model, prior learning of the model is required. The outline of the pre-learning at this time will be described later.
例えば、付与する文末記号は、疑問符「?」、感嘆符「!」、三点リーダ「…」、笑い記号「(笑)」、句点「。」、読点「、」の6種類とし、選択された文末記号付与規範に基づいて、単語境界ごとに6種類の文末記号と「何も付与しない」の7種類のどれが適切かを分類する。 For example, there are six types of sentence ending symbols to be selected: question mark “?”, Exclamation mark “!”, Three-point reader “…”, laugh symbol “(laugh)”, punctuation mark “.”, And punctuation mark “,”. On the basis of the end-of-sentence symbol assignment norm, it is classified for each word boundary which of the six types of end-of-sentence symbol and the seven types of “don't give anything” is appropriate.
このように、文末記号推定部5は、対話状況特徴計算装置1で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話状況に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の音声認識結果テキストに対する文末記号を推定する。
As described above, the sentence ending
<文末記号付与部6(図1)>
文末記号付与部6は、入力された単語境界ごとの文末記号付与判定及び入力された音声認識結果テキストを用いて、文末記号付き音声認識結果を生成する(ステップS6)。
<End-of-sentence adding unit 6 (FIG. 1)>
The sentence ending symbol assigning unit 6 generates a speech recognition result with a sentence ending symbol using the sentence ending symbol assignment determination for each input word boundary and the input speech recognition result text (step S6).
具体的には、文末記号付与部6は、音声認識結果テキストに対し文末記号の付与を行うことにより文末記号付き音声認識結果を生成する。その際、文末付与の基準として単語境界ごとの文末記号付与判定が用いられる。 Specifically, the sentence ending symbol assigning unit 6 generates a speech recognition result with a sentence ending symbol by assigning a sentence ending symbol to the speech recognition result text. At that time, sentence end assignment assignment determination for each word boundary is used as a reference for sentence end assignment.
<文末記号付与モデル生成部7>
文末記号付与モデルを事前学習により生成する機能が文末記号推定装置に設けられていてもよい。
<End-of-sentence
A function for generating a sentence ending symbol assignment model by prior learning may be provided in the sentence ending symbol estimation device.
文末記号付与モデル生成部7は、図10及び図11に示すように、対話状況特徴計算装置71、音声データベース分割部72、文末記号正解ラベル作成部73、音声認識部74、音響特徴抽出部75、テキスト解析部76及び文末記号付与モデル生成部77を例えば備えている。
As shown in FIGS. 10 and 11, the sentence ending symbol assigning
文末記号付与モデル生成部7による事前学習には、話者ごとの音声が収録された音声データベースと、各音声データに対応した文末記号付きの書き起こしとが用いられる。この音声データベースは、後述する対話厳格度推定のための回帰係数の事前学習に用いる音声データベースであってもよい。また、文末記号付きの書き起こしは、人が音声を聞き作成したテキストデータであって、単語境界ごとに、話者ごとの音声データベースの音声と対応付け可能な時刻情報が付与されているものとする。
The pre-learning by the sentence ending symbol assigning
対話状況特徴計算装置71は、対話状況特徴計算装置1と同様にして、対話状況特徴を計算する。計算された対話状況特徴は、音声データベース分割部72に出力される。
The dialogue situation
音声データベース分割部72は、入力された話者ごとの音声データベース、入力された文末記号付き書き起こし及び入力された対話状況特徴を用いて、対話状況特徴の閾値処理により対話状況特徴が近い音声のデータベースを出力する。例えば、中心話者度が0.7以上、話者偏り度が0.5以上、対話厳格度が0.5以上などの閾値を設定し、それらを満たす音声を一つのデータベースとする。上記の例の場合、対話厳格度・話者偏り度が高い対話の場である「講演」の、中心話者度が高い「講演者」の音声をデータベースから分割することを意図している。対話状況特徴に基づいて分割した個々のデータベースは、発話内容や発話方式が類似した音声の集合とみなすことができる。なお、各データベースに含まれる音声との対応が取れる形で文末記号付き書き起こしも分割されるものとする。
The voice
このようにして、対話状況特徴が近い音声のデータベース及び対応する文末記号付き書き起こしがグループ化される。各グループに含まれる音声データベース及び対応する文末記号付き書き起こしのそれぞれについて以下の処理が行われ、各グループの「ある対話状況での文末記号付与モデル」が生成される。 In this way, speech databases with similar dialog status features and corresponding transcripts with end-of-sentence symbols are grouped together. The following processing is performed for each of the speech database included in each group and the corresponding transcript with a sentence ending symbol, and a “sentence ending symbol assignment model in a certain dialog situation” of each group is generated.
文末記号正解ラベル作成部73は、入力された文末記号付き書き起こしを用いて、文末記号正解ラベルを生成する。生成された文末記号正解ラベルは、文末記号付与モデル生成部77に出力される。
The sentence ending symbol correct
文末記号正解ラベルとは、単語境界に入る文末記号の種類を指し、例えば、疑問符「?」、感嘆符「!」、三点リーダ「…」、笑い記号「(笑)」、句点「。」、読点「、」、何も付与しないの7種類の何れかであるとする。 The correct ending symbol label indicates the type of ending symbol that falls on a word boundary. For example, a question mark “?”, An exclamation point “!”, A three-point reader “…”, a laugh symbol “(laugh)”, and a phrase “.”. It is assumed that any of the seven types of reading marks “,” and nothing is given.
文末記号正解ラベル作成部73は、具体的には、文末記号付き書き起こしを形態素解析し、単語ごとに分割する。その後、文末記号を除く全単語に対して単語境界にどの文末記号が入っているかを求め、文末記号正解ラベルとする。
Specifically, the sentence ending symbol correct
音声認識部74、音響特徴抽出部75及びテキスト解析部76の処理は、それぞれ音声認識部2、音響特徴抽出部3及びテキスト解析部4の処理と同様であるため、ここでは重複説明を省略する。音響特徴抽出部3で抽出された音響特徴及びテキスト解析部4で求められた言語特徴は、文末記号付与モデル生成部77に出力される。
The processes of the
文末記号付与モデル生成部77は、入力された音響特徴、入力された言語特徴及び入力された文末記号正解ラベルを用いて、ある対話状況での文末記号付与モデルを生成する。
The sentence ending symbol assignment
文末記号付与モデル生成部77は、対話状況特徴が近い音声のデータベースに含まれる各音声の音響特徴と言語特徴を入力データ、文末記号正解ラベルを教師データとし、機械学習により文末記号付与モデルを学習する。機械学習手法として条件付き確率場やサポートベクターマシンの利用を想定するが、分類問題を解くことが可能であればどの機械学習手法を用いてもよい。
The sentence ending symbol adding
このようにして、文末記号付与モデル生成部77は、対話状況特徴に基づいて各対話状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、複数の文末記号付与規範である複数の文末記号付与モデルを生成する。
In this way, the sentence ending symbol assignment
<対話厳格度推定のための回帰係数学習部17>
対話厳格度推定のための回帰係数学習部17が対話状況特徴計算装置及び文末記号推定装置に設けられていてもよい。
<Regression
The regression
回帰係数学習部17の例を図12に示す。回帰係数学習部17は、発話区間検出部171、基本周波数抽出部172、全体発話区間検出部173、対話厳格度推定特徴計算部174及び回帰分析部175を例えば備えている。
An example of the regression
事前学習の際には、様々な対話を含む音声データベースを用意する。ただし、データベースに含まれる各対話において話者ごとの音声の個別収録と対話厳格度正解ラベルの付与が行われているものとする。対話厳格度正解ラベルは人手での付与を行い、人が対話を聞いて厳格であると感じれば1を、感じなければ0を与える。なお、対話厳格度正解ラベルは対話単位で与えるものとする。音声データベースに含まれる全ての対話と全ての対話厳格度正解ラベルを用いて回帰分析を行い、対話厳格度推定のための回帰係数を求める。 For pre-learning, prepare a voice database that contains various dialogues. However, it is assumed that the individual recording of speech for each speaker and the assignment of the correctness string for dialogue severity are performed in each dialogue included in the database. The dialogue strictness correct answer label is manually assigned, and 1 is given if a person feels strictness after hearing the dialogue, and 0 if not. It is assumed that the dialogue severity correct answer label is given in units of dialogue. Regression analysis is performed using all dialogues included in the speech database and all dialogue severity correct answer labels, and a regression coefficient for dialogue severity estimation is obtained.
発話区間検出部171、基本周波数抽出部172、全体発話区間検出部173及び対話厳格度推定特徴計算部174の処理は、それぞれ発話区間検出部11、基本周波数抽出部12、全体発話区間検出部13及び対話厳格度推定特徴計算部15の処理と同様であるため、これらの重複説明を省略する。ここでは、回帰分析部175の説明のみを行う。
The processing of the utterance
回帰分析部175は、入力された平均基本周波数変化量、非発話区間の割合及び対話厳格度正解ラベルを用いて、対話厳格度推定のための回帰係数を計算する。
The
具体的には、回帰分析部175は、例えば以下のようにして対話厳格度推定のための回帰係数の事前学習を行う。話者ごとの音声から求めた平均基本周波数時間変化、平均基本周波数加速度及び非発話区間の割合を説明変数、正解ラベルを従属変数として回帰分析を適用し、回帰係数を求める。なお、回帰分析の際には対話厳格度計算部16と同一の回帰モデル(ロジスティック回帰モデルなど)を用いる必要がある。
Specifically, the
[変形例等]
装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[Variations]
The processes described in the apparatus and method are not only executed in chronological order according to the order of description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
また、各装置における各処理をコンピュータによって実現する場合、その各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。 Further, when each process in each device is realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, each process is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each processing means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 Needless to say, other modifications are possible without departing from the spirit of the present invention.
発話の意味に対応した文末記号を付与することにより、意味の誤解を防止し、場の雰囲気も理解可能な議事録を作成することが可能となる。また副次的な効果として、文末符号を利用した特定発話の検索(例えば、質問部分のみを検索するなど)が可能となり、議事録作成の効率が向上する。 By adding a sentence ending symbol corresponding to the meaning of the utterance, it is possible to prevent the misunderstanding of the meaning and to create a minutes that can understand the atmosphere of the place. Further, as a secondary effect, it is possible to search for a specific utterance using a sentence end code (for example, to search only a question part), and the efficiency of making minutes is improved.
1 対話状況特徴計算装置
11 発話区間検出部
12 基本周波数抽出部
13 全体発話区間検出部
14 中心話者度話者偏り度計算部
15 対話厳格度推定特徴計算部
16 対話厳格度計算部
17 回帰係数学習部
171 発話区間検出部
172 基本周波数抽出部
173 全体発話区間検出部
174 対話厳格度推定特徴計算部
175 回帰分析部
2 音声認識部
3 音響特徴抽出部
4 テキスト解析部
5 文末記号推定部
6 文末記号付与部
7 文末記号付与モデル生成部
71 対話状況特徴計算装置
72 音声データベース分割部
73 文末記号正解ラベル作成部
74 音声認識部
75 音響特徴抽出部
76 テキスト解析部
77 文末記号付与モデル生成部
DESCRIPTION OF
Claims (5)
上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定部と、
を含む文末記号推定装置。 The central speaker degree of each speaker of a dialog conducted by a plurality of speakers is used as an index indicating the proportion of each speaker's utterance in the dialog, and the speaker bias of the dialog is the speaker in the dialog. The degree of utterance length of the utterance, and the degree of dialogue severity of the dialogue as the index of strictness of the speaker's tone during the dialogue, the central speaker degree, the speaker bias degree and the dialogue A dialog situation feature calculation device for calculating a dialog situation feature of the dialogue, using at least one of the strictness as a dialogue situation feature;
Based on the dialog situation feature calculated by the above dialog situation feature calculation device, a sentence ending symbol assignment standard corresponding to the dialogue is selected from a plurality of sentence ending symbol assignment standards, and the selected sentence ending symbol provision standard and the sound of the dialogue are selected. A sentence ending symbol estimation unit for estimating a sentence ending symbol for a text representing the utterance content of the dialogue using the feature and the linguistic feature;
End-of-sentence estimation device.
対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成部を更に含む、
文末記号推定装置。 In the sentence ending symbol estimation apparatus of Claim 1,
The situation of each dialogue is estimated based on the dialogue situation feature, and for each estimated dialogue, the acoustic features, language features, and sentence ending symbol correct labels of the dialogue are learned as teacher data. A sentence ending symbol addition model generating unit for generating a plurality of sentence ending symbol assignment models;
End-of-sentence estimation device.
対話状況特徴計算装置が、前記対話の対話状況特徴を計算する対話状況特徴計算ステップと、
文末記号推定部が、上記対話状況特徴計算装置で計算された対話状況特徴に基づいて複数の文末記号付与規範の中からその対話に対応する文末記号付与規範を選択し、選択された文末記号付与規範、その対話の音響特徴及び言語特徴を用いてその対話の発話内容を表すテキストに対する文末記号を推定する文末記号推定ステップと、
を含む文末記号推定方法。 The central speaker degree of each speaker of a dialog conducted by a plurality of speakers is used as an index indicating the proportion of each speaker's utterance in the dialog, and the speaker bias of the dialog is the speaker in the dialog. The degree of utterance length of the utterance, and the degree of dialogue severity of the dialogue as the index of strictness of the speaker's tone during the dialogue, the central speaker degree, the speaker bias degree and the dialogue With at least one of the strictness as a dialogue situation feature,
A dialog situation feature calculating step for calculating a dialog situation feature of the dialog;
The sentence ending symbol estimation unit selects a sentence ending symbol assignment criterion corresponding to the dialogue from a plurality of sentence ending symbol provision criteria based on the conversation situation feature calculated by the dialog situation feature calculation device, and assigns the selected sentence ending symbol An end-of-sentence estimation step for estimating an end-of-sentence for a text representing the utterance content of the dialogue using the norm, the acoustic features and language features of the dialogue;
Sentence ending symbol estimation method.
文末記号付与モデル生成部が、対話状況特徴に基づいて各対話の状況を推定し、推定された対話ごとにその対話の音響特徴、言語特徴及び文末記号正解ラベルを教師データとして学習することにより、上記複数の文末記号付与規範である複数の文末記号付与モデルを生成する文末記号付与モデル生成ステップを更に含む、
文末記号推定方法。 The sentence ending symbol estimation method according to claim 3 ,
The sentence ending symbol assignment model generation unit estimates the situation of each dialogue based on the dialogue situation feature, and learns the acoustic feature, language feature and sentence ending symbol correct label of the dialogue as teacher data for each estimated dialogue, A sentence ending symbol giving model generating step for generating a plurality of sentence ending symbol giving models as the plurality of sentence ending symbol giving norms;
End-of-sentence estimation method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014105124A JP6440967B2 (en) | 2014-05-21 | 2014-05-21 | End-of-sentence estimation apparatus, method and program thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014105124A JP6440967B2 (en) | 2014-05-21 | 2014-05-21 | End-of-sentence estimation apparatus, method and program thereof |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015219480A JP2015219480A (en) | 2015-12-07 |
| JP6440967B2 true JP6440967B2 (en) | 2018-12-19 |
Family
ID=54778869
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014105124A Expired - Fee Related JP6440967B2 (en) | 2014-05-21 | 2014-05-21 | End-of-sentence estimation apparatus, method and program thereof |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6440967B2 (en) |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9837069B2 (en) | 2015-12-22 | 2017-12-05 | Intel Corporation | Technologies for end-of-sentence detection using syntactic coherence |
| JP6488453B2 (en) * | 2016-06-17 | 2019-03-27 | 株式会社ワンブリッジ | Program and information transmission device |
| US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
| WO2020036195A1 (en) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | End-of-speech determination device, end-of-speech determination method, and program |
| JP6605105B1 (en) * | 2018-10-15 | 2019-11-13 | 株式会社野村総合研究所 | Sentence symbol insertion apparatus and method |
| CN109784398B (en) * | 2019-01-11 | 2023-12-05 | 广东奥普特科技股份有限公司 | A classifier based on feature scaling and subclass splitting |
| JP7229144B2 (en) * | 2019-10-11 | 2023-02-27 | 株式会社野村総合研究所 | Sentence symbol insertion device and method |
| WO2021215262A1 (en) * | 2020-04-20 | 2021-10-28 | 株式会社Nttドコモ | Punctuation mark delete model training device, punctuation mark delete model, and determination device |
| US11645460B2 (en) * | 2020-12-28 | 2023-05-09 | Genesys Telecommunications Laboratories, Inc. | Punctuation and capitalization of speech recognition transcripts |
| WO2023210149A1 (en) | 2022-04-26 | 2023-11-02 | ソニーグループ株式会社 | Information processing device, information processing method, and computer program |
| JP7809817B2 (en) * | 2022-08-05 | 2026-02-02 | 株式会社Nttドコモ | Delimiter insertion device and speech recognition system |
| CN116364062B (en) * | 2023-05-30 | 2023-08-25 | 广州小鹏汽车科技有限公司 | Voice recognition method and device and vehicle |
| CN116668769A (en) * | 2023-06-07 | 2023-08-29 | 平安科技(深圳)有限公司 | Intelligent video editing method, device, electronic equipment and storage medium |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4183645B2 (en) * | 2004-03-23 | 2008-11-19 | 株式会社国際電気通信基礎技術研究所 | Conversation leader discriminating apparatus and conversation leader discriminating method |
| JP2006251042A (en) * | 2005-03-08 | 2006-09-21 | Fuji Xerox Co Ltd | Information processor, information processing method and program |
| JP2007219286A (en) * | 2006-02-17 | 2007-08-30 | Tokyo Institute Of Technology | Voice style detection device, method and program thereof |
| JP5302505B2 (en) * | 2006-12-04 | 2013-10-02 | 日本電気株式会社 | Dialog status separation estimation method, dialog status estimation method, dialog status estimation system, and dialog status estimation program |
| JP5141695B2 (en) * | 2008-02-13 | 2013-02-13 | 日本電気株式会社 | Symbol insertion device and symbol insertion method |
| JPWO2009122779A1 (en) * | 2008-04-03 | 2011-07-28 | 日本電気株式会社 | Text data processing apparatus, method and program |
| CA2680304C (en) * | 2008-09-25 | 2017-08-22 | Multimodal Technologies, Inc. | Decoding-time prediction of non-verbalized tokens |
| JP5385677B2 (en) * | 2009-05-12 | 2014-01-08 | 日本電信電話株式会社 | Dialog state dividing apparatus and method, program and recording medium |
-
2014
- 2014-05-21 JP JP2014105124A patent/JP6440967B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015219480A (en) | 2015-12-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6440967B2 (en) | End-of-sentence estimation apparatus, method and program thereof | |
| US10692500B2 (en) | Diarization using linguistic labeling to create and apply a linguistic model | |
| US12586561B2 (en) | Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
| CN102779508B (en) | Sound bank generates Apparatus for () and method therefor, speech synthesis system and method thereof | |
| Dorn | Dialect-specific models for automatic speech recognition of African American Vernacular English | |
| WO2019215459A1 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
| US20230114150A1 (en) | Conversation engine and related methods | |
| Kopparapu | Non-linguistic analysis of call center conversations | |
| Pervaiz et al. | Emotion recognition from speech using prosodic and linguistic features | |
| CN114627896A (en) | Voice evaluation method, device, equipment and storage medium | |
| CN114694688A (en) | Speech analyzer and related methods | |
| US11501091B2 (en) | Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore | |
| Kumar et al. | Automatic spontaneous speech recognition for Punjabi language interview speech corpus | |
| JP6367773B2 (en) | Speech enhancement device, speech enhancement method, and speech enhancement program | |
| CN117275458B (en) | Speech generation method, device and equipment for intelligent customer service and storage medium | |
| Shahin | Speaking style authentication using suprasegmental hidden Markov models | |
| Rabiee et al. | Persian accents identification using an adaptive neural network | |
| Shukla | Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition | |
| Jin et al. | Speech emotion recognition based on hyper-prosodic features | |
| Pravena et al. | Significance of natural elicitation in developing simulated full blown speech emotion databases | |
| KR20080018658A (en) | Voice comparison system for user selection section | |
| Phoophuangpairoj et al. | Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs | |
| Khan et al. | detection of questions in Arabic audio monologues using prosodic features | |
| Bao et al. | TTS-VLSP 2021: Development of Smartcall Vietnamese Text-to-Speech | |
| Gereg et al. | Semi-automatic processing and annotation of meeting audio recordings |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160914 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170823 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171102 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180410 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180604 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181120 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181121 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6440967 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |