JP6549064B2 - Speech recognition device, speech recognition method, program - Google Patents
Speech recognition device, speech recognition method, program Download PDFInfo
- Publication number
- JP6549064B2 JP6549064B2 JP2016112982A JP2016112982A JP6549064B2 JP 6549064 B2 JP6549064 B2 JP 6549064B2 JP 2016112982 A JP2016112982 A JP 2016112982A JP 2016112982 A JP2016112982 A JP 2016112982A JP 6549064 B2 JP6549064 B2 JP 6549064B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition result
- word
- importance
- idf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声認識装置、音声認識方法、プログラムに関する。 The present invention relates to a speech recognition apparatus, a speech recognition method, and a program.
特許文献1に、文字数制限に柔軟に対応することができる文書要約装置が開示されている。特許文献1の文書要約装置は、文短縮装置と、文スコア決定装置と、文選択装置を備える。文短縮装置は、入力された文書中の文を、指定された複数の短縮率で短縮して原文および短縮文を出力する。文スコア決定装置は、文短縮装置により出力された原文および短縮文に対して、文短縮率、文の出現位置情報および入力されたパラメタにより求められた位置情報スコアと、単語スコアデータベースを参照して取得した、文を構成する単語の重みを示す尺度である単語スコアとに基づいて文スコアを決定する。文選択装置は、入力された文字数制限のもと、文スコア決定装置により決定された文スコアの和が最大となる文の組合せを要約として選択する。 Patent Document 1 discloses a document summarizing apparatus capable of flexibly coping with the limitation of the number of characters. The document summarizing device of Patent Document 1 includes a sentence shortening device, a sentence score determining device, and a sentence selecting device. The sentence shortening apparatus shortens the sentences in the input document at a plurality of designated shortening rates and outputs a text and a short sentence. The sentence score determination device refers to the word score database and the sentence shortening rate, the appearance position information of the sentence, and the position information score obtained by the input parameter with respect to the original sentence and the short sentence output by the sentence shortening device. The sentence score is determined on the basis of the word score obtained as a measure indicating the weight of the words constituting the sentence. The sentence selection device selects a combination of sentences having the largest sum of sentence scores determined by the sentence score determination device as a summary under the input character number restriction.
音声認識は、音声をテキストに変換する技術であるが、全ての状況下において100%の変換率で音声認識を行うことは現状難しく、多くの場合認識結果に誤りの単語が含まれてしまう。また、認識結果にはテキストに変換する必要のない冗長なフレーズが含まれている場合がある。例えば、認識結果「これはそうですね難しいですね」は、冗長なフレーズの削除により、「これは難しい」という表現に短縮すべき場合がある。 Speech recognition is a technology for converting speech into text, but under all circumstances it is currently difficult to perform speech recognition with a conversion rate of 100%, and in many cases erroneous words will be included in the recognition result. In addition, the recognition result may include redundant phrases that do not need to be converted into text. For example, the recognition result "This is difficult so it may be" may be shortened to the expression "this is difficult" by deletion of a redundant phrase.
このように音声認識結果の誤りを修正し、不要部を削除することは、質の高い認識結果を得るためには必須の処理である。認識結果に対して上記2点の改善を行い、認識結果の可読性や、後段の言語処理の適用しやすさを向上させる処理を、「認識結果の整形技術」と称することにする。 In this way, correcting the error of the speech recognition result and deleting the unnecessary part is an essential process to obtain high-quality recognition result. A process of improving the above two points with respect to the recognition result and improving the readability of the recognition result and the ease of application of the language processing in the latter stage will be referred to as “recognition result shaping technology”.
通常の音声認識は、音響モデルと言語モデルを対象音声に最適な形にチューニングした後、デコーディング(両モデルを用いたリアルタイムなテキスト変換)することにより、行われている。上述の2つのモデルは音の確からしさ、言語の数、単語の並びの情報のみを用いるモデルである。上記2つのモデルはそれ以上の情報を利用することができない。 Normal speech recognition is performed by tuning an acoustic model and a language model to a form optimum for the target speech and then decoding (real-time text conversion using both models). The above two models are models that use only information on the probability of sound, the number of languages, and the arrangement of words. The above two models can not use more information.
一方、音声認識結果と正解データのペアを用いて、通常の言語モデルでは考慮できないような長距離の情報(文単位での確からしさなど)を用いて認識結果の修正を行う識別的リランキングの研究が存在する。しかしながら、識別的リランキング法は音声認識の正解データを人手で作成しなければならず、このコストが高いことが課題であった。 On the other hand, in discriminative reranking, correction of recognition results is performed using long-distance information (such as certainty in sentence units) that can not be considered in a normal language model, using a pair of speech recognition results and correct data Research exists. However, in the discriminative reranking method, correct data for speech recognition must be manually prepared, and the problem is that this cost is high.
そこで、本発明では正解データを用いずに音声認識結果を修正することができる音声認識装置を提供することを目的とする。 Therefore, it is an object of the present invention to provide a speech recognition apparatus capable of correcting speech recognition results without using correct answer data.
本発明の音声認識装置は、音声認識部と、3gram計算部と、tf−idf計算部と、重要度計算部と、不要単語削除部を含む。なお、Nを2以上の整数とする。 The speech recognition apparatus of the present invention includes a speech recognition unit, a 3 gram calculation unit, a tf-idf calculation unit, an importance calculation unit, and an unnecessary word deletion unit. Note that N is an integer of 2 or more.
音声認識部は、入力された音声データに基づいて1位からN位の音声認識結果を出力する。3gram計算部は、予め用意されたテキストデータの3gram確率を計算する。tf−idf計算部は、1位からN位の音声認識結果に含まれる各単語のtfと、テキストデータに基づいて予め用意されたidfのうち1位の音声認識結果に含まれる各単語のidfに基づき、1位の音声認識結果に含まれる各単語のtf−idfを計算する。重要度計算部は、tf−idfに基づいて1位の音声認識結果に含まれる各単語のNRDを計算し、計算されたNRDに基づく値を各単語の重要度として出力する。不要単語削除部は、1位の音声認識結果に含まれる各単語の信頼度と、1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて1位の音声認識結果に含まれる不要単語を削除する。 The speech recognition unit outputs the first to N-th speech recognition results based on the input speech data. The 3 gram calculating unit calculates the 3 gram probability of the text data prepared in advance. The tf-idf calculation unit is configured to calculate the tf of each word included in the first to N-th speech recognition results and the idf of each word included in the first speech recognition result among idf prepared based on text data. And calculate the tf-idf of each word included in the first speech recognition result. The degree-of-importance calculation unit calculates the NRD of each word included in the first-ranked speech recognition result based on tf-idf, and outputs a value based on the calculated NRD as the degree of importance of each word. The unnecessary word deletion unit is included in the reliability of each word included in the first-ranked speech recognition result, the 3-gram probability of three consecutive words included in the first-ranked speech recognition result, and the first-ranked speech recognition result The unnecessary words included in the first speech recognition result are deleted based on the solution of the integer programming problem formulated using the importance of each word.
本発明の音声認識装置によれば、正解データを用いずに音声認識結果を修正することができる。 According to the speech recognition apparatus of the present invention, the speech recognition result can be corrected without using the correct answer data.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. Note that components having the same function will be assigned the same reference numerals and redundant description will be omitted.
以下、図1、図2を参照して実施例1の音声認識装置1の構成、および動作を説明する。図1に示すように、本実施例の音声認識装置1は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、tf−idf計算部13と、重要度計算部14と、不要単語削除部15を含む。コーパス記憶部10には、予め用意されたテキストデータが記憶されているものとする。
The configuration and operation of the speech recognition apparatus 1 according to the first embodiment will be described below with reference to FIGS. 1 and 2. As shown in FIG. 1, the speech recognition apparatus 1 of this embodiment includes a
音声認識部11は、入力された音声データに基づいて1位からN位の音声認識結果を出力する(S11)。3gram計算部12は、予め用意されたテキストデータの3gram確率を計算する(S12)。tf−idf計算部13は、1位からN位の音声認識結果に含まれる各単語のtfと、テキストデータに基づいて予め用意されたidfのうち1位の音声認識結果に含まれる各単語のidfに基づき、1位の音声認識結果に含まれる各単語のtf−idfを計算する(S13)。重要度計算部14は、tf−idfに基づいて1位の音声認識結果に含まれる各単語のNRD(Normalized Relevance Distance)を計算し、計算されたNRDに基づく値を各単語の重要度として出力する(S14)。不要単語削除部15は、1位の音声認識結果に含まれる各単語の信頼度と、1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて1位の音声認識結果に含まれる不要単語を削除する(S15)。
The
以下、各構成要件の動作について詳細に説明する。
<音声認識部11>
入力:音声データ(音圧の時系列データ。形式はpcm,wavなど)、順位数の上限N
出力:音声認識結果の1位〜N位の文、各文における各単語の信頼度
ここで、入力される音声データは、例えば1発話毎に文として処理されるものとする。
The operation of each component will be described in detail below.
<
Input: Audio data (time-series data of sound pressure. Format is pcm, wav etc.), upper limit N of the order number
Output: 1st to Nth sentences of speech recognition result, reliability of each word in each sentence Here, it is assumed that the inputted speech data is processed as a sentence for each one utterance.
[入力される1発話毎の文例]
1発話目の文例:「今日はかるカレーを食べた」
音声認識部11は、音声データを入力として取得し、一般的な音声認識方法によって音声認識を実行し、1位からN位までの音声認識結果を出力する(S11)。ただし前述したようにNは2以上の整数である。
[Example of sentences for each input utterance]
Example of the first utterance: "I ate curry curry today"
The
ステップS11により、音声データの各文(文は時刻情報を基に区切られる)に対し、以下のように順位と各単語に信頼度を持つ複数(=N個)仮説の認識結果が出力される。なお、Nは人手で指定してもよい。例えば、N=5としてもよい。 In step S11, recognition results of multiple (= N) hypotheses having degrees of reliability and reliability for each word are output as follows for each sentence (sentences are separated based on time information) of speech data . Note that N may be specified manually. For example, N may be five.
認識結果の複数仮説とは、音声認識結果のうち、音声認識システムにより1番尤もらしいと評価された文、音声認識の計算途中で上記以外に候補として挙がった文を含む複数の認識結果よりなる仮説を示す。 The multiple hypotheses of recognition results consist of multiple recognition results that include, among the speech recognition results, sentences evaluated as likely to be the first by the speech recognition system, and sentences cited as candidates other than those mentioned above during calculation of speech recognition. Show a hypothesis.
信頼度とは、認識結果の各単語に対してどれだけの尤もらしさでこの単語が正解しているかを表す確率値であり、0以上1以下の値を持つ。 The degree of reliability is a probability value indicating how much likelihood this word is correct for each word of the recognition result, and has a value of 0 or more and 1 or less.
[信頼度の例]
1位:今日 は かる カレー を 食べた
信頼度:今日→0.7 は→0.5 かる→0.4 カレー→0.5 を→0.7 食べた→0.9
2位:今日 は 軽い カレー を 食べた
信頼度:今日→0.7 は→0.5 軽い→0.35 カレー→0.5 を→0.7 食べた→0.9
・・・
N位: 今日 は かん カレー を 食べた
信頼度:今日→0.7 は→0.5 かん→0.2 カレー→0.5 を→0.7 食べた→0.9
[Example of reliability]
1st place: Today I ate curry curd Reliability: Today → 0.7 → → 0.5 → → 0.4 Curry → 0.5 → 0.7 Eat → 0.9
2nd place: Today I ate light curry Confidence: Today → 0.7 ate → 0.5 light → 0.35 Curry → 0.5 ate → 0.7 → 0.9
...
N: I ate Kan curry today
Confidence: Today → 0.7 → 0.5 Can → 0.2 Curry → 0.5 → 0.7 Eat → 0.9
<3gram計算部12>
入力:大量のテキストデータ
出力:テキストデータに対する3gram確率
3gram計算部12は、予め用意された大量のテキストデータ(音声認識結果でないもの)を用いる。本実施例では、大量のテキストデータはコーパス記憶部10に予め記憶されているものとする。大量のテキストデータとしては、例えば新聞の記事などを用いることができる。大量のテキストデータとしては、例えば1個30文程度の記事が150000記事程度あるようなコーパスが考えられる。
<3
Input: large amount of text data output: 3gram probability for text data The
3gram計算部12は、大量のテキストデータの全ての文に対して、3gram確率を計算する。3gram確率とは、三つの単語が連続して文章に出現する確率を表す。ステップS12を具体例を用いて説明する。例えば、3gram(今日、は、暑い)という並びが出現する3gram確率p(暑い|今日、は)を計算したいとする。これを計算する際、「今日、は、○○○」と連続する3単語の並びをテキストデータすべてに対して探し出し、その個数を計算する。その結果例えば以下の3パターンのみが見つかり、各並びの個数は以下であったとする。
(1)今日 は 暑い 100
(2)今日 は 晴れ 95
(3)今日 は まれ 5
この場合、3gram確率p(暑い|今日、は)は、
The 3
(1) It is hot 100 today
(2) It is fine today 95
(3) Rarely today 5
In this case, the 3gram probability p (hot | today) is
と計算される。3gram計算部12は、テキストデータに出現する任意の単語について、考えられる任意の三並びwi,wj,wkが生じる条件付き確率p(wk|wi,wj)を計算する(i、j、kは任意のインデックスを表す記号、以下の数式などにも登場する)。
Is calculated.
ここで、任意の三並びwi,wj,wkがテキストデータに1回も出現せず、p(wk|wi,wj)が直接計算不可能な場合も存在する。このような場合には、バックオフと呼ばれる方法で対処すればよい。バックオフとは、上述のような場合に3gramの代わりに2gramや1gramを利用する方法である。バックオフについては、例えば参考非特許文献1に開示されている。
(参考非特許文献1:北研二、辻井潤一、「言語と計算(4)確率的言語モデル」、東京大学出版会、1999年11月、p.67-69)
Here, there are also cases where arbitrary three lines w i , w j and w k do not appear at least once in text data, and p (w k | w i , w j ) can not be calculated directly. In such a case, it may be dealt with by a method called backoff. Backoff is a method of using 2gram or 1gram instead of 3gram in the above case. The backoff is disclosed, for example, in Reference Non-Patent Document 1.
(Reference Non-Patent Document 1: Kenji Kita, Junichi Sakurai, “Language and Computation (4) Probabilistic Language Model”, The University of Tokyo Press, November 1999, p. 67-69)
また、p(○|start)とp(end|○,○)も計算する。p(○|start)は文頭の直後に○という単語が出現する確率である。p(end|○,○)は、○,○という並びの後文末になる確率である。文頭、文末は、テキストデータにおける改行記号を基に判断する。 Also, p (o | start) and p (end | o, o) are also calculated. p (o | start) is the probability that the word ○ appears immediately after the beginning of a sentence. p (end | ,,)) is the probability of becoming a tail end of the sequence of ,, 。. The beginning of the sentence and the end of the sentence are judged based on the line feed symbol in the text data.
<tf−idf計算部13>
入力:1位からN位の音声認識結果、大量のテキストデータ
出力:1位の音声認識結果に出現した全ての単語に対するtf−idf
tf−idfとは、tf(term frequency、単語の出現頻度)とidf(inverse document frequency、逆文書頻度)の二つの指標にもとづいて計算される指標であり、文章内での単語の重要度を表す指標である。
<Tf-
Input: First to N speech recognition results, large amount of text data output: tf-idf for all words appearing in the first speech recognition result
tf-idf is an index calculated based on two indices of tf (term frequency, word occurrence frequency) and idf (inverse document frequency, inverse document frequency), and the importance of a word in a sentence is It is an indicator to represent.
まず、ステップS12で用いた大量のテキストデータと同じデータを用意する。本実施例では、コーパス記憶部10に予め記憶されたテキストデータを流用すればよい。予め用意するテキストデータは前述したとおり、例えば新聞の記事、1個30文程度の記事が150000記事程度あるようなコーパスなどでよい。
First, the same data as the large amount of text data used in step S12 is prepared. In the present embodiment, text data stored in advance in the
以下、idfの計算方法について述べる。テキストデータのドキュメント(文書のあるまとまった区切り。当該区切りはあらかじめテキストデータに付与されているものとする。例えば新聞なら1記事など)の数をD、そのうち着目単語aが出現するドキュメントの数をdとすると、idfはlog(D/d)と計算される。対数の底は任意の1より大きい正の実数とする。以下の例では底は10であるものとする。 The method of calculating idf is described below. The number of documents of text data (a set of document segments, which is assumed to be attached to the text data in advance, for example, one article in a newspaper), is D, of which the number of documents in which the target word a appears Assuming that d, idf is calculated as log (D / d). The base of the logarithm is a positive real number greater than one. In the following example, the bottom is assumed to be 10.
例えばコーパス記憶部10内のドキュメントの総数が150000で、
「今日」が出現するドキュメントの数・・・400
「は」が出現するドキュメントの数・・・300
「カレー」が出現するドキュメントの数・・・3000
「を」が出現するドキュメントの数・・・50000
「食べ」が出現するドキュメントの数・・・40000
「た」が出現するドキュメントの数・・・50000
であったとする。
For example, the total number of documents in the
Number of documents where "today" appears ... 400
Number of documents where "ha" appears ... 300
Number of documents where "curry" appears-3000
The number of documents in which "o" appears ... 50000
Number of documents that "eat" appears ... 40000
Number of documents in which "ta" appears ... 50000
It is assumed that
この場合、tf−idf計算部13は各単語のidfを、
「今日」のidf=log10(150000/400)=2.24
「は」のidf=log10(150000/300)=2.70
「カレー」のidf=log10(150000/3000)=1.70
「を」のidf=log10(150000/50000)=0.478
「食べ」のidf=log10(150000/40000)=0.57
「た」のidf=log10(150000/50000)=0.478
と計算する。
In this case, the tf-
Idf of "today" = log 10 (150000/400) = 2.24
Idf = log 10 (150,000 / 300) = 2.70 of "ha"
Idf of "curry" = log 10 (150000/3000) = 1.70
Idf = log 10 (150,000 / 50000) = 0.478 of "to"
"Eat" idf = log 10 (150000/40000) = 0.57
Idf of the "ta" = log 10 (150,000 / 50000) = 0.478
Calculate
次に、tfの計算方法について述べる。一般的にtfは、あるドキュメント内での単語の総数がMである場合に、当該ドキュメント内における、着目単語aの出現頻度Aを用いて、tf=A/Mと計算される。 Next, the method of calculating tf will be described. Generally, tf is calculated as tf = A / M using the appearance frequency A of the word of interest a in the document when the total number of words in a document is M.
従って、tf−idf計算部13は、1位からN位までの音声認識結果の集合を一つのドキュメントと捉え、少なくとも1位の音声認識結果に含まれる各単語についてtfを計算する。例えば、1位からN位までの音声認識結果の集合における単語の総数M=1000であり、1位の音声認識結果に含まれる単語「カレー」の出現頻度A=200であるものとすると、
「カレー」のtf=200/1000=0.20
と計算される。
Therefore, the tf-
"Curry" tf = 200/1000 = 0.20
Is calculated.
tf−idf計算部13は、idfとtfの値を用いて、tf−idfを以下のように計算する。
tf−idf=tf×idf
例えば前述の例における「カレー」のtf−idfは、
tf−idf=0.20×1.70=0.34
である。
The tf-
tf-idf = tf x idf
For example, tf-idf of "curry" in the above example is
tf-idf = 0.20 × 1.70 = 0.34
It is.
なお、tf−idf計算部13は、少なくとも1位の音声認識結果に含まれる各単語のtf−idfを計算すればよい。ここで重要なのは、tfの計算には1位からN位までの音声認識結果が必要であるものの、tf−idfとしては、必ずしも1位からN位までの音声認識結果に登場する全ての単語について必須ではないということである。
The tf-
<重要度計算部14>
入力:1位の音声認識結果、1位の音声認識結果のtf−idf
出力:1位の音声認識結果に含まれる各単語のNRD(Normalized Relevance Distance)
重要度計算部14は、1位の音声認識結果のtf−idfに基づいて、1位の音声認識結果中の2単語間の類似性を表す尺度であるNRDを計算する(S14)。2単語間の類似性を表すNRDを計算する目的は、例えば、ある単語が他の単語との類似性が高ければ、その単語は誤認識ではない正解単語であり、削除すべき不要な単語ではないと判断できるためである。
<Importance calculation unit 14>
Input: tf-idf of speech recognition result of first place, speech recognition result of first place
Output: NRD (Normalized Relevance Distance) of each word included in the first speech recognition result
The importance degree calculation unit 14 calculates NRD, which is a measure representing the similarity between two words in the first speech recognition result, based on tf-idf of the first speech recognition result (S14). The purpose of calculating NRD that represents the similarity between two words is, for example, if a word is highly similar to another word, that word is a correct word that is not misrecognized, and unnecessary words that should be deleted It is because it can be judged that there is not.
ここで、NRDを計算するために、まず各単語に対するfNRD(w)と、2単語間のfNRD(w1,w2)を算出する。これらは、 Here, in order to calculate NRD, first f NRD (w) for each word and f NRD (w 1 , w 2 ) between two words are calculated. They are,
として定義される。なお、TFIDF(w,d)は、ドキュメントdにおける単語wのtf−idfを表す。Sはドキュメントの総数である。 Defined as TFIDF (w, d) represents tf-idf of the word w in the document d. S is the total number of documents.
重要度計算部14は、例えば上述の定義を用いて1位の音声認識結果に含まれる各単語のNRDを計算する。例えば、1位の音声認識結果に含まれる各単語がw1,...,wMだったとすると、この中の任意の単語wiの単語一貫性スコアは、 The importance calculator 14 calculates, for example, the NRD of each word included in the first speech recognition result using the above-mentioned definition. For example, each word included in the first speech recognition result is w 1 ,. . . , W M and the word consistency score of any word w i in this
すなわち、インデクスj=1〜Mまでのうちiを除いた全ての単語と単語wiのNRDの逆数の和として計算される。このスコアが高いほど、正解単語である可能性が高く、不要でない(必要な)単語である可能性が高い単語であるものと判断する。 That is calculated as the sum of the inverse of the NRD of all words and word w i excluding i of up index j = 1 to M. As this score is higher, it is determined that the word is likely to be a correct word and is a word that is likely to be an unnecessary (necessary) word.
<不要単語削除部15>
入力:1位の音声認識結果、1位の音声認識結果の各単語に対する信頼度、1位の音声認識結果の各単語に対する3gram確率、1位の音声認識結果の各単語に対する重要度
出力:不要な単語が削除された音声認識結果
不要単語削除部15は、1位の音声認識結果に対して、不要な単語を削除する処理を実行する。今、ある音声データの1位の音声認識結果が、単語w1,w2,...,wTという並びで得られているとする。この文から不要な単語を、NRDに基づく値(単語一貫性スコア、その単語の重要度、削除してはいけない度合い)と、単語3つ並びの接続のしやすさの確率(3gram確率)、信頼度(その単語が音声認識結果として正しいと考えられる度合い)を用いて整数計画問題に定式化する。
<Unnecessary
Input: Speech recognition result of first place, reliability for each word of speech recognition result of first place, 3gram probability for each word of speech recognition result of first place, importance degree output for each word of speech recognition result of first place: unnecessary Speech recognition result in which a word is deleted The unnecessary
ステップS15の説明にあたり、変数を定義する。δi,αi,βij,γijkはいずれも1か0の整数値を取り、δiはi=1〜Tに対して定義され、1ならば単語wiを残し(削除しない)、0ならば削除することを表す変数である。αiはi=1〜Tに対して定義され、1ならば単語wiが文の先頭単語であり、0ならば先頭単語ではないことを表す変数である。βijは0≦i<j≦Tを満たす全ての(i,j)の組み合わせに対して定義され、wi,wjという並びの直後が文末となるならば1、そうでなければ0を表す変数である。γijkは、0≦i<j<k≦Tを満たすすべての(i,j,k)の組み合わせに対して定義され、wi,wj,wkという三連続する単語が削除後の文に存在すれば1、存在しなければ0と定義される。 In the description of step S15, variables are defined. Each of δ i , α i , β ij , and γ ijk takes an integer value of 1 or 0, δ i is defined for i = 1 to T, and 1 leaves the word w i (does not delete it), If it is 0, it is a variable that represents deleting. α i is a variable that is defined for i = 1 to T. If it is 1, it is a variable representing that the word w i is the head word of the sentence and 0 if it is not the head word. β ij is defined for all (i, j) combinations that satisfy 0 ≦ i <j ≦ T, 1 if the sequence immediately after w i , w j is the end of the sentence, 0 otherwise It is a variable to represent. γ ijk is defined for all combinations of (i, j, k) that satisfy 0 ≦ i <j ≦ k ≦ T, and three consecutive words w i , w j and w k are sentences after deletion If it exists in, it is defined as 0, if it does not exist.
この変数を用いて、次の関数を最大化する解となるδi,αi,βij,γijkを計算する(整数計画問題)。 This variable is used to calculate δ i , α i , β ij , γ ijk which become solutions maximizing the next function (integer programming problem).
ここで、Sig(wi)は単語wiの重要度(NRDに基づく値)であり、p(wk|wi,wj)は単語wi,wj,wkが三連続する3gram確率、q(wi)は単語wiの信頼度である。不要単語削除部15は、この問題の解を算出し、w1,w2,...,wTの各単語wiに対して、δiが1となるような単語はそのまま出力し、δiが0となるような単語(不要語に相当する)は出力しないことによって、認識結果文の不要単語の削除を行う。
Here, Sig (w i ) is the importance (value based on NRD) of the word w i , and p (w k | w i , w j ) is a 3 gram in which the words w i , w j and w k are three consecutive probability, q (w i) is the reliability of the word w i. The unnecessary
上記の評価関数を最大にすると、重要度が高くない単語は削除される。また任意の単語を削除した場合に他の単語の並びが自然な並びとなる場合、当該任意の単語は削除される。
例えば、音声認識結果である、「今日 は かる カレー を 食べた」という文に対してこの方法で不要単語を削除し、文圧縮を行うものとする。この場合、「かる」は、重要度が低い(NRDに基づく値が低い)ものとする。すると、「かる」を削除したと仮定した並びの、「は カレー を」が自然である(3gram確率が高い)ならば、該当の「かる」を削除しても構わないはずである。これを数式表現したものが上記の式となっている。
When the above evaluation function is maximized, the less important words are deleted. If any word is deleted and the arrangement of other words is a natural arrangement, the arbitrary word is deleted.
For example, it is assumed that the unnecessary words are deleted by this method for the sentence "I ate today's curry", which is the speech recognition result, and the sentence is compressed. In this case, “Karu” is assumed to be low in importance (low in value based on NRD). Then, if it is natural that “Curray” is natural (the 3 gram probability is high) in the sequence assuming that “Karu” is deleted, the corresponding “Karu” may be deleted. The above expression is a mathematical expression of this.
従って、不要単語削除部15は、上述の最大値問題の解のδiを用いて不要語を除去した音声認識結果を出力する。
Therefore, the unnecessary
以下、図3、図4を参照して実施例2の音声認識装置の構成および動作について説明する。図3に示すように本実施例の音声認識装置2は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、重要度計算部24と、不要単語削除部15を含む。実施例1の音声認識装置1に存在したtf−idf計算部13が省略されていること、実施例1の重要度計算部14が本実施例において重要度計算部24に置き換えられていること以外については、実施例1と同様であるため、適宜説明を略する。
The configuration and operation of the speech recognition apparatus according to the second embodiment will be described below with reference to FIGS. 3 and 4. As shown in FIG. 3, the
本実施例では、単語の重要度を計算する際、NRDの代わりにword2vecを用いる。word2vecは大量のテキストデータの各単語をDNN(Deep Neural Network)を用いてU次元(Uは2以上の整数)の実数値ベクトルに変換する方法である。word2vecについては例えば参考非特許文献2に開示されている。
(参考非特許文献2:Tomas Mikolov, Ilya Sutskever , Kai Chen, Greg Corrado, Jeffrey Dean, ”Distributed Representations of Words and Phrases and their Compositionality”, [online], Oct 2013, [平成28年5月30日検索]、インターネット<URL:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>)
In this embodiment, word2vec is used instead of NRD when calculating the importance of a word. word2vec is a method of converting each word of a large amount of text data into a U-dimensional (U is an integer of 2 or more) real value vector using DNN (Deep Neural Network). The word 2vec is disclosed, for example, in
(Reference Non-Patent Document 2: Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean, “Distributed Representations of Words and Words and Their Compositionality”, [online], Oct 2013, [May 30, 2016 Search ], Internet <URL: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>)
次元Uは人手で指定する。例えば、U=100などが用いられる。以下、単語wのword2vecの実数値ベクトルをx(w)と書くことにする(このベクトルは縦ベクトルであるものとする)。これを用いて、前述の The dimension U is specified manually. For example, U = 100 is used. Hereinafter, the real-valued vector of word2vec of word w will be written as x (w) (this vector is assumed to be a vertical vector). Using this,
を用いる。すなわち、重要度計算部24は、テキストデータの各単語wを、DNNを用いてU次元の実数値ベクトルx(w)に変換し、当該U次元の実数値ベクトルx(w)に基づいて、1位の音声認識結果に含まれる各単語の重要度を計算する(S24)。
Use That is, the
以下、図5、図6を参照して実施例3の音声認識装置の構成および動作について説明する。本実施例の音声認識装置3は、実施例2の音声認識装置2にさらに変更を加えたものである。図5に示すように本実施例の音声認識装置3は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、重要度計算部34と、不要単語削除部15を含み、実施例2の重要度計算部24が本実施例において重要度計算部34に置き換えられていること以外については、実施例2と同様であるため、適宜説明を略する。
The configuration and operation of the speech recognition apparatus according to the third embodiment will be described below with reference to FIGS. 5 and 6. The speech recognition apparatus 3 of this embodiment is a modification of the
本実施例の重要度計算部34は、単語の重要度を計算する際、word2vecによる実数値ベクトルのばらつきの度合いに基づいて重要度(文内での自然さ)を計算する。今、文中の各単語w1,w2,...,wVのそれぞれに対し、実数値ベクトルx(wi)を考える。
この実数値ベクトルの平均ベクトルである
When calculating the degree of importance of a word, the degree of
Is the mean vector of this real-valued vector
以下、図7、図8を参照して実施例4の音声認識装置の構成および動作について説明する。本実施例の音声認識装置4は、実施例2の音声認識装置2にさらに変更を加えたものである。図7に示すように本実施例の音声認識装置4は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、重要度計算部44と、不要単語削除部15を含み、実施例2の重要度計算部24が本実施例において重要度計算部44に置き換えられていること以外については、実施例2と同様であるため、適宜説明を略する。
The configuration and operation of the speech recognition apparatus according to the fourth embodiment will be described below with reference to FIGS. 7 and 8. The
本実施例の重要度計算部44は、実施例3と同様に、単語の重要度を計算する際、word2vecによる実数値ベクトルのばらつきの度合いに基づいて重要度(文内での自然さ)を計算する。
Similar to the third embodiment, the
今、文中の各単語w1,w2,...,wYのそれぞれに対し、実数値ベクトルwiを考える。この実数値ベクトル群が1混合正規分布に従うと仮定し、 Now, each word w 1 , w 2 ,. . . , W Y , consider real value vectors w i . Assuming that this real-valued vector group follows one mixed normal distribution,
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary Note>
The apparatus according to the present invention is, for example, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected as a single hardware entity, or a communication device (for example, communication cable) capable of communicating outside the hardware entity. Communication unit that can be connected, CPU (central processing unit, cache memory, registers, etc. may be provided), RAM or ROM that is memory, external storage device that is hard disk, input unit for these, output unit, communication unit , CPU, RAM, ROM, and a bus connected so as to enable exchange of data between external storage devices. If necessary, the hardware entity may be provided with a device (drive) capable of reading and writing a recording medium such as a CD-ROM. Examples of physical entities provided with such hardware resources include general purpose computers.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above-mentioned function, data required for processing the program, and the like (not limited to the external storage device, for example, the program is read) It may be stored in the ROM which is a dedicated storage device). In addition, data and the like obtained by the processing of these programs are appropriately stored in a RAM, an external storage device, and the like.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in the external storage device (or ROM etc.) and data necessary for processing of each program are read into the memory as necessary, and interpreted and processed appropriately by the CPU . As a result, the CPU realizes predetermined functions (each component requirement expressed as the above-mentioned,...
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit of the present invention. Further, the processing described in the above embodiment may be performed not only in chronological order according to the order of description but also may be performed in parallel or individually depending on the processing capability of the device that executes the processing or the necessity. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing function in the hardware entity (the apparatus of the present invention) described in the above embodiment is implemented by a computer, the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on a computer, the processing function of the hardware entity is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing content can be recorded in a computer readable recording medium. As the computer readable recording medium, any medium such as a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, etc. may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (Rewritable), etc. as magneto-optical recording medium, MO (Magneto-Optical disc) etc., as semiconductor memory EEP-ROM (Electronically Erasable and Programmable Only Read Memory) etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 Further, this program is distributed, for example, by selling, transferring, lending, etc. a portable recording medium such as a DVD, a CD-ROM or the like in which the program is recorded. Furthermore, this program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 For example, a computer that executes such a program first temporarily stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, at the time of execution of the process, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer Each time, processing according to the received program may be executed sequentially. In addition, a configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes processing functions only by executing instructions and acquiring results from the server computer without transferring the program to the computer It may be Note that the program in the present embodiment includes information provided for processing by a computer that conforms to the program (such as data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the hardware entity is configured by executing a predetermined program on a computer, but at least a part of the processing content may be realized as hardware.
Claims (7)
入力された音声データに基づいて1位からN位の音声認識結果を出力する音声認識部と、
予め用意されたテキストデータの3gram確率を計算する3gram計算部と、
前記1位からN位の音声認識結果に含まれる各単語のtfと、前記テキストデータに基づいて予め用意されたidfのうち前記1位の音声認識結果に含まれる各単語のidfに基づき、前記1位の音声認識結果に含まれる各単語のtf−idfを計算するtf−idf計算部と、
前記tf−idfに基づいて前記1位の音声認識結果に含まれる各単語のNRDを計算し、計算された前記NRDに基づく値を各単語の重要度として出力する重要度計算部と、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除する不要単語削除部
を含む音声認識装置。 Let N be an integer of 2 or more,
A voice recognition unit that outputs a first to N-th voice recognition result based on input voice data;
3gram calculation unit which calculates 3gram probability of text data prepared in advance;
The tf of each word included in the first to N speech recognition results and the idf of each word included in the first speech recognition result among idf prepared in advance based on the text data, A tf-idf calculator for calculating tf-idf of each word contained in the first-ranked speech recognition result;
An importance calculator configured to calculate an NRD of each word included in the first-ranked speech recognition result based on the tf-idf, and outputting the calculated value based on the NRD as the importance of each word;
The reliability of each word included in the first speech recognition result, the 3-gram probability of three consecutive words included in the first speech recognition result, and each word included in the first speech recognition result A speech recognition apparatus including an unnecessary word deletion unit which deletes an unnecessary word included in the first speech recognition result on the basis of the solution of the integer programming problem formulated using the importance and the importance.
予め用意されたテキストデータの3gram確率を計算する3gram計算部と、
前記テキストデータの各単語を、DNNを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記1位の音声認識結果に含まれる各単語の重要度を計算する重要度計算部と、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除する不要単語削除部
を含む音声認識装置。 A speech recognition unit that outputs a first speech recognition result based on input speech data;
3gram calculation unit which calculates 3gram probability of text data prepared in advance;
Each word of the text data is converted into a multi-dimensional real-valued vector using DNN, and the importance of each word included in the first-ranked speech recognition result is calculated based on the multi-dimensional real-valued vector Importance calculation unit,
The reliability of each word included in the first speech recognition result, the 3-gram probability of three consecutive words included in the first speech recognition result, and each word included in the first speech recognition result A speech recognition apparatus including an unnecessary word deletion unit which deletes an unnecessary word included in the first speech recognition result on the basis of the solution of the integer programming problem formulated using the importance and the importance.
前記重要度計算部は、
前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
音声認識装置。 The speech recognition apparatus according to claim 2, wherein
The importance calculation unit
A speech recognition apparatus which calculates the importance based on the degree of variation of the real value vector.
Nを2以上の整数とし、
入力された音声データに基づいて1位からN位の音声認識結果を出力するステップと、
予め用意されたテキストデータの3gram確率を計算するステップと、
前記1位からN位の音声認識結果に含まれる各単語のtfと、前記テキストデータに基づいて予め用意されたidfのうち前記1位の音声認識結果に含まれる各単語のidfに基づき、前記1位の音声認識結果に含まれる各単語のtf−idfを計算するステップと、
前記tf−idfに基づいて前記1位の音声認識結果に含まれる各単語のNRDを計算し、計算された前記NRDに基づく値を各単語の重要度として出力するステップと、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除するステップ
を含む音声認識方法。 A speech recognition method performed by a speech recognition device, comprising
Let N be an integer of 2 or more,
Outputting the first to N-th speech recognition results based on the input speech data;
Calculating a 3-gram probability of text data prepared in advance;
The tf of each word included in the first to N speech recognition results and the idf of each word included in the first speech recognition result among idf prepared in advance based on the text data, Calculating tf-idf of each word contained in the first-place speech recognition result;
Calculating an NRD of each word included in the first speech recognition result based on the tf-idf, and outputting a value based on the calculated NRD as an importance of each word;
The reliability of each word included in the first speech recognition result, the 3-gram probability of three consecutive words included in the first speech recognition result, and each word included in the first speech recognition result A speech recognition method including the step of deleting unnecessary words included in the first-ranked speech recognition result based on the solution of the integer programming problem formulated using the importance and the importance.
入力された音声データに基づいて1位の音声認識結果を出力するステップと、
予め用意されたテキストデータの3gram確率を計算するステップと、
前記テキストデータの各単語を、DNNを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記1位の音声認識結果に含まれる各単語の重要度を計算するステップと、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除するステップ
を含む音声認識方法。 A speech recognition method performed by a speech recognition device, comprising
Outputting a first speech recognition result based on the input speech data;
Calculating a 3-gram probability of text data prepared in advance;
Each word of the text data is converted into a multi-dimensional real-valued vector using DNN, and the importance of each word included in the first-ranked speech recognition result is calculated based on the multi-dimensional real-valued vector Step and
The reliability of each word included in the first speech recognition result, the 3-gram probability of three consecutive words included in the first speech recognition result, and each word included in the first speech recognition result A voice recognition method comprising the step of deleting unnecessary words included in the first place voice recognition result based on the solution of the integer programming problem formulated using the degree of importance.
前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
音声認識方法。 The speech recognition method according to claim 5, wherein
A speech recognition method for calculating the degree of importance based on the degree of variation of the real value vector.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016112982A JP6549064B2 (en) | 2016-06-06 | 2016-06-06 | Speech recognition device, speech recognition method, program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016112982A JP6549064B2 (en) | 2016-06-06 | 2016-06-06 | Speech recognition device, speech recognition method, program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017219637A JP2017219637A (en) | 2017-12-14 |
| JP6549064B2 true JP6549064B2 (en) | 2019-07-24 |
Family
ID=60657628
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016112982A Active JP6549064B2 (en) | 2016-06-06 | 2016-06-06 | Speech recognition device, speech recognition method, program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6549064B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112530417B (en) * | 2019-08-29 | 2024-01-26 | 北京猎户星空科技有限公司 | Voice signal processing method and device, electronic equipment and storage medium |
| CN111917850B (en) * | 2020-07-20 | 2022-07-05 | 武汉美和易思数字科技有限公司 | Intelligence thing networking campus knapsack |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5111300B2 (en) * | 2008-08-27 | 2013-01-09 | 日本電信電話株式会社 | Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program |
| JP5346327B2 (en) * | 2010-08-10 | 2013-11-20 | 日本電信電話株式会社 | Dialog learning device, summarization device, dialog learning method, summarization method, program |
-
2016
- 2016-06-06 JP JP2016112982A patent/JP6549064B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2017219637A (en) | 2017-12-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11688391B2 (en) | Mandarin and dialect mixed modeling and speech recognition | |
| JP7092953B2 (en) | Phoneme-based context analysis for multilingual speech recognition with an end-to-end model | |
| US7835902B2 (en) | Technique for document editorial quality assessment | |
| CN112712804A (en) | Speech recognition method, system, medium, computer device, terminal and application | |
| US20120262461A1 (en) | System and Method for the Normalization of Text | |
| US9588967B2 (en) | Interpretation apparatus and method | |
| WO2019065263A1 (en) | Pronunciation error detection device, method for detecting pronunciation error, and program | |
| JP6955963B2 (en) | Search device, similarity calculation method, and program | |
| CN104239289B (en) | Syllabification method and syllabification equipment | |
| US12536375B2 (en) | Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus | |
| JP6552999B2 (en) | Text correction device, text correction method, and program | |
| JP2020118929A (en) | Abstract generation device, method, program, and storage medium | |
| CN114678013B (en) | A method, device and readable storage medium for sentence pronunciation evaluation | |
| JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
| JP5253317B2 (en) | Summary sentence creation device, summary sentence creation method, program | |
| JP6549064B2 (en) | Speech recognition device, speech recognition method, program | |
| CN110008807A (en) | A kind of training method, device and the equipment of treaty content identification model | |
| JP6486789B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
| JP2016095399A (en) | Voice recognition result shaping device, method, and program | |
| CN114398876B (en) | Text error correction method and device based on finite state converter | |
| JP6852167B2 (en) | Confusion network distributed representation generation device, confusion network classification device, confusion network distributed representation generation method, confusion network classification method, program | |
| JP6441203B2 (en) | Speech recognition result compression apparatus, speech recognition result compression method, and program | |
| JP7831499B2 (en) | Document classification device, document classification method, and document classification program | |
| RU2814808C1 (en) | Method and system for paraphrasing text | |
| CN120337907B (en) | Text processing methods, devices, media and products |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180830 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190612 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190626 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6549064 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |