Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7800738B2 - Speech recognition device, speech recognition method, and program - Google Patents
[go: Go Back, main page]

JP7800738B2 - Speech recognition device, speech recognition method, and program - Google Patents

Speech recognition device, speech recognition method, and program

Info

Publication number
JP7800738B2
JP7800738B2 JP2024569990A JP2024569990A JP7800738B2 JP 7800738 B2 JP7800738 B2 JP 7800738B2 JP 2024569990 A JP2024569990 A JP 2024569990A JP 2024569990 A JP2024569990 A JP 2024569990A JP 7800738 B2 JP7800738 B2 JP 7800738B2
Authority
JP
Japan
Prior art keywords
score
hypothesis
blm
speech recognition
isf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024569990A
Other languages
Japanese (ja)
Other versions
JPWO2024150422A1 (en
Inventor
厚徳 小川
崇史 森谷
直之 加茂
直弘 俵
マーク デルクロア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2024150422A1 publication Critical patent/JPWO2024150422A1/ja
Application granted granted Critical
Publication of JP7800738B2 publication Critical patent/JP7800738B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Description

本開示は、音声認識装置、音声認識方法、プログラムに関する。 This disclosure relates to a speech recognition device, a speech recognition method, and a program.

音声認識は人間が発した音声を計算機によりトークン列(単語列/サブワード列/文字列など)に変換する技術である。ニューラルネットワーク(neural network: NN)技術の導入により音声認識の精度は飛躍的に向上した。従来の音声認識システムは、音響分析部、音響モデル部、言語モデル部、探索部などのモジュールで構成されており、その各モジュール(主に音響モデル部と言語モデル部)に、個別にNNに基づくモデリングが導入されていた。一方、近年では、音声認識システムを一つのNNでモデリングするend-to-end(E2E)音声認識技術が盛んに研究されており、電話会話音声認識タスクで人間の能力を超える音声認識精度を達成したとの報告がある。E2E音声認識システムは、一つのNNを用いるが、その内部でエンコーダ部やデコーダ部などのモジュール化が行われる(例えば非特許文献1を参照)。Speech recognition is a technology that converts human speech into a sequence of tokens (such as a sequence of words, subwords, or character strings) using a computer. The introduction of neural network (NN) technology has dramatically improved the accuracy of speech recognition. Conventional speech recognition systems consist of modules such as an acoustic analysis unit, an acoustic model unit, a language model unit, and a search unit, with each module (mainly the acoustic model unit and the language model unit) incorporating individual NN-based modeling. In recent years, however, end-to-end (E2E) speech recognition technology, which models a speech recognition system using a single NN, has been actively researched, and it has been reported that it has achieved speech recognition accuracy that exceeds human capabilities in telephone conversation speech recognition tasks. E2E speech recognition systems use a single NN, but the encoder, decoder, and other components are modularized within the system (see, for example, non-patent document 1).

E2E音声認識システム(モデル)は、音声とそれに対応するトークン列(テキスト)のペアデータを用いて、音声からトークン列への変換を直接的に捉えるように学習される。大量のペアデータを用いることで高精度のE2E音声認識モデルを学習することが可能であるが、実際に準備できるペアデータの量には限界がある。音声に対応するトークン列の書き起こしは通常人手で行うため、時間と費用の両面でコストが高いためである。 E2E speech recognition systems (models) are trained to directly capture the conversion from speech to token sequences using paired data of speech and its corresponding token sequences (text). While it is possible to train highly accurate E2E speech recognition models using large amounts of paired data, there is a limit to the amount of paired data that can actually be prepared. This is because transcribing the token sequences corresponding to speech is usually done manually, which is costly in terms of both time and money.

一方、テキストデータのみであれば、ペアデータと比較して、より容易に、かつ、より大量に入手することが可能である。そこでペアデータとは別に準備した大量のテキストデータを用いて学習した言語モデル(トークン列の生起確率を計算するモデル)を、外部知識(外部言語モデル)としてE2E音声認識モデルと統合して用いる手法が提案されている。その統合手法として最もよく用いられているのが、shallow fusion(SF)である。SFは探索処理時にメインのE2E音声認識モデルが出力するスコア(対数確率)と外部言語モデルが出力するスコア(同じく対数確率)を重み付け加算するという簡易な手法でありながら、有効性が高いことが確認されている(例えば非特許文献1、2を参照)。On the other hand, text data alone can be obtained more easily and in larger quantities than paired data. Therefore, a method has been proposed in which a language model (a model that calculates the probability of occurrence of token sequences) trained using large amounts of text data prepared separately from paired data is integrated with an E2E speech recognition model as external knowledge (external language model). The most commonly used integration method is shallow fusion (SF). SF is a simple method that weights and adds the scores (logarithmic probability) output by the main E2E speech recognition model and the scores (also logarithmic probability) output by the external language model during the search process, yet has been shown to be highly effective (see, for example, non-patent documents 1 and 2).

SFはビーム探索における音声認識仮説の文頭からの延長に応じて逐次的に実行されるため、外部言語モデルとしては、通常の前向き言語モデル(forward language model:FLM)が用いられる。以下では「仮説」と「トークン列」は同じ意味で用いる。なお、ビーム探索とは、入力音声に対して最高スコアとなる見込みの高い仮説を残し、見込みの低い仮説を枝刈りしつつ、複数の仮説の延長・展開を同時に行う処理である。 Since SF is performed sequentially according to the extension of speech recognition hypotheses from the beginning of a sentence in beam search, a conventional forward language model (FLM) is used as the external language model. Below, "hypothesis" and "token sequence" are used interchangeably. Note that beam search is a process that simultaneously extends and expands multiple hypotheses while retaining the hypothesis that is likely to yield the highest score for the input speech and pruning less likely hypotheses.

一方、音声認識仮説のリスコアリングという方法がある。リスコアリングとは、Nベストリストやラティスの形式で得られた複数の仮説に対して、リスコアリング用の外部モデル(主に言語モデル)を用いてスコアを付与し直して(仮説を再評価して)、最終的な音声認識結果(1ベスト仮説)を取得する方法である。この方法では、FLMに加えて、後向き言語モデル(backward language model:BLM)が用いられることも多く、その有効性が確認されている(例えば非特許文献3を参照)。なお、後向き言語モデル(BLM)とは、FLMの学習に用いられる通常の語順のテキストデータを反転させたデータ(反転テキストデータ)を用いて学習された言語モデルであり、文末から文頭へと、通常とは逆の語順で仮説の生起確率を計算するモデルである。On the other hand, there is a method called rescoring of speech recognition hypotheses. Rescoring involves re-scoring (re-evaluating) multiple hypotheses obtained in the form of an N-best list or lattice using an external rescoring model (usually a language model) to obtain a final speech recognition result (one best hypothesis). In this method, a backward language model (BLM) is often used in addition to an FLM, and its effectiveness has been confirmed (see, for example, Non-Patent Document 3). A backward language model (BLM) is a language model trained using data (reversed text data) in which the normal word order used to train an FLM is reversed. The model calculates the probability of occurrence of hypotheses in the reverse word order, from the end of the sentence to the beginning of the sentence.

リスコアリングにおいてBLMが用いられる理由としては、BLMがFLMとは異なる観点で仮説の生起確率を評価でき、両モデルは互いに相補的であるため、これら両モデルを併用することで、仮説に対してより高精度な言語スコアを付与できる点が挙げられる。更なる理由としては、リスコアリングは探索処理が完了した仮説に対して行われるため、すなわち、文頭から文末(あるいは文末から文頭)へのトークン列が完全に得られている状態(本明細書では「完全仮説」と呼ぶ)で行われるため、文末をスコア計算の起点とするBLMを適用しやすいという点が挙げられる。逆に言うと、探索処理途中で文末が確定していない仮説(完全仮説と対比して「部分仮説」と呼ぶ。また、単に「仮説」と書く場合には「部分仮説」を指す)に対してBLMを適用するのは困難である。なお、FLMは文頭をスコア計算の起点とするため、部分仮説に対しても容易に適用できる。BLM is used in rescoring because it can evaluate the probability of a hypothesis from a different perspective than FLM, and because the two models are complementary, using them together can assign a more accurate language score to a hypothesis. Another reason is that rescoring is performed on hypotheses for which the search process has been completed, i.e., when the token sequence from the beginning of the sentence to the end (or from the end to the beginning) has been completely obtained (referred to as a "complete hypothesis" in this specification), BLM, which uses the end of the sentence as the starting point for score calculation, is easily applicable. Conversely, it is difficult to apply BLM to hypotheses in the middle of the search process whose end of the sentence has not yet been determined (referred to as a "partial hypothesis" in contrast to a complete hypothesis; also, when simply referring to a "hypothesis," it refers to a "partial hypothesis"). Furthermore, because FLM uses the beginning of the sentence as the starting point for score calculation, it can also be easily applied to partial hypotheses.

図1にE2E音声認識モデルにおける音声認識処理の概要を示す。なお本明細書におけるE2E音声認識モデルとしては、注意機構に基づくエンコーダ-デコーダ(attention-based encoder-decoder: AED)モデルを、探索アルゴリズムとしては、ラベル(トークン)同期ビーム探索(これらについては、例えば非特許文献4を参照)を例に挙げるが、本開示は他の種類のE2E音声認識モデルや探索アルゴリズムに対しても適用可能である。図1に示すように、入力音声は、まず、E2E音声認識モデルにおけるエンコーダに入力され、隠れ状態ベクトル列Xに変換される。ここで入力音声として音声波形がそのまま入力されることは稀であり、入力音声として音声波形から抽出されたフィルタバンク特徴量列などが入力されるケースが一般的である。 Figure 1 shows an overview of the speech recognition process in an E2E speech recognition model. In this specification, the E2E speech recognition model is an attention-based encoder-decoder (AED) model, and the search algorithm is a label (token) synchronous beam search (see, for example, Non-Patent Document 4). However, this disclosure is also applicable to other types of E2E speech recognition models and search algorithms. As shown in Figure 1, input speech is first input to the encoder in the E2E speech recognition model and converted into a hidden state vector sequence X. It is rare for the speech waveform to be input directly as input speech; more commonly, a filter bank feature sequence extracted from the speech waveform is input as input speech.

続いて、XがE2E音声認識モデルにおけるデコーダに入力され、以下の式(1)を満たす長さTの完全仮説{<sos>,w^1:T,<eos>}={<sos>,w1,w2,...,wT,<eos>}が探索処理により求められ、これが最終的な音声認識結果(1ベスト完全仮説)として出力される。なお、明細書本文中において「w^」は本来「w」の真上に「^」を表記することを意図しているが、文書作成ソフトの機能に制限があり真上に表記することができないため、便宜上「w^」と表記する。

ここで、<sos>と<eos>は、それぞれ文頭(start of sentence (or sequence))と文末(end of sentence (or sequence))を表す特殊シンボルであり、<sos>及び<eos>を起点として、FLM及びBLMのスコア計算がそれぞれ行われる。なお、本明細書では、<sos>は仮説の長さのカウントからは除外する。γは仮説が延長されるたびに加算される報酬であり(γ≧0)、これを導入することで、短過ぎる(Tが小さ過ぎる)完全仮説が最終的な音声認識結果となることを防ぐ。またデコーダでの探索処理においては、数値のアンダーフローを防ぐために、対数確率の領域でスコア計算を行う。
Next, X is input to the decoder in the E2E speech recognition model, and a complete hypothesis of length T {<sos>, w^ 1:T , <eos>} = {<sos>, w 1 , w 2 , ... , w T , <eos>} that satisfies the following formula (1) is found by a search process, and this is output as the final speech recognition result (one best complete hypothesis). Note that in the main text of this specification, "w^" is originally intended to be written as "^" directly above "w", but due to limitations in the functionality of word processing software, it is not possible to write it directly above, so for convenience it is written as "w^".

Here, <sos> and <eos> are special symbols representing the start of a sentence (or sequence) and the end of a sentence (or sequence), respectively. The FLM and BLM score calculations are performed using <sos> and <eos> as the starting points. In this specification, <sos> is excluded from the calculation of the hypothesis length. γ is a reward (γ≧0) that is added each time a hypothesis is extended, and its introduction prevents a complete hypothesis that is too short (T is too small) from becoming the final speech recognition result. In addition, during the search process in the decoder, score calculations are performed in the logarithmic probability domain to prevent numerical underflow.

図2に、E2E音声認識モデルにおける音声認識処理の概要であって、従来のSFによりFLMを外部言語モデルとして用いる場合を示す。エンコーダにより入力音声からXを得るまでの処理は図1と同じであるが、デコーダでの探索処理において、以下の式(2)のように、デコーダスコア(式(1)参照)に加え、FLMで計算される言語スコア(FLMスコア)も考慮する点が、図1とは異なる。

ここでαはFLMスコアに対する重みである(α≧0)。
Figure 2 shows an overview of the speech recognition process in an E2E speech recognition model, where an FLM is used as an external language model using a conventional SF. The process from obtaining X from input speech by the encoder is the same as in Figure 1, but the difference from Figure 1 is that the decoder's search process takes into account not only the decoder score (see equation (1)) but also the language score calculated by the FLM (FLM score), as shown in equation (2) below.

where α is the weight for the FLM score (α≧0).

図3に、図2のデコーダにおける、SFを導入した探索処理の詳細として、時刻tにおいて、長さt-1の仮説{<sos>,w1:t-1}にトークンwtを連結し、長さtの仮説{<sos>,w1:t}に延長する際のスコア計算を示す。なお、本明細書では、仮説の1トークン分の延長を、1時刻の経過とする。前提として、Xが与えられたときの仮説{<sos>,w1:t-1}のスコアs1は、既に前の時刻t-1で計算しているものとする。なお、t=0においては、スコアs1=0と初期化する。{<sos>,w1:t-1}にwtを連結する際に、Xと{<sos>,w1:t-1}が与えられたときのwtのデコーダスコアs2と、{<sos>,w1:t-1}が与えられたときのwtのFLMスコアs3を計算する。以上三つのスコアを以下の式(3)のように重み付け加算し、Xが与えられたときの{<sos>,w1:t}のスコアs4を得る。

前記のように、FLMは<sos>をスコア計算の起点とするため、FLMスコア計算は仮説の延長に同期して行うことができる。また、仮説{<sos>,w1:t}に対するFLMスコアは以下の式(4)のように書ける。

すなわちFLMスコアの計算は累積的に行うことができる。言い換えれば、ある入力音声に対する探索処理において、一度計算された「仮説{<sos>,w1:t-1}が与えられたときのトークンwtのFLMスコア」は、その入力音声に対する探索処理中は変わらない。
FIG. 3 shows the details of the search process with SF in the decoder of FIG. 2 , in which a token w t is concatenated to a hypothesis {<sos>, w 1:t-1 } of length t-1 at time t, and the score calculation is performed when extending the hypothesis to a hypothesis {<sos>, w 1 :t-1 } of length t. In this specification, extending a hypothesis by one token is considered to be the passage of one time. It is assumed that the score s1 of the hypothesis {<sos>, w 1:t-1 } given X has already been calculated at the previous time t-1. At t=0, the score s1 is initialized to 0. When concatenating w t to {<sos>, w 1:t-1 }, the decoder score s2 of w t given X and {<sos>, w 1:t-1 } and the FLM score s3 of w t given {<sos>, w 1:t-1 } are calculated. The above three scores are weighted and added as shown in the following equation (3) to obtain the score s4 of {<sos>, w 1:t } when X is given.

As mentioned above, FLM uses <sos> as the starting point for score calculation, so FLM score calculation can be performed in synchronization with the extension of the hypothesis. In addition, the FLM score for the hypothesis {<sos>, w 1:t } can be written as the following equation (4).

In other words, the FLM score can be calculated cumulatively. In other words, once calculated, the FLM score for token w t given hypothesis {<sos>, w 1:t-1 } remains constant throughout the search process for that input speech.

以上では、1本の仮説にある1種類のトークンを連結して延長する際のスコア計算の詳細を示したが、実際には、1本の仮説に連結し得るトークンの種類は、その総種類分、すなわち、語彙サイズ分だけあり得る。以下では語彙サイズをVとする。なお語彙には、<eos>は含まれるが、<sos>は含まれないものとする。 The above explains the details of score calculation when extending a single type of token in a single hypothesis by concatenating them, but in reality, the number of types of tokens that can be concatenated to a single hypothesis is equal to the total number of types, i.e., the vocabulary size. In what follows, the vocabulary size is assumed to be V. Note that the vocabulary includes <eos> but excludes <sos>.

図4に、SFを導入した探索処理において、時刻tで、1本の仮説{<sos>,w1:t-1}にV種類のトークンwv(v=1,...,V)を連結して、V本の仮説{<sos>,w1:t-1,wv}(v=1,...,V)に展開する際のスコア(s2とs3)計算を示す。この展開の際に、デコーダスコアs2(図3参照)を語彙サイズ分だけ計算する必要があるが、これはsoftmax関数により一括で行うことができる(例えば非特許文献4を参照)。FLMスコアs3(図3参照)についても、FLMとしてNNに基づくLMを用いる場合には、デコーダスコアs2と同様に、V個のFLMスコアs3をsoftmax関数により一括で計算できる。またFLMとして古典的なカウントベースのn-gram LMを用いる場合には、FLMスコアはテーブル参照で得ることができる(ただし、n-gram LMを用いる場合には、長い仮説は考慮できないため、例えば3-gram LM(3トークンの連鎖確率を計算する言語モデル)の場合には、スコア計算の条件となる仮説{<sos>,w1:t-1}を{wt-2,t-1}(2トークンの連鎖)と縮退する。NN及びn-gramに基づくFLMのスコア計算については、例えば非特許文献5を参照)。 Figure 4 shows the calculation of scores (s2 and s3) when, at time t, V types of tokens wv (v = 1, ..., V) are concatenated into one hypothesis {<sos>, w1:t-1 } and expanded into V hypotheses {<sos>, w1:t-1 , wv } (v = 1, ..., V) in a search process incorporating SF. During this expansion, it is necessary to calculate the decoder score s2 (see Figure 3) for the vocabulary size, which can be performed in a batch using a softmax function (see, for example, Non-Patent Document 4). Regarding the FLM score s3 (see Figure 3), when a neural network-based LM is used as the FLM, V FLM scores s3 can be calculated in a batch using a softmax function, just like the decoder score s2. Furthermore, when a classical count-based n-gram LM is used as the FLM, the FLM score can be obtained by table reference (however, when an n-gram LM is used, long hypotheses cannot be taken into account, so for example, in the case of a 3-gram LM (a language model that calculates the probability of a chain of three tokens), the hypothesis {<sos>, w 1:t-1 }, which is the condition for score calculation, is degenerated to {w t-2,t-1 } (a chain of two tokens). For score calculation of FLM based on NN and n-gram, see, for example, non-patent document 5).

以上では、1本の仮説にV種類のトークンを連結してV本の仮説に展開する際のスコア計算について示したが、実際のビーム探索においては、複数本の仮説をそれぞれV本の仮説に展開し、これらに対して枝刈りを行う。図5に、SFを導入したビーム探索の全体処理手順を示す。ビーム幅はBとする(V>>B)。なお図5では、音声認識結果として1ベスト完全仮説(最高スコアの1本の完全仮説)を出力しているが、Nベスト完全仮説(スコアs4を基準に最高スコアから降順にN本並べた完全仮説)を出力したい場合もある。その場合は、S94において、1ベスト完全仮説のみを選択するのではなく、ステップS92と同様に、スコアs4を基準に(B-b+N)本の完全仮説を降順にソートし、上位N個の完全仮説を選択して、その他を枝刈りする。 The above describes score calculation when V types of tokens are concatenated into one hypothesis and expanded into V hypotheses. However, in actual beam search, multiple hypotheses are each expanded into V hypotheses, and these are then pruned. Figure 5 shows the overall processing procedure for beam search incorporating SF. The beam width is B (V>>B). Note that in Figure 5, the single best complete hypothesis (the single complete hypothesis with the highest score) is output as the speech recognition result, but it may be desirable to output N best complete hypotheses (N complete hypotheses sorted in descending order from highest score based on score s4). In this case, in S94, rather than selecting only the single best complete hypothesis, the (B-b+N) complete hypotheses are sorted in descending order based on score s4, as in step S92, and the top N complete hypotheses are selected and the others are pruned.

Z. T¨uske, G. Saon, K. Audhkhasi, and B. Kingsbury, “Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard,” in Proc. Interspeech, 2020, pp. 551-555.Z. T¨uske, G. Saon, K. Audhkhasi, and B. Kingsbury, “Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard,” in Proc. Interspeech, 2020, pp. 551-555. C. Gulcehre et al., “On using monolingual corpora in neural machine translation,” arXiv:1503.03535v2 [cs.CL].C. Gulcehre et al., “On using monolingual corpora in neural machine translation,” arXiv:1503.03535v2 [cs.CL]. A. Ogawa, N. Tawara, M. Delcroix, and S. Araki, “Lattice rescoring based on large ensemble of complementary neural language models,” in Proc. ICASSP, 2022, pp. 6517-6521.A. Ogawa, N. Tawara, M. Delcroix, and S. Araki, “Lattice rescoring based on large ensemble of complementary neural language models,” in Proc. ICASSP, 2022, pp. 6517-6521. S. Watanabe, T. Hori, S. Kim, J. R. Hershey, and T. Hayashi, “Hybrid CTC/Attention architecture for end-to-end speech recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 11, no. 8, pp. 1240-1253, Dec. 2017.S. Watanabe, T. Hori, S. Kim, J. R. Hershey, and T. Hayashi, “Hybrid CTC/Attention architecture for end-to-end speech recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 11, no. 8, pp. 1240-1253, Dec. 2017. M. Sundermeyer, R. Schl¨uter, and H. Ney, “LSTM neural network for language modeling,” in Proc. Interspeech, 2012, pp. 194-197.M. Sundermeyer, R. Schl¨uter, and H. Ney, “LSTM neural network for language modeling,” in Proc. Interspeech, 2012, pp. 194-197. Y. Bengio, “Practical recommendations for gradient-based training of deep architectures,” arXiv:1206.5533v2 [cs.LG].Y. Bengio, “Practical recommendations for gradient-based training of deep architectures,” arXiv:1206.5533v2 [cs.LG].

SFも外部言語モデルによる一種のリスコアリングであると考えられるため、FLMに加えてBLMをSFに適用できれば、探索処理途中の仮説に対してより高精度な言語スコアを付与することができ、より高精度なビーム探索が実現できると考えられる。しかし、SFでは文頭から音声認識仮説を延長・展開していく都合上、言語モデルとしてはFLMが用いられており、探索処理途中で文末が確定していない仮説に対してBLMを適用するのは困難である。 Since SF can also be considered a type of rescoring using an external language model, if BLM could be applied to SF in addition to FLM, it would be possible to assign more accurate language scores to hypotheses during the search process, thereby achieving more accurate beam search. However, because SF extends and develops speech recognition hypotheses from the beginning of a sentence, FLM is used as the language model, and it is difficult to apply BLM to hypotheses during the search process where the end of the sentence has not been determined.

そこで本開示では、SFにBLMを組み込むことができる音声認識装置を提供することを目的とする。 Therefore, the purpose of this disclosure is to provide a speech recognition device that can incorporate BLM into SF.

本発明の音声認識装置は、デコーダスコア計算部と、完全仮説生成部と、BLMスコア計算部と、シンボル削除部と、ISFスコア計算部と、Nベスト完全仮説出力部を含む。 The speech recognition device of the present invention includes a decoder score calculation unit, a complete hypothesis generation unit, a BLM score calculation unit, a symbol removal unit, an ISF score calculation unit, and an N-best complete hypothesis output unit.

1,…,tを時刻とし、w1,w2,...,wt-1,wtをある音声認識仮説における各時刻のトークンとし、長さt-1の仮説w1:t-1={w1,w2,...,wt-1}にトークンwtを連結し、長さtの仮説w1:tに延長する際のISFスコア計算において、デコーダスコア計算部は、トークンwtの音声認識モデルにおけるデコーダスコアを計算する。完全仮説生成部は、トークンwtが文末でない場合に文末を表す特殊シンボル<eos>を一時的に連結して完全仮説を生成する。BLMスコア計算部は、完全仮説の語順を反転させてBLMスコアを計算する。シンボル削除部は、トークンwtが文末でない場合に一時的に連結した特殊シンボル<eos>を削除する。ISFスコア計算部は、長さt-1の仮説w1:t-1におけるISFスコアと、トークンwtのデコーダスコアと、長さtの仮説w1:tにおけるBLMスコアと、長さt-1の仮説w1:t-1におけるBLMスコアに基づいて、長さtの仮説w1:tにおけるISFスコアを計算する。デコーダスコア計算部、完全仮説生成部、BLMスコア計算部、シンボル削除部、ISFスコア計算部は、部分仮説がなくなるまでtを1ずつ増加させながら各処理を実行する。Nベスト完全仮説出力部は、ISFスコアに基づいてNベスト完全仮説を出力する。 Let 1,...,t be time, w1 , w2 ,..., wt-1 , wt be tokens at each time in a speech recognition hypothesis. When concatenating token wt to a hypothesis w1:t-1 = { w1 , w2 ,...,wt -1 } of length t- 1 and extending it to a hypothesis w1 :t of length t, the decoder score calculation unit calculates the decoder score in the speech recognition model for token wt in calculating the ISF score. If token wt is not at the end of a sentence, the complete hypothesis generation unit temporarily concatenates the special symbol <eos>, which indicates the end of a sentence, to generate a complete hypothesis. The BLM score calculation unit reverses the word order of the complete hypothesis and calculates the BLM score. If token wt is not at the end of a sentence, the symbol deletion unit deletes the temporarily concatenated special symbol <eos>. The ISF score calculation unit calculates the ISF score for the hypothesis w1:t of length t based on the ISF score for the hypothesis w1 :t-1 of length t -1, the decoder score for the token wt , the BLM score for the hypothesis w1:t of length t , and the BLM score for the hypothesis w1 : t-1 of length t-1. The decoder score calculation unit, complete hypothesis generation unit, BLM score calculation unit, symbol deletion unit, and ISF score calculation unit perform their respective processes while incrementing t by 1 until no partial hypotheses remain. The N-best complete hypothesis output unit outputs the N-best complete hypotheses based on the ISF scores.

本発明の音声認識装置によれば、SFにBLMを組み込むことができる。 The speech recognition device of the present invention makes it possible to incorporate BLM into SF.

E2E音声認識モデルにおける音声認識処理の概要を示す図。FIG. 1 is a diagram showing an overview of speech recognition processing in an E2E speech recognition model. FLMを用いる場合のE2E音声認識モデルにおける音声認識処理の概要を示す図。FIG. 1 is a diagram showing an overview of speech recognition processing in an E2E speech recognition model when FLM is used. 図2のデコーダにおける探索処理の詳細として、長さt-1の仮説にトークンwtを連結する際のスコア計算例を示す図。FIG. 3 is a diagram showing an example of score calculation when concatenating a token w t with a hypothesis of length t−1, as a detail of the search process in the decoder of FIG. 2 . 1本の仮説をV本の仮説に展開する際のスコア(s2とs3)計算例を示す図。A diagram showing an example of how scores (s2 and s3) are calculated when expanding one hypothesis into V hypotheses. SFを導入した従来のビーム探索の処理手順を示すフローチャート。10 is a flowchart showing the processing procedure of a conventional beam search in which SF is introduced. BLMを用いる場合のE2E音声認識モデルにおける音声認識処理の概要を示す図。FIG. 1 is a diagram showing an overview of speech recognition processing in an E2E speech recognition model when BLM is used. 図6のデコーダにおける探索処理の詳細として、長さt-1の仮説にトークンwtを連結する際のスコア計算例を示す図。FIG. 7 is a diagram showing an example of score calculation when concatenating a token w t with a hypothesis of length t−1, as a detailed view of the search process in the decoder of FIG. 6 . 1本の仮説をV本の仮説に展開する際のスコア(s2とs6)計算例を示す図。A diagram showing an example of how scores (s2 and s6) are calculated when expanding one hypothesis into V hypotheses. 実施例1の音声認識装置の機能構成例を示すブロック図。FIG. 1 is a block diagram illustrating an example of the functional configuration of a speech recognition device according to a first embodiment. 実施例1のNベスト完全仮説出力部の機能構成例を示すブロック図。FIG. 2 is a block diagram showing an example of the functional configuration of an N-best complete hypothesis output unit according to the first embodiment. 実施例1の音声認識装置の動作を示すフローチャート。4 is a flowchart showing the operation of the voice recognition device according to the first embodiment. 実施例1の音声認識装置のビーム探索動作を示すフローチャート。4 is a flowchart showing a beam search operation of the speech recognition device according to the first embodiment. FLM,BLMの双方を用いる場合のE2E音声認識モデルにおける音声認識処理の概要を示す図。FIG. 10 is a diagram showing an overview of speech recognition processing in an E2E speech recognition model when both FLM and BLM are used. 図13のデコーダにおける探索処理の詳細として、長さt-1の仮説にトークンwtを連結する際のスコア計算例を示す図。FIG. 14 is a diagram showing an example of score calculation when concatenating a token w t with a hypothesis of length t−1, as a detailed view of the search process in the decoder of FIG. 13 . 実施例2の音声認識装置の機能構成例を示すブロック図。FIG. 10 is a block diagram showing an example of the functional configuration of a speech recognition device according to a second embodiment. 実施例2の音声認識装置の動作を示すフローチャート。10 is a flowchart showing the operation of the voice recognition device according to the second embodiment. 実施例2の音声認識装置のビーム探索動作を示すフローチャート。10 is a flowchart showing a beam search operation of the speech recognition device according to the second embodiment. 実施例4の音声認識装置の機能構成例を示すブロック図。FIG. 10 is a block diagram showing an example of the functional configuration of a speech recognition device according to a fourth embodiment. 実施例4のNベスト完全仮説出力部の機能構成例を示すブロック図。FIG. 13 is a block diagram showing an example of the functional configuration of an N-best complete hypothesis output unit according to the fourth embodiment. 実施例4の音声認識装置の動作を示すフローチャート。10 is a flowchart showing the operation of the voice recognition device according to the fourth embodiment. 実施例4の音声認識装置のビーム探索動作を示すフローチャート。10 is a flowchart showing a beam search operation of the speech recognition device according to the fourth embodiment. 実施例5の音声認識装置の機能構成例を示すブロック図。FIG. 10 is a block diagram showing an example of the functional configuration of a speech recognition device according to a fifth embodiment. 実施例5のNベスト完全仮説出力部の機能構成例を示すブロック図。FIG. 13 is a block diagram showing an example of the functional configuration of an N-best complete hypothesis output unit according to a fifth embodiment. 実施例5の音声認識装置の動作を示すフローチャート。10 is a flowchart showing the operation of the voice recognition device according to the fifth embodiment. 実施例5の音声認識装置のビーム探索動作を示すフローチャート。13 is a flowchart showing a beam search operation of the speech recognition device according to the fifth embodiment. 実施例6の音声認識装置の機能構成例を示すブロック図。FIG. 13 is a block diagram showing an example of the functional configuration of a speech recognition device according to a sixth embodiment. 実施例6のNベスト完全仮説出力部の機能構成例を示すブロック図。FIG. 20 is a block diagram showing an example of the functional configuration of an N-best complete hypothesis output unit according to a sixth embodiment. 実施例6の音声認識装置のビーム探索動作を示すフローチャート。13 is a flowchart showing a beam search operation of the speech recognition device according to the sixth embodiment. 実施例9の言語モデル学習装置が生成するトークン列の例を示す図。FIG. 13 is a diagram showing an example of a token string generated by the language model learning device according to the ninth embodiment. 実施例9、10の言語モデル学習装置の機能構成例を示すブロック図。FIG. 13 is a block diagram showing an example of the functional configuration of a language model learning device according to ninth and tenth embodiments. 実施例9、10の言語モデル学習装置の動作を示すフローチャート。13 is a flowchart showing the operation of the language model learning device according to the ninth and tenth embodiments. 実施例10の言語モデル学習装置が生成するトークン列の例を示す図。FIG. 23 is a diagram showing an example of a token string generated by the language model learning device of the tenth embodiment. 実施例11の言語モデル学習装置が生成するトークン列の例を示す図。FIG. 23 is a diagram showing an example of a token sequence generated by the language model learning device of the eleventh embodiment. 実施例11、12の言語モデル学習装置の機能構成例を示すブロック図。FIG. 12 is a block diagram showing an example of the functional configuration of a language model learning device according to an eleventh and twelfth embodiments. 実施例11、12の言語モデル学習装置の動作を示すフローチャート。13 is a flowchart showing the operation of the language model learning device according to the eleventh and twelfth embodiments. 実施例12の言語モデル学習装置が生成するトークン列の例を示す図。FIG. 23 is a diagram showing an example of a token string generated by the language model learning device of the twelfth embodiment. 実施例に記載の音声認識装置による音声認識精度の向上効果を示す図。10A and 10B are diagrams showing the effect of improving speech recognition accuracy by the speech recognition device described in the embodiment. コンピュータの機能構成例を示す図。FIG. 2 is a diagram showing an example of the functional configuration of a computer.

以下、本開示の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 The following describes in detail the embodiments of the present disclosure. Components having the same functions are assigned the same numbers, and duplicate explanations will be omitted.

図6に、E2E音声認識モデルにおける音声認識処理の概要で、本開示のISFによりBLMを外部言語モデルとして用いる場合を示す。図2では、E2E音声認識モデルのデコーダにおける探索処理において、SFによりFLMで計算される言語スコアを考慮していたが、図6では、その代わりに、ISFによりBLMで計算される言語スコアを考慮する。 Figure 6 shows an overview of speech recognition processing in an E2E speech recognition model, where a BLM is used as an external language model using the ISF of this disclosure. In Figure 2, the search process in the decoder of the E2E speech recognition model takes into account the language scores calculated using the FLM using the SF, but in Figure 6, the language scores calculated using the BLM using the ISF are instead taken into account.

図7に、図6のデコーダにおける探索処理の詳細として、時刻tにおいて、長さt-1の仮説w1:t-1={w1,w2,...,wt-1}にトークンwtを連結し、長さtの仮説w1:tに延長する際のスコア計算を示す。前提として、Xが与えられたときのw1:t-1のスコアs5は、既に前の時刻t-1で計算しているものとする(t=0においては、スコアs5=0と初期化する)。w1:t-1にwtを連結する際に、Xと{<sos>,w1:t-1}が与えられたときのwtのデコーダスコアs2を計算する。ここで、<eos>を{<sos>,w1:t}に一時的に連結することで(wtが<eos>の場合には連結しない)、完全仮説{<sos>,w1:t,<eos>}を生成する。この完全仮説に対して、語順を{<eos>,wt:1,<sos>}と反転させて、BLMスコアs6を計算する。BLMスコアs6を計算した後に、{<sos>,w1:t}に一時的に連結した<eos>は削除する(wtが<eos>の場合には削除しない)。以上三つのスコアの重み付け加算することで、Xが与えられたときの{<sos>,w1:t}のスコアs8を得るが、この際に、前の時刻t-1に計算した、スコアs5に含まれる、反転した一時的な完全仮説{<eos>,wt-1:1,<sos>}に対するBLMスコアs7を差し引く(BLMスコアs7は、時刻t-1における探索処理で、{<sos>,w1:t-1}に付随する情報として記憶しておく)。すなわちスコアs8は、以下の式(5)で得られる。

ここでβはBLMスコアに対する重みである(β≧0)。また式(5)の右辺第3項の二つのBLMスコア(s6とs7)は、以下の式(6)と(7)のように書き換えられる。


以上のように、BLMをSFに用いる際のスコア計算は、FLMをSFに用いる際のように仮説に対して累積的に計算するのではなく、一時的に生成し反転した完全仮説に対して繰り返し行う(iterative SF:ISF)。言い換えれば、式(6)からも明らかなように、ある入力音声に対する探索処理において、一度計算された「{<eos>,wt:τ+1}が与えられたときのwτのBLMスコア」は、仮説が延長されるたびに、すなわち、スコア計算の条件である{<eos>,wt:τ+1}が変わるたびに変わる。
Figure 7 shows the details of the search process in the decoder of Figure 6, illustrating the score calculation when, at time t, a token wt is concatenated to a hypothesis w1:t-1 = { w1 , w2 ,..., wt -1 } of length t-1 and extended to a hypothesis w1 :t of length t. It is assumed that the score s5 of w1 :t-1 given X has already been calculated at the previous time t-1 (at t = 0, the score s5 is initialized to 0). When concatenating wt to w1:t-1 , the decoder score s2 of wt given X and {<sos>, w1:t-1 } is calculated. Here, the complete hypothesis {<sos>, w1 :t , <eos>} is generated by temporarily concatenating <eos> to {<sos>, w1:t } (not concatenated if wt is <eos>). For this complete hypothesis, the word order is reversed to {<eos>, w t:1 , <sos>}, and the BLM score s6 is calculated. After calculating the BLM score s6, the <eos> temporarily linked to {<sos>, w 1:t } is deleted (it is not deleted if w t is <eos>). The weighted sum of these three scores yields the score s8 for {<sos>, w 1:t } given X. In this process, the BLM score s7 for the reversed temporary complete hypothesis {<eos>, w t-1:1 , <sos>}, which was included in score s5 calculated at the previous time t-1, is subtracted. (The BLM score s7 is stored as information accompanying {<sos>, w 1:t-1 } during the search process at time t-1.) That is, the score s8 is obtained using the following formula (5):

Here, β is the weight for the BLM score (β ≥ 0). The two BLM scores (s6 and s7) in the third term on the right-hand side of equation (5) can be rewritten as equations (6) and (7) below.


As described above, when BLM is used for SF, the score calculation is not cumulatively calculated for hypotheses as when FLM is used for SF, but is performed iteratively for temporarily generated and inverted complete hypotheses (iterative SF: ISF). In other words, as is clear from equation (6), in the search process for a certain input speech, the "BLM score for w τ given {<eos>, w t:τ+1 }" calculated once changes every time the hypothesis is extended, i.e., every time the score calculation condition {<eos>, w t:τ+1 } changes.

図8に、時刻tにおいて、1本の仮説{<sos>,w1:t-1}にV種類のトークンwv(v=1,...,V)を連結して、V本の仮説{<sos>,w1:t-1,wv}(v=1,...,V)に展開する際のスコア(s2とs6)計算を示す。デコーダスコアs2の計算は、図4と同様に、softmax関数で語彙サイズ(V)分だけ一括で行うが、BLMスコアs6の計算は、語彙サイズ分だけ個別に行う。 Figure 8 shows the calculation of scores (s2 and s6) when V types of tokens wv (v=1, ..., V) are concatenated to one hypothesis {<sos>, w1 :t-1 } at time t, and the resulting V hypotheses {<sos>, w1:t-1 , wv } (v=1, ..., V) are expanded. The decoder score s2 is calculated collectively for the vocabulary size (V) using the softmax function, as in Figure 4, but the BLM score s6 is calculated individually for each vocabulary size.

以下図9を参照して、上述の処理を組み込んだ実施例1の音声認識装置の機能構成を説明する。同図に示すように本実施例の音声認識装置1は、デコーダスコア計算部11と、完全仮説生成部12と、BLMスコア計算部13と、シンボル削除部14と、ISFスコア計算部15と、Nベスト完全仮説出力部16を含む。 The functional configuration of the speech recognition device of Example 1 incorporating the above-mentioned processing will be described below with reference to Figure 9. As shown in the figure, the speech recognition device 1 of this example includes a decoder score calculation unit 11, a complete hypothesis generation unit 12, a BLM score calculation unit 13, a symbol deletion unit 14, an ISF score calculation unit 15, and an N-best complete hypothesis output unit 16.

図10に示すように、Nベスト完全仮説出力部16は、枝刈り部161と、仮説分類部162と、仮説選択部163と、終了処理部164を含む。 As shown in FIG. 10, the N-best complete hypothesis output unit 16 includes a pruning unit 161, a hypothesis classification unit 162, a hypothesis selection unit 163, and a termination processing unit 164.

以下、図11、図12を参照して、各構成要件の詳細な動作を説明する。 The detailed operation of each component is explained below with reference to Figures 11 and 12.

長さt-1の仮説w1:t-1にトークンwtを連結し、長さtの仮説w1:tに延長する際のISFスコア計算において、デコーダスコア計算部11は、隠れ状態ベクトル列Xと長さt-1の仮説w1:t-1に基づいて、トークンwtの音声認識モデルにおけるデコーダスコアを計算する(S11)。 In calculating the ISF score when concatenating a token wt to a hypothesis w1:t -1 of length t-1 and extending it to a hypothesis w1 :t of length t, the decoder score calculation unit 11 calculates the decoder score in the speech recognition model for the token wt based on the hidden state vector sequence X and the hypothesis w1 :t-1 of length t-1 (S11).

完全仮説生成部12は、トークンwtが文末でない場合に<eos>を{<sos>,w1:t}に一時的に連結して完全仮説{<sos>,w1:t,<eos>}を生成する(S12)。 If the token w t is not at the end of the sentence, the complete hypothesis generation unit 12 temporarily connects <eos> to {<sos>, w 1:t } to generate a complete hypothesis {<sos>, w 1:t , <eos>} (S12).

BLMスコア計算部13は、完全仮説の語順を反転させて、BLMスコアを計算する(S13)。 The BLM score calculation unit 13 reverses the word order of the complete hypothesis and calculates the BLM score (S13).

シンボル削除部14は、トークンwtが文末でない場合に一時的に連結した特殊シンボル<eos>を削除する(S14)。 The symbol deletion unit 14 deletes the temporarily concatenated special symbol <eos> when the token wt is not at the end of the sentence (S14).

ISFスコア計算部15は、長さt-1の仮説w1:t-1におけるISFスコアPisf({<sos>,w1:t-1}|X)と、デコーダスコアPdec(wt|X,{<sos>,w1:t-1})と、BLMスコアPblm({<eos>,wt:1,<sos>})と、長さt-1の仮説w1:t-1におけるBLMスコアPblm({<eos>,wt-1:1,<sos>})に基づいて、例えば式(5)により長さtの仮説w1:tにおけるISFスコアPisf({<sos>,w1:t}|X)を計算する(S15)。 The ISF score calculation unit 15 calculates the ISF score P isf ({<sos>,w 1:t-1 }|X) for the hypothesis w 1:t of length t-1 based on the ISF score P isf ( { <sos>,w 1:t-1 }|X) for the hypothesis w 1:t-1 of length t-1, the decoder score P dec (w t |X,{<sos>,w 1 :t-1 }), the BLM score P blm ({<eos>,w t:1 ,<sos>}), and the BLM score P blm ({<eos>,w t-1:1 ,<sos>}) for the hypothesis w 1: t-1 of length t-1, for example using equation (5) (S15).

デコーダスコア計算部11、完全仮説生成部12、BLMスコア計算部13、シンボル削除部14、ISFスコア計算部15は、部分仮説がなくなるまでtを1ずつ増加させながら各処理を実行する。なお詳細は後述するため同図において繰り返し分岐の記載などは省略した。 The decoder score calculation unit 11, full hypothesis generation unit 12, BLM score calculation unit 13, symbol deletion unit 14, and ISF score calculation unit 15 perform their respective processes while incrementing t by 1 until no partial hypotheses remain. Details will be provided later, so repeated branching and other details have been omitted from the diagram.

Nベスト完全仮説出力部16は、ISFスコアに基づいてNベスト完全仮説を出力する(S16)。 The N best complete hypothesis output unit 16 outputs the N best complete hypotheses based on the ISF score (S16).

以上が各構成要件の一般的な動作である。以下、図12を参照して複数(b本)の仮説に対し、時刻tにおいてさらに各仮説に対してV本の仮説を展開してなる合計bV本の仮説に対するビーム探索(ビーム幅=B)の詳細な処理手順について述べる。The above is the general operation of each component. Below, with reference to Figure 12, we will describe the detailed processing procedure for beam search (beam width = B) for multiple (b) hypotheses, and then further expand each hypothesis at time t to V hypotheses for a total of bV hypotheses.

同図のフローチャートは、図5のフローチャートと類似しているが、仮説展開(S11-S15)においてスコアs2とs3の代わりにスコアs2とs6を計算する点と、枝刈り(S161)において、スコアs4の代わりにスコアs8を基に枝刈りを行う点において異なる。 The flowchart in this figure is similar to the flowchart in Figure 5, but differs in that scores s2 and s6 are calculated instead of scores s2 and s3 in hypothesis development (S11-S15), and that pruning (S161) is performed based on score s8 instead of score s4.

デコーダスコア計算部11、完全仮説生成部12、BLMスコア計算部13、シンボル削除部14、ISFスコア計算部15は、前述のステップS11~S15を実行し、スコアs2,S6,S8を計算する。 The decoder score calculation unit 11, the complete hypothesis generation unit 12, the BLM score calculation unit 13, the symbol removal unit 14, and the ISF score calculation unit 15 execute the aforementioned steps S11 to S15 and calculate scores s2, S6, and S8.

枝刈り部161は、スコアs8を基に仮説を降順にソートし、上位B本の仮説を残して、その他の仮説を枝刈りする(S161)。 The pruning unit 161 sorts the hypotheses in descending order based on the score s8, keeps the top B hypotheses, and prunes the other hypotheses (S161).

仮説分類部162は、完全仮説か否かで仮説を分類する(S162)。 The hypothesis classification unit 162 classifies hypotheses as to whether they are complete hypotheses or not (S162).

仮説選択部163は、これまでの1(N)ベスト完全仮説=最高スコアの1(N)本の完全仮説(あれば)と、新たに得られた(B-b)本の完全仮説(計(B-b+1(N))本の完全仮説)から、1(N)ベスト完全仮説を選択し、その他を枝刈りする(S163)。 The hypothesis selection unit 163 selects the 1(N) best complete hypotheses from the previous 1(N) best complete hypotheses = the 1(N) complete hypotheses with the highest scores (if any) and the newly obtained (B-b) complete hypotheses (total of (B-b+1(N)) complete hypotheses), and prunes the others (S163).

続く終了判定において、b=0、すなわち部分仮説が1つも残っていない場合、終了処理部164は、1(N)ベスト完全仮説を出力し(S164)、処理は終了する(エンド)。 In the subsequent termination determination, if b=0, i.e., no partial hypotheses remain, the termination processing unit 164 outputs the 1(N) best complete hypotheses (S164) and the processing terminates (END).

続く終了判定において、b≠0、すなわち部分仮説が残っている場合、音声認識装置1は、tをインクリメントし、ステップS11~S15,S161,S162,S163をもう一度実行し、もう一度終了判定を実行する。 In the subsequent termination determination, if b≠0, i.e., partial hypotheses remain, the speech recognition device 1 increments t, executes steps S11 to S15, S161, S162, and S163 again, and executes the termination determination again.

実施例2の音声認識装置は、SFとISFを同時に実施する。図13に、E2E音声認識モデルにおける音声認識処理の概要で、従来のSFによりFLMを外部言語モデルとして用い、加えて、ISFによりBLMを外部言語モデルとして用いる場合を示す。 The speech recognition device of Example 2 performs SF and ISF simultaneously. Figure 13 shows an overview of speech recognition processing in an E2E speech recognition model, in which FLM is used as an external language model using conventional SF, and BLM is used as an external language model using ISF.

図14に、図13のデコーダにおける探索処理の詳細として、時刻tにおいて、長さt-1の仮説w1:t-1={w1,w2,...,wt-1}にトークンwtを連結し、長さtの仮説w1:tに延長する際のスコア計算を示す。前提として、Xが与えられたときのw1:t-1のスコアs9は、既に前の時刻t-1で計算しているものとする(t=0においては、スコアs9=0と初期化する)。w1:t-1にwtを連結する際に、Xと{<sos>,w1:t-1}が与えられたときのwtのデコーダスコアs2と、{<sos>,w1:t-1}が与えられたときのwtのFLMスコアs3を計算する。ここで、<eos>を{<sos>,w1:t}に一時的に連結することで(wtが<eos>の場合には連結しない)、完全仮説{<sos>,w1:t,<eos>}を一時的に生成する。この完全仮説に対して、語順を{<eos>,wt:1,<sos>}と反転させて、BLMスコアs6を計算する。BLMスコアs6を計算した後に、{<sos>,w1:t}に一時的に連結した<eos>は削除する(wtが<eos>の場合には削除しない)。以上四つのスコアの重み付け加算することで、Xが与えられたときの{<sos>,w1:t}のスコアs10を得るが、この際に、前の時刻t-1に計算した、スコアs9に含まれる、反転した一時的な完全仮説{<eos>,wt-1:1,<sos>}に対するBLMスコアs7を差し引く(BLMスコアs7は、時刻t-1における探索処理で、{<sos>,w1:t-1}に付随する情報として記憶しておく)。すなわちスコアs10は、以下の式(8)で得られる。

以下図15を参照して、上述の処理を組み込んだ実施例2の音声認識装置の機能構成を説明する。同図に示すように本実施例の音声認識装置2は、デコーダスコア計算部11と、FLMスコア計算部22と、完全仮説生成部12と、BLMスコア計算部13と、シンボル削除部14と、SF+ISFスコア計算部25と、Nベスト完全仮説出力部16を含み、FLMスコア計算部22と、SF+ISFスコア計算部25以外の構成要件については、実施例1と同じ動作をする。
14 shows the details of the search process in the decoder of FIG. 13 , illustrating the score calculation when, at time t, a token w t is concatenated to a hypothesis w 1:t-1 ={w 1 , w 2 , ..., w t-1 } of length t-1 and extended to a hypothesis w 1:t of length t. It is assumed that the score s9 of w 1:t-1 given X has already been calculated at the previous time t-1 (at t=0, the score s9 is initialized to 0). When concatenating w t to w 1:t-1 , the decoder score s2 of w t given X and {<sos>, w 1:t-1 } and the FLM score s3 of w t given {<sos>, w 1:t-1 } are calculated. Here, <eos> is temporarily concatenated to {<sos>, w 1:t } (it is not concatenated if w t is <eos>), and a complete hypothesis {<sos>, w 1:t , <eos>} is temporarily generated. For this complete hypothesis, the word order is reversed to {<eos>, w t:1 , <sos>}, and the BLM score s6 is calculated. After calculating the BLM score s6, the <eos> temporarily concatenated to {<sos>, w 1:t } is deleted (it is not deleted if w t is <eos>). The score s10 of {<sos>, w 1:t } when X is given is obtained by weighting and adding the above four scores, but in this case, the BLM score s7 for the inverted temporary complete hypothesis {<eos>, w t-1:1 , <sos>}, which was included in the score s9 calculated at the previous time t-1, is subtracted (the BLM score s7 is stored as information accompanying {<sos>, w 1:t-1 } in the search process at time t-1). In other words, the score s10 is obtained by the following equation (8).

The functional configuration of a speech recognition device according to a second embodiment incorporating the above-described processing will be described below with reference to Fig. 15. As shown in Fig. 15, the speech recognition device 2 of this embodiment includes a decoder score calculation unit 11, an FLM score calculation unit 22, a complete hypothesis generation unit 12, a BLM score calculation unit 13, a symbol deletion unit 14, an SF+ISF score calculation unit 25, and an N-best complete hypothesis output unit 16. The components other than the FLM score calculation unit 22 and the SF+ISF score calculation unit 25 operate in the same way as those of the first embodiment.

以下、図16を参照して、各構成要件の詳細な動作を説明する。ステップS11は、実施例1と同様に実行される。FLMスコア計算部22は、シンボル<sos>と長さt-1の仮説w1:t-1に基づいて、時刻tのトークンwtのFLMスコアPflm(wt|{<sos>,w1:t-1)})を計算する(S22)。ステップS12~S14は実施例1と同様に実行される。SF+ISFスコア計算部25は、長さt-1の仮説w1:t-1におけるSF+ISFスコアPsf+isf({<sos>,w1:t-1}|X)と、デコーダスコアPdec(wt|X,{<sos>,w1:t-1})と、FLMスコアPflm(wt|{<sos>,w1:t-1})と、BLMスコアPblm({<eos>,wt:1,<sos>})と、BLMスコアPblm({<eos>,wt-1:1,<sos>})に基づいて、例えば式(8)により、長さtの仮説w1:tにおけるSF+ISFスコアPsf+isf({<sos>,w1:t}|X)を計算する(S25)。 The detailed operation of each component will be described below with reference to Fig. 16. Step S11 is executed in the same manner as in the first embodiment. The FLM score calculation unit 22 calculates the FLM score P flm (w t |{<sos>, w 1:t-1 )}) of the token w t at time t based on the symbol <sos> and the hypothesis w 1:t-1 of length t-1 (S22). Steps S12 to S14 are executed in the same manner as in the first embodiment. The SF+ISF score calculation unit 25 calculates the SF+ISF score P sf+isf ({<sos>,w 1:t-1 }|X) for the hypothesis w 1:t-1 of length t-1 based on the SF+ISF score P sf+ isf ({<sos>,w 1:t-1 }|X), the decoder score P dec (w t | X ,{<sos>,w 1:t-1 }), the FLM score P flm ( w t |{<sos>,w 1:t-1 }), the BLM score P blm ({<eos>,w t:1 , <sos>}) and the BLM score P blm ({<eos>,w t-1:1 , <sos>}), for example using equation (8) (S25).

図17に、SFとISFを導入したビーム探索(ビーム幅=B)の全体処理手順を示す。同図のフローチャートは、図12のフローチャートと類似しているが、仮説展開(S11,S22,S12,S13,S14,S25)においてスコアs2,s3,s6,s10を計算する点、枝刈り(S161)において、スコアs8の代わりにスコアs10を基に枝刈りを行う点において異なる。 Figure 17 shows the overall processing procedure for beam search (beam width = B) incorporating SF and ISF. The flowchart in this figure is similar to the flowchart in Figure 12, but differs in that scores s2, s3, s6, and s10 are calculated in hypothesis development (S11, S22, S12, S13, S14, S25), and that pruning (S161) is performed based on score s10 instead of score s8.

式(8)においてα=0、β>0とすれば、SFは実施せずに、ISFのみ実施することになる(実施例1と等価)。式(8)においてα>0、β=0とすれば、ISFは実施せずに、SFのみ実施することになる。式(8)においてα=0、β=0とすれば、SFもISFも実施しないことになる。 If α = 0 and β > 0 in equation (8), SF will not be performed and only ISF will be performed (equivalent to Example 1). If α > 0 and β = 0 in equation (8), only SF will be performed and ISF will not be performed. If α = 0 and β = 0 in equation (8), neither SF nor ISF will be performed.

上述したように、実施例1、2に記載の音声認識装置によれば、SFにBLMを組み込むことができ、探索処理途中の仮説に対してより高精度な言語スコアを付与することができ、より高精度なビーム探索が実現できる。しかし上述した方法によれば、BLMを用いたISFの計算コストは高いことが明らかである。以下の実施例3~6では、その計算コストを削減する音声認識装置を開示する。As described above, the speech recognition devices described in Examples 1 and 2 can incorporate BLM into SF, allowing for more accurate language scores to be assigned to hypotheses during the search process, thereby enabling more accurate beam searches. However, the above-mentioned method clearly shows that the computational cost of ISF using BLM is high. In the following Examples 3 to 6, speech recognition devices that reduce this computational cost are disclosed.

実施例1、2の方法では、BLMスコアs6の計算を語彙サイズ分だけ個別に行っており計算コストが高い(図8参照)。そこで実施例3では、BLMスコアs6の計算を語彙サイズ分の仮説を束ねたバッチ計算で行う(バッチ計算の詳細については、例えば非特許文献6を参照)。本明細書で前提としているラベル(トークン)同期ビーム探索(例えば非特許文献4を参照)では、探索処理中の各仮説の長さが基本的に揃うために、バッチ計算が特に効果的(計算に無駄がない)であるが、他の探索アルゴリズムに対してもバッチ計算を導入することは可能である。In the methods of Examples 1 and 2, the BLM score s6 is calculated individually for each vocabulary size, resulting in high computational costs (see Figure 8). Therefore, in Example 3, the BLM score s6 is calculated using batch calculations that bundle together hypotheses equal to the vocabulary size (for details on batch calculations, see, for example, Non-Patent Document 6). In the label (token) synchronous beam search assumed in this specification (see, for example, Non-Patent Document 4), batch calculations are particularly effective (no wasted calculations) because the lengths of each hypothesis during the search process are basically uniform, but batch calculations can also be introduced into other search algorithms.

すなわち実施例3の音声認識装置において、BLMスコア計算部は、語彙サイズ分の仮説を束ねたバッチ計算によりBLMスコアs6を計算することを特徴とし、これによりBLMスコア計算コストの削減を実現する。 In other words, in the speech recognition device of Example 3, the BLM score calculation unit is characterized by calculating the BLM score s6 by batch calculation that bundles together hypotheses equivalent to the vocabulary size, thereby reducing the cost of calculating the BLM score.

上述の実施例では、仮説を1トークン分延長(1時刻経過)するたびに、ISFに基づくBLMスコアs6の計算を行ったが、実施例4ではISFに基づくBLMスコアs6の計算を仮説をIトークン分延長(I時刻経過)するたびに行うようにする。すなわち、仮説の長さ(時刻)tが、t%I=0(%は剰余演算子)を満たす場合にのみISFに基づくBLMスコアs6の計算を行うようにする。以下ではIをインターバルと呼ぶ(I≧1)。実施例1における式(7)は、本実施例においては以下の式(9)に変更される。

以下図18を参照して、上述の処理を組み込んだ実施例4の音声認識装置の機能構成を説明する。同図に示すように本実施例の音声認識装置4は、デコーダスコア計算部11と、FLMスコア計算部22と、完全仮説生成部12と、BLMスコア計算部43と、シンボル削除部14と、SF+ISFスコア計算部25と、Nベスト完全仮説出力部46を含み、BLMスコア計算部43と、Nベスト完全仮説出力部46以外の構成要件については、実施例2と同じ動作をする。
In the above-described embodiments, the ISF-based BLM score s6 was calculated every time the hypothesis was extended by one token (one time elapsed), but in the fourth embodiment, the ISF-based BLM score s6 is calculated every time the hypothesis is extended by I tokens (I time elapsed). In other words, the ISF-based BLM score s6 is calculated only when the hypothesis length (time) t satisfies t%I=0 (% is the modulo operator). Hereinafter, I is referred to as the interval (I≧1). In the present embodiment, Equation (7) in the first embodiment is changed to the following Equation (9).

The functional configuration of a speech recognition device according to the fourth embodiment, which incorporates the above-described processing, will be described below with reference to Fig. 18. As shown in Fig. 18, the speech recognition device 4 of this embodiment includes a decoder score calculation unit 11, an FLM score calculation unit 22, a complete hypothesis generation unit 12, a BLM score calculation unit 43, a symbol deletion unit 14, an SF+ISF score calculation unit 25, and an N-best complete hypothesis output unit 46. The components other than the BLM score calculation unit 43 and the N-best complete hypothesis output unit 46 operate in the same way as those of the second embodiment.

図19に示すように、Nベスト完全仮説出力部46は、枝刈り部161と、仮説分類部162と、完全仮説スコア計算部463と、仮説選択部163と、終了処理部164を含み、完全仮説スコア計算部463以外の構成要件については、実施例1、実施例2と同じ動作をする。 As shown in Figure 19, the N-best complete hypothesis output unit 46 includes a pruning unit 161, a hypothesis classification unit 162, a complete hypothesis score calculation unit 463, a hypothesis selection unit 163, and a termination processing unit 164, and the components other than the complete hypothesis score calculation unit 463 operate in the same way as in Examples 1 and 2.

以下、図20を参照して、各構成要件の詳細な動作を説明する。ステップS11,S22,S12は、実施例2と同様に実行される。BLMスコア計算部43は、Iを任意のインターバルとし、仮説の長さtが、t%I=0(%は剰余演算子)を満たす場合のみBLMスコアを計算する(S43)。ステップS14,S25は、実施例2と同様に実行される。 The detailed operation of each component will be described below with reference to Figure 20. Steps S11, S22, and S12 are executed in the same manner as in Example 2. The BLM score calculation unit 43 calculates the BLM score only when I is an arbitrary interval and the hypothesis length t satisfies t%I=0 (% is the modulo operator) (S43). Steps S14 and S25 are executed in the same manner as in Example 2.

図21に、SFとインターバルIに基づくISFを導入したビーム探索の全体処理手順を示す。ビーム幅はBとする。同図のフローチャートは、図17のフローチャートと類似しているが、仮説展開においてステップS13の代わりにステップS43が実行されBLMスコアの計算頻度が減少する点、ステップS161においてt%I=0の場合はスコアs10を基に、t%I≠0の場合はBLMスコア以外のスコアs9+s2+α×s3を基に枝刈りを実行すること、ステップS162とステップS163の間にステップS463が挿入され、t%I≠0の場合に完全仮説に対してスコアs10が計算される点において相違する。 Figure 21 shows the overall processing procedure for beam search that introduces ISF based on SF and interval I. The beam width is B. The flowchart in this figure is similar to the flowchart in Figure 17, but differs in that step S43 is performed instead of step S13 in hypothesis expansion, reducing the frequency of BLM score calculations; in step S161, pruning is performed based on score s10 when t%I=0, and based on scores other than the BLM score s9+s2+α×s3 when t%I≠0; and step S463 is inserted between steps S162 and S163, and score s10 is calculated for the complete hypothesis when t%I≠0.

上述したように、完全仮説に対するリスコアリング(Nベストリスコアリングやラティスリスコアリング)の効果は従来から確認されている(例えば非特許文献3を参照)。よって本実施例においても、ステップS463において、完全仮説に対して、t%I≠0である場合には、スコアs10を計算する。t%I=0の場合、すなわち、仮説展開(S11,S22,S12,S43,S14,S25)において既にスコアs10を計算している場合には、改めて計算する必要はない。インターバルIを導入することにより、ISFの計算コストは、導入前と比較して、約1/Iになる。As mentioned above, the effectiveness of rescoring (N-best rescoring and lattice rescoring) for complete hypotheses has been confirmed (see, for example, Non-Patent Document 3). Therefore, in this embodiment, in step S463, if t%I ≠ 0 for the complete hypothesis, the score s10 is calculated. If t%I = 0, that is, if the score s10 has already been calculated in the hypothesis development (S11, S22, S12, S43, S14, S25), there is no need to calculate it again. By introducing interval I, the calculation cost of ISF is reduced to approximately 1/I compared to before its introduction.

式(9)においてI=1とすれば、本実施例は実施例2と等価である。式(8)においてα=0、β>0とすれば、SFは実施せずに、インターバルIでISFのみ実施することになる。式(8)においてα>0、β=0とすれば、ISFは実施せずに、SFのみ実施することになる。式(8)においてα=0、β=0とすれば、SFもISFも実施しないことになる。 If I = 1 in equation (9), this embodiment is equivalent to embodiment 2. If α = 0 and β > 0 in equation (8), SF is not performed and only ISF is performed in interval I. If α > 0 and β = 0 in equation (8), ISF is not performed and only SF is performed. If α = 0 and β = 0 in equation (8), neither SF nor ISF is performed.

ビーム探索においては、入力音声に対して最高スコアとなる見込みの高い仮説(複数)を残し、その見込みの低い、その他の仮説を早期に枝刈りする必要がある。探索処理の早い段階で見込みの高い仮説を誤って枝刈りしてしまうと、最終的に高精度な音声認識結果を得ることが困難になるため、探索処理の遅い段階よりも、早い段階において、仮説に対して高精度なスコアを付与することが重要であると考えられる。よって実施例5では、仮説の長さtがLより短い場合(t≦L)にのみISFを実施する。In beam search, it is necessary to retain the hypotheses (multiple hypotheses) that are likely to yield the highest score for the input speech, and to prune other hypotheses with lower likelihood at an early stage. If highly likely hypotheses are mistakenly pruned early in the search process, it becomes difficult to ultimately obtain highly accurate speech recognition results. Therefore, it is considered important to assign highly accurate scores to hypotheses at an early stage in the search process rather than at a later stage. Therefore, in Example 5, ISF is performed only when the hypothesis length t is shorter than L (t≦L).

以下図22を参照して、上述の処理を組み込んだ実施例5の音声認識装置の機能構成を説明する。同図に示すように本実施例の音声認識装置5は、デコーダスコア計算部11と、FLMスコア計算部22と、完全仮説生成部12と、BLMスコア計算部53と、シンボル削除部14と、SF+ISFスコア計算部25と、Nベスト完全仮説出力部56を含み、BLMスコア計算部53と、Nベスト完全仮説出力部56以外の構成要件については、実施例2と同じ動作をする。 The functional configuration of a speech recognition device according to Example 5, which incorporates the above-described processing, will be described below with reference to Figure 22. As shown in the figure, the speech recognition device 5 of this example includes a decoder score calculation unit 11, an FLM score calculation unit 22, a complete hypothesis generation unit 12, a BLM score calculation unit 53, a symbol deletion unit 14, an SF+ISF score calculation unit 25, and an N-best complete hypothesis output unit 56. The components other than the BLM score calculation unit 53 and the N-best complete hypothesis output unit 56 operate in the same way as in Example 2.

図23に示すように、Nベスト完全仮説出力部56は、枝刈り部161と、仮説分類部162と、完全仮説スコア計算部563と、仮説選択部163と、終了処理部164を含み、完全仮説スコア計算部563以外の構成要件については、実施例1、実施例2と同じ動作をする。 As shown in Figure 23, the N-best complete hypothesis output unit 56 includes a pruning unit 161, a hypothesis classification unit 162, a complete hypothesis score calculation unit 563, a hypothesis selection unit 163, and a termination processing unit 164, and the components other than the complete hypothesis score calculation unit 563 operate in the same way as in Examples 1 and 2.

以下、図24を参照して、各構成要件の詳細な動作を説明する。ステップS11,S22,S12は、実施例2と同様に実行される。BLMスコア計算部53は、Lを任意の実施仮説長とし、仮説の長さtがLより短い場合(t≦L)のみBLMスコアを計算する(S53)。ステップS14,S25は、実施例2と同様に実行される。 The detailed operation of each component will be described below with reference to Figure 24. Steps S11, S22, and S12 are executed in the same manner as in Example 2. The BLM score calculation unit 53 calculates the BLM score only when the length of the hypothesis t is shorter than L (t <= L), where L is an arbitrary working hypothesis length (S53). Steps S14 and S25 are executed in the same manner as in Example 2.

図25に、SFとISF実施仮説長Lに基づくISFを導入したビーム探索の全体処理手順を示す。ビーム幅はBとする。同図のフローチャートは、図17のフローチャートと類似しているが、仮説展開においてステップS13の代わりにステップS53が実行されBLMスコアの計算頻度が減少する点、ステップS161においてt≦Lの場合はスコアs10を基に、t>Lの場合はBLMスコア以外のスコアs9+s2+α×s3を基に枝刈りを実行すること、ステップS162とステップS163の間にステップS563が挿入され、t>Lの場合に完全仮説に対してスコアs10が計算される点において相違する。Figure 25 shows the overall processing procedure for beam search incorporating ISF based on SF and ISF implementation hypothesis length L. The beam width is B. The flowchart in this figure is similar to the flowchart in Figure 17, but differs in that step S53 is performed instead of step S13 in hypothesis expansion, reducing the frequency of BLM score calculations; in step S161, pruning is performed based on score s10 if t≦L, and based on scores other than the BLM score s9+s2+α×s3 if t>L; and step S563 is inserted between steps S162 and S163, where score s10 is calculated for the complete hypothesis if t>L.

L=∞とすれば、本実施例は実施例2と等価になる。式(8)においてα=0、β>0とすれば、SFは実施せずに、ISF実施仮説長LでISFのみ実施することになる。式(8)においてα>0、β=0とすれば、ISFは実施せずに、SFのみ実施することになる。式(8)においてα=0、β=0とすれば、SFもISFも実施しないことになる。 If L = ∞, this embodiment becomes equivalent to embodiment 2. If α = 0 and β > 0 in equation (8), SF is not performed and only ISF is performed with the ISF execution hypothesis length L. If α > 0 and β = 0 in equation (8), ISF is not performed and only SF is performed. If α = 0 and β = 0 in equation (8), neither SF nor ISF is performed.

実施例6は実施例2の変形例であり、枝刈りを2段階で行う。以下図26を参照して、2段階の枝刈り処理を組み込んだ実施例6の音声認識装置の機能構成を説明する。同図に示すように本実施例の音声認識装置6は、デコーダスコア計算部11と、FLMスコア計算部22と、完全仮説生成部12と、BLMスコア計算部13と、シンボル削除部14と、SF+ISFスコア計算部25と、Nベスト完全仮説出力部66を含み、Nベスト完全仮説出力部66以外の構成要件については、実施例2と同じ動作をする。 Example 6 is a variation of Example 2, in which pruning is performed in two stages. The functional configuration of a speech recognition device of Example 6 incorporating two-stage pruning processing will be described below with reference to Figure 26. As shown in the figure, the speech recognition device 6 of this example includes a decoder score calculation unit 11, an FLM score calculation unit 22, a complete hypothesis generation unit 12, a BLM score calculation unit 13, a symbol deletion unit 14, an SF+ISF score calculation unit 25, and an N-best complete hypothesis output unit 66. The components other than the N-best complete hypothesis output unit 66 operate in the same way as in Example 2.

図27に示すように、Nベスト完全仮説出力部66は、第1枝刈り部661と、第2枝刈り部662と、仮説分類部162と、仮説選択部163と、終了処理部164を含み、第1枝刈り部661と、第2枝刈り部662以外の構成要件については、実施例2と同じ動作をする。 As shown in Figure 27, the N-best complete hypothesis output unit 66 includes a first pruning unit 661, a second pruning unit 662, a hypothesis classification unit 162, a hypothesis selection unit 163, and a termination processing unit 164, and the components other than the first pruning unit 661 and the second pruning unit 662 operate in the same way as in Example 2.

図28に、実施例2を変形して枝刈りを2段階で行う場合の、ビーム探索の全体処理手順を示す。1段階目の枝刈りのビーム幅をM、2段階目の枝刈りのビーム幅をBとする(M>B)。同図のフローチャートは、図17のフローチャートと類似しているが、仮説展開においてコストの低いS11,S22のみ実行する点、ステップS661において第1枝刈り部661が、BLMスコア以外のスコアs9+s2+α×s3に基づく、上位M本の仮説を残す枝刈りを実行する点、BLMスコア計算部13が、1段階目の枝刈りによる上位M本の仮説についてのみBLMスコアを計算し、他の構成要件が前処理及び後処理を実行する(S12,S13,S14,S25)ことにより、BLMスコアの計算頻度を削減する点、BLMスコア計算後にステップS662において第2枝刈り部662が2段階目の枝刈りによって、スコアS10を基に、上位B本の仮説を残す枝刈りを実行する点において相違する。 Figure 28 shows the overall processing procedure for beam search when pruning is performed in two stages, a modification of Example 2. The beam width for the first stage of pruning is M, and the beam width for the second stage of pruning is B (M>B). The flowchart in this figure is similar to the flowchart in Figure 17, but differs in that only S11 and S22, which have low costs in hypothesis development, are executed; in step S661, a first pruning unit 661 executes pruning to leave the top M hypotheses based on a score other than the BLM score, s9 + s2 + α × s3; the BLM score calculation unit 13 calculates BLM scores only for the top M hypotheses obtained in the first stage of pruning, and other components execute pre-processing and post-processing (S12, S13, S14, S25), thereby reducing the frequency of BLM score calculation; and in step S662, after BLM score calculation, a second pruning unit 662 executes pruning to leave the top B hypotheses based on the score S10 through a second stage of pruning.

本実施例では、仮説展開、1段階目の枝刈り(S11,S22,S661)において、計算コストの低いデコーダスコアs2とFLMスコアs3を基に1段階目の枝刈りを行いM本の仮説を残し、BLMスコア計算、2段階目の枝刈り(S12,S13,S14,S25)において、計算コストの高いBLMスコアs6も考慮した2段階目の枝刈りを行いB本の仮説を残す。すなわち実施例2のように、非常に数の多いbV本の仮説の全てに対してBLMスコア計算を行うのではなく、ある程度数を絞ったM本の仮説に対してのみBLMスコア計算を行うことで、計算コストを削減する(bV>>M>B)。Mの設定方法としては、例えば、M=B×Bなどが考えられる。In this embodiment, in the hypothesis development and first-stage pruning (S11, S22, S661), pruning is performed based on the computationally low decoder score s2 and FLM score s3, leaving M hypotheses. In the BLM score calculation and second-stage pruning (S12, S13, S14, S25), pruning is performed in a second stage that also takes into account the computationally high BLM score s6, leaving B hypotheses. In other words, rather than calculating BLM scores for all of the very large number bV hypotheses as in Example 2, BLM scores are calculated only for a limited number of M hypotheses, reducing computational costs (bV>>M>B). Possible methods for setting M include, for example, M = B × B.

M=bVとすれば、本実施例は実施例2と等価になる。式(8)においてα=0、β>0とすれば、SFは実施せずに(1段階目の枝刈りをデコーダスコアs2のみを基に実施し)、ISFのみ実施することになる。式(8)においてα>0、β=0とすれば、ISFは実施せずに、SFのみ実施することになる(スコアs9+s2+α×s3を基に、1段階目の枝刈りは実施せず(実施する意味がない)、2段階目の枝刈りのみを実施する)。式(8)においてα=0、β=0とすれば、SFもISFも実施しないことになる(スコアs9+s2を基に、1段階目の枝刈りは実施せず、2段階目の枝刈りのみを実施する)。 If M=bV, this embodiment becomes equivalent to embodiment 2. If α=0 and β>0 in equation (8), SF will not be performed (first-stage pruning will be performed based only on the decoder score s2), and only ISF will be performed. If α>0 and β=0 in equation (8), ISF will not be performed and only SF will be performed (first-stage pruning will not be performed (there is no point in performing it) and only second-stage pruning will be performed based on the score s9+s2+α×s3). If α=0 and β=0 in equation (8), neither SF nor ISF will be performed (first-stage pruning will not be performed and only second-stage pruning will be performed based on the score s9+s2).

実施例1をベースに、バッチ計算(実施例3)、インターバルIに基づくISF(実施例4)、ISF実施仮説長Lに基づくISF(実施例5)、2段階枝刈り(実施例6)のうち二つ以上を実施するように改変することも可能である。 Based on Example 1, it is also possible to modify it to perform two or more of the following: batch calculation (Example 3), ISF based on interval I (Example 4), ISF based on ISF execution hypothesis length L (Example 5), and two-stage pruning (Example 6).

実施例2をベースに、バッチ計算(実施例3)、インターバルIに基づくISF(実施例4)、ISF実施仮説長Lに基づくISF(実施例5)、2段階枝刈り(実施例6)のうち二つ以上を実施するように改変することも可能である。 Based on Example 2, it is also possible to modify it to perform two or more of the following: batch calculation (Example 3), ISF based on interval I (Example 4), ISF based on ISF execution hypothesis length L (Example 5), and two-stage pruning (Example 6).

以下では人手で書き起こされた<sos>で始まり<eos>で終わる文法的・語順的に正しいトークン列を「完全トークン列」と呼ぶ。BLMは語順を反転した完全トークン列を用いて学習されるが、これまでに述べたように、本開示のISFにおいては、BLMは部分仮説に対して適用する(部分仮説に一時的に<eos>を連結して完全仮説とし、これに対してBLMを適用する)。よって、実施例9の装置は、図29に示すように、BLMをISFに適用することを想定してトークン列を生成(増強)し、生成したトークン列(以下、縮退トークン列とも呼ぶ)を用いて、ISF専用BLMを学習する。 In the following, a manually transcribed token sequence that is grammatically and order-correct and begins with <sos> and ends with <eos> is referred to as a "complete token sequence." BLM is trained using a complete token sequence with reversed word order, but as described above, in the ISF disclosed herein, BLM is applied to a partial hypothesis (a partial hypothesis is temporarily concatenated with <eos> to form a complete hypothesis, to which BLM is applied). Therefore, as shown in Figure 29, the device of Example 9 generates (augmented) a token sequence assuming that BLM will be applied to ISF, and uses the generated token sequence (hereinafter also referred to as a degenerate token sequence) to train an ISF-specific BLM.

図30を参照して、上述のトークン列を生成して言語モデルを学習する言語モデル学習装置の機能構成を説明する。同図に示すように実施例9(および実施例10、後述)の言語モデル学習装置900は語順反転部901と、縮退トークン列生成部902と、FLM言語モデル学習部903と、BLM言語モデル学習部904と、ISF専用BLM言語モデル学習部905を含む。 With reference to Figure 30, the functional configuration of a language model training device that generates the above-mentioned token sequence and trains a language model will be described. As shown in the figure, the language model training device 900 of Example 9 (and Example 10, described below) includes a word order reversal unit 901, a degenerate token sequence generation unit 902, an FLM language model training unit 903, a BLM language model training unit 904, and an ISF-specific BLM language model training unit 905.

以下、図31を参照して各構成要件の動作を説明する。語順反転部901は、FLM学習に用いる完全トークン列(図29の例では{<sos>, a, b, c, d, e, f, g, h, i, j, <eos>}を取得し、完全トークン列の語順を反転させる(S901)。縮退トークン列生成部902は、語順を反転した完全トークン列のうち、文末を表す特殊シンボル<eos>の次に配置されたトークンをI個(Iは自然数、本実施例ではI=1)ずつ削除した縮退トークン列を生成する(S902)。FLM言語モデル学習部903は、FLM学習に用いる完全トークン列に基づいてFLM言語モデルを生成する(S903)。BLM言語モデル学習部904は、完全トークン列の語順を反転して得たトークン列に基づいてBLM言語モデルを学習する(S904)。ISF専用BLM言語モデル学習部905は、縮退トークン列に基づいてISF専用BLM言語モデルを学習する(S905)。 The operation of each component is explained below with reference to Figure 31. The word order reversal unit 901 obtains a complete token sequence used for FLM training ({<sos>, a, b, c, d, e, f, g, h, i, j, <eos>} in the example of FIG. 29 ) and reverses the word order of the complete token sequence (S901). The degenerate token sequence generation unit 902 generates a degenerate token sequence by deleting I tokens (I is a natural number; in this embodiment, I=1) that are located after the special symbol <eos>, which indicates the end of a sentence, from the complete token sequence with the reversed word order (S902). The FLM language model training unit 903 generates an FLM language model based on the complete token sequence used for FLM training (S903). The BLM language model training unit 904 trains a BLM language model based on the token sequence obtained by reversing the word order of the complete token sequence (S904). The ISF-specific BLM language model training unit 905 trains an ISF-specific BLM language model based on the degenerate token sequence (S905).

本実施例においては、インターバルIを1(実施例4)、ISF実施仮説長Lを∞(実施例5)と設定していることになる。このように設定することで、任意のトークンから始まる、任意の長さの反転トークン列を生成することができ、ISFにおけるどのような状況にも対応しやすいISF専用BLMを学習することができる。In this embodiment, the interval I is set to 1 (Example 4), and the ISF execution hypothesis length L is set to ∞ (Example 5). By setting it in this way, it is possible to generate a reversed token sequence of any length starting from any token, and to train an ISF-specific BLM that can easily adapt to any situation in the ISF.

ただし、図29から明らかなように、I=1、L=∞と設定すると、ISF専用BLMの学習データ量は膨大になる。以下の第10~第12の実施例では、IとLを適切に設定することで、ISF専用BLMの学習データ量を制限する。However, as is clear from Figure 29, if I = 1 and L = ∞, the amount of training data for the ISF-specific BLM becomes enormous. In the following tenth to twelfth examples, the amount of training data for the ISF-specific BLM is limited by appropriately setting I and L.

図32に示すように、実施例10の言語モデル学習装置はLは∞のままで、Iに1より大きな値を設定することで(図32ではI=2)、ISF専用BLMの学習データ量を制限する。 As shown in Figure 32, the language model learning device of Example 10 limits the amount of learning data for the ISF-specific BLM by leaving L at ∞ and setting I to a value greater than 1 (I = 2 in Figure 32).

図33に示すように、実施例11の言語モデル学習装置はIは1のままで、Lに1より大きな有限の整数値を設定することで(図33ではL=6)、ISF専用BLMの学習データ量を制限する。
図34を参照して、実施例11(および実施例12、後述)の言語モデル学習装置の機能構成を説明する。同図に示すように実施例11の言語モデル学習装置1100は語順反転部901と、縮退トークン列生成部1102と、FLM言語モデル学習部903と、BLM言語モデル学習部904と、ISF専用BLM言語モデル学習部905を含み、縮退トークン列生成部1102以外の構成については、実施例9、実施例10と同様である。本実施例の言語モデル学習装置1100は、実施仮説長Lより短いトークン列のみをISF専用BLM言語モデルの学習に用いることを目的としている。
As shown in Figure 33, the language model training device of Example 11 limits the amount of training data for the ISF-dedicated BLM by leaving I at 1 and setting L to a finite integer value greater than 1 (L = 6 in Figure 33).
The functional configuration of a language model training device according to an eleventh embodiment (and a twelfth embodiment, described later) will be described with reference to Fig. 34. As shown in the figure, a language model training device 1100 according to an eleventh embodiment includes a word order reversal unit 901, a degenerate token sequence generation unit 1102, an FLM language model training unit 903, a BLM language model training unit 904, and an ISF-specific BLM language model training unit 905. The configuration other than the degenerate token sequence generation unit 1102 is the same as that according to the ninth and tenth embodiments. The language model training device 1100 according to the present embodiment is intended to use only token sequences shorter than the working hypothesis length L for training the ISF-specific BLM language model.

図35を参照して、実施例11の言語モデル学習装置1100の各構成要件の動作のうち、実施例9の言語モデル学習装置900と異なる動作について説明する。縮退トークン列生成部1102は、語順を反転した完全トークン列のうち、<eos>の次に配置されたトークンを削除して、<eos>と文頭を表す特殊シンボル<sos>を除くトークン列の長さがLと等しくなるように最初の縮退トークン列を生成し、以降はI個(本実施例ではI=1)ずつ削除した縮退トークン列を生成する(S1102)。 With reference to Figure 35, the operation of each component of the language model training device 1100 of Example 11 that differs from the operation of the language model training device 900 of Example 9 will be described. The degenerate token sequence generation unit 1102 deletes the token placed after <eos> from the complete token sequence with reversed word order, and generates the first degenerate token sequence so that the length of the token sequence excluding <eos> and the special symbol <sos> that indicates the beginning of a sentence is equal to L, and then generates degenerate token sequences by deleting I tokens (I = 1 in this example) at a time (S1102).

図36に示すように、実施例12の言語モデル学習装置はIに1より大きな値を設定し(図36ではI=2)、かつ、Lに1より大きな値を設定することで(図36ではL=6)、ISF専用BLMの学習データ量を制限する。 As shown in Figure 36, the language model learning device of Example 12 limits the amount of learning data for the ISF-specific BLM by setting I to a value greater than 1 (I = 2 in Figure 36) and L to a value greater than 1 (L = 6 in Figure 36).

実施例13の音声認識装置は、実施例9~12で学習したISF専用BLMを用いて、実施例1~8を実施する。 The speech recognition device of Example 13 implements Examples 1 to 8 using the ISF-specific BLM trained in Examples 9 to 12.

<実験結果>
図37に、実施例に記載の音声認識装置による音声認識精度の向上(単語誤り率[%]の低減)効果を示す。言語モデルとしては長短期記憶(long short-term memory: LSTM)に基づくニューラル言語モデル(LSTMLM)を用いている。手法0と手法1の比較で、従来のFLMを用いたSFの効果が確認できる。手法0と手法2又は3の比較で、実施例に記載の音声認識装置によるBLMを用いたISFの効果が確認できる。手法2と手法3の比較で、通常のBLMよりも、実施例9によるISF専用BLMの方が、ISFにさらに適していることが分かる。手法1,2,3と手法4の比較で、FLMを用いたSFと(ISF専用)BLMを用いたISFの併用の効果が確認できる。
<Experimental Results>
Figure 37 shows the improvement in speech recognition accuracy (reduction in word error rate [%]) achieved by the speech recognition device described in the examples. A neural language model (LSTMLM) based on long short-term memory (LSTM) is used as the language model. Comparing Method 0 with Method 1 confirms the effectiveness of SF using conventional FLM. Comparing Method 0 with Method 2 or 3 confirms the effectiveness of ISF using BLM by the speech recognition device described in the examples. Comparing Method 2 with Method 3 shows that the ISF-specific BLM of Example 9 is more suitable for ISF than the standard BLM. Comparing Methods 1, 2, and 3 with Method 4 confirms the effectiveness of combining SF using FLM and ISF using (ISF-specific) BLM.

<補記>
本開示の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Additional Notes>
The device disclosed herein may, for example, be a single hardware entity that includes an input unit to which a keyboard or the like can be connected, an output unit to which an LCD display or the like can be connected, a communication unit to which a communication device (e.g., a communication cable) capable of communicating with an external device can be connected, a CPU (which may also include a central processing unit, cache memory, registers, etc.), RAM and ROM as memory, an external storage device such as a hard disk, and buses connecting these input unit, output unit, communication unit, CPU, RAM, ROM, and external storage device so that data can be exchanged between them. If necessary, the hardware entity may also be provided with a device (drive) capable of reading and writing recording media such as a CD-ROM. A physical entity equipped with such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores the programs required to realize the above-mentioned functions and the data required to process these programs (this is not limited to an external storage device; for example, the programs may be stored in ROM, which is a read-only storage device). In addition, data obtained by processing these programs is stored appropriately in RAM, external storage device, etc.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。In a hardware entity, each program stored in an external storage device (or ROM, etc.) and the data required to process each program are loaded into memory as needed, and interpreted, executed, and processed by the CPU as appropriate. As a result, the CPU realizes the specified functions (each component represented as a "... unit," "... means," etc., above).

本開示は上述の実施形態に限定されるものではなく、本開示の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present disclosure is not limited to the above-described embodiments, and modifications may be made as appropriate without departing from the spirit of the present disclosure. Furthermore, the processes described in the above embodiments may not only be executed chronologically in the order described, but may also be executed in parallel or individually depending on the processing capacity of the device executing the processes or as needed.

既述のように、上記実施形態において説明したハードウェアエンティティ(本開示の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。As mentioned above, when the processing functions of the hardware entities (apparatuses of the present disclosure) described in the above embodiments are realized by a computer, the processing content of the functions that the hardware entities should have is described by a program. Then, by executing this program on a computer, the processing functions of the hardware entities are realized on the computer.

上述の各種の処理は、図38に示すコンピュータ10000の記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。 The various processes described above can be implemented by loading a program that executes each step of the above method into the recording unit 10020 of the computer 10000 shown in Figure 38, and operating the control unit 10010, input unit 10030, output unit 10040, etc.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing this processing can be recorded on a computer-readable recording medium. Examples of computer-readable recording media include magnetic recording devices, optical disks, magneto-optical recording media, and semiconductor memory. Specifically, for example, magnetic recording devices include hard disk drives, flexible disks, and magnetic tapes; optical disks include DVDs (Digital Versatile Discs), DVD-RAMs (Random Access Memory), CD-ROMs (Compact Disc Read Only Memory), and CD-Rs (Recordable)/RWs (Rewritable); magneto-optical recording media include MOs (Magneto-Optical discs); and semiconductor memories include EEP-ROMs (Electrically Erasable and Programmable-Read Only Memory).

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program may be distributed, for example, by selling, transferring, or lending portable recording media such as DVDs or CD-ROMs on which the program is recorded. Furthermore, this program may be distributed by storing it in a storage device of a server computer and transferring it from the server computer to other computers via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。A computer that executes such a program, for example, first stores the program recorded on a portable recording medium or transferred from a server computer in its own storage device. Then, when executing a process, the computer reads the program stored on its own recording medium and executes the process in accordance with the read program. Alternatively, the computer may read the program directly from a portable recording medium and execute the process in accordance with the program. Furthermore, each time a program is transferred from a server computer to the computer, the computer may execute the process in accordance with the received program. Alternatively, the server computer may not transfer the program to the computer, but may instead execute the process through a so-called ASP (Application Service Provider) service, which realizes the processing function simply by issuing execution instructions and obtaining the results. In this embodiment, the program includes information used for processing by a computer that is equivalent to a program (such as data that does not directly instruct the computer but has properties that define computer processing).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In addition, in this form, a hardware entity is configured by executing a specified program on a computer, but at least part of these processing contents may also be realized by hardware.

Claims (8)

1,…,tを時刻とし、w1,w2,...,wt-1,wtをある音声認識仮説における各時刻のトークンとし、長さt-1の仮説w1:t-1={w1,w2,...,wt-1}にトークンwtを連結し、長さtの仮説w1:tに延長する際のISFスコア計算において、
前記トークンwtの音声認識モデルにおけるデコーダスコアを計算するデコーダスコア計算部と、
前記トークンwtが文末でない場合に文末を表す特殊シンボル<eos>を一時的に連結して完全仮説を生成する完全仮説生成部と、
前記完全仮説の語順を反転させてBLMスコアを計算するBLMスコア計算部と、
前記トークンwtが文末でない場合に一時的に連結した特殊シンボル<eos>を削除するシンボル削除部と、
長さt-1の仮説w1:t-1におけるISFスコアと、前記トークンwtの前記デコーダスコアと、長さtの仮説w1:tにおける前記BLMスコアと、長さt-1の仮説w1:t-1における前記BLMスコアに基づいて、長さtの仮説w1:tにおけるISFスコアを計算するISFスコア計算部を含み、
前記デコーダスコア計算部、前記完全仮説生成部、前記BLMスコア計算部、前記シンボル削除部、前記ISFスコア計算部は、部分仮説がなくなるまでtを1ずつ増加させながら各処理を実行し、
ISFスコアに基づいてNベスト完全仮説を出力するNベスト完全仮説出力部を含む
音声認識装置。
Let 1,...,t be time instants, and w1 , w2 ,..., wt -1 , wt be tokens at each time instant in a speech recognition hypothesis. In calculating the ISF score when concatenating token wt to a hypothesis w1:t-1 = { w1 , w2 ,..., wt -1 } of length t-1 and extending it to a hypothesis w1 :t of length t,
a decoder score calculation unit for calculating a decoder score in a speech recognition model for the token wt ;
a complete hypothesis generation unit that generates a complete hypothesis by temporarily concatenating a special symbol <eos> that indicates the end of a sentence when the token wt is not the end of a sentence;
a BLM score calculation unit that calculates a BLM score by reversing the word order of the complete hypothesis;
a symbol deletion unit that deletes the temporarily concatenated special symbol <eos> when the token wt is not the end of a sentence;
an ISF score calculation unit that calculates an ISF score for a hypothesis w 1:t of length t based on an ISF score for a hypothesis w 1:t -1 of length t-1, the decoder score for the token w t, the BLM score for a hypothesis w 1: t of length t, and the BLM score for a hypothesis w 1:t-1 of length t-1 ;
the decoder score calculation unit, the complete hypothesis generation unit, the BLM score calculation unit, the symbol deletion unit, and the ISF score calculation unit perform each process while increasing t by 1 until there are no more partial hypotheses;
A speech recognition device including an N-best perfect hypothesis output unit that outputs N-best perfect hypotheses based on ISF scores.
請求項1に記載の音声認識装置であって、
文頭を表す特殊シンボル<sos>と長さt-1の仮説w1:t-1に基づいて、時刻tのトークンwtのFLMスコアを計算するFLMスコア計算部をさらに含み、
前記ISFスコア計算部は、
長さt-1の仮説w1:t-1におけるSF+ISFスコアと、前記トークンwtの前記デコーダスコアと、前記トークンwtの前記FLMスコアと、長さtの仮説w1:t-1における前記BLMスコアと、長さt-1の仮説w1:t-1における前記BLMスコアに基づいて、長さtの仮説w1:tにおけるSF+ISFスコアを計算する
音声認識装置。
2. The speech recognition device according to claim 1,
further comprising an FLM score calculation unit that calculates an FLM score of a token wt at time t based on a special symbol <sos> that indicates the beginning of a sentence and a hypothesis w1 :t-1 of length t-1 ;
The ISF score calculation unit
A speech recognition device that calculates an SF+ISF score for a hypothesis w1:t of length t based on an SF+ISF score for a hypothesis w1 :t-1 of length t-1, the decoder score for the token wt, the FLM score for the token wt , the BLM score for a hypothesis w1:t -1 of length t, and the BLM score for a hypothesis w1 : t-1 of length t-1.
請求項2に記載の音声認識装置であって、
前記BLMスコア計算部は、
語彙サイズ分の仮説を束ねたバッチ計算によりBLMスコアを計算する
音声認識装置。
3. The speech recognition device according to claim 2,
The BLM score calculation unit
A speech recognition device that calculates the BLM score by batch calculation of hypotheses equal to the vocabulary size.
請求項2に記載の音声認識装置であって、
前記BLMスコア計算部は、
Iを任意のインターバルとし、仮説の長さtが、t%I=0(%は剰余演算子)を満たす場合のみBLMスコアを計算する
音声認識装置。
3. The speech recognition device according to claim 2,
The BLM score calculation unit
A speech recognizer that calculates the BLM score only if the length of a hypothesis, t, satisfies t%I=0 (% is the modulo operator), where I is an arbitrary interval.
請求項2に記載の音声認識装置であって、
前記BLMスコア計算部は、
Lを任意の実施仮説長とし、仮説の長さtがLより短い場合(t≦L)のみBLMスコアを計算する
音声認識装置。
3. The speech recognition device according to claim 2,
The BLM score calculation unit
A speech recognition device that calculates the BLM score only when the length of the hypotheses t is shorter than L (t≦L), where L is an arbitrary hypothesis length.
請求項2に記載の音声認識装置であって、
前記BLMスコア計算部は、
枝刈りのビーム幅をMとし、前記BLMスコア以外のスコアに基づく上位M本の仮説のみBLMスコアを計算する
音声認識装置。
3. The speech recognition device according to claim 2,
The BLM score calculation unit
A speech recognition device that sets the pruning beam width to M and calculates the BLM score for only the top M hypotheses based on scores other than the BLM score.
音声認識装置が実行する音声認識方法であって、
1,…,tを時刻とし、w1,w2,...,wt-1,wtをある音声認識仮説における各時刻のトークンとし、長さt-1の仮説w1:t-1={w1,w2,...,wt-1}にトークンwtを連結し、長さtの仮説w1:tに延長する際のISFスコア計算において、
前記トークンwtの音声認識モデルにおけるデコーダスコアを計算するデコーダスコア計算ステップと、
前記トークンwtが文末でない場合に文末を表す特殊シンボル<eos>を一時的に連結して完全仮説を生成する完全仮説生成ステップと、
前記完全仮説の語順を反転させてBLMスコアを計算するBLMスコア計算ステップと、
前記トークンwtが文末でない場合に一時的に連結した特殊シンボル<eos>を削除するシンボル削除ステップと、
長さt-1の仮説w1:t-1におけるISFスコアと、前記トークンwtの前記デコーダスコアと、長さtの仮説w1:tにおける前記BLMスコアと、長さt-1の仮説w1:t-1における前記BLMスコアに基づいて、長さtの仮説w1:tにおけるISFスコアを計算するISFスコア計算ステップを含み、
前記デコーダスコア計算ステップ、前記完全仮説生成ステップ、前記BLMスコア計算ステップ、前記シンボル削除ステップ、前記ISFスコア計算ステップは、部分仮説がなくなるまでtを1ずつ増加させながら各処理を実行し、
ISFスコアに基づいてNベスト完全仮説を出力するNベスト完全仮説出力ステップを含む
音声認識方法。
A speech recognition method executed by a speech recognition device, comprising:
Let 1,...,t be time instants, and w1 , w2 ,..., wt -1 , wt be tokens at each time instant in a speech recognition hypothesis. In calculating the ISF score when concatenating token wt to a hypothesis w1:t-1 = { w1 , w2 ,..., wt -1 } of length t-1 and extending it to a hypothesis w1 :t of length t,
a decoder score calculation step of calculating a decoder score in a speech recognition model for the token wt ;
a complete hypothesis generation step of generating a complete hypothesis by temporarily concatenating a special symbol <eos> representing the end of a sentence when the token wt is not the end of a sentence;
a BLM score calculation step of calculating a BLM score by reversing the word order of the complete hypothesis;
a symbol deletion step of deleting the temporarily concatenated special symbol <eos> when the token wt is not the end of a sentence;
an ISF score calculation step of calculating an ISF score for a hypothesis w1:t of length t based on an ISF score for a hypothesis w1 :t -1 of length t-1, the decoder score for the token wt, the BLM score for a hypothesis w1:t of length t, and the BLM score for a hypothesis w1 :t-1 of length t-1 ;
the decoder score calculation step, the complete hypothesis generation step, the BLM score calculation step, the symbol deletion step, and the ISF score calculation step are performed while incrementing t by 1 until no partial hypotheses remain;
A speech recognition method comprising: an N-best perfect hypothesis output step of outputting N-best perfect hypotheses based on ISF scores.
コンピュータを請求項1から6の何れかに記載の音声認識装置として機能させるプログラム。 A program that causes a computer to function as a speech recognition device described in any one of claims 1 to 6.
JP2024569990A 2023-01-13 2023-01-13 Speech recognition device, speech recognition method, and program Active JP7800738B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/000837 WO2024150422A1 (en) 2023-01-13 2023-01-13 Speech recognition device, speech recognition method, and program

Publications (2)

Publication Number Publication Date
JPWO2024150422A1 JPWO2024150422A1 (en) 2024-07-18
JP7800738B2 true JP7800738B2 (en) 2026-01-16

Family

ID=91896685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024569990A Active JP7800738B2 (en) 2023-01-13 2023-01-13 Speech recognition device, speech recognition method, and program

Country Status (2)

Country Link
JP (1) JP7800738B2 (en)
WO (1) WO2024150422A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
JP2018523156A (en) 2015-06-29 2018-08-16 アマゾン テクノロジーズ インコーポレイテッド Language model speech end pointing
JP2021501376A (en) 2017-12-15 2021-01-14 三菱電機株式会社 Speech recognition system
JP2022526876A (en) 2019-04-11 2022-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション Training data modification to train the model
JP2022529691A (en) 2019-04-16 2022-06-23 グーグル エルエルシー Combination endpoint determination and automatic speech recognition

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3559479B2 (en) * 1999-09-22 2004-09-02 日本電信電話株式会社 Continuous speech recognition method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018523156A (en) 2015-06-29 2018-08-16 アマゾン テクノロジーズ インコーポレイテッド Language model speech end pointing
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
JP2021501376A (en) 2017-12-15 2021-01-14 三菱電機株式会社 Speech recognition system
JP2022526876A (en) 2019-04-11 2022-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション Training data modification to train the model
JP2022529691A (en) 2019-04-16 2022-06-23 グーグル エルエルシー Combination endpoint determination and automatic speech recognition

Also Published As

Publication number Publication date
JPWO2024150422A1 (en) 2024-07-18
WO2024150422A1 (en) 2024-07-18

Similar Documents

Publication Publication Date Title
JP3627299B2 (en) Speech recognition method and apparatus
CN112217947B (en) Method, system, equipment and storage medium for transcribing text by customer service telephone voice
JP2020505650A (en) Voice recognition system and voice recognition method
US20100094629A1 (en) Weight coefficient learning system and audio recognition system
JP2019159058A (en) Speech recognition system, speech recognition method, learned model
CN113674733A (en) Method and apparatus for speech time estimation
JP7028203B2 (en) Speech recognition device, speech recognition method, program
CN113345410B (en) Training method and related device for general speech and target speech synthesis model
JP2020020872A (en) Discriminator, learnt model, and learning method
WO2019156101A1 (en) Device for estimating deterioration factor of speech recognition accuracy, method for estimating deterioration factor of speech recognition accuracy, and program
JP2011164336A (en) Speech recognition device, weight vector learning device, speech recognition method, weight vector learning method, and program
JP2006243728A (en) Method for converting phonemes to text, computer system thereof, and computer program
JP5180800B2 (en) Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program
JP7744654B2 (en) Language processing device, machine learning method, estimation method and program
JP7800738B2 (en) Speech recognition device, speech recognition method, and program
US8315869B2 (en) Speech recognition apparatus, speech recognition method, and recording medium storing speech recognition program
JP6082657B2 (en) Pose assignment model selection device, pose assignment device, method and program thereof
JP7831650B2 (en) Language model learning device, language model learning method, program
JP7795138B2 (en) Learning device, conversion device, learning method, conversion method, and program
KR20250026904A (en) Speech recognition method and system using latent features generated from diffusion probability model
CN110808035B (en) Method and apparatus for training hybrid language recognition models
JP3969079B2 (en) Voice recognition apparatus and method, recording medium, and program
JP7160170B2 (en) Speech recognition device, speech recognition learning device, speech recognition method, speech recognition learning method, program
JP7197786B2 (en) Estimation device, estimation method, and program
JP6852167B2 (en) Confusion network distributed representation generation device, confusion network classification device, confusion network distributed representation generation method, confusion network classification method, program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20251202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20251215

R150 Certificate of patent or registration of utility model

Ref document number: 7800738

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150