JP4829685B2 - Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium - Google Patents
Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium Download PDFInfo
- Publication number
- JP4829685B2 JP4829685B2 JP2006158083A JP2006158083A JP4829685B2 JP 4829685 B2 JP4829685 B2 JP 4829685B2 JP 2006158083 A JP2006158083 A JP 2006158083A JP 2006158083 A JP2006158083 A JP 2006158083A JP 4829685 B2 JP4829685 B2 JP 4829685B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase pair
- phrase
- translation
- word
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、翻訳フレーズペア生成装置、統計的機械翻訳装置、翻訳フレーズペア生成方法、統計的機械翻訳方法、翻訳フレーズペア生成プログラム、統計的機械翻訳プログラム、および、記憶媒体に関する。 The present invention relates to a translation phrase pair generation device, a statistical machine translation device, a translation phrase pair generation method, a statistical machine translation method, a translation phrase pair generation program, a statistical machine translation program, and a storage medium.
翻訳元言語の文と翻訳先言語の文のペアを大量に集めた対訳データから、機械翻訳システムを自動構築する技術(統計的機械翻訳)が提案されている。 A technique (statistical machine translation) for automatically constructing a machine translation system from parallel translation data obtained by collecting a large number of pairs of sentences in a source language and a target language has been proposed.
図3は、フレーズ翻訳を示す説明図である。フレーズベースの統計的機械翻訳は、単語単位ではなく、単語列に対する翻訳モデルが用いられる。最初に図3上部の翻訳元言語文「日本 の 首相 は 小泉 です」を部分文字列に分割するあらゆる可能性を考える。その可能性の1つとして、図3に示すような3つの部分文字列「日本 の」「首相 は」「小泉 です」に分割される。 FIG. 3 is an explanatory diagram showing phrase translation. Phrase-based statistical machine translation uses a translation model for word strings rather than word units. First, consider all the possibilities of dividing the source language sentence at the top of Fig. 3 "Japan's prime minister is Koizumi" into substrings. As one of the possibilities, it is divided into three substrings “Japan”, “Prime Minister” and “I am Koizumi” as shown in Figure 3.
次に、分割された部分文字列ごとに翻訳モデルを用いて翻訳して翻訳先言語文(目的言語の文字列)「The prime minister」「of Japan」「is Koizumi」を作成する。さらに、これら目的言語の文字列のあらゆる並び替えを翻訳文候補として考える。 Next, each divided partial character string is translated using a translation model to create a translated language sentence (a character string in the target language) “The prime minister”, “of Japan”, and “is Koizumi”. Furthermore, all sorts of character strings in these target languages are considered as translation sentence candidates.
こうして生成される膨大な翻訳文候補の中から、最も尤度の高い翻訳文「The prime minister of Japan is Koizumi」を探索し出力する。ただし実際は、これらあらゆる可能性を全探索して最適解を求めることは現実的でないため、様々な制約を加えて候補を絞り、準最適解を求めることが一般的である。 From the enormous translation candidates generated in this way, the most likely translation “The prime minister of Japan is Koizumi” is searched and output. However, in practice, it is not practical to search all these possibilities to find an optimal solution, so it is common to narrow down candidates by adding various constraints to find a sub-optimal solution.
機械翻訳の問題は、翻訳元単語列fに対応して、次の(式1)を満たす最適な翻訳先単語列ehを求める問題として定式化される(非特許文献1参照)。なお、本明細書では、説明を理解しやすくするために、翻訳元単語列fの一例として日本語文字列を、翻訳先単語列eの一例として英語文字列を、それぞれ使用する。 The problem of machine translation is formulated as a problem of finding an optimal translation destination word string eh that satisfies the following (Formula 1) corresponding to the translation source word string f (see Non-Patent Document 1). In this specification, in order to make the explanation easy to understand, a Japanese character string is used as an example of the translation source word string f, and an English character string is used as an example of the translation destination word string e.
hm(e,f)は翻訳元単語列fと翻訳先単語列eのペアをスコア付けする素性関数、λm(m=1…M)はそれらのスケーリングファクタ、Eは可能な全ての翻訳先単語列(すなわち翻訳先言語)とする。
各素性関数hm(e,f)としては、非特許文献2では、次の7つのlogをとったものが使われる。
・フレーズ翻訳確率:φ(e|f)
・フレーズ翻訳確率:φ(f|e)
・レキシカル重み:lex(e|f)
・レキシカル重み:lex(f|e)
・フレーズペナルティ:ωlength(e)(ただし、ωは定数、length()は単語列長を返す関数)
・N−gram言語モデル:PLM(e)
・歪モデル
As each feature function h m (e, f), Non-Patent Document 2, which was taken following seven log is used.
・ Phrase translation probability: φ (e | f)
・ Phrase translation probability: φ (f | e)
・ Lexical weight: lex (e | f)
・ Lexical weight: lex (f | e)
Phrase penalty: ω length (e) (where ω is a constant and length () is a function that returns the word string length)
-N-gram language model: P LM (e)
・ Distortion model
各フレーズ翻訳確率やレキシカル重みは翻訳としての尤度を評価する関数であり、別名、翻訳モデルとも呼ばれる。前記の式において、現実にはEの全ての要素を候補とすることは不可能であるため、次のようにして翻訳候補を生成し、Eを近似する。 Each phrase translation probability or lexical weight is a function for evaluating the likelihood as a translation, and is also called a translation model. In the above equation, since it is impossible in reality to use all elements of E as candidates, translation candidates are generated as follows and E is approximated.
図4は、文分割と翻訳候補を示す説明図である。まず、翻訳元の文を単語列に分割し、翻訳モデルを用いて各々の翻訳元単語列に対する翻訳先単語列の候補を生成する。翻訳元の文をオーバーラップやギャップなしに覆うような翻訳元単語列と翻訳先単語列のペア(以後、フレーズペア)の集合(この図の場合、文頭から文末まで有効グラフをたどって得られるフレーズペアの集合)のすべての要素を並び替えたものが翻訳候補となる。 FIG. 4 is an explanatory diagram showing sentence division and translation candidates. First, a translation source sentence is divided into word strings, and translation target word string candidates for each translation source word string are generated using a translation model. A set of pairs of source word strings and target word strings (hereinafter referred to as phrase pairs) that cover the source sentence without overlap or gaps (in this case, it is obtained by tracing the effective graph from the beginning to the end of the sentence) A translation candidate is a combination of all the elements of a phrase pair set).
なお、本明細書では、1つのフレーズペアをカギ括弧でくくり、“「翻訳元単語列fから翻訳される翻訳先単語列eのフレーズ(翻訳元単語列fのフレーズ)」”の形式で表現する。なお、1つの文は、1つ以上のフレーズペアにより構成される。 In this specification, one phrase pair is enclosed in square brackets and expressed in the form of “a phrase of a translation destination word string e translated from a translation source word string f (a phrase of the translation source word string f)”. One sentence is composed of one or more phrase pairs.
例えば、図4の例では以下の集合は翻訳候補を構成するものとして適切なものである。
・{「Japanese(日本 の)」,「The prime minister(首相 は)」,「Koizumi(小泉)」,「is(です)」}
・{「Japanese(日本 の)」,「the prime minister(首相 は)」,「is Koizumi(小泉 です)」}
For example, in the example of FIG. 4, the following set is appropriate as a translation candidate.
・ {"Japanese", "The prime minister", "Koizumi", "is"}
・ {"Japanese", "the prime minister", "is Koizumi"}
各集合の要素を並びかえることで、以下のような膨大な翻訳候補文を生成する。
・「Japanese(日本 の)」「The prime minister(首相 は)」「is Koizumi(小泉 です)」
・「the prime minister(首相 は)」「Japanese(日本 の)」「is Koizumi(小泉 です)」
By rearranging the elements of each set, the following huge translation candidate sentences are generated.
・ “Japanese” “The prime minister” “is Koizumi”
・ "The prime minister""Japanese""isKoizumi"
しかしながら、ここまで翻訳候補数を制限しても現実的にはこれら全ての候補から最適解を求めることはできない。そこで、非特許文献3の手法で準最適解をもとめる。 However, even if the number of translation candidates is limited so far, it is practically impossible to obtain an optimal solution from all these candidates. Therefore, a suboptimal solution is obtained by the method of Non-Patent Document 3.
各スケーリングファクタλmについては、非特許文献1の手法を用いることで、スケーリングファクタ学習用対訳コーパスにおける翻訳精度が最大になるように自動設定できる。
About each scaling factor (lambda) m , it can set automatically so that the translation accuracy in the bilingual corpus for scaling factor learning may become the maximum by using the method of a
前記4つの翻訳モデル(φ(e|f)、φ(f|e)、lex(e|f)、および、lex(f|e))は次のようなフレーズテーブルとして表現される。
翻訳候補文に対するこれらの値は、翻訳候補を構成するフレーズペアのスコアの累積として計算される。例えば候補
・「of Japan(日本 の)」「The prime minister(首相 は)」「is Koizumi(小泉 です)」に対するφ(e|f)は、φ(e|f)=0.3×0.6×0.2=0.036となり、対応する素性関数の値はそのlog値であるため、logφ(e|f)≒−1.44となる。
These values for the translation candidate sentence are calculated as the cumulative score of the phrase pair constituting the translation candidate. For example, φ (e | f) for “of Japan”, “The prime minister” and “is Koizumi” is φ (e | f) = 0.3 × 0. Since 6 × 0.2 = 0.036, and the value of the corresponding feature function is the log value, logφ (e | f) ≈−1.44.
4つの翻訳モデルに対応する素性関数のスケーリングファクタがそれぞれ、0.1、0.2、0.3、0.4だとすると、以下の翻訳候補文の翻訳モデルに関する総合スコアを計算する。
・「The prime minister(首相 は)」「of Japan(日本 の)」「is Koizumi(小泉 です)」
計算結果は、次の通りである。
0.1×log(0.6×0.3×0.2)
+0.2×log(0.5×0.35×0.1)
+0.3×log(0.4×0.2×0.3)
+0.4×log(0.3×0.25×0.4)
Assuming that the scaling factors of the feature functions corresponding to the four translation models are 0.1, 0.2, 0.3, and 0.4, respectively, an overall score for the translation model of the following translation candidate sentences is calculated.
・ "The prime minister""ofJapan""isKoizumi"
The calculation results are as follows.
0.1 x log (0.6 x 0.3 x 0.2)
+ 0.2 × log (0.5 × 0.35 × 0.1)
+ 0.3 × log (0.4 × 0.2 × 0.3)
+ 0.4 × log (0.3 × 0.25 × 0.4)
翻訳候補文のスコアとしては、翻訳モデルに関する総合スコアだけでなく、その他の素性関数を考慮して、同様に計算される。翻訳結果としては、最もスコアの高い翻訳候補が選ばれる(繰り返しになるが、現実的には最適解は求められず、非特許文献3の手法によって準最適化をもとめる)。 The score of the translation candidate sentence is calculated in the same manner in consideration of not only the overall score related to the translation model but also other feature functions. As a translation result, the translation candidate with the highest score is selected (repeatedly, but in reality, an optimal solution is not required, and quasi-optimization is requested by the method of Non-Patent Document 3).
図5は、翻訳フレーズペア生成装置1aを示す構成図である。フレーズテーブル19aは、翻訳元言語の文と翻訳先言語の文のペアを大量に集めた対訳データから作成される。フレーズテーブル19aは、次の(1)から(3)のステップで作られる。
(1)単語対応付け部14aは、対訳コーパス11aから単語対応16aを作成することで、単語対応付けを行う。
(2)フレーズペア抽出部15aは、対訳コーパス11aおよび単語対応16aから対応するフレーズペア17aを抽出する。
(3)スコア付加部18aは、フレーズペア17aにスコア付けを行い、フレーズテーブル19aを作成する。
FIG. 5 is a configuration diagram showing the translation phrase pair generation device 1a. The phrase table 19a is created from parallel translation data in which a large number of pairs of sentences in the translation source language and sentences in the translation destination language are collected. The phrase table 19a is created by the following steps (1) to (3).
(1) The
(2) The phrase
(3) The
図6は、フレーズ抽出を示す説明図である。フレーズ抽出は、前記した(1)、(2)に相当する。最初にIBMモデル(非特許文献4)などを用いて、単語の対応付けを行う。図6の「塗りつぶし矩形」が単語対応を表す。この例の単語対応は、単語位置をインデックスとして、「日本語の単語位置−英語の単語位置」の集合{1−1,2−2,3−3,3−4,4−0}(ただし単語位置0はどこにも対応しないことを意味する)と表現される。次にこの単語対応を基に、翻訳元言語の各単語に対応する「塗りつぶし矩形」が閉じるとともに翻訳先言語の各単語に対応する「塗りつぶし矩形」も閉じるように、フレーズペア17aを抽出する。この例では、以下の9組が抽出される。
・This(これ)
・is(は)
・a pen(ペン)
・a pen(ペン です)
・This is(これ は)
・This is a pen(これ は ペン)
・This is a pen(これ は ペン です)
・is a pen(は ペン)
・is a pen(は ペン です)
FIG. 6 is an explanatory diagram showing phrase extraction. Phrase extraction corresponds to the above (1) and (2). First, word association is performed using an IBM model (Non-Patent Document 4) or the like. The “filled rectangle” in FIG. 6 represents word correspondence. The word correspondence in this example is obtained by setting a set {1-1, 2-2, 3-3, 3-4, 4-0} of “Japanese word position−English word position” with the word position as an index (however, Word position 0 means not corresponding anywhere). Next, based on this word correspondence, the
・ This
・ Is
・ A pen
・ A pen
・ This is
・ This is a pen
・ This is a pen
・ Is a pen
・ Is a pen
スコア付加部18aは、対訳データのすべての文ペアから抽出されるフレーズペア17aのリストから、各フレーズペア17aに対するスコアを計算する。各スコアの計算方法は、非特許文献2に基づく。
The
図7は、翻訳フレーズペア生成装置1bを示す構成図である。翻訳フレーズペア生成装置1bは、(1)単語対応付けの前処理として単語正規化してから、フレーズテーブル19bを求める。具体的には、単語表現正規化部13bは、対訳コーパス11bから正規化対訳コーパス12bを作成する。単語対応付け部14bは、正規化対訳コーパス12bから単語対応16bを作成する。残りの構成は図5と同じである。
FIG. 7 is a configuration diagram showing the translation phrase pair generation device 1b. The translation phrase pair generation device 1b obtains the phrase table 19b after (1) word normalization as preprocessing for word association. Specifically, the word
単語表現正規化部13bの単語正規化手法としてはいくつかの方法が考えられるが、英単語の正規化の場合、全てを小文字化する手法、または、ステミングとよばれる単語の活用語尾を削除する手法などがよく使われる。単語正規化した対訳コーパスは単語対応付けのためだけに用いられ、フレーズペア17bの抽出はもとの対訳コーパスを用いるため、フレーズテーブルに現れる単語列は単語正規化しないものが使われる。
単語列に対する翻訳モデルは、翻訳元言語文字列、翻訳先言語文字列およびスコアの三つ組みの集合で表される。この翻訳モデルは、両言語に含まれる単語同士の共起の統計量を用いて単語対応付けを行い、その単語対応付け結果を用いて構成される。 A translation model for a word string is represented by a set of triplets of a translation source language character string, a translation destination language character string, and a score. This translation model is configured by using the word association result by performing word association using the co-occurrence statistics of words included in both languages.
しかし、単語対応付けに用いる共起の統計量は、翻訳モデルの学習に用いる学習データが少ない場合には信頼できるものが求まらず、結果として精度の高い翻訳モデルが獲得できない問題がある。 However, the co-occurrence statistic used for word association cannot be obtained when the learning data used for learning the translation model is small, and as a result, there is a problem that a highly accurate translation model cannot be obtained.
そこで、あらかじめ英単語を小文字に統一する、または、英語の活用語尾を削除する(ステミング)など、単語表記の正規化をしておくことで共起の統計量を安定してもとめやすくすることが広く行われている。これまで単語の対応付けを正規化された対訳コーパスのみから生成していた。 Therefore, it is easier to stop co-occurrence statistics by stabilizing the word notation by unifying English words in lower case in advance or deleting the English endings (stemming). Widely done. Until now, word associations were generated only from normalized bilingual corpora.
しかし、正規化により、どのような学習データに対しても安定し、性能を引き出すことは困難であるという副作用が発生してしまう。つまり、単語表記を正規化することはある種の情報が失われることであるため、単語表記を正規化してもとめた単語対応に基づき作成された翻訳モデルは、学習データが増えると単語表記を正規化しないで作成したものより精度が落ちるという問題があった。 However, normalization causes a side effect that it is difficult for any learning data to be stable and to extract performance. In other words, normalizing the word notation means that some information is lost. Therefore, the translation model created based on word correspondence obtained by normalizing the word notation normalizes the word notation as the learning data increases. There was a problem that the accuracy was lower than the one created without conversion.
例えば、日本語の単語「日本」は英単語の「Japan」や「Japanese」に対応づき易い。しかし、学習データが少ない場合、英単語をステミングすることで、「Japan」も「Japanese」も「Japan」に変換して扱った方が、安定して共起統計量がもとまる。しかし、「日本人は日本が好き」と「Japanese people like Japan」の二文間で単語対応を求める際は、どちらの「日本」が「Japan」と「Japanese」に対応しているかの区別が必要なため、このような正規化は副作用も及ぼす。 For example, the Japanese word “Japan” can easily correspond to the English words “Japan” and “Japanese”. However, when learning data is small, it is more stable to obtain co-occurrence statistics by stemming English words and converting “Japan” and “Japanese” to “Japan”. However, when seeking word correspondence between two sentences, “Japanese likes Japan” and “Japanese people like Japan”, it is difficult to distinguish which “Japan” corresponds to “Japan” or “Japanese”. Such normalization also has side effects because it is necessary.
そこで、本発明は、前記した問題を解決し、どのような学習データにおいても、精度の高い翻訳ができるような、フレーズペアを作成することを主な目的とする。 Therefore, the main object of the present invention is to solve the above-described problems and to create a phrase pair that can be translated with high accuracy in any learning data.
前記課題を解決するために、本発明は、統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する単語対応付け部と、前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出するフレーズペア抽出部と、前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、を有することを特徴とする。 In order to solve the above-described problem, the present invention provides a phrase pair generation device that generates a phrase pair used for statistical machine translation, and is a first unnormalized first untranslated corpus. Creating a word correspondence and creating a normalized second word correspondence from the normalized second bilingual corpus, the first bilingual corpus, and the first word correspondence to the first A phrase pair is extracted, a second phrase pair is extracted from the first bilingual corpus and the second word correspondence, a third phrase pair is extracted from the second bilingual corpus and the first word correspondence, A phrase pair extraction unit for extracting a fourth phrase pair from the second bilingual corpus and the second word correspondence; the first phrase pair; the second phrase pair; Zupea, and, with respect to the fourth phrase pair, respectively perform scoring, and having a score adding unit for storing a phrase table, a.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、翻訳元言語文の入力を受け付け、前記翻訳フレーズペア生成装置により前記フレーズテーブルに格納された前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアをもとに、翻訳先言語文を出力することを特徴とする。 The present invention accepts an input of a translation source language sentence and stores the first phrase pair, the second phrase pair, the third phrase pair, and the fourth phrase stored in the phrase table by the translated phrase pair generation device. Based on the phrase pair, the translated language sentence is output.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、統計的機械翻訳に使用されるフレーズペアを生成する翻訳フレーズペア生成方法であって、コンピュータが、正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する手順と、前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出する手順と、前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納する手順と、を実行することを特徴とする。 The present invention is a translation phrase pair generation method for generating a phrase pair used for statistical machine translation, in which a computer creates a non-normalized first word correspondence from a non-normalized first parallel corpus Generating a normalized second word correspondence from the normalized second bilingual corpus, extracting the first bilingual corpus, and the first phrase pair from the first word correspondence, Extracting a second phrase pair from the first bilingual corpus and the second word correspondence; extracting a second phrase pair from the second bilingual corpus and the first word correspondence; and the second bilingual corpus; , Extracting the fourth phrase pair from the second word correspondence, the first phrase pair, the second phrase pair, the third phrase pair, and the fourth frame Against Zupea, respectively perform scoring, and executes the instructions stored in the phrase table, a.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、コンピュータが、翻訳元言語文の入力を受け付け、前記翻訳フレーズペア生成方法により前記フレーズテーブルに格納された前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアをもとに、翻訳先言語文を出力することを特徴とする。 In the present invention, a computer receives an input of a translation source language sentence, and the first phrase pair, the second phrase pair, the third phrase pair stored in the phrase table by the translated phrase pair generation method, and A translated language sentence is output based on the fourth phrase pair.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、前記翻訳フレーズペア生成方法をコンピュータに実行させるための翻訳フレーズペア生成プログラムである。 The present invention is a translation phrase pair generation program for causing a computer to execute the translation phrase pair generation method.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、前記統計的機械翻訳方法をコンピュータに実行させるための統計的機械翻訳プログラムである。 The present invention is a statistical machine translation program for causing a computer to execute the statistical machine translation method.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、前記プログラムを格納することを特徴とする。 The present invention is characterized by storing the program.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、正規化しない1つの対訳コーパスと、その対訳コーパスに対してN−1種類の単語正規化手法をそれぞれ1回適用した対訳コーパスをN−1個作成することで、合計N個の対訳コーパスとし、前記N個の対訳コーパスからN個の単語対応グループを作成する単語対応付け部と、前記N個の対訳コーパスと、前記N個の単語対応との組み合わせにより、Nの2乗個のフレーズペアを抽出するフレーズペア抽出部と、前記Nの2乗個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、を有することを特徴とする。 The present invention is a phrase pair generation device that generates a phrase pair used for statistical machine translation, and includes one bilingual corpus that is not normalized and N-1 types of word normalization techniques for the bilingual corpus. By creating N-1 bilingual corpora each applied once, a total of N bilingual corpora, and a word association unit for creating N word correspondence groups from the N bilingual corpora, the N A phrase pair extraction unit that extracts N square phrase pairs by combining the N-word parallel corpus and the N word correspondence, and scoring each of the N square phrase pairs. And a score adding unit for storing in the phrase table.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明は、統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、正規化しない1つの対訳コーパスからN種類の単語正規化手法をそれぞれ1回適用したN個の単語対応グループを作成する単語対応付け部と、前記1個の対訳コーパスと、前記N個の単語対応との組み合わせにより、N個のフレーズペアを抽出するフレーズペア抽出部と、前記N個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、を有することを特徴とする。 The present invention is a phrase pair generation device for generating a phrase pair used for statistical machine translation, and N words obtained by applying N kinds of word normalization techniques once each from one bilingual corpus without normalization A phrase pair extraction unit that extracts N phrase pairs by a combination of a word association unit that creates a correspondence group, the one bilingual corpus, and the N word correspondences, and the N phrase pairs And a score adding unit that performs scoring and stores in a phrase table.
これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。 Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.
本発明により、正規化していない対訳コーパスからも生成するようにしたことにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。よって、どのような学習データにおいても、単語正規化しない翻訳モデルだけ用いた場合や、単語正規化した翻訳モデルだけ用いた場合と比べて、平均して精度の高い翻訳ができ、安定して性能を引き出すことができる。 According to the present invention, by generating from a bilingual corpus that has not been normalized, a larger number of translation phrase pairs can be generated than in the conventional method. Therefore, any learning data can be translated with high accuracy on average compared to the case where only the translation model without word normalization is used or the case where only the translation model with word normalization is used. Can be pulled out.
また、ユーザは、学習データに応じて対訳コーパスを正規化するかしないか、またはどのような正規化手法を用いるかを学習データに応じて先見的に決定する必要がなくなり、決定に関する負担が軽減する。 In addition, the user does not have to make a priori decision on whether or not to normalize the bilingual corpus according to the learning data or what kind of normalization method is used, thus reducing the burden on the decision. To do.
以下に、本発明が適用される翻訳システムの一実施形態について、図面を参照して詳細に説明する。 Hereinafter, an embodiment of a translation system to which the present invention is applied will be described in detail with reference to the drawings.
図1は、翻訳フレーズペア生成装置1cを示す構成図である。図7と比較すると、以下に示す構成の差異がある。 FIG. 1 is a configuration diagram showing a translation phrase pair generation device 1c. Compared with FIG. 7, there are differences in the configuration shown below.
まず、単語対応付け部14cは、単語正規化しない対訳コーパス11c(第1対訳コーパス)、および、正規化した正規化対訳コーパス12c(第2対訳コーパス)にそれぞれ対応して、正規化なし単語対応16d(第1単語対応)、および、正規化あり単語対応16c(第2単語対応)を求める。
First, the
次に、フレーズペア抽出部15cは、以下に示す4種類のフレーズペア(フレーズペアのマルチセット)を抽出する。
・第1フレーズペア17cとして、正規化していない対訳コーパス11cから正規化なし単語対応16dを用いて、フレーズペアを抽出する。
・第2フレーズペア17dとして、正規化していない対訳コーパス11cから正規化あり単語対応16cを用いて、フレーズペアを抽出する。
・第3フレーズペア17eとして、正規化対訳コーパス12cから正規化なし単語対応16dを用いて、フレーズペアを抽出する。
・第4フレーズペア17fとして、正規化対訳コーパス12cから正規化あり単語対応16cを用いて、フレーズペアを抽出する。
Next, the phrase
As the
As the second phrase pair 17d, the phrase pair is extracted from the
As the third phrase pair 17e, the phrase pair is extracted from the normalized
As the fourth phrase pair 17f, the phrase pair is extracted from the normalized
以下にフレーズテーブル19(一部)の例を示す。
フレーズテーブル19において、抽出されなかったフレーズペアのスコアは非常に小さな値である0.001に設定する。前記フレーズテーブル17の例では、フレーズペア「#1」は、第1フレーズペア17cに含まれなかったため、0.001となっている。
In the phrase table 19, the score of the phrase pair that has not been extracted is set to 0.001, which is a very small value. In the example of the phrase table 17, the phrase pair “# 1” is 0.001 because it is not included in the
図2は、統計的機械翻訳装置2を示す構成図である。日本語から英語へ翻訳する日英機械翻訳システムに関する一例を示す。統計的機械翻訳装置2は、スケーリングファクタ学習用対訳データ21、スケーリングファクタ学習部22、スケーリングファクタ23、解探索部24、フレーズテーブル25、および、言語モデル26を有する。これらの構成要素は、例えば、非特許文献1、非特許文献3の従来法により実現できる。
FIG. 2 is a configuration diagram showing the statistical machine translation apparatus 2. An example of a Japanese-English machine translation system that translates from Japanese to English is shown. The statistical machine translation apparatus 2 includes
フレーズテーブル19(図1参照)に格納されている内容と、フレーズテーブル25に格納されている内容とは、同じである。この内容の同一化をするために、例えば、フレーズテーブル17からフレーズテーブル25にデータコピーを行ってもよいし、フレーズテーブル25からフレーズテーブル17に参照するリンクを設定してもよい。 The contents stored in the phrase table 19 (see FIG. 1) and the contents stored in the phrase table 25 are the same. In order to make this content the same, for example, data may be copied from the phrase table 17 to the phrase table 25, or a link referring to the phrase table 17 from the phrase table 25 may be set.
フレーズテーブル25に格納されている個々のフレーズペアとそれに対応する各スコアの三つ組みの集合から、翻訳候補文を評価する関数hm(e,f)を構成する。スケーリングファクタ学習部22は、翻訳モデル(言語モデル26)以外の素性関数も含めて、スケーリングファクタ学習用対訳データ21における翻訳精度が最大になるように、非特許文献1の手法などを用いてスケーリングファクタ23を求める。
A function h m (e, f) for evaluating a translation candidate sentence is constructed from a set of triplets of individual phrase pairs and the corresponding scores stored in the phrase table 25. The scaling factor learning unit 22 performs scaling using the method of
解探索部24は、スケーリングファクタ23により個々の素性関数を重み付けする。
The
以上の実施形態では、フレーズテーブル25に格納されている「対訳コーパス」と「正規化対訳コーパス」の2種類を用いることで、2の2乗=4種類のフレーズペアのバリエーションを獲得した。さらに、単語表現正規化部13cは、N−1種類の単語正規化手法をそれぞれ1回適用した対訳コーパスをN−1個作成し、正規化しない1つの対訳コーパスを含めて、合計N個の対訳コーパスを用いるように拡張できる。同様に、N−1種類の単語正規化手法をそれぞれ1回適用した単語対応をN−1個作成し、正規化しない1つの単語対応を含めて、合計N個の単語対応を用いるように拡張できる。なお、Nは、2以上の自然数である。
In the above embodiment, by using two types of “parallel translation corpus” and “normalized parallel corpus” stored in the phrase table 25, variations of 2 2 = 4 types of phrase pairs are obtained. Further, the word
この場合、抽出対象となる対訳コーパスがN個、利用する単語対応がN個で合計Nの2乗個のフレーズペアのマルチセットが獲得可能である。または、正規化しない対訳コーパスが1個、利用する単語対応がN個で合計N個のフレーズペアのマルチセットが獲得可能である。このように、本実施形態では対訳コーパスのバリエーションを組み合わせ的に活かして、翻訳モデルのバリエーションを増やすことが可能となる。 In this case, it is possible to acquire a multi-set of N 2 parallel corpus to be extracted, N word correspondences to be used, and a total of N square phrase pairs. Alternatively, it is possible to acquire a multi-set of a total of N phrase pairs with one bilingual corpus without normalization and N word correspondences to be used. As described above, in the present embodiment, it is possible to increase the variations of the translation model by combining the variations of the bilingual corpus.
以上説明した本発明は、単語正規化しないで求めた翻訳モデルと、単語正規化してもとめた翻訳モデルを重み付けて併用して用いる。翻訳モデルの重み付けは、翻訳モデルを学習した学習データとは別の重み決定用学習データを用い、重み決定用学習データでの翻訳精度が一番高くなるように設定することを特徴とする。 In the present invention described above, the translation model obtained without word normalization and the translation model obtained after word normalization are used in a weighted manner. The weighting of the translation model is characterized in that weighting learning data different from the learning data obtained by learning the translation model is used and the translation accuracy in the weight determination learning data is set to be the highest.
以上説明した本発明は、以下のようにその趣旨を逸脱しない範囲で広く変形実施することができる。 The present invention described above can be widely modified without departing from the spirit thereof as follows.
例えば、本明細書では、翻訳元単語列fおよび翻訳先単語列eとして、任意の言語体系から任意の言語体系への翻訳が適用可能である。 For example, in this specification, translation from an arbitrary language system to an arbitrary language system can be applied as the translation source word string f and the translation destination word string e.
なお、翻訳フレーズペア生成装置1c、および、統計的機械翻訳装置2は、それぞれ演算処理を行う際に用いられる主記憶手段としてのメモリと、前記演算処理を行う演算処理装置と、各テーブルを格納するHDD(Hard Disk Drive)などの補助記憶手段を少なくとも備えるコンピュータとして構成される。なお、メモリは、RAM(Random Access Memory)などにより構成される。演算処理は、CPU(Central Processing Unit)によって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。本実施形態は、各装置に加え、各装置に演算処理を実行させるためのプログラム、および、そのプログラムを格納したコンピュータ読み取り可能な記憶媒体を含む。 The translation phrase pair generation device 1c and the statistical machine translation device 2 each store a memory as a main storage unit used when performing arithmetic processing, an arithmetic processing device that performs the arithmetic processing, and each table. The computer is configured to include at least auxiliary storage means such as a hard disk drive (HDD). The memory is constituted by a RAM (Random Access Memory) or the like. Arithmetic processing is realized by an arithmetic processing unit configured by a CPU (Central Processing Unit) executing a program on a memory. In addition to each device, the present embodiment includes a program for causing each device to perform arithmetic processing, and a computer-readable storage medium storing the program.
1 翻訳フレーズペア生成装置
2 統計的機械翻訳装置
14 単語対応付け部
15 フレーズペア抽出部
18 スコア付加部
19 フレーズテーブル
DESCRIPTION OF
Claims (9)
正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する単語対応付け部と、
前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出するフレーズペア抽出部と、
前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、
を有することを特徴とする翻訳フレーズペア生成装置。 A translation phrase pair generator for generating phrase pairs used for statistical machine translation,
A word associating unit that creates a non-normalized first word correspondence from the unnormalized first bilingual corpus and creates a normalized second word correspondence from the normalized second bilingual corpus; ,
Extracting a first phrase pair from the first bilingual corpus and the first word correspondence; extracting a first phrase pair from the first bilingual corpus and the second word correspondence; and the second bilingual corpus, And a phrase pair extraction unit that extracts a third phrase pair from the first word correspondence, extracts the second parallel corpus, and a fourth phrase pair from the second word correspondence;
A score adding unit that performs scoring for each of the first phrase pair, the second phrase pair, the third phrase pair, and the fourth phrase pair, and stores the score in a phrase table;
The translation phrase pair production | generation apparatus characterized by having.
コンピュータが、
正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する手順と、
前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出する手順と、
前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納する手順と、
を実行することを特徴とする翻訳フレーズペア生成方法。 A translation phrase pair generation method for generating a phrase pair used for statistical machine translation,
Computer
Creating a non-normalized first word correspondence from the non-normalized first bilingual corpus, and creating a normalized second word correspondence from the second bilingual corpus that is normalized;
Extracting a first phrase pair from the first bilingual corpus and the first word correspondence; extracting a first phrase pair from the first bilingual corpus and the second word correspondence; and the second bilingual corpus, And extracting a third phrase pair from the first word correspondence, extracting the second parallel corpus, and a fourth phrase pair from the second word correspondence;
The first phrase pair, the second phrase pair, the third phrase pair, and the fourth phrase pair are each scored and stored in a phrase table;
The translation phrase pair generation method characterized by performing this.
正規化しない1つの対訳コーパスと、その対訳コーパスに対してN−1種類の単語正規化手法をそれぞれ1回適用した対訳コーパスをN−1個作成することで、合計N個の対訳コーパスとし、前記N個の対訳コーパスからN個の単語対応グループを作成する単語対応付け部と、
前記N個の対訳コーパスと、前記N個の単語対応との組み合わせにより、Nの2乗個のフレーズペアを抽出するフレーズペア抽出部と、
前記Nの2乗個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、
を有することを特徴とする翻訳フレーズペア生成装置。 A phrase pair generation device for generating a phrase pair used for statistical machine translation,
One bilingual corpus without normalization and N-1 bilingual corpora obtained by applying N-1 types of word normalization methods once to the bilingual corpus are generated as a total of N bilingual corpora, A word association unit for creating N word correspondence groups from the N parallel corpora;
A phrase pair extraction unit that extracts N square phrase pairs by combining the N bilingual corpora and the N word correspondences;
A score adding unit for scoring each of the N square phrase pairs and storing it in the phrase table;
The translation phrase pair production | generation apparatus characterized by having.
正規化しない1つの対訳コーパスからN種類の単語正規化手法をそれぞれ1回適用したN個の単語対応グループを作成する単語対応付け部と、
前記1個の対訳コーパスと、前記N個の単語対応との組み合わせにより、N個のフレーズペアを抽出するフレーズペア抽出部と、
前記N個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、
を有することを特徴とする翻訳フレーズペア生成装置。 A phrase pair generation device for generating a phrase pair used for statistical machine translation,
A word associating unit that creates N word correspondence groups each applying N kinds of word normalization techniques once from one bilingual corpus that is not normalized;
A phrase pair extraction unit that extracts N phrase pairs by combining the one bilingual corpus and the N word correspondence;
A score adding unit for scoring each of the N phrase pairs and storing it in a phrase table;
The translation phrase pair production | generation apparatus characterized by having.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006158083A JP4829685B2 (en) | 2006-06-07 | 2006-06-07 | Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006158083A JP4829685B2 (en) | 2006-06-07 | 2006-06-07 | Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007328483A JP2007328483A (en) | 2007-12-20 |
| JP4829685B2 true JP4829685B2 (en) | 2011-12-07 |
Family
ID=38928920
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006158083A Expired - Fee Related JP4829685B2 (en) | 2006-06-07 | 2006-06-07 | Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4829685B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8504353B2 (en) * | 2009-07-27 | 2013-08-06 | Xerox Corporation | Phrase-based statistical machine translation as a generalized traveling salesman problem |
| JP5500636B2 (en) * | 2010-03-03 | 2014-05-21 | 独立行政法人情報通信研究機構 | Phrase table generator and computer program therefor |
-
2006
- 2006-06-07 JP JP2006158083A patent/JP4829685B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007328483A (en) | 2007-12-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Guzmán et al. | The FLORES evaluation datasets for low-resource machine translation: Nepali–English and Sinhala–English | |
| Mayhew et al. | Cheap translation for cross-lingual named entity recognition | |
| US8229731B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
| Song et al. | AMR-to-text generation with synchronous node replacement grammar | |
| Song et al. | AMR-to-text generation as a Traveling Salesman Problem | |
| JP5497048B2 (en) | Transliteration of proper expressions using comparable corpus | |
| KR101732634B1 (en) | Statistical Machine Translation Method using Dependency Forest | |
| CN104915337B (en) | Translation chapter integrity assessment method based on bilingual structure of an article information | |
| Vyas et al. | Real time machine translation system for english to indian language | |
| Singh et al. | Improving neural machine translation for low-resource Indian languages using rule-based feature extraction | |
| Irvine et al. | End-to-end statistical machine translation with zero or small parallel texts | |
| Garcia et al. | Document-level machine translation with word vector models | |
| Yeong et al. | Using dictionary and lemmatizer to improve low resource English-Malay statistical machine translation system | |
| Singh et al. | An English-assamese machine translation system | |
| JP4829685B2 (en) | Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium | |
| Lavecchia et al. | Using inter-lingual triggers for machine translation | |
| Kim et al. | North korean neural machine translation through south korean resources | |
| Zhang et al. | Disambiguated lexically constrained neural machine translation | |
| Rajput et al. | N-grams TextRank a novel domain keyword extraction technique | |
| Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
| Mara | English-Wolaytta Machine Translation using Statistical Approach | |
| Karimbi Mahesh et al. | Identification of bilingual segments for translation generation | |
| Shafi’i et al. | Evaluating English to Nupe Machine Translation Model Using BLEU | |
| JP5544518B2 (en) | Machine translation apparatus, machine translation method, and program thereof | |
| Gimpel et al. | Generative models of monolingual and bilingual gappy patterns |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080730 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110729 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110805 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110913 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110916 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140922 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |