JP5879989B2 - Machine translation system, machine translation method, and machine translation program - Google Patents
Machine translation system, machine translation method, and machine translation program Download PDFInfo
- Publication number
- JP5879989B2 JP5879989B2 JP2011266511A JP2011266511A JP5879989B2 JP 5879989 B2 JP5879989 B2 JP 5879989B2 JP 2011266511 A JP2011266511 A JP 2011266511A JP 2011266511 A JP2011266511 A JP 2011266511A JP 5879989 B2 JP5879989 B2 JP 5879989B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- rule
- condition
- model
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、機械翻訳システム、機械翻訳方法および機械翻訳プログラムに関し、特に統計的機械翻訳を行う、機械翻訳システム、機械翻訳方法および機械翻訳プログラムに関する。 The present invention relates to a machine translation system, a machine translation method, and a machine translation program, and more particularly to a machine translation system, a machine translation method, and a machine translation program that perform statistical machine translation.
言語の構造を扱うツリーベースの統計的機械翻訳システムには、原言語と目的言語の学習コーパスの双方がテキストデータであるText−to−Textのシステムがある。このような機械翻訳システムの一例が特許文献1に記載されている。特許文献1の機械翻訳システムは、対訳コーパス(本明細書の学習コーパスに相当)から学習された統計的情報に基づいて、原言語文を目標言語(本明細書の目的言語に相当)文に翻訳するものである。このシステムは、対訳コーパス中における原言語文および目標言語文において、単語辞書に予め登録されている単語の箇所を変数として置き換えた変数化対訳コーパスを生成し、生成した対訳コーパスを用いた翻訳モデルおよび言語モデルを学習する。入力文についても、入力文内変数化部で単語辞書に登録されている単語を変数に置き換えた後、上述の学習したモデルを用いて統計翻訳部で翻訳を行う。変数置換部は、入力文中の単語を変数に置き換えた際の情報と単語辞書に基づいて、翻訳結果中に含まれる変数を目標言語の単語に置き換えた結果を最終的な翻訳結果として出力する。 Tree-based statistical machine translation systems that handle the structure of a language include a text-to-text system in which both the source language and the target language learning corpus are text data. An example of such a machine translation system is described in Patent Document 1. The machine translation system of Patent Document 1 converts a source language sentence into a target language (corresponding to a target language in this specification) based on statistical information learned from a bilingual corpus (corresponding to a learning corpus in this specification). It is something to translate. This system generates a variable bilingual corpus that replaces a part of a word registered in the word dictionary as a variable in a source language sentence and a target language sentence in the bilingual corpus, and a translation model using the generated bilingual corpus And learn language models. Also for the input sentence, after the word registered in the word dictionary is replaced with a variable in the input sentence variableizing unit, the statistical translation unit performs translation using the learned model. The variable replacement unit outputs the result of replacing the variable included in the translation result with the word of the target language as the final translation result based on the information when the word in the input sentence is replaced with the variable and the word dictionary.
しかし、上述した文献記載のようなシステムでは、学習データが原言語と目的言語の対訳コーパスのテキストデータだけであるので、文法的な情報を含んでいない。そのため、ここから学習された翻訳モデルには、非文法的なルールがたくさん含まれてしまい、この非文法的なルールが選ばれて作成された翻訳結果は誤った翻訳結果になる可能性が高くなってしまうという問題があった。 However, in the system described in the literature described above, since the learning data is only text data of the parallel corpus of the source language and the target language, grammatical information is not included. For this reason, the translation model learned from here contains a lot of non-grammatical rules, and the translation result created by selecting this non-grammatical rule is likely to be an incorrect translation result. There was a problem of becoming.
これを回避するために、非特許文献1では原言語と目的言語の双方の学習コーパスを構文木としたTree−to−Treeのシステムとして、構文木データから翻訳モデルを学習することで精度のよい翻訳システムとなっている。 In order to avoid this, Non-Patent Document 1 has a high accuracy by learning a translation model from syntax tree data as a tree-to-tree system using the learning corpus of both the source language and the target language as a syntax tree. It is a translation system.
上述した文献に記載された技術においては、構文木データから翻訳モデルを学習するためには、テキストデータから構文木データを作成するための構文解析システムが必要になるため、コストが高いという問題点があった。特に、多言語を扱うシステムを構築するためには、その言語ごとの構文解析システムが必要になるため、その構文解析システムを作成する必要があり、システム開発コストが特に高くなる課題があった。 In the technique described in the above-mentioned document, in order to learn the translation model from the syntax tree data, a syntax analysis system for creating the syntax tree data from the text data is required. was there. In particular, in order to construct a system that handles multiple languages, a syntax analysis system for each language is required. Therefore, it is necessary to create the syntax analysis system, and there is a problem that the system development cost is particularly high.
本発明の目的は、上述した課題である、システム開発コストが高いという問題点を解決する機械翻訳システム、機械翻訳方法および機械翻訳プログラムを提供することにある。 An object of the present invention is to provide a machine translation system, a machine translation method, and a machine translation program that solve the above-described problem that the system development cost is high.
本発明の機械翻訳システムは、
原言語テキストコーパスと目的言語テキストコーパスから、原言語と目的言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成する翻訳モデル生成手段と、
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールと、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更するルール適用手段と、
を備える。
The machine translation system of the present invention
At least one translation rule obtained by extracting a translation rule indicating the correspondence between the source language and the target language and the correctness of the correspondence from the source language text corpus and the target language text corpus, and the translation rule A translation model generating means for generating a translation model including a probability value indicating the probability of
A syntactic information rule describing a syntactic condition used to change the translation model;
Rule applying means for changing the translation model according to the condition of the syntactic information rule;
Is provided.
本発明の機械翻訳方法は、
機械翻訳装置が、
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成し、
前記翻訳モデルの変更に用いられる統語的な条件を統語情報ルールに記述し、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更する。
The machine translation method of the present invention includes:
Machine translation device
From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule Generate a translation model that includes a probability value indicating the probability ,
Describe the syntactic conditions used to change the translation model in the syntactic information rules,
The translation model is changed according to the condition of the syntactic information rule.
本発明のコンピュータプログラムは、
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成する手順、
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールの前記条件に従って、前記翻訳モデルを変更する手順をコンピュータに実行させるための機械翻訳プログラムである。
The computer program of the present invention is:
From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule A procedure for generating a translation model including a probability value indicating the probability ,
A machine translation program for causing a computer to execute a procedure for changing the translation model in accordance with the condition of the syntactic information rule describing a syntactic condition used for changing the translation model.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。 The various components of the present invention do not necessarily have to be independent of each other. A plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, or the like.
また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。 Moreover, although the several procedure is described in order in the method and computer program of this invention, the order of the description does not limit the order which performs a several procedure. For this reason, when implementing the method and computer program of this invention, the order of the several procedure can be changed in the range which does not interfere in content.
さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。 Furthermore, the plurality of procedures of the method and the computer program of the present invention are not limited to being executed at different timings. For this reason, another procedure may occur during the execution of a certain procedure, or some or all of the execution timing of a certain procedure and the execution timing of another procedure may overlap.
本発明によれば、構文解析システムを使用しない場合においても、低コストで精度よく翻訳できる機械翻訳システム、機械翻訳方法および機械翻訳プログラムが提供される。 According to the present invention, there are provided a machine translation system, a machine translation method, and a machine translation program that can accurately translate at a low cost even when a syntax analysis system is not used.
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.
(第1の実施の形態)
図1は、本発明の実施の形態に係る機械翻訳システム1の構成を示す機能ブロック図である。
本発明の実施の形態に係る機械翻訳システム1は、統計的機械翻訳システムであり、Text−to−Textの学習データから作成したモデルを使って統計的手法で、原言語から目的言語に機械翻訳する。なお、以下で説明する統計的手法については、一例であり、これに限定されるものではない。他の統計的手法の翻訳技術を用いることもできる。
(First embodiment)
FIG. 1 is a functional block diagram showing a configuration of a machine translation system 1 according to an embodiment of the present invention.
A machine translation system 1 according to an embodiment of the present invention is a statistical machine translation system, and uses a model created from text-to-text learning data to perform machine translation from a source language to a target language. To do. Note that the statistical method described below is an example, and the present invention is not limited to this. Other statistical techniques of translation can also be used.
図1に示すように、本発明の実施の形態に係る機械翻訳システム1は、原言語テキストコーパス122と目的言語テキストコーパス124から、原言語と目的言語間の対応関係である翻訳モデル103aを生成する翻訳モデル生成部102と、翻訳モデル103aの適用を判断するための統語的な条件を記述した統語情報ルール126と、統語情報ルール126に従って、翻訳モデル103aの適用を判断するルール適用部106と、を備える。
As shown in FIG. 1, the machine translation system 1 according to the embodiment of the present invention generates a
本発明の実施の形態に係る機械翻訳システム1は、たとえば、図示されない、CPU(Central Processing Unit)やメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイなどの表示装置やプリンタ等の出力装置と接続される任意のコンピュータ、またはそれらに相当する装置のハードウェアとソフトウェアの任意の組合せによって実現することができる。機械翻訳システム1のこれらの各要素は、バスを介して互いに接続され、CPUにより各要素とともに機械翻訳システム1全体が制御される。CPUが、ハードディスクに記憶される本発明の実施の形態に係るプログラムをメモリに読み出して実行することにより、機械翻訳システム1の各図の各ユニットの各機能を実現することができる。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
また、各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
The machine translation system 1 according to the embodiment of the present invention includes, for example, a CPU (Central Processing Unit), a memory, a hard disk, and a communication device (not shown), an input device such as a keyboard and a mouse, a display device such as a display, The present invention can be realized by any computer connected to an output device such as a printer, or any combination of hardware and software of devices corresponding to them. These elements of the machine translation system 1 are connected to each other via a bus, and the entire machine translation system 1 is controlled together with the elements by the CPU. When the CPU reads the program according to the embodiment of the present invention stored in the hard disk into the memory and executes it, each function of each unit in each drawing of the machine translation system 1 can be realized. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus. Each figure described below shows functional unit blocks, not hardware unit configurations.
Moreover, in each figure, about the structure of the part which is not related to the essence of this invention, it has abbreviate | omitted and is not illustrated.
また、本発明の機械翻訳システム1は、複数のコンピュータで構成されてもよく、あるいは、仮想マシンにより構成されてもよい。あるいは、本発明は、クラウドコンピュータ等により、ネットワークを介して機械翻訳システム1による機械翻訳機能をユーザの各種端末、たとえば、パーソナルコンピュータ、携帯端末、または通信機能付き電子機器等に提供するような態様も含むことができる。 Further, the machine translation system 1 of the present invention may be constituted by a plurality of computers or may be constituted by a virtual machine. Alternatively, the present invention provides a machine translation function provided by the machine translation system 1 to a user's various terminals such as a personal computer, a portable terminal, or an electronic device with a communication function via a network using a cloud computer or the like. Can also be included.
本実施形態のコンピュータプログラムは、機械翻訳システム1の機械翻訳装置を実現させるためのコンピュータに、原言語テキストコーパス122と、目的言語テキストコーパス124から、この2言語間の対応関係である翻訳モデル103aを生成する手順、翻訳モデル103aの適用を判断するための統語的な条件を記述した統語情報ルール126に従って、翻訳モデル103aの適用を判断する手順を実行させるように記述されている。
The computer program of the present embodiment is a computer for realizing the machine translation apparatus of the machine translation system 1, and a
本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。 The computer program of this embodiment may be recorded on a computer-readable recording medium. The recording medium is not particularly limited, and various forms can be considered. The program may be loaded from a recording medium into a computer memory, or downloaded to a computer through a network and loaded into the memory.
本実施形態において、原言語テキストコーパス122および目的言語テキストコーパス124は、異なる2つの言語のテキストデータのコーパスである。翻訳の原文の言語を「原言語」と呼び、翻訳後の言語を目的言語と呼ぶ。原言語テキストコーパス122と目的言語テキストコーパス124は、互いに2つの言語間で対応関係にあり、文と文の対応が取れている、所謂、対訳の学習コーパスである。
本実施形態の機械翻訳システム1によって生成される翻訳モデル103bも、テキストデータファイルとして保持することができる。
In the present embodiment, the source
The
翻訳モデル生成部102は、原言語テキストコーパス122と目的言語テキストコーパス124を参照し、翻訳モデル103aを生成する。翻訳モデル生成部102は、原言語テキストコーパス122と目的言語テキストコーパス124から、たとえば、EMアルゴリズムを用いて、その2言語の対応関係を表す翻訳ルールとその対応関係の正しさを抽出し、それを翻訳モデル103aとして生成する。ここで、少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値を含む翻訳モデル103aが生成される。
The translation
本発明において、統語情報ルール126の「統語的な条件」とは、文章中の単語や語群の配列の関係に関する条件を含む。統語情報ルール126は、文章中の単語や語群の配列の関係、あるいは、単語や語群は品詞または表層文字列で記述することができる。たとえば、統語情報ルール126には、「先頭の単語の表層文字列が“の”」という適用条件等を記述できる。ルール適用部106は、この条件に合致する翻訳ルールが翻訳モデル103aに含まれるか否かを判断する。また、統語情報ルール126は、条件として、「名詞」、「冠詞」などの品詞を指定することもできる。また、翻訳ルールの確率値の範囲等を条件とすることもできる。さらに、原言語または目的言語に対する機能語に関する内容を条件として記述してもよい。ここで、「機能語」とは、語彙的意味をほとんど担わず、主に統語的関係を示す非自立語を指し、前置詞、接続詞、助動詞、冠詞、関係詞などを含むことができる。また、「機能語に関する内容」とは、先頭、末尾、先頭からN番目などの単語の位置情報を含むことができる。
In the present invention, the “syntactic condition” of the
統語情報ルール126は、たとえば、テキスト形式(スペース区切り、タブ区切り)、CSV(Comma Separated Values)形式のデータファイルとして記憶部に保持することができる。これらのデータファイルは、一般的なテキストエディタなどで作成または編集できるのが望ましい。すなわち、本実施形態の機械翻訳システム1は、統語情報ルール126の編集操作を受け付け、受け付けた編集操作に従い統語情報ルール126を更新する更新部(不図示)を備えてもよい。
The
ルール適用部106は、統語情報ルール126を参照し、記憶装置120が生成した翻訳モデル103aの各翻訳ルールについて、統語情報ルール126に従い、適用条件に従い、翻訳ルールの適否を判断する。ここでは、条件に合致する翻訳ルールは適用しないと判断する。適用しないと判断された翻訳ルールは、翻訳モデル103aから削除して翻訳モデル103bとしてもよい。あるいは、その翻訳ルールは適用しないことを示す適用情報を付加して翻訳モデル103bとしてもよい。その場合は、後述するデコーダ(図1には図示されない)が、翻訳モデル103bの適用情報を参照して翻訳処理を行うこととなる。
このようにして統語情報ルール126で翻訳ルールの適用が判断されて生成した翻訳モデル103bを用いて、デコーダが機械翻訳処理を行うことができる。
The
The decoder can perform machine translation processing using the
このように構成された本実施形態の機械翻訳システム1の機械翻訳方法について、以下に説明する。図2は、本発明の実施の形態に係る機械翻訳システム1の機械翻訳方法を説明するフローチャートである。
本実施形態の機械翻訳システム1における機械翻訳方法は、原言語テキストコーパス122と、目的言語テキストコーパス124から、この2言語間の対応関係である翻訳モデル103aを生成し(ステップS103)、翻訳モデル103aの適用を判断するための統語的な条件を統語情報ルール126に記述し(ステップS101)、統語情報ルール126に従って、翻訳モデル103aの適用を判断する(ステップS105)。
A machine translation method of the machine translation system 1 of the present embodiment configured as described above will be described below. FIG. 2 is a flowchart for explaining the machine translation method of the machine translation system 1 according to the embodiment of the present invention.
The machine translation method in the machine translation system 1 of the present embodiment generates a
上述したように構成された本実施形態の機械翻訳システム1は、機械翻訳システム1の機能を実現する装置が、図2で説明したフローに従って動作することで実現される。 The machine translation system 1 of the present embodiment configured as described above is realized by an apparatus that implements the functions of the machine translation system 1 operating according to the flow described in FIG.
まず、統語情報ルール126には、少なくとも統語的な条件を記述して保持しておく(ステップS101)。
そして、翻訳モデル生成部102が、原言語テキストコーパス122と目的言語テキストコーパス124から翻訳モデル103aを生成する(ステップS103)。翻訳モデル103aは、複数の翻訳ルールとその確率値とが含まれる。
First, in the
Then, the translation
そして、ルール適用部106が、統語情報ルール126に格納されている条件に従い、翻訳モデル103aの適用を判断する(ステップS105)。そして、判断の結果、適用しないと判断された翻訳ルールを削除して翻訳モデル103bとして出力する。
Then, the
なお、ステップS101の統語情報ルール126の準備の手順は、翻訳処理が開始する前に行われるのが好ましい。あるいは、随時利用者やシステム管理者が翻訳処理の途中で、統語情報ルール126を更新することもできる。
The procedure for preparing the
本実施形態では、まず、統語情報ルール126には、翻訳モデル103aの翻訳ルールの適否を判断するための条件が記載されていたが、これに限定されない。たとえば、条件に従い、ルールを変更する等の操作を行う例については、後述する。
In this embodiment, first, the
以上説明したように、本発明の実施の形態に係る機械翻訳システム1によれば、翻訳モデルを、統語的な条件を有する統語情報ルールに従い適用することで、構文解析システムがなくても、精度のよい機械翻訳を実現できる。 As described above, according to the machine translation system 1 according to the embodiment of the present invention, the translation model is applied according to the syntactic information rule having the syntactic condition, so that the accuracy can be improved even without the parsing system. Can achieve good machine translation.
(第2の実施の形態)
図3は、本発明の実施の形態に係る機械翻訳システム201の構成を示す機能ブロック図である。
本実施形態の機械翻訳システム201は、上記実施形態とは、統語情報ルールに記述された条件に応じて翻訳モデルに操作変更を行い、さらに、生成した翻訳モデルを用いて機械翻訳を行う構成を有する点で相違する。
(Second Embodiment)
FIG. 3 is a functional block diagram showing a configuration of the machine translation system 201 according to the embodiment of the present invention.
The machine translation system 201 of the present embodiment is different from the above embodiment in that the translation model is operated according to the conditions described in the syntactic information rule, and machine translation is performed using the generated translation model. It is different in having.
本実施形態の機械翻訳システム201は、データ処理装置100と、記憶装置120と、入力装置130と、出力装置140と、を備える。
データ処理装置100は、図1の上記実施形態の機械翻訳システム1と同様な翻訳モデル生成部102、言語モデル生成部104、およびルール適用部106を含むとともに、さらに、翻訳部110を含む。
The machine translation system 201 of this embodiment includes a
The
データ処理装置100は、上記実施形態で説明した、本発明の機械翻訳システムを実現するためのプログラムを実行するコンピュータである。本実施形態においても、データ処理装置100のCPU(不図示)が本発明の機械翻訳システム201のコンピュータプログラムを実行することで、図3の各ブロックの各機能を実現することができる。
The
記憶装置120は、たとえば、データ処理装置100から少なくとも読み取り可能な記憶装置または記憶媒体であり、上記実施形態で説明した、原言語テキストコーパス122と、目的言語テキストコーパス124と、統語情報ルール126と、を保持する。また、記憶装置120は、コンピュータから読み取りまたは書き込み可能な記憶装置または記憶媒体とするのが望ましい。図3では、記憶装置120は一つの装置として示されているが、これに限定されず、複数の記憶装置または記憶媒体を組み合わせることもできる。
The
入力装置130は、翻訳対象となる原文を入力する装置である。入力装置130は、たとえば、ユーザが翻訳対象となる原文を入力するときに操作するキーボードやマウス等の入力装置、他の装置から原文のテキストデータ、またはデータファイルをネットワークを介して受信するためのインタフェース装置、または、原文のデータファイルを記憶する記憶装置または記憶媒体にアクセスして原文のデータファイルを読み込む媒体アクセス装置などを含む。あるいは、入力装置130は、音声認識処理装置で音声認識された認証結果のテキストデータを受け付けるインタフェースを含んでもよい。
The
出力装置140は、データ処理装置100が出力した翻訳結果を受け付けて、出力する装置である。出力装置140は、たとえば、翻訳結果を画面に表示するディスプレイ装置、翻訳結果を印字出力するプリンタ、翻訳結果をネットワークを介して他の装置に送信するためのインタフェース装置、または、翻訳結果を記憶装置または記憶媒体に保存する媒体アクセス装置などを含む。あるいは、出力装置140は、翻訳結果を音声データに変換して読み上げて出力する音声合成装置に出力するインタフェースを含んでもよい。
The
また、たとえば、入力装置130が受け付けた原文の入力データ101を、出力装置140のディスプレイ装置の画面に、翻訳結果107とともに対比できるように並べて表示してもよい。あるいは、入力装置130が受け付けた原文の入力データ101を、翻訳結果107とともに、順番に、フレーズ毎に、出力装置140から音声合成装置で読み上げて音声出力することもできる。また、入力装置130と出力装置140は、たとえば、タッチパネルなどで構成することもでき、ユーザインタフェース部としての機能を実現することもできる。
Further, for example, the
言語モデル生成部104は、目的言語テキストコーパス124を参照し、言語モデル105を生成する。言語モデル生成部104は、目的言語テキストコーパス124から、少なくとも1つの翻訳候補と、その翻訳候補の言語的な正しさを表す確率値を求め、たとえば、N−gramの確率付き言語モデル105として生成する。ここで、少なくとも1つの翻訳候補を含む言語モデル105が生成される。
The language
統語情報ルール126は、翻訳モデル103aの翻訳ルールとその確率値とに対する、条件に応じた操作情報を、条件に対応付けて各エントリに記述してもよい。
The
操作情報は、たとえば、翻訳ルールの削除または追加、あるいは、翻訳ルールの確率値の変更などを含む。変更する確率値そのものや、確率値の増減を調整するためのプラスマイナスの符号付き確率値(確率値の変更値)を指定してもよい。追加する翻訳ルールとその確率値を指定することもできる。 The operation information includes, for example, the deletion or addition of a translation rule, or the change of the probability value of the translation rule. The probability value itself to be changed or a plus / minus signed probability value (change value of probability value) for adjusting the increase / decrease of the probability value may be designated. You can also specify the translation rule to add and its probability value.
図5に、統語情報ルール126の記述例を示す。たとえば、「先頭の単語の表層文字列が“の”」という条件と、「削除する」という操作情報は、図5(a)に示すように、3つのデータ(文字列)からなるテキストデータの一つのエントリとして記述することができる。統語情報ルール126には、複数のエントリを含むことができる。
FIG. 5 shows a description example of the
図5(b)に示すように、統語情報ルール126は、条件を、たとえば、「条件1が条件2の場合」、として複数の条件で表記することができる。統語情報ルール126は、操作情報の「削除」を示す操作文字列222と、条件1の「先頭」を示す第1条件文字列226と、条件2の「“の”」を示す第2条件文字列228と、が一つのエントリとして記述できる。操作文字列222と、条件文字列226、228の間は、スペースやタブなどの区切り文字224がそれぞれ挿入される。このように、統語情報ルール126は、複数のデータ(文字列)を区切り文字224で区切った簡単な構成のテキストデータとして記述することができる。なお、本実施形態では、3つのデータで記述しているが、これに限定されない。
As shown in FIG. 5B, the
また、図5(c)に示すように、統語情報ルール126のエントリの1つ目のデータ(図5(b)の操作文字列222)には「削除」だけでなく、「追加」や「確率値の変更」などの他の操作情報を記述してもよい。
たとえば、「追加」の場合は、「追加 翻訳ルール 確率値」のようなフォーマットとして記述することができる。この場合、この第1条件文字列226(図5(b))に記述されている「翻訳ルール」が翻訳モデル103aに含まれないときは、この「翻訳ルール」をこの第2条件文字列228(図5(b))に記述されている「確率値」で翻訳モデル103bに追加することを表す。
Further, as shown in FIG. 5C, the first data of the entry of the syntactic information rule 126 (the
For example, “addition” can be described as a format such as “additional translation rule probability value”. In this case, when the “translation rule” described in the first condition character string 226 (FIG. 5B) is not included in the
また、「確率値の変更」の場合は「確率値の変更 翻訳ルール 確率値」のようなフォーマットとして記述することができる。この場合、「翻訳ルール」の条件が翻訳モデルに該当するときは、この「翻訳ルール」の確率値を「確率値」で変更することを表す。
更に「確率値」には確率値を置き換えるための符号なしの確率値や、確率値を増減するための+−の符号付きの確率値を記述できる。
In the case of “change probability value”, it can be described as a format such as “change probability value change translation rule probability value”. In this case, when the condition of the “translation rule” corresponds to the translation model, the probability value of the “translation rule” is changed by the “probability value”.
Further, the “probability value” can describe an unsigned probability value for replacing the probability value and a +/− signed probability value for increasing or decreasing the probability value.
図3に戻り、ルール適用部106は、統語情報ルール126の条件に従って、対応する翻訳モデルを統語情報ルール126の操作情報に従い操作する。
詳細には、ルール適用部106は、翻訳モデル生成部102が生成した翻訳モデル103aの各翻訳ルールについて、統語情報ルール126に記述された条件に合致するか否かを判定する。
Returning to FIG. 3, the
Specifically, the
そして、ルール適用部106は、たとえば、翻訳モデル103aの翻訳ルールが、統語情報ルール126に記述されているエントリに該当すると判定したときに、その翻訳ルールをそのエントリに記述されている操作情報に従い操作する。すなわち、本実施形態において、ルール適用部106は、統語情報ルール126のエントリに記述された条件に合致する翻訳ルールを検出し、条件に合致した翻訳ルールについて、そのエントリに記述されている操作情報に従い操作する。
Then, for example, when the
翻訳部110は、入力装置130で入力された原言語の入力データ101を、ルール適用部106により条件に従い操作された後の翻訳モデル103bと言語モデル生成部104で生成された言語モデル105とを用いて目的言語に翻訳し、その翻訳結果107を出力装置140に出力する。
The
このように構成された本実施形態の機械翻訳システム201の動作について以下説明する。
図4は、本実施形態の機械翻訳システム201の動作の一例を示すフローチャートである。以下、図3および図4を用いて説明する。
The operation of the machine translation system 201 of this embodiment configured as described above will be described below.
FIG. 4 is a flowchart showing an example of the operation of the machine translation system 201 of this embodiment. Hereinafter, a description will be given with reference to FIGS. 3 and 4.
まず、統語的な条件を統語情報ルール126に記述して準備し、統語情報ルール126を記憶装置120に格納しておく(ステップS201)。なお、ステップS201の統語情報ルール126の準備の手順は、上記実施形態と同様に、翻訳処理が開始する前に事前に行われるのが好ましい。あるいは、随時利用者やシステム管理者が翻訳処理の途中で、統語情報ルール126を更新することもできる。
First, syntactic conditions are described and prepared in the
そして、データ処理装置100の翻訳モデル生成部102が、記憶装置120にアクセスし、原言語テキストコーパス122と目的言語テキストコーパス124を参照し、翻訳モデル103aを生成する(ステップS203)。ここでは、複数の翻訳ルールとそのルールの確率値が翻訳モデル103aとして生成される。
Then, the translation
また、データ処理装置100の言語モデル生成部104が、記憶装置120にアクセスし、目的言語テキストコーパス124を参照し、言語モデル105を生成する(ステップS205)。ここでは、少なくとも1つの翻訳候補が言語モデル105として生成される。本実施形態では、ステップS203およびステップS205を実行する順序は特に限定されない。また、原言語テキストコーパス122、目的言語テキストコーパス124、または統語情報ルール126は、任意に更新することができる。
Further, the language
そして、ルール適用部106が、記憶装置120にアクセスし、ステップS205で準備された統語情報ルール126を参照し、ステップS201で生成された翻訳モデル103aの各翻訳ルールについて統語情報ルール126のエントリに記述された条件に合致するか否かを判定する(ステップS207)。ルール適用部106が、条件に合致すると判定した翻訳ルールについて(ステップS207のYES)、条件が合致したエントリに記述されている操作情報に従い、当該翻訳ルールに対して操作を行う(ステップS209)。そして、操作された翻訳ルールは翻訳モデル103bに含まれ翻訳部110に受け渡されることとなる。一方、条件に合致しないと判定した翻訳ルールについては(ステップS207のNO)、そのまま翻訳部110に受け渡す翻訳モデル103bに含めたままとする。
Then, the
本図では、各翻訳ルールについてステップS207の判定を繰り返す手順については省略してある。ステップS207とステップS209は、翻訳モデル103aに含まれる翻訳ルールについて繰り返し実行し、すべての翻訳ルールについての処理が終了したとき、条件に従い操作された後の翻訳ルールを含む翻訳モデル103bが翻訳部110に受け渡され、ステップS211に進むこととなる。
In this figure, the procedure for repeating the determination in step S207 for each translation rule is omitted. Steps S207 and S209 are repeatedly executed for the translation rules included in the
そして、翻訳部110が、ステップS207のルール適用部106による判定結果に基づき、ステップS209で条件に従い操作された翻訳ルールを含む翻訳モデル103bと、ステップS203で言語モデル生成部104が生成した言語モデル105に基づいて、入力データ101に対する翻訳結果107を生成し、出力装置140に出力する(ステップS211)。出力装置140が、ディスプレイ装置(不図示)の画面に翻訳結果107を表示する。なお、ステップS211で翻訳部110がデコード時に使用する言語モデル105や翻訳モデル103bは、記憶装置120に格納しておくこともできる。
Then, based on the determination result by the
以上説明したように、本発明の実施の形態に係る機械翻訳システム201によれば、上記実施形態と同様な効果を奏するとともに、構文解析システムを使用しない場合においても、テキストデータ(原言語テキストコーパス122および目的言語テキストコーパス124)を学習コーパスとして作成した翻訳モデル103aを、統語的な情報を使用して変更することで、精度よく翻訳できる。
As described above, according to the machine translation system 201 according to the embodiment of the present invention, the same effect as the above embodiment can be obtained, and even when the parsing system is not used, the text data (source language text corpus) The
すなわち、本発明の実施の形態に係る機械翻訳システム201によれば、原言語テキストコーパス122または目的言語テキストコーパス124に統語情報(統語情報ルール126)を含まない場合でも、生成された翻訳モデル103aを変更して翻訳モデル103bとして強化できるために、精度のよい翻訳結果が得られることとなる。
That is, according to the machine translation system 201 according to the embodiment of the present invention, even when the source
また、学習コーパスとして構文木データを作成するための構文解析システムで必要となる文法ルールを作成する場合に比較して、本発明のように、翻訳結果で問題となる翻訳モデル103aを変更するための統語情報(統語情報ルール126)を記述する方が、開発者やプログラマの作業量や、ルールを記憶するのに必要なメモリ容量が少なくなる。そのため、低コストで機械翻訳システムを構築できることとなる。
Further, as compared with the case where a grammar rule necessary for a syntax analysis system for creating syntax tree data as a learning corpus is created, the
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、上記で例として挙げた統語情報ルールのエントリの2つ目と3つ目のデータ(条件1、条件2)の翻訳ルールの条件は、「先頭」だけでなく「末尾」や「先頭からN番目」のような位置情報や、「“の”」のような単語の表層の指定だけでなく「名詞」のような品詞も記述できる。
As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
For example, the condition of the translation rule of the second and third data (condition 1, condition 2) of the syntactic information rule entry given as an example above is not only “start” but also “end” or “start from In addition to location information such as “Nth” and the designation of the surface layer of words such as “no”, part of speech such as “noun” can be described.
また、上記実施形態では、統語情報ルール126には、翻訳モデル生成部102が生成した目的言語に関する翻訳ルールの条件を記述したが、これに限定されない。たとえば、統語情報ルール126は、原言語に対する条件、または目的言語に対する条件、もしくは、原言語に対する条件および目的言語に対する条件の両方を含むことができる。
Moreover, in the said embodiment, although the condition of the translation rule regarding the target language which the translation model production |
この場合、翻訳モデル生成部102が、原言語に対する条件が記述された統語情報ルール126に従い、生成する翻訳モデル103aの翻訳ルールの適否を判断、または操作情報に従い翻訳ルールを操作することができる。すなわち、翻訳モデル生成部102が翻訳モデル103aを生成する段階で、統語情報ルール126に従い、翻訳ルールの適否を判断したり、操作することができる。そして、さらに、ルール適用部106が目的言語に対する条件が記述された統語情報ルール126に従い、翻訳モデル103aの翻訳ルールの適否を判断、または操作情報に従い翻訳ルールを操作し、得られた翻訳モデル103bを出力してもよい。
In this case, the translation
本発明の機械翻訳システムは、たとえば、訳語選択に適用することができる。 The machine translation system of the present invention can be applied to, for example, translation selection.
(実施例)
次に、本発明の実施例を、図面を参照して説明する。本実施例は、図3の上記実施の形態の機械翻訳システム201における訳語選択に適用した場合の例を示す。
入力装置130のキーボードから「Board the train for Misakiguchi at Shinagawa」という英語の文が入力されたときに、この英語の文を日本語に翻訳するときのことを例に挙げて、機械翻訳システム201の動作の説明をする。
翻訳モデル生成部102が、原言語テキストコーパス122と目的言語テキストコーパス124からEMアルゴリズムを用いて翻訳モデル103aを生成する(図4のステップS203)。
そして、言語モデル生成部104が、目的言語テキストコーパス124からN−gramの確率付きの言語モデル105を生成する(図4のステップS205)。
(Example)
Next, embodiments of the present invention will be described with reference to the drawings. This example shows an example in the case of applying to translation selection in the machine translation system 201 of the above embodiment of FIG.
When an English sentence “Board the train for Misakiguchi at Shinagawa” is input from the keyboard of the
The translation
Then, the language
この入力文に関係する翻訳モデル103aとして、たとえば、図6に示すように、「Board X → 常務 X」、「Board X → X にご乗車下さい」、「the train for → の 列車」、「the train for X → X 行き の 列車」、「Misakiguchi → Misakiguchi」、「X at → で X」、「X at Y → Y で X」、「Shinagawa → 品川」のような複数の翻訳ルールとそれぞれのルールに対する確率値(不図示)が生成できていたとする。
As the
ここで、「X」と「Y」は任意の単語列が入れることを示し、最初の翻訳ルールである「Board X → 常務 X」は「Board」と「任意の単語列(X)」の連続が入力されたときに、「常務」、「入力された任意の単語列の訳語」の順で翻訳されることを表す。 Here, “X” and “Y” indicate that an arbitrary word string is included, and “Board X → Managing X” as the first translation rule is a sequence of “Board” and “arbitrary word string (X)”. Indicates that translation is performed in the order of “management” and “translation of an arbitrary input word string”.
次いで、ルール適用部106が、ステップS203で翻訳モデル生成部102が生成した翻訳モデル103aを統語情報ルール126に基づいて操作する(図4のステップS207、ステップS209)。
たとえば、図5(c)に示すように、統語情報ルール126に「削除 先頭 “の”」という3つのデータを持つエントリが含まれていたとする。
Next, the
For example, as shown in FIG. 5C, it is assumed that the
上述したように、このエントリの2つ目と3つ目のデータが翻訳ルールの条件1と条件2を表し、1つ目のデータがこの条件1、条件2に該当した翻訳ルールに対する処理操作を表している。
すなわち、2つ目の「先頭」と3つ目の「”の”」というデータが、翻訳ルールの「先頭」の単語の表層文字列が「の」のときという条件を表し、この条件に該当する翻訳ルールがあったときはこの翻訳ルール210に対して「削除」することを表すことにする。
このとき、このエントリが翻訳モデル103aの翻訳ルール210の「the train for → の 列車」(図6)に該当するため、ルール適用部106が、翻訳モデル103aからこの翻訳ルールを削除する。
As described above, the second and third data of this entry represent condition 1 and condition 2 of the translation rule, and the first data represents the processing operation for the translation rule corresponding to condition 1 and condition 2. Represents.
In other words, the second “first” and third ““ of ”” data represents the condition when the surface character string of the “first” word of the translation rule is “no”, and this condition is met. When there is a translation rule to be performed, this means that the translation rule 210 is “deleted”.
At this time, since this entry corresponds to “the train for → train” (FIG. 6) of the translation rule 210 of the
そして、翻訳部110が、ルール適用部106で条件に従い適用しないと判断された翻訳ルールが削除された翻訳モデル103bを使用して、たとえばCYKパーザで解析する。すると、図7のような解析結果が得られ、「品川でMisakiguchi行きの列車にご乗車下さい」の1つの翻訳結果しか得られないこととなる。そして、翻訳部110が、得られたこの翻訳結果を出力装置140の出力し、ディスプレイに表示させる。
Then, the
(比較例)
次に、本発明の機械翻訳システムの比較例として、本発明の統語情報ルール126およびルール適用部106を備えていないText−to−Textのツリーベースの統計翻訳システムについて、以下説明する。
このシステムでは、翻訳モデル生成部で作成された翻訳モデルと、目的言語テキストコーパスから言語モデル生成部で生成した言語モデルを用いて、翻訳部が、入力データを翻訳して翻訳結果を出力する。
(Comparative example)
Next, as a comparative example of the machine translation system of the present invention, a text-to-text tree-based statistical translation system that does not include the
In this system, the translation unit translates input data and outputs a translation result using the translation model created by the translation model generation unit and the language model generated by the language model generation unit from the target language text corpus.
このとき翻訳部では、入力文をこれらの翻訳ルールを使用してCYKパーザで解析すると、図8のような解析結果が得られる。これを、この使用された翻訳ルールを使って日本語に翻訳すると、「常務の列車でMisakiguchi品川」と「品川でMisakiguchi行きの列車にご乗車下さい」という2つの翻訳結果が得られる。
複数の翻訳結果が得られたときは、それぞれの翻訳結果を得るために使用した翻訳モデルの翻訳ルールの確率値と、目的言語の言語モデルの確率値を翻訳部で掛け算をして求め、掛け算したときの値の大きい方を選ぶとする。
At this time, in the translation unit, when the input sentence is analyzed by the CYK parser using these translation rules, an analysis result as shown in FIG. 8 is obtained. When this is translated into Japanese using the translation rules used, two translation results are obtained: “Make a Misakiguchi Shinagawa on the managing train” and “Get on the train bound for Misakiguchi in Shinagawa”.
When multiple translation results are obtained, the translation unit's probability value of the translation model used to obtain each translation result and the target language's language model's probability value are multiplied by the translation unit. Suppose that the one with the larger value is selected.
このとき、統語的に不要な翻訳ルールが含まれているときに、この不要なルールを使った翻訳結果(この場合は「常務の列車でMisakiguchi品川」)の値が大きくなってしまうことも考えられ、このように、比較例では、精度が悪くなってしまう可能性がある。 At this time, when a syntactically unnecessary translation rule is included, the value of the translation result using this unnecessary rule (in this case, “Misakiguchi Shinagawa on the managing train”) may increase. Thus, in the comparative example, the accuracy may be deteriorated.
本発明では、比較例のようなケースに対応すべく、事前に統語情報ルール126によって翻訳ルールを変更することで、精度のよい翻訳を実現する。たとえば、本発明では、「の」という助詞の前には必ず何か単語が来て、「の」はその単語と関係があるので、「の」の前に何もないルールは不要という統語的な観点に基づき、統語情報ルール126に「削除 先頭 “の”」というエントリを作成する。ルール適用部106が、このエントリに該当する翻訳モデル103aを変更することで、精度よく翻訳ができるようになる。
In the present invention, accurate translation is realized by changing the translation rule by the
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments and examples, the present invention is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
なお、本発明は以下の態様も含むことができる。
(付記1)
機械翻訳装置が、
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係である翻訳モデルを生成し、
前記翻訳モデルの適用を判断するための統語的な条件を統語情報ルールに記述し、
前記統語情報ルールに従って、前記翻訳モデルの適用を判断する機械翻訳方法。
(付記2)
(付記1)に記載の機械翻訳方法において、
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述され、
前記機械翻訳装置が、前記統語情報ルールに従って、対応する翻訳モデルを前記統語情報ルールの前記操作情報に従い変更する機械翻訳方法。
(付記3)
(付記1)または(付記2)に記載の機械翻訳方法において、
前記統語情報ルールは、前記条件に応じた翻訳モデルを削除する操作情報を、前記条件に対応付けて記述され、
前記機械翻訳装置が、前記統語情報ルールに従って、対応する翻訳モデルを削除する機械翻訳方法。
(付記4)
(付記1)乃至(付記3)いずれかに記載の機械翻訳方法において、
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳方法。
(付記5)
(付記1)乃至(付記4)いずれかに記載の機械翻訳方法において、
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳方法。
(付記6)
(付記1)乃至(付記5)いずれかに記載の機械翻訳方法において、
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳方法。
(付記7)
(付記1)乃至(付記6)いずれかに記載の機械翻訳方法において、
前記機械翻訳装置が、
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成し、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する翻訳手段と、
をさらに備える機械翻訳方法。
(付記8)
(付記1)乃至(付記7)いずれかに記載の機械翻訳方法において、
前記機械翻訳装置が、さらに、前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する機械翻訳方法。
(付記9)
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係である翻訳モデルを生成する手順、
前記翻訳モデルの適用を判断するための統語的な条件を記述した統語情報ルールに従って、前記翻訳モデルの適用を判断する手順をコンピュータに実行させるための機械翻訳プログラム。
(付記10)
(付記9)に記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述され、
前記統語情報ルールに従って、対応する翻訳モデルを前記統語情報ルールの前記操作情報に従い変更する手順をコンピュータに実行させるための機械翻訳プログラム。
(付記11)
(付記9)または(付記10)に記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルを削除する操作情報を、前記条件に対応付けて記述され、
前記統語情報ルールに従って、対応する翻訳モデルを削除する手順をコンピュータに実行させるための機械翻訳プログラム。
(付記12)
(付記9)乃至(付記11)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳プログラム。
(付記13)
(付記9)乃至(付記12)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳プログラム。
(付記14)
(付記9)乃至(付記13)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳プログラム。
(付記15)
(付記9)乃至(付記14)いずれかに記載の機械翻訳プログラムにおいて、
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成する手順、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する手順をさらにコンピュータに実行させるための機械翻訳プログラム。
(付記16)
(付記9)乃至(付記15)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する手順をさらにコンピュータに実行させるための機械翻訳プログラム。
(付記17)
原言語テキストコーパスと目的言語テキストコーパスから、原言語と目的言語間の対応関係である翻訳モデルを生成する翻訳モデル生成手段と、
前記翻訳モデルの適用を判断するための統語的な条件を記述した統語情報ルールと、
前記統語情報ルールに従って、前記翻訳モデルの適用を判断するルール適用手段と、
を備える機械翻訳システム。
(付記18)
(付記17)に記載の機械翻訳システムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールに従って、対応する翻訳モデルを前記統語情報ルールの前記操作情報に従い変更する機械翻訳システム。
(付記19)
(付記17)または(付記18)に記載の機械翻訳システムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルを削除する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールに従って、対応する翻訳モデルを削除する機械翻訳システム。
(付記20)
(付記17)乃至(付記19)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳システム。
(付記21)
(付記17)乃至(付記20)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳システム。
(付記22)
(付記17)乃至(付記21)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳システム。
(付記23)
(付記17)乃至(付記22)いずれかに記載の機械翻訳システムにおいて、
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成する言語モデル生成手段と、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する翻訳手段と、
をさらに備える機械翻訳システム。
(付記24)
(付記17)乃至(付記23)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する更新手段をさらに備える機械翻訳システム。
In addition, this invention can also include the following aspects.
(Appendix 1)
Machine translation device
From the source language text corpus and the target language text corpus, generate a translation model that is the correspondence between the two languages.
Describe syntactic conditions for determining the application of the translation model in the syntactic information rule,
A machine translation method for determining application of the translation model according to the syntactic information rule.
(Appendix 2)
In the machine translation method described in (Appendix 1),
The syntactic information rule is described by associating operation information for the translation model corresponding to the condition with the condition,
A machine translation method in which the machine translation device changes a corresponding translation model according to the operation information of the syntactic information rule according to the syntactic information rule.
(Appendix 3)
In the machine translation method described in (Appendix 1) or (Appendix 2),
The syntactic information rule is described by associating operation information for deleting a translation model corresponding to the condition with the condition,
A machine translation method in which the machine translation device deletes a corresponding translation model according to the syntactic information rule.
(Appendix 4)
In the machine translation method according to any one of (Appendix 1) to (Appendix 3),
The syntactic information rule includes a condition for a source language or a condition for a target language.
(Appendix 5)
In the machine translation method according to any one of (Appendix 1) to (Appendix 4),
The syntactic information rule is a machine translation method in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
(Appendix 6)
In the machine translation method according to any one of (Appendix 1) to (Appendix 5),
The syntactic information rule is a machine translation method in which contents relating to a function word for a source language or a target language are described as the condition.
(Appendix 7)
In the machine translation method according to any one of (Appendix 1) to (Appendix 6),
The machine translation device is
Generating a language model indicating the linguistic correctness of the language from the target language text corpus;
Translation means for translating an input text using the translation model and the language model;
A machine translation method further comprising:
(Appendix 8)
In the machine translation method according to any one of (Appendix 1) to (Appendix 7),
The machine translation method, wherein the machine translation device further receives an editing operation of the syntactic information rule and updates the syntactic information rule according to the received editing operation.
(Appendix 9)
A procedure for generating a translation model corresponding to the correspondence between the two languages from the source language text corpus and the target language text corpus;
A machine translation program for causing a computer to execute a procedure for judging application of the translation model according to a syntactic information rule describing a syntactic condition for judging application of the translation model.
(Appendix 10)
In the machine translation program described in (Appendix 9),
The syntactic information rule is described by associating operation information for the translation model corresponding to the condition with the condition,
A machine translation program for causing a computer to execute a procedure for changing a corresponding translation model according to the operation information of the syntactic information rule according to the syntactic information rule.
(Appendix 11)
In the machine translation program described in (Appendix 9) or (Appendix 10),
The syntactic information rule is described by associating operation information for deleting a translation model corresponding to the condition with the condition,
A machine translation program for causing a computer to execute a procedure for deleting a corresponding translation model in accordance with the syntactic information rule.
(Appendix 12)
In the machine translation program according to any one of (Appendix 9) to (Appendix 11),
The syntactic information rule is a machine translation program including a condition for a source language or a condition for a target language.
(Appendix 13)
In the machine translation program according to any one of (Appendix 9) to (Appendix 12),
The syntactic information rule is a machine translation program in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
(Appendix 14)
In the machine translation program according to any one of (Appendix 9) to (Appendix 13),
The syntactic information rule is a machine translation program that describes, as the condition, contents related to a function word for a source language or a target language.
(Appendix 15)
In the machine translation program according to any one of (Appendix 9) to (Appendix 14),
Generating a language model indicating the linguistic correctness of the language from the target language text corpus;
A machine translation program for causing a computer to further execute a procedure for translating an input text using the translation model and the language model.
(Appendix 16)
In the machine translation program according to any one of (Appendix 9) to (Appendix 15),
A machine translation program for receiving a syntactic information rule editing operation and causing a computer to further execute a procedure for updating the syntactic information rule according to the received editing operation.
(Appendix 17)
A translation model generating means for generating a translation model that is a correspondence relationship between the source language and the target language from the source language text corpus and the target language text corpus;
A syntactic information rule describing a syntactic condition for determining application of the translation model;
Rule application means for determining application of the translation model according to the syntactic information rule;
A machine translation system comprising:
(Appendix 18)
In the machine translation system described in (Appendix 17),
The syntactic information rule describes operation information for a translation model corresponding to the condition in association with the condition,
The machine application system, wherein the rule applying unit changes a corresponding translation model according to the operation information of the syntactic information rule according to the syntactic information rule.
(Appendix 19)
In the machine translation system described in (Appendix 17) or (Appendix 18),
The syntactic information rule describes operation information for deleting a translation model corresponding to the condition in association with the condition,
The said rule application means is a machine translation system which deletes a corresponding translation model according to the said syntactic information rule.
(Appendix 20)
In the machine translation system according to any one of (Appendix 17) to (Appendix 19),
The syntactic information rule is a machine translation system including a condition for a source language or a condition for a target language.
(Appendix 21)
In the machine translation system according to any one of (Appendix 17) to (Appendix 20),
The syntactic information rule is a machine translation system in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
(Appendix 22)
In the machine translation system according to any one of (Appendix 17) to (Appendix 21),
The syntactic information rule is a machine translation system in which contents relating to a function word for a source language or a target language are described as the condition.
(Appendix 23)
In the machine translation system according to any one of (Appendix 17) to (Appendix 22),
Language model generation means for generating a language model indicating the linguistic correctness of the language from the target language text corpus;
Translation means for translating an input text using the translation model and the language model;
A machine translation system further comprising:
(Appendix 24)
In the machine translation system according to any one of (Appendix 17) to (Appendix 23),
A machine translation system further comprising an updating unit that receives an editing operation of the syntactic information rule and updates the syntactic information rule according to the received editing operation.
1 機械翻訳システム
100 データ処理装置
101 入力データ
102 翻訳モデル生成部
103a 翻訳モデル
103b 翻訳モデル
104 言語モデル生成部
105 言語モデル
106 ルール適用部
107 翻訳結果
110 翻訳部
120 記憶装置
122 原言語テキストコーパス
124 目的言語テキストコーパス
126 統語情報ルール
130 入力装置
140 出力装置
201 機械翻訳システム
210 翻訳ルール
222 操作文字列
224 区切り文字
226 条件文字列
228 条件文字列
DESCRIPTION OF SYMBOLS 1
Claims (10)
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールと、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更するルール適用手段と、
を備える機械翻訳システム。 At least one translation rule obtained by extracting a translation rule indicating the correspondence between the source language and the target language and the correctness of the correspondence from the source language text corpus and the target language text corpus, and the translation rule A translation model generating means for generating a translation model including a probability value indicating the probability of
A syntactic information rule describing a syntactic condition used to change the translation model;
Rule applying means for changing the translation model according to the condition of the syntactic information rule;
A machine translation system comprising:
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールの前記条件に合致する前記翻訳ルールを、当該統語情報ルールの前記操作情報に従い変更する機械翻訳システム。 The machine translation system according to claim 1,
The syntactic information rule describes operation information for a translation model corresponding to the condition in association with the condition,
The said rule application means is a machine translation system which changes the said translation rule which matches the said conditions of the said syntactic information rule according to the said operation information of the said syntactic information rule.
前記統語情報ルールは、前記条件に合致する翻訳ルールを削除する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールの前記条件に合致する翻訳ルールを削除する機械翻訳システム。 The machine translation system according to claim 1 or 2,
The syntactic information rule describes operation information for deleting a translation rule that matches the condition, in association with the condition,
The rule application unit is a machine translation system that deletes a translation rule that matches the condition of the syntactic information rule.
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳システム。 The machine translation system according to any one of claims 1 to 3,
The syntactic information rule is a machine translation system including a condition for a source language or a condition for a target language.
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳システム。 The machine translation system according to any one of claims 1 to 4,
The syntactic information rule is a machine translation system in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳システム。 The machine translation system according to any one of claims 1 to 5,
The syntactic information rule is a machine translation system in which contents relating to a function word for a source language or a target language are described as the condition.
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成する言語モデル生成手段と、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する翻訳手段と、
をさらに備える機械翻訳システム。 The machine translation system according to any one of claims 1 to 6,
Language model generation means for generating a language model indicating the linguistic correctness of the language from the target language text corpus;
Translation means for translating an input text using the translation model and the language model;
A machine translation system further comprising:
前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する更新手段をさらに備える機械翻訳システム。 The machine translation system according to any one of claims 1 to 7,
A machine translation system further comprising an updating unit that receives an editing operation of the syntactic information rule and updates the syntactic information rule according to the received editing operation.
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成し、
前記翻訳モデルの変更に用いられる統語的な条件を統語情報ルールに記述し、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更する機械翻訳方法。 Machine translation device
From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule Generate a translation model that includes a probability value indicating the probability ,
Describe the syntactic conditions used to change the translation model in the syntactic information rules,
A machine translation method for changing the translation model according to the condition of the syntactic information rule.
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールの前記条件に従って、前記翻訳モデルを変更する手順をコンピュータに実行させるための機械翻訳プログラム。 From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule A procedure for generating a translation model including a probability value indicating the probability ,
A machine translation program for causing a computer to execute a procedure of changing the translation model according to the condition of the syntactic information rule describing a syntactic condition used for changing the translation model.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011266511A JP5879989B2 (en) | 2011-12-06 | 2011-12-06 | Machine translation system, machine translation method, and machine translation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011266511A JP5879989B2 (en) | 2011-12-06 | 2011-12-06 | Machine translation system, machine translation method, and machine translation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013120407A JP2013120407A (en) | 2013-06-17 |
| JP5879989B2 true JP5879989B2 (en) | 2016-03-08 |
Family
ID=48773040
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011266511A Expired - Fee Related JP5879989B2 (en) | 2011-12-06 | 2011-12-06 | Machine translation system, machine translation method, and machine translation program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5879989B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6265923B2 (en) * | 2015-01-16 | 2018-01-24 | 日本電信電話株式会社 | Translation learning apparatus, method, and program |
| CN112613326B (en) * | 2020-12-18 | 2022-11-08 | 北京理工大学 | Tibetan language neural machine translation method fusing syntactic structure |
| CN116308584A (en) * | 2023-04-04 | 2023-06-23 | 中国民航信息网络股份有限公司 | Method, device, equipment and readable storage medium for obtaining tariff rules |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004362249A (en) * | 2003-06-04 | 2004-12-24 | Advanced Telecommunication Research Institute International | Translation knowledge optimizing apparatus, computer program for optimizing translation knowledge, computer, and storage medium |
-
2011
- 2011-12-06 JP JP2011266511A patent/JP5879989B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2013120407A (en) | 2013-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11741309B2 (en) | Templated rule-based data augmentation for intent extraction | |
| KR102268875B1 (en) | System and method for inputting text into electronic devices | |
| CN1618064B (en) | Translation method and computer equipment | |
| JP5071373B2 (en) | Language processing apparatus, language processing method, and language processing program | |
| EP1787221A2 (en) | Computer implemented method for use in a translation system | |
| JP2001282786A (en) | System and method for machine translation and storage medium with program for executing the same method stored thereon | |
| JP5410334B2 (en) | Word order conversion device, machine translation statistical model creation device, machine translation device, word order conversion method, machine translation statistical model creation method, machine translation method, program | |
| JP5879989B2 (en) | Machine translation system, machine translation method, and machine translation program | |
| Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
| JP2017151553A (en) | Machine translation apparatus, machine translation method, and program | |
| Lindén et al. | Using HFST for creating computational linguistic applications | |
| Ding et al. | Automatic learning of parallel dependency treelet pairs | |
| JP2013134753A (en) | Wrong sentence correction device, wrong sentence correction method and program | |
| Tambouratzis et al. | Machine Translation with Minimal Reliance on Parallel Resources | |
| JP4869281B2 (en) | Machine translation apparatus, program and method | |
| Rajendran | Parsing in tamil: Present state of art | |
| JP4881399B2 (en) | Bilingual information creation device, machine translation device, and program | |
| US20130080144A1 (en) | Machine translation apparatus, a method and a non-transitory computer readable medium thereof | |
| JP5746921B2 (en) | Machine translation apparatus, method and program | |
| JP4802327B2 (en) | Example sentence search method based on dependency structure, program, recording medium storing example sentence search program, and example sentence search apparatus | |
| JP2004264960A (en) | Example-based sentence converter and computer program | |
| Chiang et al. | The hidden TAG model: synchronous grammars for parsing resource-poor languages | |
| JP4092861B2 (en) | Natural language pattern creation apparatus and method | |
| Razmara | Application of tree transducers in statistical machine translation | |
| JP2007102530A (en) | A device that generates a grammar for a specific language |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141110 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150825 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151023 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160118 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5879989 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |