Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5879989B2 - Machine translation system, machine translation method, and machine translation program - Google Patents
[go: Go Back, main page]

JP5879989B2 - Machine translation system, machine translation method, and machine translation program - Google Patents

Machine translation system, machine translation method, and machine translation program Download PDF

Info

Publication number
JP5879989B2
JP5879989B2 JP2011266511A JP2011266511A JP5879989B2 JP 5879989 B2 JP5879989 B2 JP 5879989B2 JP 2011266511 A JP2011266511 A JP 2011266511A JP 2011266511 A JP2011266511 A JP 2011266511A JP 5879989 B2 JP5879989 B2 JP 5879989B2
Authority
JP
Japan
Prior art keywords
translation
rule
condition
model
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011266511A
Other languages
Japanese (ja)
Other versions
JP2013120407A (en
Inventor
長田 誠也
誠也 長田
健 花沢
健 花沢
岡部 浩司
浩司 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011266511A priority Critical patent/JP5879989B2/en
Publication of JP2013120407A publication Critical patent/JP2013120407A/en
Application granted granted Critical
Publication of JP5879989B2 publication Critical patent/JP5879989B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、機械翻訳システム、機械翻訳方法および機械翻訳プログラムに関し、特に統計的機械翻訳を行う、機械翻訳システム、機械翻訳方法および機械翻訳プログラムに関する。   The present invention relates to a machine translation system, a machine translation method, and a machine translation program, and more particularly to a machine translation system, a machine translation method, and a machine translation program that perform statistical machine translation.

言語の構造を扱うツリーベースの統計的機械翻訳システムには、原言語と目的言語の学習コーパスの双方がテキストデータであるText−to−Textのシステムがある。このような機械翻訳システムの一例が特許文献1に記載されている。特許文献1の機械翻訳システムは、対訳コーパス(本明細書の学習コーパスに相当)から学習された統計的情報に基づいて、原言語文を目標言語(本明細書の目的言語に相当)文に翻訳するものである。このシステムは、対訳コーパス中における原言語文および目標言語文において、単語辞書に予め登録されている単語の箇所を変数として置き換えた変数化対訳コーパスを生成し、生成した対訳コーパスを用いた翻訳モデルおよび言語モデルを学習する。入力文についても、入力文内変数化部で単語辞書に登録されている単語を変数に置き換えた後、上述の学習したモデルを用いて統計翻訳部で翻訳を行う。変数置換部は、入力文中の単語を変数に置き換えた際の情報と単語辞書に基づいて、翻訳結果中に含まれる変数を目標言語の単語に置き換えた結果を最終的な翻訳結果として出力する。   Tree-based statistical machine translation systems that handle the structure of a language include a text-to-text system in which both the source language and the target language learning corpus are text data. An example of such a machine translation system is described in Patent Document 1. The machine translation system of Patent Document 1 converts a source language sentence into a target language (corresponding to a target language in this specification) based on statistical information learned from a bilingual corpus (corresponding to a learning corpus in this specification). It is something to translate. This system generates a variable bilingual corpus that replaces a part of a word registered in the word dictionary as a variable in a source language sentence and a target language sentence in the bilingual corpus, and a translation model using the generated bilingual corpus And learn language models. Also for the input sentence, after the word registered in the word dictionary is replaced with a variable in the input sentence variableizing unit, the statistical translation unit performs translation using the learned model. The variable replacement unit outputs the result of replacing the variable included in the translation result with the word of the target language as the final translation result based on the information when the word in the input sentence is replaced with the variable and the word dictionary.

しかし、上述した文献記載のようなシステムでは、学習データが原言語と目的言語の対訳コーパスのテキストデータだけであるので、文法的な情報を含んでいない。そのため、ここから学習された翻訳モデルには、非文法的なルールがたくさん含まれてしまい、この非文法的なルールが選ばれて作成された翻訳結果は誤った翻訳結果になる可能性が高くなってしまうという問題があった。   However, in the system described in the literature described above, since the learning data is only text data of the parallel corpus of the source language and the target language, grammatical information is not included. For this reason, the translation model learned from here contains a lot of non-grammatical rules, and the translation result created by selecting this non-grammatical rule is likely to be an incorrect translation result. There was a problem of becoming.

これを回避するために、非特許文献1では原言語と目的言語の双方の学習コーパスを構文木としたTree−to−Treeのシステムとして、構文木データから翻訳モデルを学習することで精度のよい翻訳システムとなっている。   In order to avoid this, Non-Patent Document 1 has a high accuracy by learning a translation model from syntax tree data as a tree-to-tree system using the learning corpus of both the source language and the target language as a syntax tree. It is a translation system.

特開2010−282453号公報JP 2010-282453 A

I. Dan Melamed, "Statistical Machine Translation by Parsing", Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL-04), 2004I. Dan Melamed, "Statistical Machine Translation by Parsing", Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL-04), 2004

上述した文献に記載された技術においては、構文木データから翻訳モデルを学習するためには、テキストデータから構文木データを作成するための構文解析システムが必要になるため、コストが高いという問題点があった。特に、多言語を扱うシステムを構築するためには、その言語ごとの構文解析システムが必要になるため、その構文解析システムを作成する必要があり、システム開発コストが特に高くなる課題があった。   In the technique described in the above-mentioned document, in order to learn the translation model from the syntax tree data, a syntax analysis system for creating the syntax tree data from the text data is required. was there. In particular, in order to construct a system that handles multiple languages, a syntax analysis system for each language is required. Therefore, it is necessary to create the syntax analysis system, and there is a problem that the system development cost is particularly high.

本発明の目的は、上述した課題である、システム開発コストが高いという問題点を解決する機械翻訳システム、機械翻訳方法および機械翻訳プログラムを提供することにある。   An object of the present invention is to provide a machine translation system, a machine translation method, and a machine translation program that solve the above-described problem that the system development cost is high.

本発明の機械翻訳システムは、
原言語テキストコーパスと目的言語テキストコーパスから、原言語と目的言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成する翻訳モデル生成手段と、
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールと、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更するルール適用手段と、
を備える。
The machine translation system of the present invention
At least one translation rule obtained by extracting a translation rule indicating the correspondence between the source language and the target language and the correctness of the correspondence from the source language text corpus and the target language text corpus, and the translation rule A translation model generating means for generating a translation model including a probability value indicating the probability of
A syntactic information rule describing a syntactic condition used to change the translation model;
Rule applying means for changing the translation model according to the condition of the syntactic information rule;
Is provided.

本発明の機械翻訳方法は、
機械翻訳装置が、
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成し、
前記翻訳モデルの変更に用いられる統語的な条件を統語情報ルールに記述し、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更する。
The machine translation method of the present invention includes:
Machine translation device
From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule Generate a translation model that includes a probability value indicating the probability ,
Describe the syntactic conditions used to change the translation model in the syntactic information rules,
The translation model is changed according to the condition of the syntactic information rule.

本発明のコンピュータプログラムは、
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成する手順、
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールの前記条件に従って、前記翻訳モデルを変更する手順をコンピュータに実行させるための機械翻訳プログラムである。
The computer program of the present invention is:
From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule A procedure for generating a translation model including a probability value indicating the probability ,
A machine translation program for causing a computer to execute a procedure for changing the translation model in accordance with the condition of the syntactic information rule describing a syntactic condition used for changing the translation model.

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。   It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。   The various components of the present invention do not necessarily have to be independent of each other. A plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, or the like.

また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。   Moreover, although the several procedure is described in order in the method and computer program of this invention, the order of the description does not limit the order which performs a several procedure. For this reason, when implementing the method and computer program of this invention, the order of the several procedure can be changed in the range which does not interfere in content.

さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。   Furthermore, the plurality of procedures of the method and the computer program of the present invention are not limited to being executed at different timings. For this reason, another procedure may occur during the execution of a certain procedure, or some or all of the execution timing of a certain procedure and the execution timing of another procedure may overlap.

本発明によれば、構文解析システムを使用しない場合においても、低コストで精度よく翻訳できる機械翻訳システム、機械翻訳方法および機械翻訳プログラムが提供される。   According to the present invention, there are provided a machine translation system, a machine translation method, and a machine translation program that can accurately translate at a low cost even when a syntax analysis system is not used.

本発明の実施の形態に係る機械翻訳システムの構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the machine translation system which concerns on embodiment of this invention. 本発明の実施の形態に係る機械翻訳システムの動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of the machine translation system which concerns on embodiment of this invention. 本発明の実施の形態に係る機械翻訳システムの構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the machine translation system which concerns on embodiment of this invention. 本発明の実施の形態に係る機械翻訳システムの動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of the machine translation system which concerns on embodiment of this invention. 本発明の実施の形態に係る機械翻訳システムの統語情報ルールを説明するための図である。It is a figure for demonstrating the syntactic information rule of the machine translation system which concerns on embodiment of this invention. 本発明の実施例の機械翻訳システムを説明するための図である。It is a figure for demonstrating the machine translation system of the Example of this invention. 本発明の実施例の機械翻訳システムを説明するための図である。It is a figure for demonstrating the machine translation system of the Example of this invention. 本発明の比較例の機械翻訳例を説明するための図である。It is a figure for demonstrating the machine translation example of the comparative example of this invention.

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.

(第1の実施の形態)
図1は、本発明の実施の形態に係る機械翻訳システム1の構成を示す機能ブロック図である。
本発明の実施の形態に係る機械翻訳システム1は、統計的機械翻訳システムであり、Text−to−Textの学習データから作成したモデルを使って統計的手法で、原言語から目的言語に機械翻訳する。なお、以下で説明する統計的手法については、一例であり、これに限定されるものではない。他の統計的手法の翻訳技術を用いることもできる。
(First embodiment)
FIG. 1 is a functional block diagram showing a configuration of a machine translation system 1 according to an embodiment of the present invention.
A machine translation system 1 according to an embodiment of the present invention is a statistical machine translation system, and uses a model created from text-to-text learning data to perform machine translation from a source language to a target language. To do. Note that the statistical method described below is an example, and the present invention is not limited to this. Other statistical techniques of translation can also be used.

図1に示すように、本発明の実施の形態に係る機械翻訳システム1は、原言語テキストコーパス122と目的言語テキストコーパス124から、原言語と目的言語間の対応関係である翻訳モデル103aを生成する翻訳モデル生成部102と、翻訳モデル103aの適用を判断するための統語的な条件を記述した統語情報ルール126と、統語情報ルール126に従って、翻訳モデル103aの適用を判断するルール適用部106と、を備える。   As shown in FIG. 1, the machine translation system 1 according to the embodiment of the present invention generates a translation model 103a that is a correspondence relationship between a source language and a target language from a source language text corpus 122 and a target language text corpus 124. A translation model generation unit 102 that performs, a syntactic information rule 126 that describes syntactic conditions for determining the application of the translation model 103a, and a rule application unit 106 that determines the application of the translation model 103a according to the syntactic information rule 126 .

本発明の実施の形態に係る機械翻訳システム1は、たとえば、図示されない、CPU(Central Processing Unit)やメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイなどの表示装置やプリンタ等の出力装置と接続される任意のコンピュータ、またはそれらに相当する装置のハードウェアとソフトウェアの任意の組合せによって実現することができる。機械翻訳システム1のこれらの各要素は、バスを介して互いに接続され、CPUにより各要素とともに機械翻訳システム1全体が制御される。CPUが、ハードディスクに記憶される本発明の実施の形態に係るプログラムをメモリに読み出して実行することにより、機械翻訳システム1の各図の各ユニットの各機能を実現することができる。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
また、各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
The machine translation system 1 according to the embodiment of the present invention includes, for example, a CPU (Central Processing Unit), a memory, a hard disk, and a communication device (not shown), an input device such as a keyboard and a mouse, a display device such as a display, The present invention can be realized by any computer connected to an output device such as a printer, or any combination of hardware and software of devices corresponding to them. These elements of the machine translation system 1 are connected to each other via a bus, and the entire machine translation system 1 is controlled together with the elements by the CPU. When the CPU reads the program according to the embodiment of the present invention stored in the hard disk into the memory and executes it, each function of each unit in each drawing of the machine translation system 1 can be realized. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus. Each figure described below shows functional unit blocks, not hardware unit configurations.
Moreover, in each figure, about the structure of the part which is not related to the essence of this invention, it has abbreviate | omitted and is not illustrated.

また、本発明の機械翻訳システム1は、複数のコンピュータで構成されてもよく、あるいは、仮想マシンにより構成されてもよい。あるいは、本発明は、クラウドコンピュータ等により、ネットワークを介して機械翻訳システム1による機械翻訳機能をユーザの各種端末、たとえば、パーソナルコンピュータ、携帯端末、または通信機能付き電子機器等に提供するような態様も含むことができる。   Further, the machine translation system 1 of the present invention may be constituted by a plurality of computers or may be constituted by a virtual machine. Alternatively, the present invention provides a machine translation function provided by the machine translation system 1 to a user's various terminals such as a personal computer, a portable terminal, or an electronic device with a communication function via a network using a cloud computer or the like. Can also be included.

本実施形態のコンピュータプログラムは、機械翻訳システム1の機械翻訳装置を実現させるためのコンピュータに、原言語テキストコーパス122と、目的言語テキストコーパス124から、この2言語間の対応関係である翻訳モデル103aを生成する手順、翻訳モデル103aの適用を判断するための統語的な条件を記述した統語情報ルール126に従って、翻訳モデル103aの適用を判断する手順を実行させるように記述されている。   The computer program of the present embodiment is a computer for realizing the machine translation apparatus of the machine translation system 1, and a translation model 103a which is a correspondence relationship between the two languages from the source language text corpus 122 and the target language text corpus 124. In accordance with the syntactic information rule 126 describing the syntactic conditions for determining the application of the translation model 103a, and the procedure for determining the application of the translation model 103a.

本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。   The computer program of this embodiment may be recorded on a computer-readable recording medium. The recording medium is not particularly limited, and various forms can be considered. The program may be loaded from a recording medium into a computer memory, or downloaded to a computer through a network and loaded into the memory.

本実施形態において、原言語テキストコーパス122および目的言語テキストコーパス124は、異なる2つの言語のテキストデータのコーパスである。翻訳の原文の言語を「原言語」と呼び、翻訳後の言語を目的言語と呼ぶ。原言語テキストコーパス122と目的言語テキストコーパス124は、互いに2つの言語間で対応関係にあり、文と文の対応が取れている、所謂、対訳の学習コーパスである。
本実施形態の機械翻訳システム1によって生成される翻訳モデル103bも、テキストデータファイルとして保持することができる。
In the present embodiment, the source language text corpus 122 and the target language text corpus 124 are corpuses of text data of two different languages. The original language of the translation is called the “source language”, and the translated language is called the target language. The source language text corpus 122 and the target language text corpus 124 are so-called bilingual learning corpora in which there is a correspondence between the two languages and the correspondence between the sentences can be taken.
The translation model 103b generated by the machine translation system 1 of this embodiment can also be held as a text data file.

翻訳モデル生成部102は、原言語テキストコーパス122と目的言語テキストコーパス124を参照し、翻訳モデル103aを生成する。翻訳モデル生成部102は、原言語テキストコーパス122と目的言語テキストコーパス124から、たとえば、EMアルゴリズムを用いて、その2言語の対応関係を表す翻訳ルールとその対応関係の正しさを抽出し、それを翻訳モデル103aとして生成する。ここで、少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値を含む翻訳モデル103aが生成される。   The translation model generation unit 102 generates a translation model 103a with reference to the source language text corpus 122 and the target language text corpus 124. The translation model generation unit 102 extracts, from the source language text corpus 122 and the target language text corpus 124, for example, a translation rule representing the correspondence relationship between the two languages and the correctness of the correspondence relationship using the EM algorithm. Is generated as a translation model 103a. Here, the translation model 103a including at least one translation rule and a probability value indicating the certainty of the translation rule is generated.

本発明において、統語情報ルール126の「統語的な条件」とは、文章中の単語や語群の配列の関係に関する条件を含む。統語情報ルール126は、文章中の単語や語群の配列の関係、あるいは、単語や語群は品詞または表層文字列で記述することができる。たとえば、統語情報ルール126には、「先頭の単語の表層文字列が“の”」という適用条件等を記述できる。ルール適用部106は、この条件に合致する翻訳ルールが翻訳モデル103aに含まれるか否かを判断する。また、統語情報ルール126は、条件として、「名詞」、「冠詞」などの品詞を指定することもできる。また、翻訳ルールの確率値の範囲等を条件とすることもできる。さらに、原言語または目的言語に対する機能語に関する内容を条件として記述してもよい。ここで、「機能語」とは、語彙的意味をほとんど担わず、主に統語的関係を示す非自立語を指し、前置詞、接続詞、助動詞、冠詞、関係詞などを含むことができる。また、「機能語に関する内容」とは、先頭、末尾、先頭からN番目などの単語の位置情報を含むことができる。   In the present invention, the “syntactic condition” of the syntactic information rule 126 includes a condition related to the relationship of the arrangement of words and word groups in the sentence. The syntactic information rule 126 can describe the relationship of the arrangement of words and word groups in a sentence, or the words and word groups can be described by parts of speech or surface character strings. For example, the syntactic information rule 126 can describe an application condition such as “the surface character string of the first word is“ no ””. The rule application unit 106 determines whether a translation rule that satisfies this condition is included in the translation model 103a. The syntactic information rule 126 can also specify parts of speech such as “noun” and “article” as conditions. Moreover, the range of the probability value of a translation rule, etc. can also be made into conditions. Furthermore, the contents relating to the function language for the source language or the target language may be described as conditions. Here, the “function word” refers to a non-independent word that has almost no lexical meaning and mainly exhibits a syntactic relationship, and can include prepositions, conjunctions, auxiliary verbs, articles, relatives, and the like. Further, the “contents related to function words” can include position information of words such as the first, last, and Nth words from the beginning.

統語情報ルール126は、たとえば、テキスト形式(スペース区切り、タブ区切り)、CSV(Comma Separated Values)形式のデータファイルとして記憶部に保持することができる。これらのデータファイルは、一般的なテキストエディタなどで作成または編集できるのが望ましい。すなわち、本実施形態の機械翻訳システム1は、統語情報ルール126の編集操作を受け付け、受け付けた編集操作に従い統語情報ルール126を更新する更新部(不図示)を備えてもよい。   The syntactic information rule 126 can be held in the storage unit as a data file in a text format (space delimiter, tab delimiter) or CSV (Comma Separated Values) format, for example. These data files are preferably created or edited with a general text editor or the like. That is, the machine translation system 1 according to the present embodiment may include an update unit (not shown) that receives an editing operation of the syntactic information rule 126 and updates the syntactic information rule 126 according to the received editing operation.

ルール適用部106は、統語情報ルール126を参照し、記憶装置120が生成した翻訳モデル103aの各翻訳ルールについて、統語情報ルール126に従い、適用条件に従い、翻訳ルールの適否を判断する。ここでは、条件に合致する翻訳ルールは適用しないと判断する。適用しないと判断された翻訳ルールは、翻訳モデル103aから削除して翻訳モデル103bとしてもよい。あるいは、その翻訳ルールは適用しないことを示す適用情報を付加して翻訳モデル103bとしてもよい。その場合は、後述するデコーダ(図1には図示されない)が、翻訳モデル103bの適用情報を参照して翻訳処理を行うこととなる。
このようにして統語情報ルール126で翻訳ルールの適用が判断されて生成した翻訳モデル103bを用いて、デコーダが機械翻訳処理を行うことができる。
The rule application unit 106 refers to the syntactic information rule 126 and determines whether the translation rule is appropriate for each translation rule of the translation model 103 a generated by the storage device 120 according to the syntactic information rule 126 according to the application condition. Here, it is determined that the translation rule that matches the condition is not applied. The translation rule determined not to be applied may be deleted from the translation model 103a and used as the translation model 103b. Alternatively, the translation model 103b may be added with application information indicating that the translation rule is not applied. In that case, a decoder (not shown in FIG. 1) described later performs a translation process with reference to the application information of the translation model 103b.
The decoder can perform machine translation processing using the translation model 103b generated by determining the application of the translation rule in the syntactic information rule 126 in this way.

このように構成された本実施形態の機械翻訳システム1の機械翻訳方法について、以下に説明する。図2は、本発明の実施の形態に係る機械翻訳システム1の機械翻訳方法を説明するフローチャートである。
本実施形態の機械翻訳システム1における機械翻訳方法は、原言語テキストコーパス122と、目的言語テキストコーパス124から、この2言語間の対応関係である翻訳モデル103aを生成し(ステップS103)、翻訳モデル103aの適用を判断するための統語的な条件を統語情報ルール126に記述し(ステップS101)、統語情報ルール126に従って、翻訳モデル103aの適用を判断する(ステップS105)。
A machine translation method of the machine translation system 1 of the present embodiment configured as described above will be described below. FIG. 2 is a flowchart for explaining the machine translation method of the machine translation system 1 according to the embodiment of the present invention.
The machine translation method in the machine translation system 1 of the present embodiment generates a translation model 103a that is a correspondence relationship between the two languages from the source language text corpus 122 and the target language text corpus 124 (step S103). A syntactic condition for determining the application of 103a is described in the syntactic information rule 126 (step S101), and the application of the translation model 103a is determined according to the syntactic information rule 126 (step S105).

上述したように構成された本実施形態の機械翻訳システム1は、機械翻訳システム1の機能を実現する装置が、図2で説明したフローに従って動作することで実現される。   The machine translation system 1 of the present embodiment configured as described above is realized by an apparatus that implements the functions of the machine translation system 1 operating according to the flow described in FIG.

まず、統語情報ルール126には、少なくとも統語的な条件を記述して保持しておく(ステップS101)。
そして、翻訳モデル生成部102が、原言語テキストコーパス122と目的言語テキストコーパス124から翻訳モデル103aを生成する(ステップS103)。翻訳モデル103aは、複数の翻訳ルールとその確率値とが含まれる。
First, in the syntactic information rule 126, at least syntactic conditions are described and held (step S101).
Then, the translation model generation unit 102 generates a translation model 103a from the source language text corpus 122 and the target language text corpus 124 (step S103). The translation model 103a includes a plurality of translation rules and their probability values.

そして、ルール適用部106が、統語情報ルール126に格納されている条件に従い、翻訳モデル103aの適用を判断する(ステップS105)。そして、判断の結果、適用しないと判断された翻訳ルールを削除して翻訳モデル103bとして出力する。   Then, the rule application unit 106 determines application of the translation model 103a in accordance with the conditions stored in the syntactic information rule 126 (step S105). Then, as a result of the determination, the translation rule determined not to be applied is deleted and output as the translation model 103b.

なお、ステップS101の統語情報ルール126の準備の手順は、翻訳処理が開始する前に行われるのが好ましい。あるいは、随時利用者やシステム管理者が翻訳処理の途中で、統語情報ルール126を更新することもできる。   The procedure for preparing the syntactic information rule 126 in step S101 is preferably performed before the translation process starts. Alternatively, the syntactic information rule 126 can be updated at any time by the user or the system administrator during the translation process.

本実施形態では、まず、統語情報ルール126には、翻訳モデル103aの翻訳ルールの適否を判断するための条件が記載されていたが、これに限定されない。たとえば、条件に従い、ルールを変更する等の操作を行う例については、後述する。   In this embodiment, first, the syntactic information rule 126 describes conditions for determining whether or not the translation rule of the translation model 103a is appropriate. However, the present invention is not limited to this. For example, an example of performing an operation such as changing a rule according to a condition will be described later.

以上説明したように、本発明の実施の形態に係る機械翻訳システム1によれば、翻訳モデルを、統語的な条件を有する統語情報ルールに従い適用することで、構文解析システムがなくても、精度のよい機械翻訳を実現できる。   As described above, according to the machine translation system 1 according to the embodiment of the present invention, the translation model is applied according to the syntactic information rule having the syntactic condition, so that the accuracy can be improved even without the parsing system. Can achieve good machine translation.

(第2の実施の形態)
図3は、本発明の実施の形態に係る機械翻訳システム201の構成を示す機能ブロック図である。
本実施形態の機械翻訳システム201は、上記実施形態とは、統語情報ルールに記述された条件に応じて翻訳モデルに操作変更を行い、さらに、生成した翻訳モデルを用いて機械翻訳を行う構成を有する点で相違する。
(Second Embodiment)
FIG. 3 is a functional block diagram showing a configuration of the machine translation system 201 according to the embodiment of the present invention.
The machine translation system 201 of the present embodiment is different from the above embodiment in that the translation model is operated according to the conditions described in the syntactic information rule, and machine translation is performed using the generated translation model. It is different in having.

本実施形態の機械翻訳システム201は、データ処理装置100と、記憶装置120と、入力装置130と、出力装置140と、を備える。
データ処理装置100は、図1の上記実施形態の機械翻訳システム1と同様な翻訳モデル生成部102、言語モデル生成部104、およびルール適用部106を含むとともに、さらに、翻訳部110を含む。
The machine translation system 201 of this embodiment includes a data processing device 100, a storage device 120, an input device 130, and an output device 140.
The data processing apparatus 100 includes a translation model generation unit 102, a language model generation unit 104, and a rule application unit 106 similar to the machine translation system 1 of the above embodiment of FIG.

データ処理装置100は、上記実施形態で説明した、本発明の機械翻訳システムを実現するためのプログラムを実行するコンピュータである。本実施形態においても、データ処理装置100のCPU(不図示)が本発明の機械翻訳システム201のコンピュータプログラムを実行することで、図3の各ブロックの各機能を実現することができる。   The data processing apparatus 100 is a computer that executes the program for realizing the machine translation system of the present invention described in the above embodiment. Also in the present embodiment, the CPU (not shown) of the data processing apparatus 100 executes the computer program of the machine translation system 201 of the present invention, whereby each function of each block in FIG. 3 can be realized.

記憶装置120は、たとえば、データ処理装置100から少なくとも読み取り可能な記憶装置または記憶媒体であり、上記実施形態で説明した、原言語テキストコーパス122と、目的言語テキストコーパス124と、統語情報ルール126と、を保持する。また、記憶装置120は、コンピュータから読み取りまたは書き込み可能な記憶装置または記憶媒体とするのが望ましい。図3では、記憶装置120は一つの装置として示されているが、これに限定されず、複数の記憶装置または記憶媒体を組み合わせることもできる。   The storage device 120 is, for example, a storage device or storage medium that can be read at least from the data processing device 100, and the source language text corpus 122, the target language text corpus 124, and the syntactic information rule 126 described in the above embodiment. Hold. The storage device 120 is preferably a storage device or storage medium that can be read or written by a computer. In FIG. 3, the storage device 120 is shown as a single device, but is not limited to this, and a plurality of storage devices or storage media can be combined.

入力装置130は、翻訳対象となる原文を入力する装置である。入力装置130は、たとえば、ユーザが翻訳対象となる原文を入力するときに操作するキーボードやマウス等の入力装置、他の装置から原文のテキストデータ、またはデータファイルをネットワークを介して受信するためのインタフェース装置、または、原文のデータファイルを記憶する記憶装置または記憶媒体にアクセスして原文のデータファイルを読み込む媒体アクセス装置などを含む。あるいは、入力装置130は、音声認識処理装置で音声認識された認証結果のテキストデータを受け付けるインタフェースを含んでもよい。   The input device 130 is a device for inputting an original text to be translated. The input device 130 is, for example, for receiving an original text data or data file from another input device such as a keyboard or a mouse that is operated when the user inputs an original text to be translated from another device via a network. It includes an interface device, a storage device that stores the original data file, or a medium access device that accesses the storage medium and reads the original data file. Alternatively, the input device 130 may include an interface that receives text data of an authentication result that has been voice-recognized by the voice recognition processing device.

出力装置140は、データ処理装置100が出力した翻訳結果を受け付けて、出力する装置である。出力装置140は、たとえば、翻訳結果を画面に表示するディスプレイ装置、翻訳結果を印字出力するプリンタ、翻訳結果をネットワークを介して他の装置に送信するためのインタフェース装置、または、翻訳結果を記憶装置または記憶媒体に保存する媒体アクセス装置などを含む。あるいは、出力装置140は、翻訳結果を音声データに変換して読み上げて出力する音声合成装置に出力するインタフェースを含んでもよい。   The output device 140 is a device that receives and outputs the translation result output by the data processing device 100. The output device 140 is, for example, a display device that displays a translation result on a screen, a printer that prints and outputs the translation result, an interface device for transmitting the translation result to another device via a network, or a storage device that stores the translation result Alternatively, a medium access device that stores data in a storage medium is included. Alternatively, the output device 140 may include an interface that outputs a translation result to speech data that is read out after being converted into speech data.

また、たとえば、入力装置130が受け付けた原文の入力データ101を、出力装置140のディスプレイ装置の画面に、翻訳結果107とともに対比できるように並べて表示してもよい。あるいは、入力装置130が受け付けた原文の入力データ101を、翻訳結果107とともに、順番に、フレーズ毎に、出力装置140から音声合成装置で読み上げて音声出力することもできる。また、入力装置130と出力装置140は、たとえば、タッチパネルなどで構成することもでき、ユーザインタフェース部としての機能を実現することもできる。   Further, for example, the original input data 101 received by the input device 130 may be displayed side by side on the screen of the display device of the output device 140 so that it can be compared with the translation result 107. Alternatively, the original input data 101 received by the input device 130 can be read out by the speech synthesizer from the output device 140 for each phrase together with the translation result 107 in order. Moreover, the input device 130 and the output device 140 can also be comprised by a touch panel etc., for example, and can also implement | achieve the function as a user interface part.

言語モデル生成部104は、目的言語テキストコーパス124を参照し、言語モデル105を生成する。言語モデル生成部104は、目的言語テキストコーパス124から、少なくとも1つの翻訳候補と、その翻訳候補の言語的な正しさを表す確率値を求め、たとえば、N−gramの確率付き言語モデル105として生成する。ここで、少なくとも1つの翻訳候補を含む言語モデル105が生成される。   The language model generation unit 104 refers to the target language text corpus 124 and generates a language model 105. The language model generation unit 104 obtains at least one translation candidate and a probability value representing the linguistic correctness of the translation candidate from the target language text corpus 124, and generates, for example, an N-gram probability language model 105. To do. Here, a language model 105 including at least one translation candidate is generated.

統語情報ルール126は、翻訳モデル103aの翻訳ルールとその確率値とに対する、条件に応じた操作情報を、条件に対応付けて各エントリに記述してもよい。   The syntactic information rule 126 may describe operation information corresponding to the condition for the translation rule of the translation model 103a and its probability value in each entry in association with the condition.

操作情報は、たとえば、翻訳ルールの削除または追加、あるいは、翻訳ルールの確率値の変更などを含む。変更する確率値そのものや、確率値の増減を調整するためのプラスマイナスの符号付き確率値(確率値の変更値)を指定してもよい。追加する翻訳ルールとその確率値を指定することもできる。   The operation information includes, for example, the deletion or addition of a translation rule, or the change of the probability value of the translation rule. The probability value itself to be changed or a plus / minus signed probability value (change value of probability value) for adjusting the increase / decrease of the probability value may be designated. You can also specify the translation rule to add and its probability value.

図5に、統語情報ルール126の記述例を示す。たとえば、「先頭の単語の表層文字列が“の”」という条件と、「削除する」という操作情報は、図5(a)に示すように、3つのデータ(文字列)からなるテキストデータの一つのエントリとして記述することができる。統語情報ルール126には、複数のエントリを含むことができる。   FIG. 5 shows a description example of the syntactic information rule 126. For example, the condition that the surface character string of the first word is “no” and the operation information “delete” are, as shown in FIG. 5A, the text data composed of three data (character strings). It can be described as one entry. The syntactic information rule 126 can include a plurality of entries.

図5(b)に示すように、統語情報ルール126は、条件を、たとえば、「条件1が条件2の場合」、として複数の条件で表記することができる。統語情報ルール126は、操作情報の「削除」を示す操作文字列222と、条件1の「先頭」を示す第1条件文字列226と、条件2の「“の”」を示す第2条件文字列228と、が一つのエントリとして記述できる。操作文字列222と、条件文字列226、228の間は、スペースやタブなどの区切り文字224がそれぞれ挿入される。このように、統語情報ルール126は、複数のデータ(文字列)を区切り文字224で区切った簡単な構成のテキストデータとして記述することができる。なお、本実施形態では、3つのデータで記述しているが、これに限定されない。   As shown in FIG. 5B, the syntactic information rule 126 can describe the condition as a plurality of conditions, for example, “when condition 1 is condition 2”. The syntactic information rule 126 includes an operation character string 222 indicating “deletion” of the operation information, a first condition character string 226 indicating “first” of the condition 1, and a second condition character indicating “no” of the condition 2. Column 228 can be described as one entry. Separation characters 224 such as spaces and tabs are inserted between the operation character string 222 and the condition character strings 226 and 228, respectively. As described above, the syntactic information rule 126 can be described as text data having a simple configuration in which a plurality of data (character strings) are separated by the delimiter 224. In the present embodiment, three data are used for description, but the present invention is not limited to this.

また、図5(c)に示すように、統語情報ルール126のエントリの1つ目のデータ(図5(b)の操作文字列222)には「削除」だけでなく、「追加」や「確率値の変更」などの他の操作情報を記述してもよい。
たとえば、「追加」の場合は、「追加 翻訳ルール 確率値」のようなフォーマットとして記述することができる。この場合、この第1条件文字列226(図5(b))に記述されている「翻訳ルール」が翻訳モデル103aに含まれないときは、この「翻訳ルール」をこの第2条件文字列228(図5(b))に記述されている「確率値」で翻訳モデル103bに追加することを表す。
Further, as shown in FIG. 5C, the first data of the entry of the syntactic information rule 126 (the operation character string 222 in FIG. 5B) includes not only “delete” but also “add” and “ Other operation information such as “change of probability value” may be described.
For example, “addition” can be described as a format such as “additional translation rule probability value”. In this case, when the “translation rule” described in the first condition character string 226 (FIG. 5B) is not included in the translation model 103a, the “translation rule” is used as the second condition character string 228. This means that the “probability value” described in FIG. 5B is added to the translation model 103b.

また、「確率値の変更」の場合は「確率値の変更 翻訳ルール 確率値」のようなフォーマットとして記述することができる。この場合、「翻訳ルール」の条件が翻訳モデルに該当するときは、この「翻訳ルール」の確率値を「確率値」で変更することを表す。
更に「確率値」には確率値を置き換えるための符号なしの確率値や、確率値を増減するための+−の符号付きの確率値を記述できる。
In the case of “change probability value”, it can be described as a format such as “change probability value change translation rule probability value”. In this case, when the condition of the “translation rule” corresponds to the translation model, the probability value of the “translation rule” is changed by the “probability value”.
Further, the “probability value” can describe an unsigned probability value for replacing the probability value and a +/− signed probability value for increasing or decreasing the probability value.

図3に戻り、ルール適用部106は、統語情報ルール126の条件に従って、対応する翻訳モデルを統語情報ルール126の操作情報に従い操作する。
詳細には、ルール適用部106は、翻訳モデル生成部102が生成した翻訳モデル103aの各翻訳ルールについて、統語情報ルール126に記述された条件に合致するか否かを判定する。
Returning to FIG. 3, the rule application unit 106 operates the corresponding translation model according to the operation information of the syntactic information rule 126 according to the condition of the syntactic information rule 126.
Specifically, the rule application unit 106 determines whether each translation rule of the translation model 103 a generated by the translation model generation unit 102 matches the condition described in the syntactic information rule 126.

そして、ルール適用部106は、たとえば、翻訳モデル103aの翻訳ルールが、統語情報ルール126に記述されているエントリに該当すると判定したときに、その翻訳ルールをそのエントリに記述されている操作情報に従い操作する。すなわち、本実施形態において、ルール適用部106は、統語情報ルール126のエントリに記述された条件に合致する翻訳ルールを検出し、条件に合致した翻訳ルールについて、そのエントリに記述されている操作情報に従い操作する。   Then, for example, when the rule application unit 106 determines that the translation rule of the translation model 103a corresponds to an entry described in the syntactic information rule 126, the rule application unit 106 follows the operation information described in the entry. Manipulate. That is, in this embodiment, the rule application unit 106 detects a translation rule that matches the condition described in the entry of the syntactic information rule 126, and the operation information described in the entry for the translation rule that matches the condition. Follow the instructions.

翻訳部110は、入力装置130で入力された原言語の入力データ101を、ルール適用部106により条件に従い操作された後の翻訳モデル103bと言語モデル生成部104で生成された言語モデル105とを用いて目的言語に翻訳し、その翻訳結果107を出力装置140に出力する。   The translation unit 110 converts the input data 101 of the source language input by the input device 130 into the translation model 103b after the rule application unit 106 is operated according to the conditions and the language model 105 generated by the language model generation unit 104. The result is translated into a target language, and the translation result 107 is output to the output device 140.

このように構成された本実施形態の機械翻訳システム201の動作について以下説明する。
図4は、本実施形態の機械翻訳システム201の動作の一例を示すフローチャートである。以下、図3および図4を用いて説明する。
The operation of the machine translation system 201 of this embodiment configured as described above will be described below.
FIG. 4 is a flowchart showing an example of the operation of the machine translation system 201 of this embodiment. Hereinafter, a description will be given with reference to FIGS. 3 and 4.

まず、統語的な条件を統語情報ルール126に記述して準備し、統語情報ルール126を記憶装置120に格納しておく(ステップS201)。なお、ステップS201の統語情報ルール126の準備の手順は、上記実施形態と同様に、翻訳処理が開始する前に事前に行われるのが好ましい。あるいは、随時利用者やシステム管理者が翻訳処理の途中で、統語情報ルール126を更新することもできる。   First, syntactic conditions are described and prepared in the syntactic information rule 126, and the syntactic information rule 126 is stored in the storage device 120 (step S201). Note that the procedure for preparing the syntactic information rule 126 in step S201 is preferably performed in advance before the translation process is started, as in the above embodiment. Alternatively, the syntactic information rule 126 can be updated at any time by the user or the system administrator during the translation process.

そして、データ処理装置100の翻訳モデル生成部102が、記憶装置120にアクセスし、原言語テキストコーパス122と目的言語テキストコーパス124を参照し、翻訳モデル103aを生成する(ステップS203)。ここでは、複数の翻訳ルールとそのルールの確率値が翻訳モデル103aとして生成される。   Then, the translation model generation unit 102 of the data processing apparatus 100 accesses the storage device 120, refers to the source language text corpus 122 and the target language text corpus 124, and generates a translation model 103a (step S203). Here, a plurality of translation rules and the probability values of the rules are generated as the translation model 103a.

また、データ処理装置100の言語モデル生成部104が、記憶装置120にアクセスし、目的言語テキストコーパス124を参照し、言語モデル105を生成する(ステップS205)。ここでは、少なくとも1つの翻訳候補が言語モデル105として生成される。本実施形態では、ステップS203およびステップS205を実行する順序は特に限定されない。また、原言語テキストコーパス122、目的言語テキストコーパス124、または統語情報ルール126は、任意に更新することができる。   Further, the language model generation unit 104 of the data processing device 100 accesses the storage device 120, refers to the target language text corpus 124, and generates the language model 105 (step S205). Here, at least one translation candidate is generated as the language model 105. In the present embodiment, the order in which step S203 and step S205 are executed is not particularly limited. Further, the source language text corpus 122, the target language text corpus 124, or the syntactic information rule 126 can be arbitrarily updated.

そして、ルール適用部106が、記憶装置120にアクセスし、ステップS205で準備された統語情報ルール126を参照し、ステップS201で生成された翻訳モデル103aの各翻訳ルールについて統語情報ルール126のエントリに記述された条件に合致するか否かを判定する(ステップS207)。ルール適用部106が、条件に合致すると判定した翻訳ルールについて(ステップS207のYES)、条件が合致したエントリに記述されている操作情報に従い、当該翻訳ルールに対して操作を行う(ステップS209)。そして、操作された翻訳ルールは翻訳モデル103bに含まれ翻訳部110に受け渡されることとなる。一方、条件に合致しないと判定した翻訳ルールについては(ステップS207のNO)、そのまま翻訳部110に受け渡す翻訳モデル103bに含めたままとする。   Then, the rule application unit 106 accesses the storage device 120, refers to the syntactic information rule 126 prepared in step S205, and sets each translation rule of the translation model 103a generated in step S201 in the entry of the syntactic information rule 126. It is determined whether or not the described conditions are met (step S207). For the translation rule that the rule application unit 106 determines to match the condition (YES in step S207), the rule application unit 106 operates the translation rule according to the operation information described in the entry that matches the condition (step S209). The operated translation rule is included in the translation model 103b and delivered to the translation unit 110. On the other hand, the translation rule that is determined not to match the condition (NO in step S207) is still included in the translation model 103b that is delivered to the translation unit 110.

本図では、各翻訳ルールについてステップS207の判定を繰り返す手順については省略してある。ステップS207とステップS209は、翻訳モデル103aに含まれる翻訳ルールについて繰り返し実行し、すべての翻訳ルールについての処理が終了したとき、条件に従い操作された後の翻訳ルールを含む翻訳モデル103bが翻訳部110に受け渡され、ステップS211に進むこととなる。   In this figure, the procedure for repeating the determination in step S207 for each translation rule is omitted. Steps S207 and S209 are repeatedly executed for the translation rules included in the translation model 103a, and when the processing for all the translation rules is completed, the translation model 103b including the translation rules operated according to the conditions is converted into the translation unit 110. And the process proceeds to step S211.

そして、翻訳部110が、ステップS207のルール適用部106による判定結果に基づき、ステップS209で条件に従い操作された翻訳ルールを含む翻訳モデル103bと、ステップS203で言語モデル生成部104が生成した言語モデル105に基づいて、入力データ101に対する翻訳結果107を生成し、出力装置140に出力する(ステップS211)。出力装置140が、ディスプレイ装置(不図示)の画面に翻訳結果107を表示する。なお、ステップS211で翻訳部110がデコード時に使用する言語モデル105や翻訳モデル103bは、記憶装置120に格納しておくこともできる。   Then, based on the determination result by the rule application unit 106 in step S207, the translation unit 110 includes the translation model 103b including the translation rule operated according to the condition in step S209, and the language model generated by the language model generation unit 104 in step S203. Based on 105, a translation result 107 for the input data 101 is generated and output to the output device 140 (step S211). The output device 140 displays the translation result 107 on the screen of a display device (not shown). Note that the language model 105 and the translation model 103b used by the translation unit 110 for decoding in step S211 can also be stored in the storage device 120.

以上説明したように、本発明の実施の形態に係る機械翻訳システム201によれば、上記実施形態と同様な効果を奏するとともに、構文解析システムを使用しない場合においても、テキストデータ(原言語テキストコーパス122および目的言語テキストコーパス124)を学習コーパスとして作成した翻訳モデル103aを、統語的な情報を使用して変更することで、精度よく翻訳できる。   As described above, according to the machine translation system 201 according to the embodiment of the present invention, the same effect as the above embodiment can be obtained, and even when the parsing system is not used, the text data (source language text corpus) The translation model 103a created by using 122 and the target language text corpus 124) as learning corpora can be translated with high accuracy by using syntactic information.

すなわち、本発明の実施の形態に係る機械翻訳システム201によれば、原言語テキストコーパス122または目的言語テキストコーパス124に統語情報(統語情報ルール126)を含まない場合でも、生成された翻訳モデル103aを変更して翻訳モデル103bとして強化できるために、精度のよい翻訳結果が得られることとなる。   That is, according to the machine translation system 201 according to the embodiment of the present invention, even when the source language text corpus 122 or the target language text corpus 124 does not include syntactic information (syntax information rule 126), the generated translation model 103a. Can be enhanced as the translation model 103b, so that a highly accurate translation result can be obtained.

また、学習コーパスとして構文木データを作成するための構文解析システムで必要となる文法ルールを作成する場合に比較して、本発明のように、翻訳結果で問題となる翻訳モデル103aを変更するための統語情報(統語情報ルール126)を記述する方が、開発者やプログラマの作業量や、ルールを記憶するのに必要なメモリ容量が少なくなる。そのため、低コストで機械翻訳システムを構築できることとなる。   Further, as compared with the case where a grammar rule necessary for a syntax analysis system for creating syntax tree data as a learning corpus is created, the translation model 103a that is a problem in the translation result is changed as in the present invention. When the syntactic information (syntax information rule 126) is described, the amount of work of the developer or programmer and the memory capacity necessary for storing the rule are reduced. Therefore, a machine translation system can be constructed at a low cost.

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、上記で例として挙げた統語情報ルールのエントリの2つ目と3つ目のデータ(条件1、条件2)の翻訳ルールの条件は、「先頭」だけでなく「末尾」や「先頭からN番目」のような位置情報や、「“の”」のような単語の表層の指定だけでなく「名詞」のような品詞も記述できる。
As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
For example, the condition of the translation rule of the second and third data (condition 1, condition 2) of the syntactic information rule entry given as an example above is not only “start” but also “end” or “start from In addition to location information such as “Nth” and the designation of the surface layer of words such as “no”, part of speech such as “noun” can be described.

また、上記実施形態では、統語情報ルール126には、翻訳モデル生成部102が生成した目的言語に関する翻訳ルールの条件を記述したが、これに限定されない。たとえば、統語情報ルール126は、原言語に対する条件、または目的言語に対する条件、もしくは、原言語に対する条件および目的言語に対する条件の両方を含むことができる。   Moreover, in the said embodiment, although the condition of the translation rule regarding the target language which the translation model production | generation part 102 produced | generated was described in the syntactic information rule 126, it is not limited to this. For example, the syntactic information rule 126 can include a condition for the source language, or a condition for the target language, or both a condition for the source language and a condition for the target language.

この場合、翻訳モデル生成部102が、原言語に対する条件が記述された統語情報ルール126に従い、生成する翻訳モデル103aの翻訳ルールの適否を判断、または操作情報に従い翻訳ルールを操作することができる。すなわち、翻訳モデル生成部102が翻訳モデル103aを生成する段階で、統語情報ルール126に従い、翻訳ルールの適否を判断したり、操作することができる。そして、さらに、ルール適用部106が目的言語に対する条件が記述された統語情報ルール126に従い、翻訳モデル103aの翻訳ルールの適否を判断、または操作情報に従い翻訳ルールを操作し、得られた翻訳モデル103bを出力してもよい。   In this case, the translation model generation unit 102 can determine whether or not the translation rule of the generated translation model 103a is appropriate according to the syntactic information rule 126 describing the conditions for the source language, or can operate the translation rule according to the operation information. That is, at the stage where the translation model generation unit 102 generates the translation model 103a, it is possible to determine whether or not the translation rule is appropriate or to operate according to the syntactic information rule 126. Further, the rule application unit 106 determines whether or not the translation rule of the translation model 103a is appropriate according to the syntactic information rule 126 in which the condition for the target language is described, or operates the translation rule according to the operation information. May be output.

本発明の機械翻訳システムは、たとえば、訳語選択に適用することができる。   The machine translation system of the present invention can be applied to, for example, translation selection.

(実施例)
次に、本発明の実施例を、図面を参照して説明する。本実施例は、図3の上記実施の形態の機械翻訳システム201における訳語選択に適用した場合の例を示す。
入力装置130のキーボードから「Board the train for Misakiguchi at Shinagawa」という英語の文が入力されたときに、この英語の文を日本語に翻訳するときのことを例に挙げて、機械翻訳システム201の動作の説明をする。
翻訳モデル生成部102が、原言語テキストコーパス122と目的言語テキストコーパス124からEMアルゴリズムを用いて翻訳モデル103aを生成する(図4のステップS203)。
そして、言語モデル生成部104が、目的言語テキストコーパス124からN−gramの確率付きの言語モデル105を生成する(図4のステップS205)。
(Example)
Next, embodiments of the present invention will be described with reference to the drawings. This example shows an example in the case of applying to translation selection in the machine translation system 201 of the above embodiment of FIG.
When an English sentence “Board the train for Misakiguchi at Shinagawa” is input from the keyboard of the input device 130, an example of translating the English sentence into Japanese is taken as an example. The operation will be described.
The translation model generation unit 102 generates a translation model 103a from the source language text corpus 122 and the target language text corpus 124 using the EM algorithm (step S203 in FIG. 4).
Then, the language model generation unit 104 generates a language model 105 with an N-gram probability from the target language text corpus 124 (step S205 in FIG. 4).

この入力文に関係する翻訳モデル103aとして、たとえば、図6に示すように、「Board X → 常務 X」、「Board X → X にご乗車下さい」、「the train for → の 列車」、「the train for X → X 行き の 列車」、「Misakiguchi → Misakiguchi」、「X at → で X」、「X at Y → Y で X」、「Shinagawa → 品川」のような複数の翻訳ルールとそれぞれのルールに対する確率値(不図示)が生成できていたとする。   As the translation model 103a related to this input sentence, for example, as shown in FIG. 6, "Board X → Managing X", "Board X → Get on X", "the train for → train", "the Train for X → Train to X ”,“ Misakiguchi → Misakiguchi ”,“ Xat → X for X ”,“ X at Y → Y for X ”,“ Shinagawa → Shinagawa ”and each rule Assume that a probability value (not shown) has been generated.

ここで、「X」と「Y」は任意の単語列が入れることを示し、最初の翻訳ルールである「Board X → 常務 X」は「Board」と「任意の単語列(X)」の連続が入力されたときに、「常務」、「入力された任意の単語列の訳語」の順で翻訳されることを表す。   Here, “X” and “Y” indicate that an arbitrary word string is included, and “Board X → Managing X” as the first translation rule is a sequence of “Board” and “arbitrary word string (X)”. Indicates that translation is performed in the order of “management” and “translation of an arbitrary input word string”.

次いで、ルール適用部106が、ステップS203で翻訳モデル生成部102が生成した翻訳モデル103aを統語情報ルール126に基づいて操作する(図4のステップS207、ステップS209)。
たとえば、図5(c)に示すように、統語情報ルール126に「削除 先頭 “の”」という3つのデータを持つエントリが含まれていたとする。
Next, the rule application unit 106 operates the translation model 103a generated by the translation model generation unit 102 in step S203 based on the syntactic information rule 126 (steps S207 and S209 in FIG. 4).
For example, as shown in FIG. 5C, it is assumed that the syntactic information rule 126 includes an entry having three pieces of data “deletion head“ no ””.

上述したように、このエントリの2つ目と3つ目のデータが翻訳ルールの条件1と条件2を表し、1つ目のデータがこの条件1、条件2に該当した翻訳ルールに対する処理操作を表している。
すなわち、2つ目の「先頭」と3つ目の「”の”」というデータが、翻訳ルールの「先頭」の単語の表層文字列が「の」のときという条件を表し、この条件に該当する翻訳ルールがあったときはこの翻訳ルール210に対して「削除」することを表すことにする。
このとき、このエントリが翻訳モデル103aの翻訳ルール210の「the train for → の 列車」(図6)に該当するため、ルール適用部106が、翻訳モデル103aからこの翻訳ルールを削除する。
As described above, the second and third data of this entry represent condition 1 and condition 2 of the translation rule, and the first data represents the processing operation for the translation rule corresponding to condition 1 and condition 2. Represents.
In other words, the second “first” and third ““ of ”” data represents the condition when the surface character string of the “first” word of the translation rule is “no”, and this condition is met. When there is a translation rule to be performed, this means that the translation rule 210 is “deleted”.
At this time, since this entry corresponds to “the train for → train” (FIG. 6) of the translation rule 210 of the translation model 103a, the rule application unit 106 deletes the translation rule from the translation model 103a.

そして、翻訳部110が、ルール適用部106で条件に従い適用しないと判断された翻訳ルールが削除された翻訳モデル103bを使用して、たとえばCYKパーザで解析する。すると、図7のような解析結果が得られ、「品川でMisakiguchi行きの列車にご乗車下さい」の1つの翻訳結果しか得られないこととなる。そして、翻訳部110が、得られたこの翻訳結果を出力装置140の出力し、ディスプレイに表示させる。   Then, the translation unit 110 uses the translation model 103b from which the translation rule determined not to be applied according to the condition by the rule application unit 106 is used, and is analyzed by, for example, a CYK parser. Then, an analysis result as shown in FIG. 7 is obtained, and only one translation result “get on a train bound for Misakiguchi in Shinagawa” is obtained. Then, the translation unit 110 outputs the obtained translation result from the output device 140 and displays it on the display.

(比較例)
次に、本発明の機械翻訳システムの比較例として、本発明の統語情報ルール126およびルール適用部106を備えていないText−to−Textのツリーベースの統計翻訳システムについて、以下説明する。
このシステムでは、翻訳モデル生成部で作成された翻訳モデルと、目的言語テキストコーパスから言語モデル生成部で生成した言語モデルを用いて、翻訳部が、入力データを翻訳して翻訳結果を出力する。
(Comparative example)
Next, as a comparative example of the machine translation system of the present invention, a text-to-text tree-based statistical translation system that does not include the syntactic information rule 126 and the rule application unit 106 of the present invention will be described below.
In this system, the translation unit translates input data and outputs a translation result using the translation model created by the translation model generation unit and the language model generated by the language model generation unit from the target language text corpus.

このとき翻訳部では、入力文をこれらの翻訳ルールを使用してCYKパーザで解析すると、図8のような解析結果が得られる。これを、この使用された翻訳ルールを使って日本語に翻訳すると、「常務の列車でMisakiguchi品川」と「品川でMisakiguchi行きの列車にご乗車下さい」という2つの翻訳結果が得られる。
複数の翻訳結果が得られたときは、それぞれの翻訳結果を得るために使用した翻訳モデルの翻訳ルールの確率値と、目的言語の言語モデルの確率値を翻訳部で掛け算をして求め、掛け算したときの値の大きい方を選ぶとする。
At this time, in the translation unit, when the input sentence is analyzed by the CYK parser using these translation rules, an analysis result as shown in FIG. 8 is obtained. When this is translated into Japanese using the translation rules used, two translation results are obtained: “Make a Misakiguchi Shinagawa on the managing train” and “Get on the train bound for Misakiguchi in Shinagawa”.
When multiple translation results are obtained, the translation unit's probability value of the translation model used to obtain each translation result and the target language's language model's probability value are multiplied by the translation unit. Suppose that the one with the larger value is selected.

このとき、統語的に不要な翻訳ルールが含まれているときに、この不要なルールを使った翻訳結果(この場合は「常務の列車でMisakiguchi品川」)の値が大きくなってしまうことも考えられ、このように、比較例では、精度が悪くなってしまう可能性がある。   At this time, when a syntactically unnecessary translation rule is included, the value of the translation result using this unnecessary rule (in this case, “Misakiguchi Shinagawa on the managing train”) may increase. Thus, in the comparative example, the accuracy may be deteriorated.

本発明では、比較例のようなケースに対応すべく、事前に統語情報ルール126によって翻訳ルールを変更することで、精度のよい翻訳を実現する。たとえば、本発明では、「の」という助詞の前には必ず何か単語が来て、「の」はその単語と関係があるので、「の」の前に何もないルールは不要という統語的な観点に基づき、統語情報ルール126に「削除 先頭 “の”」というエントリを作成する。ルール適用部106が、このエントリに該当する翻訳モデル103aを変更することで、精度よく翻訳ができるようになる。   In the present invention, accurate translation is realized by changing the translation rule by the syntactic information rule 126 in advance in order to deal with a case like the comparative example. For example, in the present invention, there is always a word before the particle “no”, and “no” is related to that word, so there is no need for a rule that has nothing before “no”. From this point of view, an entry of “deletion head“ no ”” is created in the syntactic information rule 126. The rule application unit 106 changes the translation model 103a corresponding to this entry, so that the translation can be performed with high accuracy.

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。   While the present invention has been described with reference to the embodiments and examples, the present invention is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

なお、本発明は以下の態様も含むことができる。
(付記1)
機械翻訳装置が、
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係である翻訳モデルを生成し、
前記翻訳モデルの適用を判断するための統語的な条件を統語情報ルールに記述し、
前記統語情報ルールに従って、前記翻訳モデルの適用を判断する機械翻訳方法。
(付記2)
(付記1)に記載の機械翻訳方法において、
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述され、
前記機械翻訳装置が、前記統語情報ルールに従って、対応する翻訳モデルを前記統語情報ルールの前記操作情報に従い変更する機械翻訳方法。
(付記3)
(付記1)または(付記2)に記載の機械翻訳方法において、
前記統語情報ルールは、前記条件に応じた翻訳モデルを削除する操作情報を、前記条件に対応付けて記述され、
前記機械翻訳装置が、前記統語情報ルールに従って、対応する翻訳モデルを削除する機械翻訳方法。
(付記4)
(付記1)乃至(付記3)いずれかに記載の機械翻訳方法において、
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳方法。
(付記5)
(付記1)乃至(付記4)いずれかに記載の機械翻訳方法において、
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳方法。
(付記6)
(付記1)乃至(付記5)いずれかに記載の機械翻訳方法において、
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳方法。
(付記7)
(付記1)乃至(付記6)いずれかに記載の機械翻訳方法において、
前記機械翻訳装置が、
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成し、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する翻訳手段と、
をさらに備える機械翻訳方法。
(付記8)
(付記1)乃至(付記7)いずれかに記載の機械翻訳方法において、
前記機械翻訳装置が、さらに、前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する機械翻訳方法。
(付記9)
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係である翻訳モデルを生成する手順、
前記翻訳モデルの適用を判断するための統語的な条件を記述した統語情報ルールに従って、前記翻訳モデルの適用を判断する手順をコンピュータに実行させるための機械翻訳プログラム。
(付記10)
(付記9)に記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述され、
前記統語情報ルールに従って、対応する翻訳モデルを前記統語情報ルールの前記操作情報に従い変更する手順をコンピュータに実行させるための機械翻訳プログラム。
(付記11)
(付記9)または(付記10)に記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルを削除する操作情報を、前記条件に対応付けて記述され、
前記統語情報ルールに従って、対応する翻訳モデルを削除する手順をコンピュータに実行させるための機械翻訳プログラム。
(付記12)
(付記9)乃至(付記11)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳プログラム。
(付記13)
(付記9)乃至(付記12)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳プログラム。
(付記14)
(付記9)乃至(付記13)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳プログラム。
(付記15)
(付記9)乃至(付記14)いずれかに記載の機械翻訳プログラムにおいて、
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成する手順、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する手順をさらにコンピュータに実行させるための機械翻訳プログラム。
(付記16)
(付記9)乃至(付記15)いずれかに記載の機械翻訳プログラムにおいて、
前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する手順をさらにコンピュータに実行させるための機械翻訳プログラム。
(付記17)
原言語テキストコーパスと目的言語テキストコーパスから、原言語と目的言語間の対応関係である翻訳モデルを生成する翻訳モデル生成手段と、
前記翻訳モデルの適用を判断するための統語的な条件を記述した統語情報ルールと、
前記統語情報ルールに従って、前記翻訳モデルの適用を判断するルール適用手段と、
を備える機械翻訳システム。
(付記18)
(付記17)に記載の機械翻訳システムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールに従って、対応する翻訳モデルを前記統語情報ルールの前記操作情報に従い変更する機械翻訳システム。
(付記19)
(付記17)または(付記18)に記載の機械翻訳システムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルを削除する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールに従って、対応する翻訳モデルを削除する機械翻訳システム。
(付記20)
(付記17)乃至(付記19)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳システム。
(付記21)
(付記17)乃至(付記20)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳システム。
(付記22)
(付記17)乃至(付記21)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳システム。
(付記23)
(付記17)乃至(付記22)いずれかに記載の機械翻訳システムにおいて、
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成する言語モデル生成手段と、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する翻訳手段と、
をさらに備える機械翻訳システム。
(付記24)
(付記17)乃至(付記23)いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する更新手段をさらに備える機械翻訳システム。
In addition, this invention can also include the following aspects.
(Appendix 1)
Machine translation device
From the source language text corpus and the target language text corpus, generate a translation model that is the correspondence between the two languages.
Describe syntactic conditions for determining the application of the translation model in the syntactic information rule,
A machine translation method for determining application of the translation model according to the syntactic information rule.
(Appendix 2)
In the machine translation method described in (Appendix 1),
The syntactic information rule is described by associating operation information for the translation model corresponding to the condition with the condition,
A machine translation method in which the machine translation device changes a corresponding translation model according to the operation information of the syntactic information rule according to the syntactic information rule.
(Appendix 3)
In the machine translation method described in (Appendix 1) or (Appendix 2),
The syntactic information rule is described by associating operation information for deleting a translation model corresponding to the condition with the condition,
A machine translation method in which the machine translation device deletes a corresponding translation model according to the syntactic information rule.
(Appendix 4)
In the machine translation method according to any one of (Appendix 1) to (Appendix 3),
The syntactic information rule includes a condition for a source language or a condition for a target language.
(Appendix 5)
In the machine translation method according to any one of (Appendix 1) to (Appendix 4),
The syntactic information rule is a machine translation method in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
(Appendix 6)
In the machine translation method according to any one of (Appendix 1) to (Appendix 5),
The syntactic information rule is a machine translation method in which contents relating to a function word for a source language or a target language are described as the condition.
(Appendix 7)
In the machine translation method according to any one of (Appendix 1) to (Appendix 6),
The machine translation device is
Generating a language model indicating the linguistic correctness of the language from the target language text corpus;
Translation means for translating an input text using the translation model and the language model;
A machine translation method further comprising:
(Appendix 8)
In the machine translation method according to any one of (Appendix 1) to (Appendix 7),
The machine translation method, wherein the machine translation device further receives an editing operation of the syntactic information rule and updates the syntactic information rule according to the received editing operation.
(Appendix 9)
A procedure for generating a translation model corresponding to the correspondence between the two languages from the source language text corpus and the target language text corpus;
A machine translation program for causing a computer to execute a procedure for judging application of the translation model according to a syntactic information rule describing a syntactic condition for judging application of the translation model.
(Appendix 10)
In the machine translation program described in (Appendix 9),
The syntactic information rule is described by associating operation information for the translation model corresponding to the condition with the condition,
A machine translation program for causing a computer to execute a procedure for changing a corresponding translation model according to the operation information of the syntactic information rule according to the syntactic information rule.
(Appendix 11)
In the machine translation program described in (Appendix 9) or (Appendix 10),
The syntactic information rule is described by associating operation information for deleting a translation model corresponding to the condition with the condition,
A machine translation program for causing a computer to execute a procedure for deleting a corresponding translation model in accordance with the syntactic information rule.
(Appendix 12)
In the machine translation program according to any one of (Appendix 9) to (Appendix 11),
The syntactic information rule is a machine translation program including a condition for a source language or a condition for a target language.
(Appendix 13)
In the machine translation program according to any one of (Appendix 9) to (Appendix 12),
The syntactic information rule is a machine translation program in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
(Appendix 14)
In the machine translation program according to any one of (Appendix 9) to (Appendix 13),
The syntactic information rule is a machine translation program that describes, as the condition, contents related to a function word for a source language or a target language.
(Appendix 15)
In the machine translation program according to any one of (Appendix 9) to (Appendix 14),
Generating a language model indicating the linguistic correctness of the language from the target language text corpus;
A machine translation program for causing a computer to further execute a procedure for translating an input text using the translation model and the language model.
(Appendix 16)
In the machine translation program according to any one of (Appendix 9) to (Appendix 15),
A machine translation program for receiving a syntactic information rule editing operation and causing a computer to further execute a procedure for updating the syntactic information rule according to the received editing operation.
(Appendix 17)
A translation model generating means for generating a translation model that is a correspondence relationship between the source language and the target language from the source language text corpus and the target language text corpus;
A syntactic information rule describing a syntactic condition for determining application of the translation model;
Rule application means for determining application of the translation model according to the syntactic information rule;
A machine translation system comprising:
(Appendix 18)
In the machine translation system described in (Appendix 17),
The syntactic information rule describes operation information for a translation model corresponding to the condition in association with the condition,
The machine application system, wherein the rule applying unit changes a corresponding translation model according to the operation information of the syntactic information rule according to the syntactic information rule.
(Appendix 19)
In the machine translation system described in (Appendix 17) or (Appendix 18),
The syntactic information rule describes operation information for deleting a translation model corresponding to the condition in association with the condition,
The said rule application means is a machine translation system which deletes a corresponding translation model according to the said syntactic information rule.
(Appendix 20)
In the machine translation system according to any one of (Appendix 17) to (Appendix 19),
The syntactic information rule is a machine translation system including a condition for a source language or a condition for a target language.
(Appendix 21)
In the machine translation system according to any one of (Appendix 17) to (Appendix 20),
The syntactic information rule is a machine translation system in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
(Appendix 22)
In the machine translation system according to any one of (Appendix 17) to (Appendix 21),
The syntactic information rule is a machine translation system in which contents relating to a function word for a source language or a target language are described as the condition.
(Appendix 23)
In the machine translation system according to any one of (Appendix 17) to (Appendix 22),
Language model generation means for generating a language model indicating the linguistic correctness of the language from the target language text corpus;
Translation means for translating an input text using the translation model and the language model;
A machine translation system further comprising:
(Appendix 24)
In the machine translation system according to any one of (Appendix 17) to (Appendix 23),
A machine translation system further comprising an updating unit that receives an editing operation of the syntactic information rule and updates the syntactic information rule according to the received editing operation.

1 機械翻訳システム
100 データ処理装置
101 入力データ
102 翻訳モデル生成部
103a 翻訳モデル
103b 翻訳モデル
104 言語モデル生成部
105 言語モデル
106 ルール適用部
107 翻訳結果
110 翻訳部
120 記憶装置
122 原言語テキストコーパス
124 目的言語テキストコーパス
126 統語情報ルール
130 入力装置
140 出力装置
201 機械翻訳システム
210 翻訳ルール
222 操作文字列
224 区切り文字
226 条件文字列
228 条件文字列
DESCRIPTION OF SYMBOLS 1 Machine translation system 100 Data processing apparatus 101 Input data 102 Translation model production | generation part 103a Translation model 103b Translation model 104 Language model production | generation part 105 Language model 106 Rule application part 107 Translation result 110 Translation part 120 Storage device 122 Source language text corpus 124 Purpose Language text corpus 126 Syntactic information rule 130 Input device 140 Output device 201 Machine translation system 210 Translation rule 222 Operation character string 224 Separator character 226 Condition character string 228 Condition character string

Claims (10)

原言語テキストコーパスと目的言語テキストコーパスから、原言語と目的言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成する翻訳モデル生成手段と、
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールと、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更するルール適用手段と、
を備える機械翻訳システム。
At least one translation rule obtained by extracting a translation rule indicating the correspondence between the source language and the target language and the correctness of the correspondence from the source language text corpus and the target language text corpus, and the translation rule A translation model generating means for generating a translation model including a probability value indicating the probability of
A syntactic information rule describing a syntactic condition used to change the translation model;
Rule applying means for changing the translation model according to the condition of the syntactic information rule;
A machine translation system comprising:
請求項1に記載の機械翻訳システムにおいて、
前記統語情報ルールは、前記条件に応じた翻訳モデルに対する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールの前記条件合致する前記翻訳ルールを、当該統語情報ルールの前記操作情報に従い変更する機械翻訳システム。
The machine translation system according to claim 1,
The syntactic information rule describes operation information for a translation model corresponding to the condition in association with the condition,
The said rule application means is a machine translation system which changes the said translation rule which matches the said conditions of the said syntactic information rule according to the said operation information of the said syntactic information rule.
請求項1または2に記載の機械翻訳システムにおいて、
前記統語情報ルールは、前記条件に合致する翻訳ルールを削除する操作情報を、前記条件に対応付けて記述し、
前記ルール適用手段は、前記統語情報ルールの前記条件合致する翻訳ルールを削除する機械翻訳システム。
The machine translation system according to claim 1 or 2,
The syntactic information rule describes operation information for deleting a translation rule that matches the condition, in association with the condition,
The rule application unit is a machine translation system that deletes a translation rule that matches the condition of the syntactic information rule.
請求項1乃至3いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語に対する条件または目的言語に対する条件を含む機械翻訳システム。
The machine translation system according to any one of claims 1 to 3,
The syntactic information rule is a machine translation system including a condition for a source language or a condition for a target language.
請求項1乃至4いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語または目的言語に対する品詞または表層文字列を前記条件として記述できる機械翻訳システム。
The machine translation system according to any one of claims 1 to 4,
The syntactic information rule is a machine translation system in which a part of speech or a surface character string for a source language or a target language can be described as the condition.
請求項1乃至5いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールは、原言語または目的言語に対する機能語に関する内容を前記条件として記述する機械翻訳システム。
The machine translation system according to any one of claims 1 to 5,
The syntactic information rule is a machine translation system in which contents relating to a function word for a source language or a target language are described as the condition.
請求項1乃至6いずれかに記載の機械翻訳システムにおいて、
前記目的言語テキストコーパスから、その言語の言語的な正しさを示す言語モデルを生成する言語モデル生成手段と、
入力テキストを、前記翻訳モデルと前記言語モデルを用いて翻訳する翻訳手段と、
をさらに備える機械翻訳システム。
The machine translation system according to any one of claims 1 to 6,
Language model generation means for generating a language model indicating the linguistic correctness of the language from the target language text corpus;
Translation means for translating an input text using the translation model and the language model;
A machine translation system further comprising:
請求項1乃至7いずれかに記載の機械翻訳システムにおいて、
前記統語情報ルールの編集操作を受け付け、受け付けた前記編集操作に従い前記統語情報ルールを更新する更新手段をさらに備える機械翻訳システム。
The machine translation system according to any one of claims 1 to 7,
A machine translation system further comprising an updating unit that receives an editing operation of the syntactic information rule and updates the syntactic information rule according to the received editing operation.
機械翻訳装置が、
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成し、
前記翻訳モデルの変更に用いられる統語的な条件を統語情報ルールに記述し、
前記統語情報ルールの前記条件に従って、前記翻訳モデルを変更する機械翻訳方法。
Machine translation device
From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule Generate a translation model that includes a probability value indicating the probability ,
Describe the syntactic conditions used to change the translation model in the syntactic information rules,
A machine translation method for changing the translation model according to the condition of the syntactic information rule.
原言語テキストコーパスと、目的言語テキストコーパスから、この2言語間の対応関係を示す翻訳ルールと、その対応関係の正しさとを抽出し、得られた少なくとも1つの翻訳ルールと、その翻訳ルールの確からしさを示す確率値とを含む翻訳モデルを生成する手順、
前記翻訳モデルの変更に用いられる統語的な条件を記述した統語情報ルールの前記条件に従って、前記翻訳モデルを変更する手順をコンピュータに実行させるための機械翻訳プログラム。
From the source language text corpus and the target language text corpus, a translation rule indicating the correspondence between the two languages and the correctness of the correspondence are extracted, and at least one obtained translation rule and the translation rule A procedure for generating a translation model including a probability value indicating the probability ,
A machine translation program for causing a computer to execute a procedure of changing the translation model according to the condition of the syntactic information rule describing a syntactic condition used for changing the translation model.
JP2011266511A 2011-12-06 2011-12-06 Machine translation system, machine translation method, and machine translation program Expired - Fee Related JP5879989B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011266511A JP5879989B2 (en) 2011-12-06 2011-12-06 Machine translation system, machine translation method, and machine translation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011266511A JP5879989B2 (en) 2011-12-06 2011-12-06 Machine translation system, machine translation method, and machine translation program

Publications (2)

Publication Number Publication Date
JP2013120407A JP2013120407A (en) 2013-06-17
JP5879989B2 true JP5879989B2 (en) 2016-03-08

Family

ID=48773040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011266511A Expired - Fee Related JP5879989B2 (en) 2011-12-06 2011-12-06 Machine translation system, machine translation method, and machine translation program

Country Status (1)

Country Link
JP (1) JP5879989B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6265923B2 (en) * 2015-01-16 2018-01-24 日本電信電話株式会社 Translation learning apparatus, method, and program
CN112613326B (en) * 2020-12-18 2022-11-08 北京理工大学 Tibetan language neural machine translation method fusing syntactic structure
CN116308584A (en) * 2023-04-04 2023-06-23 中国民航信息网络股份有限公司 Method, device, equipment and readable storage medium for obtaining tariff rules

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362249A (en) * 2003-06-04 2004-12-24 Advanced Telecommunication Research Institute International Translation knowledge optimizing apparatus, computer program for optimizing translation knowledge, computer, and storage medium

Also Published As

Publication number Publication date
JP2013120407A (en) 2013-06-17

Similar Documents

Publication Publication Date Title
US11741309B2 (en) Templated rule-based data augmentation for intent extraction
KR102268875B1 (en) System and method for inputting text into electronic devices
CN1618064B (en) Translation method and computer equipment
JP5071373B2 (en) Language processing apparatus, language processing method, and language processing program
EP1787221A2 (en) Computer implemented method for use in a translation system
JP2001282786A (en) System and method for machine translation and storage medium with program for executing the same method stored thereon
JP5410334B2 (en) Word order conversion device, machine translation statistical model creation device, machine translation device, word order conversion method, machine translation statistical model creation method, machine translation method, program
JP5879989B2 (en) Machine translation system, machine translation method, and machine translation program
Graliński et al. PSI-toolkit: A natural language processing pipeline
JP2017151553A (en) Machine translation apparatus, machine translation method, and program
Lindén et al. Using HFST for creating computational linguistic applications
Ding et al. Automatic learning of parallel dependency treelet pairs
JP2013134753A (en) Wrong sentence correction device, wrong sentence correction method and program
Tambouratzis et al. Machine Translation with Minimal Reliance on Parallel Resources
JP4869281B2 (en) Machine translation apparatus, program and method
Rajendran Parsing in tamil: Present state of art
JP4881399B2 (en) Bilingual information creation device, machine translation device, and program
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP5746921B2 (en) Machine translation apparatus, method and program
JP4802327B2 (en) Example sentence search method based on dependency structure, program, recording medium storing example sentence search program, and example sentence search apparatus
JP2004264960A (en) Example-based sentence converter and computer program
Chiang et al. The hidden TAG model: synchronous grammars for parsing resource-poor languages
JP4092861B2 (en) Natural language pattern creation apparatus and method
Razmara Application of tree transducers in statistical machine translation
JP2007102530A (en) A device that generates a grammar for a specific language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160118

R150 Certificate of patent or registration of utility model

Ref document number: 5879989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees