JP3085394B2 - Translated word selection method in multi-sentence translation and machine translation system using the same - Google Patents
Translated word selection method in multi-sentence translation and machine translation system using the sameInfo
- Publication number
- JP3085394B2 JP3085394B2 JP02228127A JP22812790A JP3085394B2 JP 3085394 B2 JP3085394 B2 JP 3085394B2 JP 02228127 A JP02228127 A JP 02228127A JP 22812790 A JP22812790 A JP 22812790A JP 3085394 B2 JP3085394 B2 JP 3085394B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- translation
- text
- sentence
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、機械翻訳システムにおける訳語の選択方法
および訳語選択情報抽出支援方法に関する。さらに詳し
くは、複数の文からなるテキストを翻訳する際に、テキ
スト全体から得られる情報を用いて、訳語選択および訳
語選択情報抽出支援を行う方法に関する。DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention relates to a method of selecting a translated word and a method of supporting extraction of translated word selection information in a machine translation system. More specifically, the present invention relates to a method of performing translation word selection and translation word selection information extraction support using information obtained from the entire text when translating a text composed of a plurality of sentences.
さらに、これらの方法を用いた機械翻訳システムに関
する。Further, the present invention relates to a machine translation system using these methods.
翻訳を行う際、原言語の単語と目的言語の単語の間に
は多対多の関係がある。そのため、機械翻訳システムに
おいて、ある単語の訳語を決定することは困難である。
これを解決するための方法として、特開昭60−74081号
公報に示されるように、翻訳される文内の単語間の共起
情報を用いて訳語を選択する方法が存在する。また、特
開昭63−278174号公報に示されるようにテキストの分野
を自動決定し、辞書中の訳語に付されている分野コード
を利用して訳語を選択する方法が存在する。When performing translation, there is a many-to-many relationship between words in the source language and words in the target language. Therefore, it is difficult for a machine translation system to determine a translation of a certain word.
As a method for solving this, there is a method of selecting a translated word using co-occurrence information between words in a sentence to be translated, as disclosed in Japanese Patent Application Laid-Open No. 60-74081. Further, as disclosed in Japanese Patent Application Laid-Open No. 63-278174, there is a method of automatically determining a text field and selecting a translation using a field code assigned to a translation in a dictionary.
また、これらの訳語選択のための情報を抽出するため
の方法としては、特開平1−41971号公報の如く単語間
の共起情報を抽出する方法がある。As a method for extracting the information for selecting these translated words, there is a method for extracting co-occurrence information between words as disclosed in Japanese Patent Application Laid-Open No. 1-41971.
しかしながら、特開昭60−74081の如く、一文内の単
語間の共起情報を用いて訳語を選択する方法の場合、同
じ文内に共起する単語が存在しない場合には、訳語選択
をうまく行うことができなかった。However, in the method of selecting a translated word using co-occurrence information between words in one sentence, as in Japanese Patent Application Laid-Open No. 60-74081, if there is no co-occurring word in the same sentence, the translated word selection is performed successfully. Could not do.
また、特開昭63−278174の如く、テキストの分野を利
用して訳語選択を行う方法の場合、分野のように粗い情
報では単語の訳し分けについてのユーザの要求にきめ細
かく対応することができないという問題点があった。ま
た、各単語が各分野に出現する割合を決定することが困
難であるという問題点があった。Also, in the case of a method of selecting a translated word using a field of text as disclosed in Japanese Patent Application Laid-Open No. 63-278174, it is said that coarse information like the field cannot respond to a user's request for translating words in detail. There was a problem. Further, there is a problem that it is difficult to determine a ratio of each word appearing in each field.
また、共起情報を抽出するための方法としては特開平
1−41971号公報の如きものがあるが、共起情報を抽出
するために、本来の翻訳業務とは関係のない多くの例文
を用意しなければならず、ユーザが翻訳処理中に共起情
報を抽出することを支援す機能はなかった。As a method for extracting co-occurrence information, there is a method as disclosed in Japanese Patent Laid-Open No. 1-41971, but in order to extract co-occurrence information, many example sentences that are not related to the original translation work are prepared. There was no function to assist the user in extracting co-occurrence information during the translation process.
本発明の目的は、複数文からなるテキストを処理の対
象とすることを利用し、1文単位の処理では適切な訳語
を選択できないような場合にも、適切な訳語を選択する
方法を提供することにある。An object of the present invention is to provide a method for selecting an appropriate translated word even when it is not possible to select an appropriate translated word by processing one sentence at a time, by using a text composed of a plurality of sentences as a processing target. It is in.
本発明の他の目的は、複数の訳語選択ステップに予め
優先順位を設定し、優先順位の高いステップによって選
択された訳語を優先することによって、より適切な訳語
を選択する方法を提供することにある。Another object of the present invention is to provide a method for selecting a more appropriate translation word by setting priorities to a plurality of translation word selection steps in advance and giving priority to the translation word selected by the step with the higher priority. is there.
本発明のさらに他の目的は、翻訳処理中や、翻訳処理
後のユーザの指示を利用して、共起情報や分野情報など
の訳語選択のための情報を抽出することを支援する方法
を提供することにある。Still another object of the present invention is to provide a method for supporting extraction of information for selecting a translation word such as co-occurrence information or field information using a user's instruction during or after translation processing. Is to do.
本発明のさらに他の目的は、本発明の主旨の訳語選択
方法を用いた機械翻訳システムを提供することにある。Still another object of the present invention is to provide a machine translation system using a translated word selection method according to the gist of the present invention.
上記目的を達成するため、本発明では、複数の文から
なるテキストを翻訳する際に、テキスト全体から訳語選
択のための情報を抽出するステップと抽出された訳語選
択のための情報を用いて訳語を選択するステップを設け
る。In order to achieve the above object, according to the present invention, when translating a text composed of a plurality of sentences, a step of extracting information for selecting a translation from the entire text, and using the extracted information for selecting a translation, Is provided.
また、上記他の目的を達成するため、訳語選択のため
の情報を抽出するステップを複数設け、各ステップに予
め優先順位を与え、適用可能な手段のうち運先順位が最
も高いステップによって訳語選択を行う。In order to achieve the above object, a plurality of steps for extracting information for selecting a translation word are provided, and priorities are given to the respective steps in advance. I do.
さらに他の目的を達成するため、ユーザが訳語を選択
するステップと訳語選択情報の候補を抽出するステップ
の候補の中からユーザが正しい訳語選択情報を選択する
ステップを設ける。In order to achieve still another object, there is provided a step in which the user selects correct translation word selection information from candidates of a step of selecting a translation word and a step of extracting candidates of translation word selection information.
本発明では、テキスト全体から訳語選択のための情報
を抽出することによって、従来の1文単位の処理では、
訳語を選択することができない場合でも、適切な訳語を
選択することができるようになる。In the present invention, by extracting information for selecting a translation word from the entire text, in the conventional processing for each sentence,
Even when a translation cannot be selected, an appropriate translation can be selected.
また、訳語選択のための情報を抽出する方法を複数用
意し、各手段に予め優先順位を与えておくことによっ
て、適切な訳語を選択できるようになる。Also, by preparing a plurality of methods for extracting information for selecting a translated word and assigning priorities to the respective means in advance, an appropriate translated word can be selected.
さらに、ユーザが訳語を選択するステップと訳語選択
情報の候補を抽出するステップと候補の中からユーザが
訳語選択情報を選択するステップを設けることにより、
翻訳処理中に共起情報や分野情報などの訳語選択情報を
容易に抽出することができるようになる。Further, by providing a step for the user to select a translation, a step for extracting candidates for translation word selection information, and a step for the user to select translation word selection information from the candidates,
Translated word selection information such as co-occurrence information and field information can be easily extracted during the translation process.
以下、本発明の実施例を図面に基づいて詳細に説明す
る。なお、これにより本発明が限定されるものではな
い。Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited by this.
第2図は、本発明の第1の実施例である複数の日本語
文を英文に翻訳する機械翻訳システムのブロック図であ
る。FIG. 2 is a block diagram of a machine translation system for translating a plurality of Japanese sentences into English sentences according to the first embodiment of the present invention.
図中、1はディスプレイ装置、2はキーボート、3は
原文ファイル、4は訳文ファイル、5は単語辞書、6は
複合語辞書、7はメモリ、8は処理装置である。メモリ
7は、テキスト構成語テーブル71,複合語構成単語テー
ブル72,分野情報テーブル73からなる。In the figure, 1 is a display device, 2 is a keyboard, 3 is an original file, 4 is a translation file, 5 is a word dictionary, 6 is a compound word dictionary, 7 is a memory, and 8 is a processing device. The memory 7 includes a text constituent word table 71, a compound word constituent word table 72, and a field information table 73.
上記機械翻訳システムにより、翻訳処理を行う過程を
第1図の処理フローを用いて説明する。The process of performing the translation process by the machine translation system will be described with reference to the processing flow of FIG.
(ステップ11) 原文ファイル3から、テキストデータを取り出し、機
械翻訳システムに入力する。テキストデータ入力は、キ
ーボードのような入力装置によって直接行っても良い。
入力された原文の例を第3図に示す。(Step 11) Text data is extracted from the original text file 3 and input to the machine translation system. Text data input may be performed directly by an input device such as a keyboard.
FIG. 3 shows an example of the input original text.
(ステップ12) 入力されたテキスト中で、ひとまとまりのテキストと
して扱う範囲を指定する。例えば、入力データとして1
冊の本が全て入力されている場合には、章,節をひとま
とまりのテキストとして指定しても良い。指定がなけれ
ば、入力されたテキスト全てをひとまとまりのテキスト
として扱う。以下、このひとまとまりのテキストを翻訳
単位と呼ぶ。以下では、第3図の原文全体を翻訳単位と
した場合を例にあげ、一つの翻訳単位を処理する場合に
ついて説明する。入力テキストが複数の翻訳単位からな
る場合には、一つの翻訳単位に対する処理を繰り返せば
良い。(Step 12) In the input text, specify a range to be treated as a set of text. For example, as input data, 1
If all books have been input, chapters and sections may be specified as a group of texts. If not specified, treat all input text as a single text. Hereinafter, this group of texts is referred to as a translation unit. In the following, a case where one translation unit is processed will be described by taking as an example a case where the entire original sentence in FIG. 3 is used as a translation unit. If the input text is composed of a plurality of translation units, the processing for one translation unit may be repeated.
(ステップ13) 翻訳したい文を指示する。これは、先頭文と最終文を
指定することなどにより、範囲で指示しても良いし、翻
訳したい文を全て直接、番号で指示しても良い。指示が
ない場合、翻訳単位内の文を全て翻訳しても良いし、翻
訳単位内で未翻訳の文のみを翻訳しても良い。これは、
予めデフォルト値として設定しておく。(Step 13) Specify the sentence to be translated. This may be designated in a range by designating the first sentence and the last sentence, or all the sentences to be translated may be designated directly by numbers. If there is no instruction, all sentences in the translation unit may be translated, or only untranslated sentences in the translation unit may be translated. this is,
It is set in advance as a default value.
(ステップ14) 翻訳単位全体から、訳語選択のための情報を抽出す
る。このステップを第4図を用いて詳細に説明する。(Step 14) Extract information for selecting a translated word from the entire translation unit. This step will be described in detail with reference to FIG.
以下のステップ141からステップ143は、訳語選択のた
めの情報として翻訳単位内に出現する単語および複合語
を抽出するテキスト構成語抽出処理である。The following steps 141 to 143 are text constituent word extraction processing for extracting words and compound words that appear in the translation unit as information for selecting a translated word.
(ステップ141) 翻訳単位内の全ての単語および複合語を切り出し、形
態素処理を行う。単語,複合語の切り出し、および形態
素処理方法は、特開昭61−40671号公報にて開示されて
いる方法を用いれば良いので、詳細な説明は省略する。(Step 141) All words and compound words in the translation unit are cut out and morphological processing is performed. Since the method disclosed in Japanese Patent Application Laid-Open No. 61-40671 may be used for extracting words and compound words and for processing morphemes, detailed description thereof will be omitted.
(ステップ142) 翻訳単位内に出現する単語および複合語のリストを作
成する。翻訳単位内の全ての単語および複合語とそれぞ
れの出現頻度を調べ、頻度順にテキスト構成語テーブル
71へ格納する。ただし、単語に関しては、助詞,助動詞
などの機能語は除き、名詞,動詞などの内容語のみを格
納する。以下、これらの単語および複合語をテキスト構
成語と呼ぶ。第3図に示す例文の第1文を処理し終えた
時点でのテキスト構成語テーブル71の例を、第5(a)
図に示す。テキスト構成語テーブル71は、テキスト構成
語,出現頻度,キーワードフラグ,複合語フラグからな
る。テキスト構成語は、翻訳単位内の文に出現する内容
語あるいは複合語を表す。出現頻度は、各テキスト構成
語が翻訳単位内に出現する頻度を表しており、この時点
では全て1である。キーワードフラグは訳語選択条件と
して用いるかどうかの判定に用いるフラグであり、最初
全てオフに設定する。複合語フラグは、そのテキスト構
成語が、複合語か単語かを示すフラグであり、複合語な
らオンにし、単語ならばオフにしておく。例えば、第5
(a)図では、エキスパートシステムのみが複合語で複
合語フラグがオンであり、あとはオフである。以下、テ
キスト内の全ての文について処理を行い、繰り返して出
現する単語は出現頻度を数えてテキスト構成語テーブル
71を作成する。(Step 142) A list of words and compound words appearing in the translation unit is created. Examine all words and compound words in the translation unit and their appearance frequencies, and text component word table in order of frequency
Store in 71. However, as for words, only content words such as nouns and verbs are stored, excluding functional words such as particles and auxiliary verbs. Hereinafter, these words and compound words are referred to as text constituent words. FIG. 5A shows an example of the text constituent word table 71 at the time when the first sentence of the example sentence shown in FIG. 3 has been processed.
Shown in the figure. The text constituent word table 71 includes a text constituent word, an appearance frequency, a keyword flag, and a compound word flag. Text constituent words represent content words or compound words that appear in the sentences in the translation unit. The appearance frequency indicates the frequency at which each text constituent word appears in the translation unit, and is all 1 at this time. The keyword flag is a flag used to determine whether or not to use as a translation word selection condition, and is initially set to all off. The compound word flag is a flag indicating whether the text constituent word is a compound word or a word. If the compound word is a compound word, it is turned on, and if it is a word, it is turned off. For example, the fifth
In (a), only the expert system is a compound word, and the compound flag is on, and the rest is off. Hereinafter, processing is performed for all sentences in the text, and words that appear repeatedly are counted in the frequency of appearance,
Create 71.
(ステップ143) テキスト構成語テーブル71中で、予め定められた閾値
Thr1以上の出現頻度を持つテキスト構成語のキーワード
フラグをオンにする。本実施例では、閾値が1の場合、
即ち全てのキススト構成語を訳語選択条件として用いる
場合について説明する。この場合、全てのテキスト構成
語のキーワードフラグがオンになる。以上の処理を終え
たテキスト構成語テーブルを第5(b)図に示す。(Step 143) A predetermined threshold in the text constituent word table 71
Turn on the keyword flag of a text constituent word having an appearance frequency of Thr1 or more. In this embodiment, when the threshold is 1,
That is, a case will be described in which all kiss words are used as translation word selection conditions. In this case, the keyword flags of all the text constituent words are turned on. FIG. 5 (b) shows the text constituent word table after the above processing.
閾値を大きくした場合、キーワードフラグがオンにな
るのは、出現頻度が高いテキスト構成語である。閾値を
大きくすることで、訳語選択条件として用いられる語数
が減少するため、処理時間を短縮することができる。ま
た、出現頻度が高いテキスト構成語は、テキストを特徴
づけるキーワードであると考えられるため、閾値を大き
くすることによって、訳語選択精度が大きく下がること
はない。また、テキストデータベースなどにおいて、テ
キストを検索するためのキーワードがテキストに予め付
与されている場合などは、テキストから単語を抽出する
代わりに、それらのキーワードを用いても良い。When the threshold value is increased, the keyword flag is turned on for a text component having a high appearance frequency. By increasing the threshold, the number of words used as the translation word selection condition decreases, so that the processing time can be shortened. Also, text constituent words having a high appearance frequency are considered to be keywords that characterize the text, and therefore, by increasing the threshold value, the translation word selection accuracy does not decrease significantly. Further, in the case where a keyword for searching for a text is previously assigned to the text in a text database or the like, the keyword may be used instead of extracting a word from the text.
次のステップ144は、訳語選択のための情報として複
合語を構成する単語とその訳語を抽出する複合語構成単
語抽出処理である。The next step 144 is a compound word extraction process for extracting the words constituting the compound as the information for selecting the translation and the translation.
(ステップ144) テキスト構成語テーブル71中で複合語フラグがオンで
ある全ての語、即ち全ての複合語について複合語辞書6
を検索し、各複合語の見出しを構成する単語およびこれ
に対応する訳語を、複合語構成単語テーブル72に格納す
る。(Step 144) The compound word dictionary 6 for all words whose compound word flag is on in the text constituent word table 71, that is, for all compound words
Is stored in the compound word table 72, and the words forming the heading of each compound word and the corresponding translations are stored.
第6図に複合語辞書6の例を示す。複合語辞書6は、
見出し部、訳語部,付加情報部からなる。見出し,訳語
はそれぞれ、少なくとも二つの単語から構成されてい
る。付加情報部は、分野コード,構成単語対応関係から
なる。分野コードには、この複合語が用いられやすい分
野がコードによって記述されている。特定の分野に限定
できない場合には「一般」というコードを付与する。構
成単語対応関係には、複合語の見出しを構成する単位と
複合語の訳語を構成する単語間の関係を保持させてお
く。例えば、第6図の場合、「知識表現」という複合語
が、「知識」,「表現」という単語から構成されるこ
と、訳語が“knowledge representation"であり、“kn
owledge",“representation"という単語から構成される
こと、知識工学の分野で使われるという情報の他に、
「知識」の訳語が“knowledge"であり、「表現」の訳語
が、“representation"であるという情報が辞書に格納
されている。FIG. 6 shows an example of the compound word dictionary 6. The compound word dictionary 6 is
It consists of a heading part, a translated word part, and an additional information part. The headline and the translation are each composed of at least two words. The additional information section includes a field code and a constituent word correspondence. In the field code, a field in which this compound word is easily used is described by the code. If it cannot be limited to a specific field, the code "general" is assigned. The constituent word correspondence holds a relation between a unit forming a compound word heading and a word forming a translation of the compound word. For example, in the case of FIG. 6, the compound word “knowledge expression” is composed of the words “knowledge” and “expression”, and the translated word is “knowledge representation”.
owledge "," representation ", and information that it is used in the field of knowledge engineering.
Information that the translation of "knowledge" is "knowledge" and the translation of "expression" is "representation" is stored in the dictionary.
ここで、例えば、「知識表現」という複合語がテキス
ト中にあった場合には「知識」,「表現」という単語お
よび“knowledge",“representation"という単語を複合
語構成単語テーブル72に格納する。複合語構成単語テー
ブル72の例を第7図に示す。第5(b)図に示すテキス
ト構成語テーブル71の「エキスパートシステム」,「ル
ールベース」,「ファジィ推論」,「知識表現」といっ
た複合語に、以上の処理を適用した結果、複合語を構成
する単語とその訳語が、第7図に示すように、複合語構
成単語テーブル72に格納される。Here, for example, when the compound word “knowledge expression” is present in the text, the words “knowledge” and “expression” and the words “knowledge” and “representation” are stored in the compound word table 72. . FIG. 7 shows an example of the compound word table 72. As a result of applying the above processing to compound words such as “expert system”, “rule base”, “fuzzy inference”, and “knowledge expression” in the text constituent word table 71 shown in FIG. The words to be translated and their translations are stored in the compound word table 72 as shown in FIG.
以下のステップ145からステップ149は、訳語選択のた
めの情報として翻訳単位の分野を決定する分野決定処理
である。The following steps 145 to 149 are field determination processing for determining a field of a translation unit as information for selecting a translation word.
(ステップ145) テキスト構成語テーブル71を参照し、ステップ141で
抽出した全ての複合語について、複合語辞書6を検索し
分野コードを抽出する。(Step 145) With reference to the text constituent word table 71, the compound word dictionary 6 is searched for all compound words extracted in step 141, and field codes are extracted.
(ステップ146) 各複合語に含まれる分野コードの種類が予め定められ
た閾値Thr2以下であれば、第8図に示す分野情報テーブ
ル73において、ステップ145で抽出した分野コードに対
応する欄の値を1増す。ただし、「一般」というコード
が付与されている単語がある場合は何もしない。例え
ば、第6図の「知識表現」の場合、分野コードの種類
は、「知識工学」の1種類である。ここで、閾値Thr2が
2の場合には、「知識工学」という欄の値を1増す。(Step 146) If the type of the field code included in each compound word is equal to or less than the predetermined threshold Thr2, the value of the field corresponding to the field code extracted in step 145 in the field information table 73 shown in FIG. Is increased by one. However, if there is a word to which the code “general” is assigned, nothing is performed. For example, in the case of “knowledge expression” in FIG. 6, the type of the field code is one type of “knowledge engineering”. Here, when the threshold value Thr2 is 2, the value of the column “knowledge engineering” is increased by one.
(ステップ147) テキスト構成語テーブル71を参照し、複合語でないテ
キスト構成語、即ち複合語に含まれない全ての単語の分
野決定用分野コードを、単語辞書を検索して調べる。単
語辞書の例を第9(a)図、第9(b)図に示す。単語
辞書は、日本語部と訳語部から構成される。日本語部に
は、見出しとその単語が取り得る品詞とその品詞に固有
の情報、および分野決定用分野コードが記述されてい
る。例えば、第9(a)図の場合、見出しは、「構築」
である。また、品詞としては、動詞(#Vで記述)、名
詞(#Nで記述)があり、動詞はサ変活用をすることが
記述されている。さらに、分野を特定できない一般的な
用語であることが分野決定用分野コード(#NARで記
述)に記述されている。(Step 147) With reference to the text constituent word table 71, the text dictionary is searched for the text constituent words that are not compound words, that is, the field codes for field determination of all the words not included in the compound word. Examples of word dictionaries are shown in FIGS. 9 (a) and 9 (b). The word dictionary is composed of a Japanese part and a translated part. In the Japanese language part, the part of speech that the headline and the word can take, information unique to the part of speech, and the field code for field determination are described. For example, in the case of FIG. 9 (a), the heading is “construct”
It is. The part of speech includes a verb (described by #V) and a noun (described by #N), and it is described that the verb is to be utilized. Further, a general term for which a field cannot be specified is described in the field code for field determination (described by #NAR).
訳語部は、1つ以上の訳語グループからなる。各訳語
グループは、一つの語義に対応している。例えば、「構
築」の訳語としては、“build"と“construct"の2種類
があり、それぞれが一つの訳語グループを構成する。そ
して、各訳語グループは、各訳語の派生語(品詞毎に#
V,#Nなどで記述)、共起条件(#COで記述)、訳語選
択用分野コード(#EARで記述)、統計的優先度(#ST
で記述)からなる。共起条件としては、ある訳語と密接
に関係する単語が記述されている。また、訳語選択用分
野コードには、ある訳語に関係の深い分野が記述されて
いる。また、統計的優先度は、統計的に多く使用される
順に高い優先度(小さい数字)が付与されている。The translation section is composed of one or more translation groups. Each translated word group corresponds to one meaning. For example, there are two types of translation of "construct", "build" and "construct", each of which constitutes one translation group. Then, each translated word group is a derivative of each translated word (# for each part of speech)
V, #N, etc.), co-occurrence condition (describe with #CO), translation selection field code (describe with #EAR), statistical priority (#ST
). As the co-occurrence condition, a word closely related to a certain translated word is described. Also, the translation word selection field code describes a field closely related to a certain translation word. As for the statistical priorities, higher priorities (smaller numbers) are assigned in the order of statistical use.
例えば、第9(a)図の「構築」の場合、次のような
ことが記述されている。2個の訳語グループを持ち、1
番目の訳語グループは統計的優先度2で、2番目の訳語
グループは統計的優先度1である。1番目の訳語グルー
プには、動詞“build"および“building"があり、エキ
スパートシステムという複合語と共起し、分野は「一
般」であり、特に限定できない。2番目の訳語グループ
には、動詞“construct",名詞“construct",形容詞“co
nstructive"があり、共起条件は持たず、分野は「一
般」、即ち特定の分野に限定できない。For example, in the case of “construction” in FIG. 9A, the following is described. With two translation groups,
The second translation group has statistical priority 2 and the second translation group has statistical priority 1. The first translation group includes the verbs "build" and "building", which co-occur with the compound word "expert system", and whose field is "general", and cannot be particularly limited. The second translation group includes the verb "construct", the noun "construct", and the adjective "co
nstructive ", has no co-occurrence conditions, and the field is" general ", that is, it cannot be limited to a specific field.
(ステップ148) 分野決定用分野コードの種類が予め定められた閾値Th
r2以下であれば、第8図に示す分野情報テーブル73の、
その単語の分野コードに対応する欄の値を1増す。ただ
し、「一般」というコードが付与されている場合は何も
しない。例えば、第9(a)図の「構築」の場合、分野
決定用分野コードの種類は、1種類であるが、コードが
「一般」なので、分野情報テーブル73を変更しない。(Step 148) The type of field code for field determination is a predetermined threshold Th
If it is equal to or less than r2, the field information table 73 shown in FIG.
The value of the column corresponding to the field code of the word is increased by one. However, if the code “general” is assigned, nothing is performed. For example, in the case of “construction” in FIG. 9A, the type of the field determination field code is one, but since the code is “general”, the field information table 73 is not changed.
(ステップ149) 各分野に対応する欄の値を比較し、予め設定した閾値
以上の個数の単語が現れた分野の分野選択フラグをオン
にし、テキストの分野として選択する。(Step 149) The values in the fields corresponding to the respective fields are compared, and the field selection flag of the field in which the number of words equal to or larger than the preset threshold appears is turned on, and the field is selected as the text field.
以下、ステップ15〜18は、翻訳指示を受けた文を、1
文ずつ文番号の小さい順に翻訳するステップである。Hereinafter, steps 15 to 18 are executed by
This is a step of translating each sentence in ascending order of the sentence number.
(ステップ15) 解析処理を行う。入力された日本文を形態素解析,構
文解析し中間表現を得る。(Step 15) Perform analysis processing. Morphological analysis and syntax analysis of the input Japanese sentence to obtain an intermediate representation.
(ステップ16) ステップ5で得られた中間表現に対し、変換処理を行
い、日本語よりの中間表現を英語よりの中間表現に変換
する。(Step 16) The intermediate expression obtained in step 5 is subjected to a conversion process to convert the intermediate expression from Japanese into an intermediate expression from English.
なお、ステップ15およびステップ16の処理は、特開昭
61−163467号公報にて開示されている方法を用いれば良
い。The processing of step 15 and step 16 are described in
The method disclosed in JP-A-61-163467 may be used.
(ステップ17) 文を構成する各単語が複数の訳語グループを持つ場
合、適切な訳語グループを選択する。文を構成する全て
の単語について、それぞれステップ171からステップ179
までの処理を繰り返し適用する。以下、文中のi番目の
単語に適用する場合を、第10図を用いて説明する。(Step 17) If each word constituting the sentence has a plurality of translation groups, an appropriate translation group is selected. Steps 171 to 179 for all words constituting the sentence
The process up to is repeated. Hereinafter, a case where the present invention is applied to the i-th word in a sentence will be described with reference to FIG.
(ステップ171) 文内の制約条件を用いて訳語グループの決定を行う。
以下、このステップを第11図を用いて詳細に説明する。(Step 171) A translated word group is determined using the constraints in the sentence.
Hereinafter, this step will be described in detail with reference to FIG.
(ステップ1711) jを1にする。(Step 1711) j is set to 1.
(ステップ1712) 辞書を検索し、j番目の訳語グループの共起条件とし
て記述されている単語を取り出す。(Step 1712) The dictionary is searched to extract a word described as a co-occurrence condition of the j-th translation group.
(ステップ1713) 現在翻訳中の文内に、ステップ1712で取り出した単語
が含まれているかどうか調べる。これは、翻訳処理に用
いるテーブルを参照することにより実現できる。含まれ
ていれば、ステップ1714へ移る。含まれていない場合
は、ステップ1715へ移る。(Step 1713) It is checked whether or not the word currently extracted is included in the currently translated sentence. This can be realized by referring to a table used for translation processing. If it is included, the process moves to step 1714. If not included, the process moves to step 1715.
(ステップ1714) j番目の訳語グループを選択し、次の単語の処理へ移
る。(Step 1714) The j-th translation group is selected, and the process proceeds to the next word.
(ステップ1715) 全ての訳語グループを処理したか調べる。全て処理し
ていたら、訳語グループ未決定のまま処理を終了する。
処理していない訳語グループがあれば、ステップ1716へ
移る。(Step 1715) It is checked whether all the translation groups have been processed. If all processes have been performed, the process ends with the translation word group undecided.
If there is an unprocessed word group, the process proceeds to step 1716.
(ステップ1716) jを1増し、ステップ1712へ戻る。(Step 1716) j is incremented by 1, and the process returns to Step 1712.
第3図の例文において、第16文を翻訳する場合、同じ
文内に「エキスパートシステム」があるので、「構築」
の訳語グループとして“build"の訳語グループが選択さ
れる。In the example sentence of FIG. 3, when translating the 16th sentence, there is an "expert system" in the same sentence.
The translation group of "build" is selected as the translation group of.
(ステップ172) ステップ171において訳語グループが決定されていれ
ば処理を終了し、次の単語へ移る。未決定ならば、ステ
ップ173へ移る。(Step 172) If the translation word group has been determined in step 171, the process ends, and the process moves to the next word. If undecided, proceed to step 173.
(ステップ173) 複合語構成単語テーブル72を利用して訳語グループ決
定を行う。以下、このステップを第12図を用いて詳細に
説明する。(Step 173) A translated word group is determined by using the compound word table 72. Hereinafter, this step will be described in detail with reference to FIG.
(ステップ1731) 複合語構成単語テーブル72の日本語欄を検索し、i番
目の単語が含まれているかどうか調べる。含まれていな
ければ処理を終了し、含まれていたときには、ステップ
1732へ移る。(Step 1731) The Japanese column of the compound word table 72 is searched to determine whether the i-th word is included. If it is not included, the process ends.If it is included, step
Move to 1732.
(ステップ1732) ステップ1731で見つけた単語の訳語を、複合語構成単
語テーブル72の訳語欄から取り出す。(Step 1732) The translated word of the word found in Step 1731 is extracted from the translated word column of the compound word table 72.
(ステップ1733) jを1にする。(Step 1733) j is set to 1.
(ステップ1734) 単語辞書を検索し、j番目の訳語グループに、ステッ
プ1732で取り出した訳語が存在するかどうか調べる。も
し、含まれていればステップ1735へ移る。含まれていな
ければ、ステップ1736へ移る。(Step 1734) The word dictionary is searched to determine whether or not the translated word extracted in Step 1732 exists in the j-th translated word group. If it is included, the process moves to step 1735. If not included, the process moves to step 1736.
(ステップ1735) j番目の訳語グループを選択して、処理を終了する。(Step 1735) The j-th translation group is selected, and the process ends.
(ステップ1736) 全ての訳語グループを処理したか調べる。全て処理し
ていたら、訳語グループ未決定のまま処理を終了する。
調べていない訳語グループがあれば、ステップ1737へ移
る。(Step 1736) It is checked whether all the translation groups have been processed. If all processes have been performed, the process ends with the translation word group undecided.
If there is a translation group that has not been checked, the process proceeds to step 1737.
(ステップ1737) jを1増して、ステップ1734へ移る。(Step 1737) j is incremented by 1 and the routine goes to Step 1734.
例えば、第3図の例文の第13文にある「表現(す
る)」の訳語グループの決定は次のように行われる。ま
ず、複合語構成単語テーブル72の日本語欄で「表現」を
探し、訳語欄から“representation"を訳語として取り
出す。次に、単語辞書を検索すると、第1の訳語グルー
プに“representation"があるので、「表現」の訳語グ
ループとして、第1の訳語グループが選択される。For example, the determination of the translation group of “expression” in the 13th sentence of the example sentence in FIG. 3 is performed as follows. First, "expression" is searched for in the Japanese column of the compound word table 72, and "representation" is extracted as a translation from the translation column. Next, when the word dictionary is searched, since the first translation group has "representation", the first translation group is selected as the translation group of "expression".
(ステップ174) ステップ173において訳語グループが決定されていれ
ば処理を終了し、次の単語へ移る。未決定ならば、ステ
ップ175へ移る。(Step 174) If the translation word group has been determined in Step 173, the process ends, and the process moves to the next word. If undecided, proceed to step 175.
(ステップ175) テキスト構成語テーブル71を用いて、訳語グループの
決定を行う。以下、第13図を用いてこのステップを詳細
に説明する。(Step 175) The translated word group is determined using the text constituent word table 71. Hereinafter, this step will be described in detail with reference to FIG.
(ステップ1751) 変数j,kを1とする。(Step 1751) The variables j and k are set to 1.
(ステップ1752) テキスト構成語テーブル71から、j番目の単語を取り
出す。(Step 1752) The j-th word is extracted from the text constituent word table 71.
(ステップ1753) i番目の単語を辞書で検索し、共起条件として記述さ
れている単語をk番目の訳語グループから取り出す。(Step 1753) The i-th word is searched in the dictionary, and the word described as the co-occurrence condition is extracted from the k-th translation word group.
(ステップ1754) ステップ1752で取り出した単語とステップ1753で取り
出した単語が等しいかどうか調べる。等しければ、ステ
ップ1755へ移る。等しくなければステップ1756へ移る。(Step 1754) It is checked whether the word extracted in step 1752 is equal to the word extracted in step 1753. If they are equal, the process moves to step 1755. If they are not equal, go to step 1756.
(ステップ1755) k番目の訳語グループを正しい訳語グループとして選
択し処理を終了する。(Step 1755) The k-th translated word group is selected as a correct translated word group, and the process ends.
(ステップ1756) 全ての訳語グループを処理したか調べる。全て処理し
ていたら、ステップ1757へ移る。処理していない訳語グ
ループがあれば、ステップ1758へ移る。(Step 1756) Check whether all translation groups have been processed. If all processing has been completed, the process moves to step 1757. If there is an unprocessed word group, the process proceeds to step 1758.
(ステップ1757) テキスト構成語テーブル71中の単語を全て処理したか
どうか調べる。全て処理していれば、訳語グループ未決
定のまま処理を終了する。処理していない単語があれ
ば、ステップ1759へ移る。(Step 1757) It is checked whether all the words in the text constituent word table 71 have been processed. If all processes have been performed, the process ends without determining the translation word group. If there is a word that has not been processed, the process proceeds to step 1759.
(ステップ1758) kを1増して、ステップ1753へ移る。(Step 1758) Increment k by 1 and move to Step 1753.
(ステップ1759) jを1増して、ステップ1752へ移る。(Step 1759) j is incremented by 1 and the routine goes to Step 1752.
例えば、第3図の第2文を翻訳する場合の「構築」の
訳語グループ決定を説明する。「構築」を単語辞書で検
索し、第1の訳語グループの共起条件として、「エキス
パートシステム」を取り出す。これは、テキスト構成語
テーブル71に含まれているので、第1の訳語グループが
選択され、訳語グループ割当てを終了する。For example, a description will be given of the determination of the translated word group of "construction" when translating the second sentence in FIG. "Construct" is searched in the word dictionary, and "expert system" is extracted as a co-occurrence condition of the first translated word group. Since this is included in the text constituent word table 71, the first translation word group is selected, and the translation word group assignment ends.
(ステップ176) ステップ175において訳語グループが決定されていれ
ば処理を終了し、次の単語へ移る。未決定ならば、ステ
ップ177へ移る。(Step 176) If the translated word group has been determined in step 175, the process is terminated and the process moves to the next word. If undecided, proceed to step 177.
(ステップ177) 分野情報テーブル73を利用して、訳語グループの決定
を行う。以下、このステップを第14図を用いて詳細に説
明する。(Step 177) The translated word group is determined using the field information table 73. Hereinafter, this step will be described in detail with reference to FIG.
(ステップ1771) jを1とする。(Step 1771) j is set to 1.
(ステップ1772) j番目の訳語グループから、訳語選択用分野コードを
取り出す。(Step 1772) From the j-th translation group, a field code for selecting a translation is extracted.
(ステップ1773) 分野情報テーブル73を参照し、ステップ1772で取り出
した分野コードが示す分野の分野選択フラグがオンかど
うか調べる。オンであれば、ステップ1774へ移り、オフ
であればステップ1775へ移る。(Step 1773) With reference to the field information table 73, it is checked whether or not the field selection flag of the field indicated by the field code extracted in step 1772 is on. If it is on, the process moves to step 1774; if it is off, the process moves to step 1775.
(ステップ1774) j番目の訳語グループを選択し、訳語グループ選択処
理を終了する。(Step 1774) The j-th translated word group is selected, and the translated word group selection process ends.
(ステップ1775) 全ての訳語グループを処理したか調べる。全て処理し
ていれば、訳語グループ未決定のまま処理を終了する。
処理していない訳語グループがあればステップ146へ移
る。(Step 1775) It is checked whether all translated word groups have been processed. If all processes have been performed, the process ends without determining the translation word group.
If there is an unprocessed word group, the process proceeds to step 146.
(ステップ1776) jを1増して、ステップ1772へ移る。(Step 1776) j is incremented by one, and the routine goes to Step 1772.
例えば、第3図の第9文の「競合」の場合、次のよう
に訳語グループが決定される。第9(b)図に示す辞書
を参照することによって、第2の訳語グループの訳語選
択用分野コードが「知識工学」であることが分かる。そ
して、分野情報テーブルを参照し、「知識工学」の分野
選択フラグがオンなので、“conflict"という訳語が選
ばれる。For example, in the case of "conflict" in the ninth sentence in FIG. 3, the translated word group is determined as follows. By referring to the dictionary shown in FIG. 9 (b), it can be understood that the translation selection field code of the second translation group is "knowledge engineering". Then, referring to the field information table, since the field selection flag of "knowledge engineering" is turned on, the translated word "conflict" is selected.
(ステップ178) ステップ177において訳語グループが決定されていれ
ば処理を終了し、次の単語へ移る。未決定ならば、ステ
ップ179へ移る。(Step 178) If the translation word group has been determined in step 177, the process ends, and the process moves to the next word. If undecided, proceed to step 179.
(ステップ179) ステップ171からステップ177の処理で訳語グループの
選択が行われなかった場合は、手がかりないものとし
て、統計的に出現しやすい訳語グループを選択する。こ
の処理は、辞書の統計的優先度を調べ、最も優先度の高
い訳語グループを選択する。(Step 179) If the translation word group is not selected in the processing from step 171 to step 177, the translation word group that is statistically likely to appear is selected as a clue. In this process, the statistical priority of the dictionary is checked, and the translation group having the highest priority is selected.
(ステップ18) h番目の文の中間表現と、決定された訳語グループか
ら英文を生成する。英文の生成については、特開昭61−
163467号公報にて開示されている方法を用いればよいの
で説明は省略する。(Step 18) An English sentence is generated from the intermediate expression of the h-th sentence and the determined translation group. For the generation of English sentences, see
Since the method disclosed in JP-A-163467 may be used, the description is omitted.
(ステップ19) 翻訳指示のあった全ての文を翻訳し終えたかどうか調
べ、未翻訳の文があればステップ15へ行き、全て翻訳が
終っていれば処理を終了する。(Step 19) It is checked whether or not all the sentences for which translation has been instructed have been translated. If there are untranslated sentences, the process goes to Step 15, and if all the translations have been completed, the process ends.
以上が、本発明による複数の日本語文を英文に翻訳す
る機械翻訳システムの一実施例である。The above is one embodiment of the machine translation system for translating a plurality of Japanese sentences into English sentences according to the present invention.
第2の実施例として、複数の日本語文を英文に翻訳す
るインタラクティブ機械翻訳システムおよび訳語選択情
報抽出支援システムに適用した例を示す。As a second embodiment, an example in which the present invention is applied to an interactive machine translation system for translating a plurality of Japanese sentences into English sentences and a translation word selection information extraction support system will be described.
第15図は、本発明の1実施例である複数の日本語文を
英文に翻訳するインタラクティブ機械翻訳システムのブ
ロック図である。FIG. 15 is a block diagram of an interactive machine translation system for translating a plurality of Japanese sentences into English sentences according to one embodiment of the present invention.
図中、1はディスプレイ装置、2はキーボード、3は
原文ファイル、4は訳文ファイル、5は単語辞書、6は
複合語辞書、7はメモリ、8は処理装置である。メモリ
7は、テキスト構成語テーブル71,複合語構成単語テー
ブル72,分野情報テーブル73,ユーザ情報テーブル74,選
択手段テーブル75,翻訳状態テーブル76からなる。In the figure, 1 is a display device, 2 is a keyboard, 3 is an original file, 4 is a translated file, 5 is a word dictionary, 6 is a compound word dictionary, 7 is a memory, and 8 is a processing device. The memory 7 includes a text constituent word table 71, a compound word constituent word table 72, a field information table 73, a user information table 74, a selection means table 75, and a translation state table 76.
上記機械翻訳システムにより、翻訳処理を行う過程を
第16図の処理フローを用いて説明する。The process of performing the translation process by the machine translation system will be described with reference to the processing flow of FIG.
(ステップ201) テキストデータを機械翻訳システムに入力する。(Step 201) Text data is input to the machine translation system.
(ステップ202) 入力されたテキスト中で、ひとまとまりのテキストと
して扱う範囲を指定する。(Step 202) In the input text, a range to be treated as a set of text is designated.
(ステップ203) 翻訳したい文を指示する。(Step 203) Specify a sentence to be translated.
ステップ201からステップ203は、それぞれ第1の実施
例におけるステップ11からステップ13と同様なので詳細
な説明は省略する。Steps 201 to 203 are the same as steps 11 to 13 in the first embodiment, respectively, and thus detailed description is omitted.
(ステップ204) 翻訳単位全体から、訳語を選択するための情報を抽出
する。このステップでは、第1の実施例で説明したステ
ップ14と同様にテキスト構成語抽出処理,複合語構成単
語抽出処理,分野決定処理を行う。ただし、第1の実施
例とは次の点が異なる。第2の実施例では、テキスト構
成語抽出処理においてテキスト構成語テーブル71を作成
する際、出現頻度とともに、全ての出現位置を格納して
おく。出現位置は、各単語が出現した文の番号とその文
内での位置の対によって表現する。文内の位置とは、そ
の文内のテキスト構成語に文の先頭から順につけた番号
である。出現位置を格納すること以外は、ステップ14と
同様なので、詳細な説明は省略する。第2の実施例にお
けるテキスト構成語テーブルの例を第17図に示す。ここ
で、例えば「選択」は、翻訳単位内に1度だけ出現し、
出現位置は第8文の10番目であることが分かる。(Step 204) Information for selecting a translated word is extracted from the entire translation unit. In this step, text constituent word extraction processing, compound word constituent word extraction processing, and field determination processing are performed as in step 14 described in the first embodiment. However, the following points are different from the first embodiment. In the second embodiment, when the text constituent word table 71 is created in the text constituent word extraction processing, all the appearance positions are stored together with the appearance frequency. The appearance position is represented by a pair of a sentence number in which each word appears and a position in the sentence. The position in the sentence is a number sequentially assigned to a text constituent word in the sentence from the beginning of the sentence. Except for storing the appearance position, it is the same as step 14, and a detailed description is omitted. FIG. 17 shows an example of the text constituent word table in the second embodiment. Here, for example, “select” appears only once in the translation unit,
It can be seen that the appearance position is the tenth in the eighth sentence.
(ステップ205) 解析処理を行う。(Step 205) Perform analysis processing.
(ステップ206) 変換処理を行う。(Step 206) A conversion process is performed.
ステップ205およびステップ206は、それぞれ第1の実
施例におけるステップ15およびステップ16と同様に、特
開昭61−163467号公報に開示された方法を利用すること
が可能なので詳細な説明は省略する。Steps 205 and 206 can use the method disclosed in Japanese Patent Application Laid-Open No. 61-163467, similarly to Steps 15 and 16 in the first embodiment, and a detailed description thereof will be omitted.
(ステップ207) 訳語グループ選択を行う。まず、第18図に示されたユ
ーザ情報テーブル74を参照し、ユーザによる訳語グルー
プの指示が格納されているか調べる。ユーザ情報テーブ
ル74には、ユーザが訳語を指示した単語の出現位置とユ
ーザの指示した訳語グループが1以上の数字で格納され
ている。(Step 207) A translated word group is selected. First, with reference to the user information table 74 shown in FIG. 18, it is checked whether or not a translation group instruction from the user is stored. The user information table 74 stores the appearance position of the word for which the user has designated a translation and the translation group designated by the user as one or more numbers.
ユーザ情報テーブル74において、ユーザの指示が格納
されていれば、その訳語グループを選択する。指示が無
ければ、第1の実施例におけるステップ17と同様の処理
を行うことにより、訳語グループを選択する。ただし、
各単語の訳語グループを選択した際、どの手段によって
訳語グループ選択が行われたかを示す数字を、選択手段
テーブル75に各テキスト構成語毎に格納する。選択手段
テーブル75の例を第19図に示す。ここでは、一文内の情
報によって選択が行われた場合“1"を格納し、複合語構
成単語テーブルを利用して選択が行われた場合“2"を格
納し、テキスト構成語テーブルを利用して選択が行われ
た場合“3"を格納し、分野情報テーブルを利用して選択
が行われた場合“4"を格納し、統計情報を利用して選択
が行われた場合“5"を格納する。また、訳語グループが
1つしか存在しない場合は、“0"を格納する。例えば、
第3図の例文で、第1文第5番目の「実現する」は統計
的優先順位によって“realize"が選択され、5番目の単
語であるので、第19図の選択手段テーブル75の文番号1,
単語番号5の欄に、“5"が格納される。また、第16文第
4番目の「構築する」は、同じ文内に「エキスパートシ
ステム」が存在するので、第19図の選択手段テーブル75
の文番号16,文内位置4の欄に、“1"が格納される。If the user's instruction is stored in the user information table 74, the translated word group is selected. If there is no instruction, a process similar to step 17 in the first embodiment is performed to select a translated word group. However,
When a translated word group of each word is selected, a numeral indicating which means has been used to select the translated word group is stored in the selecting means table 75 for each text constituent word. An example of the selection means table 75 is shown in FIG. Here, “1” is stored when a selection is made based on information in one sentence, “2” is stored when a selection is made using the compound word table, and the text word table is used. When the selection is made, “3” is stored. When the selection is made using the field information table, “4” is stored. When the selection is made using the statistical information, “5” is stored. Store. If there is only one translation group, "0" is stored. For example,
In the example sentence of FIG. 3, "realize" of the fifth sentence of the first sentence is "realize" selected according to the statistical priority and is the fifth word. Therefore, the sentence number in the selection means table 75 of FIG. 1,
“5” is stored in the column of word number 5. In the fourth sentence "construct", since the "expert system" exists in the same sentence, the selecting means table 75 in FIG.
"1" is stored in the column of sentence number 16 and position 4 in the sentence.
(ステップ208) 変換された中間表現と決定された訳語グループから英
文を生成する。英文の生成については、第1の実施例と
同様に、特開昭61−163467号公報にて表示されている方
法を用いれば良いので説明は省略する。(Step 208) An English sentence is generated from the converted intermediate expression and the determined translation group. As for the generation of the English sentence, as in the first embodiment, the method described in Japanese Patent Application Laid-Open No. 61-163467 may be used, and a description thereof will be omitted.
(ステップ209) ステップ205〜208で翻訳された文を構成する全ての単
語について、ユーザによる訳語グループの変更を行う。
以下、文中のi番目の単語に処理を行う場合を、第20図
を用いて詳細に説明する。(Step 209) The user changes the translated word group for all words constituting the sentence translated in steps 205 to 208.
Hereinafter, the case where the process is performed on the i-th word in the sentence will be described in detail with reference to FIG.
(ステップ2091) 各単語の訳語選択手段の優先順位を選択手段テーブル
75で調べる。予め定められた閾値Thr3より優先順位が高
い場合、処理を終了した次の単語に進む。そうでない場
合には、ステップ2092へ進む。(Step 2091) Select priority table of translation word selection means for each word selection means table
Look at 75. If the priority is higher than the predetermined threshold Thr3, the process proceeds to the next word for which the processing has been completed. Otherwise, go to step 2092.
以下では、予め閾値Thr3として5が設定されている場
合について、第3図の第2文における「構築」および第
9文における「競合」の訳語選択を例にあげて説明す
る。第21(a)図,第21(b)図に示す単語辞書を用い
た場合、共起条件,分野コードが付与さえていないた
め、ステップ207において統計的優先度により訳語が選
ばれる。この結果は、選択手段テーブル75に格納されて
いる。ここで、選択手段テーブル75を参照して、「構
築」の選択手段の優先度5を得る。閾値Thr3は5なの
で、ステップ2092の処理へ進む。In the following, a case where 5 is set as the threshold Thr3 in advance will be described by taking as an example the translation of "construction" in the second sentence and "conflict" in the ninth sentence in FIG. In the case where the word dictionaries shown in FIGS. 21 (a) and 21 (b) are used, the co-occurrence condition and the field code are not added, so that in step 207, the translated word is selected according to the statistical priority. This result is stored in the selection means table 75. Here, referring to the selection means table 75, the priority 5 of the selection means of "construction" is obtained. Since the threshold value Thr3 is 5, the process proceeds to step 2092.
(ステップ2092) テキスト構成語テーブル71を参照して、単語の出現頻
度が予め定められた値Thr4よりも小さい場合は、処理を
終了し次の単語を進む。大きい場合には、ステップ2093
へ移る。ここでは、Thr4が2の場合について、説明す
る。このとき、「構築」の出現頻度が3回、「競合」の
出現頻度は2回なのでステップ2093へ移る。(Step 2092) Referring to the text constituent word table 71, if the frequency of occurrence of the word is smaller than the predetermined value Thr4, the processing is terminated and the next word is advanced. If so, step 2093
Move to Here, a case where Thr4 is 2 will be described. At this time, the appearance frequency of “construct” is three times, and the appearance frequency of “conflict” is two times, so that the process proceeds to step 2093.
(ステップ2093) その単語を表示し、警告を出して、ステップ2094へ移
る。例の場合、単語「構築」の訳語について、第22図の
ように、警告が出される。(Step 2093) The word is displayed, a warning is issued, and the routine proceeds to Step 2094. In the case of the example, a warning is issued as shown in FIG. 22 for the translation of the word “construct”.
(ステップ2094) ユーザは、その訳語で良いかどうかを指示する。良け
れば、処理を終了し次の単語へ進む。良くなければ、ス
テップ2095へ移る。ここでは、「構築」に対しては“bu
ild"、「競合」に対しては“conflict"という訳語が適
切なので、ユーザは良くないという指示を出し、ステッ
プ2095に進む。(Step 2094) The user instructs whether or not the translation is acceptable. If it is, the process ends and proceeds to the next word. If not, go to step 2095. Here, "built" means "bu
Since the translation of “conflict” is appropriate for “ild” and “conflict”, the user issues an instruction that the translation is not good, and proceeds to step 2095.
(ステップ2095) その単語の訳語を全て表示する。第23図のように、全
ての語訳グループが表示される。(Step 2095) Display all the translations of the word. As shown in FIG. 23, all translation groups are displayed.
(ステップ2096) ユーザが、表示された訳語グループの中から適切なも
のを選択する。(Step 2096) The user selects an appropriate one from the displayed translated word groups.
(ステップ2097) ユーザが選択した訳語グループについて、訳語選択条
件を抽出する。以下、このステップを第24図を用いて説
明する。(Step 2097) A translation word selection condition is extracted for the translation word group selected by the user. Hereinafter, this step will be described with reference to FIG.
(ステップ20971) 共起情報を抽出するかどうかを選択する。抽出しない
場合は、処理を終了し、次の単語に移る。抽出する場合
は、ステップ20972へ移る。ここでは、「構築」の共起
情報抽出を選択する場合について説明する。(Step 20971) Select whether to extract co-occurrence information. If not, the process ends and the process moves to the next word. When extracting, the process moves to step 20972. Here, a case where the co-occurrence information extraction of “construction” is selected will be described.
(ステップ20972) 複合語構成単語テーブル72中の単語およびテキスト構
成語テーブル内で予め設定された閾値Thr5より出現頻度
が大きい単語を、第25図のように表示する。(Step 20972) The words in the compound word table 72 and the words whose appearance frequency is higher than the threshold Thr5 preset in the text word table are displayed as shown in FIG.
(ステップ20973) ユーザは、表示された単語の中から、0個以上の単語
を選択する。選択された単語が0個の場合、即ち一つも
選択されなかった場合は、ステップ20975に移る。1個
以上の単語が選択された場合には、ステップ20974へ移
る。第25図では、「構築」と共起する単語として「エキ
スパートシステム」を選択し、ステップ20974へ移る。(Step 20973) The user selects 0 or more words from the displayed words. If the number of selected words is zero, that is, if no word is selected, the process proceeds to step 20975. If one or more words have been selected, the process moves to step 20974. In FIG. 25, “expert system” is selected as a word co-occurring with “construct”, and the routine goes to step 20974.
(ステップ20974) ステップ2096でユーザが選択した訳語グループの共起
条件の欄に、ステップ20973で選択された単語を付け加
える。ここでは、「構築」の第1の訳語グループ(“bu
ild"のグループ)の共起情報として「エキスパートシス
テム」が辞書に格納される。(Step 20974) The word selected in Step 20973 is added to the co-occurrence condition column of the translation group selected by the user in Step 2096. Here, the first translation group (“bu
“expert system” is stored in the dictionary as co-occurrence information of “ild” group).
(ステップ20975) 分野コードを抽出するかどうかを選択する。抽出しな
い場合は、処理を終了し、次の単語に移る。抽出する場
合は、ステップ20976へ移る。ここでは、「競合」の訳
語選択用分野コード抽出を選択する場合について説明す
る。(Step 20975) Select whether to extract the field code. If not, the process ends and the process moves to the next word. When extracting, the process moves to step 20976. Here, a case will be described in which the field word extraction for selecting the word of "competition" is selected.
(ステップ20976) 分野情報テーブル73を参照し、分野選択フラグがオン
である分野を、第26図のように表示する。(Step 20976) By referring to the field information table 73, fields whose field selection flag is ON are displayed as shown in FIG.
(ステップ20977) ユーザは、表示された分野の中から、0個以上の分野
を選択する。選択された単語が0個の場合、即ち一つも
選択されなかった場合は、処理を終了する。1個以上の
単語が選択された場合には、ステップ20978へ移る。第2
6図では、「知識工学」を選択し、ステップ20974へ移
る。(Step 20977) The user selects zero or more fields from the displayed fields. If the number of selected words is zero, that is, if no word is selected, the process ends. If one or more words have been selected, go to step 20978. No. 2
In FIG. 6, “knowledge engineering” is selected, and the process proceeds to step 20974.
(ステップ20978) ステップ2096でユーザが選択した訳語グループの訳語
選択用分野コードの欄に、ステップ20977で選択された
た語を付け加える。ここでは、「競合」の第2の訳語グ
ループ(“conflict"のグループ)の分野として「知識
工学」が辞書に格納される。(Step 20978) The word selected in Step 20977 is added to the translation word selection field code column of the translation group selected by the user in Step 2096. Here, "knowledge engineering" is stored in the dictionary as the field of the second translation group of "conflict" (group of "conflict").
(ステップ2098) ステップ208で選択した訳語グループを、他の文に存
在する同じ単語の訳語グループとして利用するかどうか
を決定する。以下、このステップを第27図を用いて詳細
に説明する。(Step 2098) It is determined whether or not to use the translation group selected in Step 208 as a translation group of the same word present in another sentence. Hereinafter, this step will be described in detail with reference to FIG.
(ステップ20981) 処理中の翻訳単位内に存在する同じ単語の訳語グルー
プをユーザが選択した訳語グループに変更するかどうか
を、(1)全て置き換える、(2)閾値を入力し、閾値
より低い優先順位を持つ手段により選択された単語のみ
置き換える、(3)置き換えないの中から選択する。こ
こでは、第3図の第2文における「構築」の訳語をユー
ザが変更し、優先順位の閾値Thr6として“4"を入力さし
た場合について説明する。(Step 20981) Whether to change the translated word group of the same word existing in the translation unit being processed to the translated word group selected by the user is (1) Replace all, (2) Enter a threshold value, and give priority to a lower value than the threshold value Replace only the word selected by the means having the ranking, or (3) select from not replacing. Here, a case will be described in which the user changes the translation of “construct” in the second sentence of FIG. 3 and inputs “4” as the priority threshold Thr6.
(ステップ20982) (1)を選択した場合はステップ20984へ進む。さも
なければ、ステップ20983へ移る。(Step 20982) When (1) is selected, the flow proceeds to Step 20984. Otherwise, go to step 20983.
(ステップ20983) (2)を選択した場合は、優先度の閾値Thr6をユーザ
の指定した設定し、ステップ20985へ進む。さもなけれ
ば適用しないと判定し、処理を終了する。(Step 20983) When (2) is selected, the priority threshold Thr6 is set by the user, and the process proceeds to Step 20985. Otherwise, it is determined not to be applied, and the process ends.
(ステップ20984) 優先度の閾値Thr6を0にして、ステップ20985へ進
む。(Step 20984) The priority threshold Thr6 is set to 0, and the process proceeds to Step 20985.
(ステップ20985) テキスト構成語テーブル71の該当する単語の出現位置
欄を調べ、全ての出現位置についてステップ20986およ
びステップ20987の処理を行う。例では、第3図の第2
文以外に、第16文,第17文に「構築」が存在するので、
この2個に対して処理を行う。(Step 20985) The appearance position column of the corresponding word in the text constituent word table 71 is checked, and the processing of steps 20986 and 20987 is performed for all occurrence positions. In the example shown in FIG.
In addition to the sentence, "construction" exists in the 16th and 17th sentences,
Processing is performed on these two.
(ステップ20986) 単語のi番目の出現位置に相当する選択手段テーブル
75中の位置を検索し、選択手段の優先順位がユーザ指示
の優先順位より小さいかどうか調べる。小さければ、ス
テップ20987へ移り、小さくなければ処理を終了する。
例では、第16文の「構築」の場合、選択手段の優先順位
が1なので、処理を終了する。第17文の「構築」の場合
は、選択手段の優先順位が5なので、ステップ20987へ
移る。(Step 20986) Selection means table corresponding to the i-th occurrence position of the word
The position in 75 is searched to determine whether the priority of the selection means is lower than the priority of the user instruction. If it is smaller, the process moves to step 20987, and if it is not smaller, the process ends.
In the example, in the case of “construction” in the 16th sentence, the priority is 1 for the selection means, and thus the processing is terminated. In the case of “construction” in the seventeenth sentence, the priority order of the selection means is 5, and therefore the flow proceeds to step 20987.
(ステップ20987) 第28図に示す翻訳状態テーブル76において、該当する
単語を含む文の翻訳状態を「翻訳待」にする。これによ
り、ユーザは自分が訳語を指定した単語を含む文を知る
ことができ、必要に応じて再翻訳指示を与えれば、ユー
ザ情報テーブル74を用いることによって、ステップ2096
での訳語グループ選択結果を反映することができる。ま
た、「翻訳待」状態の文を自動的に再翻訳することも容
易に実現できる。(Step 20987) In the translation state table 76 shown in FIG. 28, the translation state of the sentence including the corresponding word is set to “translation waiting”. As a result, the user can know the sentence including the word for which the user has specified the translated word. If the user gives a retranslation instruction as needed, the user can use the user information table 74 to execute step 2096.
Can reflect the result of selecting the translated word group. It is also easy to automatically re-translate a sentence in the "waiting for translation" state.
(ステップ210) ユーザが指示した訳語グループを用いて再び英文を生
成し、出力する。(Step 210) An English sentence is generated again using the translation group designated by the user and output.
(ステップ211) 翻訳指示のあった全ての文を翻訳し終えたかどうか調
べ、未翻訳の文があればステップ205へ行き、全て翻訳
が終っていれば処理を終了する。(Step 211) It is checked whether or not all the sentences for which translation has been instructed have been translated. If there are untranslated sentences, the process proceeds to step 205, and if all the translations have been completed, the process ends.
以上が、本発明による複数の日本語文を英文に翻訳す
るインタラクティブ機械翻訳システムおよび訳語選択情
報抽出支援システムの一実施例である。The above is an embodiment of the interactive machine translation system for translating a plurality of Japanese sentences into English sentences and the translated word selection information extraction support system according to the present invention.
本発明によれば、テキスト全体から訳語選択のための
情報を抽出することによって、従来の1文単位の処理で
は、訳語を選択することができない場合でも、適切な訳
語を選択することができるようになる。According to the present invention, by extracting information for selecting a translation from the entire text, an appropriate translation can be selected even if a translation cannot be selected by the conventional one-sentence processing. become.
また、複数の訳語選択のための情報を抽出するステッ
プを複数設け、各ステップに予め優先順位を与え、適用
可能な手段の内最も優先順位の高いステップにより訳語
選択を行うことによって、適切な訳語を選択することが
できるようになる。Also, a plurality of steps for extracting information for selecting a plurality of translations are provided, priorities are given to the respective steps in advance, and a translation is selected by the step having the highest priority among applicable means, so that an appropriate translation is obtained. Can be selected.
また、訳語選択情報の候補を抽出するステップを設
け、ユーザの指示によって訳語を選択する際に訳語選択
情報の候補を表示し、ユーザが選択した訳語を選択する
ための情報を表示された候補の中から選択することによ
って、共起情報や分野情報などの訳語選択情報を抽出す
ることを支援できるようになる。Further, a step of extracting a candidate for translation word selection information is provided. When selecting a translation word in accordance with a user's instruction, the candidate translation word selection information is displayed, and information for selecting the translation word selected by the user is displayed. By selecting from among them, it becomes possible to support extraction of translated word selection information such as co-occurrence information and field information.
第1図は本発明の第1の実施例の基本フロー図、第2図
は本発明の第1の実施例のハードウェア構成図、第3図
は入力テキストの例、第4図はテキスト全体からの訳語
選択情報抽出処理のフロー図、第5(a)図、第5
(b)図はテキスト構成語テーブルの概念図、第6図は
複合語辞書の概念図、第7図は複合語構成単語テーブル
の概念図、第8図は分野情報テーブルの概念図、第9
(a)図,第9(b)図は単語辞書の概念図、第10図は
訳語グループ選択処理のフロー図、第11図は文内情報に
よる訳語グループ選択処理のフロー図、第12図は複合語
構成単語テーブルによる訳語グループ選択処理のフロー
図、第13図はテキスト構成語テーブルによる訳語グルー
プ選択処理のフロー図、第14図は分野情報テーブルによ
る訳語グループ選択処理のフロー図、第15図は本発明の
第2の実施例のハードウェア構成図、第16図は本発明の
第2の実施例の基本フロー図、第17図は第2の実施例に
おけるテキスト構成語テーブルの概念図、第18図はユー
ザ情報テーブルの概念図、第19図は選択手段テーブルの
概念図、第20図はユーザによる訳語グループ選択処理の
フロー図、第21(a)図,第21(b)図は単語辞書の概
念図,第22図,第23図は訳語選択処理における画面の例
示図、第24図は訳語選択情報抽出支援処理のフロー図、
第25図,第26図は訳語選択情報抽出支援処理における画
面の例示図、第27図はユーザ指定のテキスト全体への適
用処理のフロー図、第28図は翻訳状態テーブルの概念図
をそれぞれ示す。 1……ディスプレイ装置、2……キーボード、3……原
文ファイル、4……訳文ファイル、5……単語辞書、6
……複合語辞書、7……メモリ、8……処理装置、71…
…テキスト構成語テーブル、72……複合語構成単語テー
ブル、73……分野情報テーブル、74……ユーザ情報テー
ブル、75……選択手段テーブル、76……翻訳状態テーブ
ル。FIG. 1 is a basic flowchart of the first embodiment of the present invention, FIG. 2 is a hardware configuration diagram of the first embodiment of the present invention, FIG. 3 is an example of input text, and FIG. Of the translation word selection information extraction process from FIG. 5, FIG. 5 (a), FIG.
(B) is a conceptual diagram of a text constituent word table, FIG. 6 is a conceptual diagram of a compound word dictionary, FIG. 7 is a conceptual diagram of a compound word constituent word table, FIG. 8 is a conceptual diagram of a field information table, FIG.
9A and 9B are conceptual diagrams of a word dictionary, FIG. 10 is a flowchart of a translation word group selection process, FIG. 11 is a flowchart of a translation word group selection process based on intra-sentence information, and FIG. FIG. 13 is a flowchart of a translation word group selection process using a compound word composition word table, FIG. 13 is a flowchart of a translation word group selection process using a text composition word table, FIG. 14 is a flowchart of a translation word group selection process using a field information table, and FIG. FIG. 16 is a hardware configuration diagram of the second embodiment of the present invention, FIG. 16 is a basic flow diagram of the second embodiment of the present invention, FIG. 17 is a conceptual diagram of a text constituent word table in the second embodiment, 18 is a conceptual diagram of a user information table, FIG. 19 is a conceptual diagram of a selection means table, FIG. 20 is a flowchart of a translation word group selection process by a user, and FIGS. 21 (a) and 21 (b) are Conceptual diagram of word dictionary, Figures 22 and 23 show translated words Illustration of a screen in-option process, Figure 24 the flow diagram of translation selection information extraction support processing,
FIGS. 25 and 26 show examples of screens in the translation word selection information extraction support processing, FIG. 27 shows a flow chart of processing applied to the entire text specified by the user, and FIG. 28 shows a conceptual view of the translation state table, respectively. . 1 ... display device, 2 ... keyboard, 3 ... original file, 4 ... translated file, 5 ... word dictionary, 6
... compound word dictionary, 7 ... memory, 8 ... processing unit, 71 ...
... Text constituent word table, 72 ... Compound constituent word table, 73 ... Field information table, 74 ... User information table, 75 ... Selection means table, 76 ... Translation state table.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−314373(JP,A) 特開 昭63−278174(JP,A) 特開 昭63−293673(JP,A) 特開 昭63−211067(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/28 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-1-314373 (JP, A) JP-A-63-278174 (JP, A) JP-A-63-293673 (JP, A) JP-A-63-27837 211067 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/28
Claims (1)
ファイルと、単語辞書と、複合語辞書と、メモリと、処
理装置とを備えた機械翻訳システムにおける訳語選択方
法において、 前記原文ファイル、あるいは、前記キーボードからテキ
ストを前記処理装置に入力するステップと、 前記処理装置において、前記複合語辞書を参照して前記
テキストから複合語を抽出し、前記複合語を構成する単
語とその訳語の情報を前記メモリに格納し、前記単語辞
書及び前記メモリを参照して前記テキストを翻訳するス
テップとを備え、 前記テキストを翻訳するステップにおいて、前記テキス
トを構成する単語の訳語の候補が、前記単語辞書に複数
存在する場合、これら複数の訳語の候補と前記メモリに
格納された複合語を構成する単語の訳語とを比較して、
一致する訳語が存在する場合は、これを前記複数の訳語
の候補の中から翻訳語として選択することを特徴とする
訳語選択方法。1. A translation word selection method in a machine translation system including a display device, a keyboard, an original file, a word dictionary, a compound word dictionary, a memory, and a processing device. Inputting a text from the keyboard to the processing device; extracting, in the processing device, a compound word from the text with reference to the compound word dictionary, and storing information on a word constituting the compound word and a translation thereof in the memory; And translating the text with reference to the word dictionary and the memory. In the step of translating the text, there are a plurality of translation candidates of the words constituting the text in the word dictionary. In this case, the plurality of candidate translations are compared with the translations of the words constituting the compound words stored in the memory. ,
When there is a matching translation, a translation is selected from among the plurality of translation candidates as a translation.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP02228127A JP3085394B2 (en) | 1990-08-31 | 1990-08-31 | Translated word selection method in multi-sentence translation and machine translation system using the same |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP02228127A JP3085394B2 (en) | 1990-08-31 | 1990-08-31 | Translated word selection method in multi-sentence translation and machine translation system using the same |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH04111063A JPH04111063A (en) | 1992-04-13 |
| JP3085394B2 true JP3085394B2 (en) | 2000-09-04 |
Family
ID=16871640
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP02228127A Expired - Fee Related JP3085394B2 (en) | 1990-08-31 | 1990-08-31 | Translated word selection method in multi-sentence translation and machine translation system using the same |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3085394B2 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07306859A (en) * | 1994-05-12 | 1995-11-21 | Nec Corp | Machine translation system |
| US6490548B1 (en) | 1999-05-14 | 2002-12-03 | Paterra, Inc. | Multilingual electronic transfer dictionary containing topical codes and method of use |
| US20120191746A1 (en) * | 2007-12-26 | 2012-07-26 | Tomoko Tashiro | Dictionary system |
| JP5025603B2 (en) * | 2008-09-11 | 2012-09-12 | 株式会社東芝 | Machine translation apparatus, machine translation program, and machine translation method |
-
1990
- 1990-08-31 JP JP02228127A patent/JP3085394B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH04111063A (en) | 1992-04-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5311429A (en) | Maintenance support method and apparatus for natural language processing system | |
| US5010486A (en) | System and method for language translation including replacement of a selected word for future translation | |
| US5321607A (en) | Automatic translating machine | |
| JPS6140673A (en) | Translation methods and machines for foreign language compositions | |
| JPH0724056B2 (en) | Computer-based morphological text analysis method | |
| JPH083815B2 (en) | Natural language co-occurrence relation dictionary maintenance method | |
| GB2417103A (en) | Natural language translation system | |
| JPH05298360A (en) | Method and device for evaluating translated sentence, machine translation system with translated sentence evaluating function and machine translation system evaluating device | |
| JPH09128396A (en) | How to create a bilingual dictionary | |
| US5084817A (en) | System for translating a language having polite expressions | |
| JP3085394B2 (en) | Translated word selection method in multi-sentence translation and machine translation system using the same | |
| JPH0576067B2 (en) | ||
| JP3136973B2 (en) | Language analysis system and method | |
| JPH07325826A (en) | Japanese language processing system | |
| JPH0561902A (en) | Mechanical translation system | |
| JP3045832B2 (en) | Relevant word selection method | |
| JP3892227B2 (en) | Machine translation system | |
| JP3388393B2 (en) | Translation device for tense, aspect or modality using database | |
| JP2893239B2 (en) | Translation support dictionary search and display system | |
| Utka | Towards the Development of Language Analysis Tools for the Written Latgalian | |
| JPS61260367A (en) | Mechanical translating system | |
| JP3884001B2 (en) | Language analysis system and method | |
| JPS59103136A (en) | Kana-kanji conversion processing device | |
| JP2819766B2 (en) | Foreign language electronic dictionary search method | |
| JP2786211B2 (en) | Post-editing device in machine translation equipment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |