Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4431759B2 - Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program - Google Patents
[go: Go Back, main page]

JP4431759B2 - Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program - Google Patents

Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program Download PDF

Info

Publication number
JP4431759B2
JP4431759B2 JP2005010712A JP2005010712A JP4431759B2 JP 4431759 B2 JP4431759 B2 JP 4431759B2 JP 2005010712 A JP2005010712 A JP 2005010712A JP 2005010712 A JP2005010712 A JP 2005010712A JP 4431759 B2 JP4431759 B2 JP 4431759B2
Authority
JP
Japan
Prior art keywords
language
character string
dictionary
pattern
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005010712A
Other languages
Japanese (ja)
Other versions
JP2006201873A5 (en
JP2006201873A (en
Inventor
仁 坂本
清敬 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005010712A priority Critical patent/JP4431759B2/en
Publication of JP2006201873A publication Critical patent/JP2006201873A/en
Publication of JP2006201873A5 publication Critical patent/JP2006201873A5/ja
Application granted granted Critical
Publication of JP4431759B2 publication Critical patent/JP4431759B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は機械翻訳等の自然言語処理のための辞書作成技術に関し、特に、翻訳等のための辞書に登録されていない未登録な語を自動的に抽出又は登録可能な未登録語自動抽出・登録装置に関する。   The present invention relates to a dictionary creation technique for natural language processing such as machine translation, and in particular, unregistered word automatic extraction that can automatically extract or register unregistered words that are not registered in a dictionary for translation, etc. It relates to a registration device.

機械翻訳のためには、機械可読な翻訳辞書が不可欠である。翻訳辞書に登録されている単語数が多いほど、翻訳の精度が高くなることが期待できる。しかし、辞書を保守するためには、文献を収集し、その中で辞書に未登録である語を探し、その単語に対する訳語を探して辞書に登録する、という手間がかかる。   A machine-readable translation dictionary is indispensable for machine translation. It can be expected that the greater the number of words registered in the translation dictionary, the higher the translation accuracy. However, in order to maintain the dictionary, it takes time and effort to collect documents, search for words that are not registered in the dictionary, search for translated words for the words, and register them in the dictionary.

上記した作業には3段階の作業がある。第1段階は未登録語の発見という作業である。第2段階はその訳語の特定という作業である。第3段階は、未登録語と訳語、品詞分類、及び意味分類等の付加情報を辞書に登録する作業である。例えば、自動翻訳システムで辞書の不備により翻訳が失敗した場合、リライトの済んだ訳文と原文とを突合せながら、リライトされた部分の原文を突き止めて、辞書に登録可能な語句の形にし、訳語、品詞、意味分類等の付加情報を付与してはじめて辞書登録を行なうことができる。このような作業をきちんと続けていかなければ、例えば自動翻訳システムはまた同様の部分で翻訳に失敗し、再度リライトが必要ということになる。従来は、翻訳作業が自動化されても、リライトや辞書登録作業を含めた作業全体では、それほど大きな効率改善効果が見られない場合が大半であった。   There are three stages of work described above. The first stage is the task of finding unregistered words. The second stage is the task of specifying the translation. The third stage is an operation for registering additional information such as unregistered words and translated words, part-of-speech classification, and semantic classification in the dictionary. For example, if translation fails due to a deficiency in the dictionary in an automatic translation system, the rewritten translation and the original text are matched, the original text of the rewritten part is located, and the word or phrase can be registered in the dictionary. It is possible to register a dictionary only after adding additional information such as part of speech or semantic classification. If such work is not continued properly, for example, the automatic translation system will also fail to translate at the same part, and rewrite will be necessary again. Conventionally, even if the translation work is automated, the overall work including rewrite and dictionary registration work is often not so effective in improving efficiency.

そのため、効率を改善するための一つの方策として、翻訳辞書への未登録語の登録を自動的に行なう技術が必要と考えられる。こうした機能を以下「自動登録」と呼ぶ。   For this reason, as one measure for improving the efficiency, a technique for automatically registering unregistered words in the translation dictionary is considered necessary. Such a function is hereinafter referred to as “automatic registration”.

自動登録の技術として、下記特許文献1に記載されたものがある。特許文献1に記載された技術は、日本語と中国語との間で、固有名詞に限定して適用可能なものである。この技術では、日本語形態素辞書と日中翻訳辞書とを準備しておき、日本語形態素辞書には日本語側の語が登録されているが日中翻訳辞書には未登録である場合に、当該語を日中翻訳辞書に登録する。すなわち、原語と訳語の対として翻訳辞書に未登録であるもののうち、一部のみについてその登録を自動化する。 As an automatic registration technique, there is one described in Patent Document 1 below. The technique described in Patent Literature 1 can be applied between Japanese and Chinese, limited to proper nouns. In this technology, a Japanese morpheme dictionary and a Japanese-Chinese translation dictionary are prepared, and when a Japanese word is registered in the Japanese morpheme dictionary but not registered in the Japanese-Chinese translation dictionary, Register the word in the Japanese-Chinese translation dictionary. That is, the registration is automated for only a part of the original words and translated words that are not registered in the translation dictionary.

特許文献2には、日英翻訳辞書において、カタカナ語と英語との対に限定して辞書への自動登録を行なう技術が開示されている。特許文献2に開示された技術では、英語辞書と日英翻訳辞書とを準備し、英語辞書には英語側の語が登録されているが日英翻訳辞書には未登録の場合に、当該英語の単語と、対応するカタカナ語とを新たな見出しとして日英翻訳辞書に登録する。
特開平4−256171号公報 特許第2995783号 特開2003−6193号
Patent Document 2 discloses a technique for automatically registering a Japanese-English translation dictionary into a dictionary limited to pairs of katakana and English. In the technique disclosed in Patent Document 2, an English dictionary and a Japanese-English translation dictionary are prepared, and when an English word is registered in the English dictionary but not registered in the Japanese-English translation dictionary, the English And the corresponding katakana words are registered in the Japanese-English translation dictionary as new headings.
JP-A-4-256171 Patent No. 2995783 JP 2003-6193 A

ところで、技術の進歩等により新造語が必要となり使用されるようになるのはもちろん、必要ではなくても「新鮮味」を打ち出そう等として次々に新しい言葉が造られていく。この傾向は、テレビジョン放送及び携帯電話等の情報伝達メディアの一般化及び日常化とともに強まる一方である。そのような「新鮮味」を出そうとする新造語の場合、普通の辞書に登録されているような語を意図的に避けて案出し、合成し、省略し、又は転用して造られる。いわゆる和製英語又は多言語からの合成等による新造語が濫用されていると見るむきはあるものの、これら新造語を避けて現実社会の会話又は文章を成立させることは非常に困難である。   By the way, new words are required and used due to technological progress, etc. Of course, new words are created one after another in order to come up with “freshness” even if not necessary. This tendency is getting stronger with the generalization and everyday use of information transmission media such as television broadcasting and mobile phones. In the case of a new word that tries to produce such “fresh taste”, it is created by intentionally avoiding a word that is registered in an ordinary dictionary, synthesizing it, omitting it, or diverting it. Although there is a sense that new words created by so-called Japanese English or composition from multiple languages are abused, it is very difficult to avoid these new words and establish real-world conversations or sentences.

一方で、技術進歩は、こうした言語を処理して人間の活動を支援しようとする、いわゆる自然言語処理技術にも大きく影響している。例えば、処理に必要な辞書を装置として構成するための記憶装置は、日本で機械翻訳装置が商品化され始めた1980年代半ばと比較して容量比で10万分の1以下の価格となっている。つまり、1980年当時の記憶装置の100万円相当の容量を用いて構成されていた翻訳辞書であれば、現在では記憶装置の10円相当の容量を用いて構成可能である。   On the other hand, technological progress has greatly influenced so-called natural language processing technology that attempts to support human activities by processing such languages. For example, a storage device for configuring a dictionary necessary for processing as a device has a capacity ratio of 1 / 100,000 or less compared to the mid-1980s when machine translation devices began to be commercialized in Japan. . In other words, a translation dictionary constructed using the capacity equivalent to 1 million yen of the storage device at the time of 1980 can now be constructed using the capacity equivalent to 10 yen of the storage device.

こうしたことは、辞書を構成する記憶装置の容量を抑えるために辞書に登録する語を限定する等という、当時の「常識」を完全に陳腐化させている。すなわち、日本語形態素辞書には登録されているが日中翻訳辞書には未登録であるとか、英語辞書には登録されているが日英翻訳辞書には未登録であるとかいう辞書の構成の仕方は、それによって多少の容量が節約できるとしても、それによるコスト低減効果が、利用者の受ける不利益に対してあまりにも小さくなっている。   This completely obsoletes the “common sense” of the time, such as limiting the words registered in the dictionary in order to reduce the capacity of the storage devices that make up the dictionary. That is, how to construct a dictionary that is registered in the Japanese morpheme dictionary but not registered in the Japanese-Chinese translation dictionary, or registered in the English dictionary but not registered in the Japanese-English translation dictionary Even if this can save some capacity, the cost reduction effect is too small for the disadvantages experienced by users.

このため、現在のような状況下では、従来のように、一部の辞書にだけ単語が未登録である、というような辞書登録の不揃いを解消するような自動登録では、機械翻訳等の自然言語処理の有用性に対してはごく限定的な効果しか持ち得ないという問題がある。   For this reason, under current circumstances, automatic registration that eliminates irregularities in dictionary registration, such as unregistered words in only some dictionaries, as in the past, is a natural process such as machine translation. There is a problem that it has only a limited effect on the usefulness of language processing.

それゆえに本発明の目的は、辞書に全く登録されていない未登録語を自動的に抽出することができる未登録語自動抽出装置、及びそうした未登録語を自動的に辞書に登録可能な未登録語自動登録装置を提供することである。   Therefore, an object of the present invention is to automatically extract unregistered words that can automatically extract unregistered words that are not registered in the dictionary, and unregistered that can automatically register such unregistered words in the dictionary. It is to provide an automatic word registration device.

本発明の第1の実施の形態に係る未登録語自動抽出装置は、第1の言語の文と第2の言語の文との間の書換パタンと、第1の言語と第2の言語との間の複数の対訳用例文とに基づいて、第1の言語の機械可読な辞書に未登録な語を自動的に抽出する未登録語自動抽出装置であって、書換パタンと対訳用例文とを照合し、対訳用例文から書換パタンにマッチする対訳を抽出して、当該対訳のうち第1の言語の文中で可変部を構成する文字列を特定するための用例文・書換パタン照合手段と、用例文・書換パタン照合手段により特定された文字列を辞書内で検索し、登録されているか否かを判定するための辞書検索手段と、辞書検索手段により辞書に登録されていないと判定された第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する第2の言語の文字列を、第1の言語の文字列とともに辞書に登録すべき情報として特定するための登録情報特定手段とを含む。   The unregistered word automatic extraction device according to the first embodiment of the present invention includes a rewrite pattern between a first language sentence and a second language sentence, a first language, and a second language. An unregistered word automatic extraction device that automatically extracts unregistered words in a machine-readable dictionary of a first language based on a plurality of parallel translation example sentences between a rewriting pattern, a bilingual example sentence, A sample sentence / rewrite pattern matching means for extracting a parallel translation that matches the rewrite pattern from the bilingual example sentence, and specifying a character string constituting the variable part in the sentence of the first language of the parallel translation; The character string specified by the example sentence / rewrite pattern matching means is searched in the dictionary, and the dictionary search means for determining whether or not the character string is registered, and the dictionary search means determines that it is not registered in the dictionary. For a first language character string, a pair including the first language character string. And the second language character string corresponding to the first language character string, together with the first language character string, as information to be registered in the dictionary based on the rewriting pattern matched with the parallel translation Registration information specifying means for doing this.

用例文・書換パタン照合手段が、書換パタンと対訳用例文とを照合し、対訳のうち第1の言語の文中で可変部を構成する文字列を抽出する。辞書検索手段がこの文字列を辞書内で検索し、登録されているか否かを判定する。登録されていない場合、この文字列に対応する第2の言語の文字列を登録情報特定手段が特定する。第1の言語の文字列と、当該文字列に対応するとして特定された第2の言語の文字列とが、辞書に登録すべき情報として自動的に抽出される。この処理では、抽出されるべき文字列に関する何らかの情報が辞書に登録されている必要はない。人手によりこのような文字列の対を抽出する必要がなく、辞書に登録すべき見出しを特定するための労力が大きく改善される。その結果、辞書に全く登録されていない未登録語を自動的に抽出することができる未登録語自動抽出装置を提供できる。   The example sentence / rewrite pattern collating unit collates the rewrite pattern with the parallel translation example sentence, and extracts a character string constituting the variable part in the sentence of the first language from the parallel translation. The dictionary search means searches for this character string in the dictionary and determines whether it is registered. If not registered, the registered information specifying unit specifies the character string of the second language corresponding to the character string. The character string of the first language and the character string of the second language specified as corresponding to the character string are automatically extracted as information to be registered in the dictionary. In this process, it is not necessary that some information regarding the character string to be extracted is registered in the dictionary. There is no need to manually extract such a pair of character strings, and the labor for specifying a headline to be registered in the dictionary is greatly improved. As a result, it is possible to provide an unregistered word automatic extraction device that can automatically extract unregistered words that are not registered in the dictionary at all.

好ましくは、未登録語自動抽出装置は、辞書検索手段により辞書に登録されていると判定された第1の言語の文字列について、辞書に登録されている情報とともに書換パタンと関連付けて可変部情報として格納するための可変部情報格納手段をさらに含む。登録情報特定手段は辞書検索手段により辞書に登録されていないと判定された第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する訳語として辞書に登録されるべき第2の言語の文字列を特定するための訳語特定手段と、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報に基づいて、第1の言語の文字列に関して辞書に登録すべき付加情報を特定するための付加情報特定手段とを含む。   Preferably, the unregistered word automatic extraction device associates the character string of the first language determined to be registered in the dictionary by the dictionary search unit with the rewrite pattern together with the information registered in the dictionary, and the variable part information. Further includes variable part information storage means. The registered information specifying means includes, for the first language character string determined not to be registered in the dictionary by the dictionary search means, a bilingual translation including the first language character string and a rewriting pattern in which the bilingual match. Based on this, there is a translation specifying means for specifying a character string of the second language to be registered in the dictionary as a translation corresponding to the character string of the first language, and a parallel translation including the character string of the first language. An additional information specifying means for specifying additional information to be registered in the dictionary with respect to the character string of the first language based on the variable part information stored in the variable part information storing means in association with the matched rewrite pattern; Including.

同じ書換パタンにマッチする対訳用例文は、互いに共通する種類の情報に関するものであると考えられる。すなわち、ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報は、その書換パタンにマッチした他の文字列であってかつ辞書から抽出された情報と類似していると考えられる。したがって、上記したように付加情報特定手段が特定する情報は、最初に特定された第1の言語の文字列に関しても妥当する情報と考えられ、これら当該第1の言語の文字列に付加して辞書に登録すべき情報を作成することで、辞書に登録すべき情報をさらに充実させることができる。   Bilingual example sentences that match the same rewrite pattern are considered to relate to information of a common type. In other words, information to be added to a character string specified by matching a certain rewrite pattern is considered to be similar to information extracted from a dictionary that is another character string that matches the rewrite pattern. It is done. Therefore, the information specified by the additional information specifying means as described above is considered to be valid information regarding the first language character string specified first, and is added to the character string of the first language. By creating information to be registered in the dictionary, information to be registered in the dictionary can be further enhanced.

さらに好ましくは、付加情報特定手段は、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報の和集合を、第1の言語の文字列に関する付加情報として特定するための手段を含む。   More preferably, the additional information specifying means associates the union of the variable part information stored in the variable part information storage means in association with the rewrite pattern matched with the parallel translation including the character string of the first language in the first language. Means for specifying as additional information regarding the character string.

ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報の和集合をとることにより、最初に特定された第1の言語の文字列に関しても妥当する、漏れのない情報を作成できる。   By creating a union of information that should be added to a specified character string by matching a certain rewrite pattern, it is possible to create leak-free information that is valid even for the first specified character string of the first language. it can.

未登録語自動抽出装置はさらに、用例文・書換パタン照合手段による照合の結果に第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含んでもよく、付加情報特定手段は、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報のうち、出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、第1の言語の文字列に関する付加情報として特定するための手段を含んでもよい。   The unregistered word automatic extraction device further includes an appearance count counting unit for counting the number of appearances of the character string every time a character string of the first language appears in the result of collation by the example sentence / rewrite pattern collation unit. The additional information specifying means may include the appearance count counting means among the variable part information stored in the variable part information storage means in association with the rewrite pattern in which the parallel translation including the character string of the first language is matched. Means may be included for specifying the union of the counted number of appearances as a predetermined number or more as additional information related to the first language character string.

所定回数出現する文字列に付加されている情報の和集合をとることにより、特定の書換パタンにマッチする文字列として頻繁に出現する文字列に関して辞書から抽出された情報が得られる。こうした文字列に付随する情報は、書換パタンにマッチする文字列の持つ性質をよく反映していると考えられる。したがって、特定された第1の言語の文字列にこれら和集合の情報を付すことにより、第1の言語の文字列に関する付加情報であって、かつ正確な情報を特定することができる。   By taking the union of information added to a character string that appears a predetermined number of times, information extracted from the dictionary regarding character strings that frequently appear as character strings that match a specific rewrite pattern can be obtained. It is considered that the information accompanying the character string well reflects the property of the character string that matches the rewrite pattern. Therefore, by adding the union information to the specified character string of the first language, it is possible to specify the additional information regarding the character string of the first language and accurate information.

好ましくは、未登録語自動抽出装置は、用例文・書換パタン照合手段による照合の結果に第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含む。付加情報特定手段は、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報が所定のしきい値より大きいときに、出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、第1の言語の文字列に関する付加情報として特定するための手段を含む。   Preferably, the unregistered word automatic extraction device counts the number of appearances for counting the number of appearances of the character string every time a character string of the first language appears in the result of collation by the example sentence / rewrite pattern collation unit. Means are further included. When the variable part information stored in the variable part information storage unit in association with the rewrite pattern in which the parallel translation including the character string in the first language is matched is larger than a predetermined threshold, the additional information specifying unit Means for specifying the union of the appearances counted by the counting means as the additional information regarding the character string of the first language is included.

第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けられている可変部情報が多数の時には、それらのうちで所定回数以上出現したものの和集合をとる。したがって、第1の言語の文字列に関する情報として正確な情報が得られることが期待できる。一方、当該書換パタンと関連付けられている可変部情報が少数のときには、それらの和集合をとることで、できるだけ漏れの少ない、包括的な情報を得ることができる。   When there are a large number of variable part information associated with the rewrite pattern that matches the parallel translation including the character string of the first language, the union of those appearing more than a predetermined number of times is taken. Therefore, it can be expected that accurate information is obtained as information on the character string of the first language. On the other hand, when there is a small number of variable part information associated with the rewrite pattern, comprehensive information with as little leakage as possible can be obtained by taking the union of them.

本発明の第2の局面に係る未登録語自動抽出プログラムは、コンピュータにより実行されると、上記したいずれかの未登録語自動抽出装置として当該コンピュータを動作させるものである。したがって、これら未登録語自動抽出装置と同様の効果を得ることができる。   The unregistered word automatic extraction program according to the second aspect of the present invention, when executed by a computer, causes the computer to operate as any one of the unregistered word automatic extraction devices described above. Therefore, the same effects as those of the unregistered word automatic extraction device can be obtained.

本発明の第3の局面に係る未登録語自動登録装置は、上記したいずれかの未登録語自動抽出装置と、未登録語自動抽出装置により辞書に登録すべきとして特定された情報を、当該辞書に登録するための辞書登録手段とを含む。   The unregistered word automatic registration device according to the third aspect of the present invention includes any of the above-described unregistered word automatic extraction devices and the information specified by the unregistered word automatic extraction device as being registered in the dictionary. Dictionary registration means for registering in the dictionary.

この未登録語自動登録装置により、辞書に登録すべき文字列と、その文字列に対する訳語等の情報とが自動的に抽出でき、かつ自動的に辞書に登録される。登録すべき文字列のピックアップ、訳語の特定、品詞分類又は意味分類等、文字列に付加すべき情報の作成、辞書への登録等の処理が自動的に行なわれる。その結果辞書に全く登録されていない未登録語を自動的に抽出し辞書に登録することができる未登録語自動登録装置を提供できる。   The unregistered word automatic registration device can automatically extract a character string to be registered in the dictionary and information such as a translated word for the character string and automatically register it in the dictionary. Processing such as picking up a character string to be registered, specifying a translation, part-of-speech classification or meaning classification, creating information to be added to the character string, and registering it in a dictionary is automatically performed. As a result, it is possible to provide an unregistered word automatic registration device that can automatically extract unregistered words that are not registered in the dictionary and register them in the dictionary.

本発明の第4の局面に係る未登録語自動登録プログラムは、コンピュータにより実行されると、上記した未登録語自動登録装置として当該コンピュータを動作させる。したがって、これら未登録語自動登録装置と同様の効果を得ることができる。   The unregistered word automatic registration program according to the fourth aspect of the present invention, when executed by a computer, causes the computer to operate as the above-described unregistered word automatic registration device. Therefore, the same effects as those of the unregistered word automatic registration device can be obtained.

[概略]
以下に説明する本発明の一実施の形態では、完全な未登録語を、すでに翻訳された対訳文から自動的に語句として切出し、訳語及び意味的情報等を付加して翻訳辞書に登録することができる機構を設ける。この機構により、未登録語を探したり、訳語を決定したり、意味分類を付与したり、という一連の辞書登録作業が不要となり、自動翻訳システム等の自然言語処理を行なうシステムにおける作業効率を改善することができる。
[Outline]
In one embodiment of the present invention to be described below, a complete unregistered word is automatically extracted as a phrase from a previously translated bilingual sentence, and a translation word and semantic information are added and registered in a translation dictionary. Provide a mechanism that can This mechanism eliminates the need for a series of dictionary registration tasks such as searching for unregistered words, determining translated words, and assigning semantic classifications, improving work efficiency in systems that perform natural language processing such as automatic translation systems. can do.

[機能的構成]
以下、本実施の形態に係る辞書自動登録装置の構成について説明する。なお、以下の実施の形態では、説明のために日英翻訳を行なう自動翻訳システムを例にとる。原言語は日本語、目的言語は英語である。
[Functional configuration]
Hereinafter, the configuration of the dictionary automatic registration apparatus according to the present embodiment will be described. In the following embodiment, an automatic translation system that performs Japanese-English translation is taken as an example for the sake of explanation. The source language is Japanese and the target language is English.

図1に本実施の形態に係る未登録語自動登録装置30の構成をブロック図形式で示す。図1を参照して、未登録語自動登録装置30は、日英翻訳を行なう翻訳システムが備える、自動翻訳で使用する書換パタンを記憶する記憶部32と、予め準備された日本語と英語との多数の対訳用例文群34と、上記した翻訳システムが備える翻訳用の辞書36とともに用いられ、対訳用例文群34中の用例文から辞書36に未登録の単語(文字列)を切出し、所定の方法にしたがって訳語、意味情報等の付加情報を加えて辞書36に自動的に登録する機能を持つ。   FIG. 1 is a block diagram showing the configuration of an unregistered word automatic registration device 30 according to the present embodiment. Referring to FIG. 1, an unregistered word automatic registration device 30 includes a storage unit 32 for storing a rewrite pattern used for automatic translation, a Japanese and English prepared in advance, which is included in a translation system that performs Japanese-English translation. Are used together with a translation dictionary 36 included in the translation system described above, and unregistered words (character strings) are extracted from the example sentences in the translation example sentence group 34 and stored in the dictionary 36. According to this method, additional information such as translated words and semantic information is added and automatically registered in the dictionary 36.

未登録語自動登録装置30は、記憶部32から書換パタンを抽出するための書換パタン抽出部50と、書換パタン抽出部50により抽出された書換パタンを記憶するための書換パタン記憶部52とを含む。   The unregistered word automatic registration device 30 includes a rewrite pattern extraction unit 50 for extracting a rewrite pattern from the storage unit 32, and a rewrite pattern storage unit 52 for storing the rewrite pattern extracted by the rewrite pattern extraction unit 50. Including.

図2に、書換パタン記憶部52に記憶される書換パタンの一例として、書換パタン80を示す。図2を参照して、書換パタン80は少なくとも、日本語の原文パタン90と、英語の訳文パタン92とを含む。各パタンは少なくとも、文字列の情報を持つ固定部と、固定部に対する位置情報及び原文パタンの可変部と訳文パタンの可変部との対応情報を持つ可変部とを含む。   FIG. 2 shows a rewrite pattern 80 as an example of a rewrite pattern stored in the rewrite pattern storage unit 52. Referring to FIG. 2, the rewrite pattern 80 includes at least a Japanese original pattern 90 and an English translation pattern 92. Each pattern includes at least a fixed part having character string information, and position information with respect to the fixed part and a variable part having correspondence information between the variable part of the original pattern and the variable part of the translated pattern.

図2に示す例では、原文パタン90は「私は…に〜を送った」であり、その中で「私は」「に」「を送った」の部分が固定部である。訳文パタン92は「I sent 〜 to …」であり、その中で「I sent」と「to」とが固定部である。両パタンにおいて「…」で示される文字列100及び106、並びに「〜」で示される文字列102及び104がそれぞれ可変部である。原文と訳文とで文字列が共通している可変部は、互いに対応している。すなわち、文字列100及び106の部分が互いに対応しており、文字列102及び104の部分がそれぞれ対応している。さらにこの可変部は、原文パタン及び訳文パタンの双方において固定部の文字列中の特定位置に挿入されていることで、固定部との位置情報を持っている。   In the example shown in FIG. 2, the original pattern 90 is “I sent ... to”, and among those, “I”, “to” and “Sent” are fixed parts. The translation pattern 92 is “I sent to to...”, Among which “I sent” and “to” are fixed portions. In both patterns, character strings 100 and 106 indicated by “...” And character strings 102 and 104 indicated by “˜” are variable parts. The variable parts having the same character string in the original sentence and the translated sentence correspond to each other. That is, the character strings 100 and 106 correspond to each other, and the character strings 102 and 104 correspond to each other. Further, the variable part has position information with respect to the fixed part by being inserted at a specific position in the character string of the fixed part in both the original sentence pattern and the translated sentence pattern.

以上のとおり、書換パタンとは、原文パタンと訳文パタンとの対を含む。原文パタンと訳文パタンとの各々は、固定文字列(固定部)と、可変部とを含む。書換パタンは、各可変部と固定部との間の位置関係が分かるように構成されている。さらに書換パタンは、原文パタンと訳文パタンとの間で、それぞれの可変部の対応関係が分かるように構成されている。   As described above, the rewrite pattern includes a pair of an original pattern and a translated pattern. Each of the original sentence pattern and the translated sentence pattern includes a fixed character string (fixed part) and a variable part. The rewrite pattern is configured so that the positional relationship between each variable portion and the fixed portion can be understood. Furthermore, the rewrite pattern is configured so that the correspondence between the variable parts can be understood between the original sentence pattern and the translated sentence pattern.

再び図1を参照して、未登録語自動登録装置30はさらに、書換パタン記憶部52に接続され、対訳用例文群34に記憶された対訳用例文を書換パタン記憶部52に記憶された書換パタンと照合し、書換パタンのいずれかに原文と訳文との双方がマッチする用例文を抽出し、さらに抽出された対訳文の日英両方の文において、書換パタンにより指定された可変部に対応する文字列(以下「可変部文字列」と呼ぶ。)を特定する処理を行なうための用例文・書換パタン照合部54と、用例文・書換パタン照合部54が特定した可変部文字列と、対応する書換パタンとを受けてこれらを解析し、当該書換パタンにマッチした用例文の可変部文字列に関する情報(単語、品詞、意味情報等。以下「可変部情報」と呼ぶ。)を作成又は更新するための処理を行ない、当該可変部情報を書換パタンと関連付けて書換パタン記憶部52に記憶させる処理を行なうための可変部解析部56とを含む。可変部解析部56はこのために、当該可変部文字列が対応する書換パタンに関する可変部情報として書換パタン記憶部52に登録されているか否かを判定する機能を持つ。   Referring again to FIG. 1, the unregistered word automatic registration device 30 is further connected to the rewrite pattern storage unit 52, and the rewrite example stored in the rewrite pattern storage unit 52 is stored in the rewrite pattern storage unit 52. Matches the pattern, extracts example sentences that match both the original text and the translated text to one of the rewrite patterns, and supports the variable part specified by the rewrite pattern in both Japanese and English sentences of the extracted parallel translation An example sentence / rewrite pattern matching unit 54 for performing processing for specifying a character string to be performed (hereinafter referred to as “variable part character string”), a variable part character string identified by the example sentence / rewrite pattern matching unit 54, The corresponding rewrite patterns are received and analyzed, and information (word, part of speech, semantic information, etc., hereinafter referred to as “variable part information”) regarding the variable part character string of the example sentence that matches the rewrite pattern is created or created. For updating Performs management, and a variable portion analyzer 56 for performing a process of storing the rewrite pattern storage unit 52 the variable portion information in association with the rewriting pattern. For this purpose, the variable part analysis unit 56 has a function of determining whether or not the variable part character string is registered in the rewrite pattern storage unit 52 as variable part information related to the corresponding rewrite pattern.

未登録語自動登録装置30はさらに、可変部解析部56において、入力された可変部文字列が書換パタン記憶部52中の該当書換パタンの可変部情報に登録されていないと判定されたことに応答して、当該可変部文字列を未登録語として、未登録語情報(未登録語に対する訳語、並びに品詞及び意味情報等の付加情報)を書換パタン記憶部52の当該書換パタンの可変部情報に基づいて作成するための未登録語登録情報生成部58と、未登録語登録情報生成部58により作成された未登録語情報とともに、未登録語を翻訳システムの辞書36に自動的に登録するための辞書登録部60と、可変部解析部56によって書換パタン記憶部52に記憶された書換パタンに対する可変部情報として登録されていないと判定された可変部文字列に関し、この未登録語自動登録装置30が組込まれた自動翻訳システムの全ての辞書36を検索して登録されている情報を読出すための登録語辞書検索部62とを含む。   The unregistered word automatic registration device 30 further determines that the variable part analysis unit 56 determines that the input variable part character string is not registered in the variable part information of the corresponding rewrite pattern in the rewrite pattern storage unit 52. In response, the variable part character string is set as an unregistered word, and unregistered word information (translation to the unregistered word and additional information such as part of speech and semantic information) is changed. The variable part information of the rewrite pattern in the rewrite pattern storage unit 52 The unregistered word is automatically registered in the dictionary 36 of the translation system together with the unregistered word registration information generating unit 58 for creating based on the unregistered word information generated by the unregistered word registration information generating unit 58. And a variable part character string determined not to be registered as variable part information for the rewrite pattern stored in the rewrite pattern storage part 52 by the dictionary registration part 60 and the variable part analysis part 56. Of and a registered word dictionary search section 62 for reading the information registered by searching all the dictionary 36 unregistered words automatic automatic translation system registration device 30 is incorporated.

[コンピュータプログラムの構成]
後述するように、この未登録語自動登録装置30は、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。用例文・書換パタン照合部54、可変部解析部56、未登録語登録情報生成部58、辞書登録部60及び登録語辞書検索部62からなる未登録語自動登録処理を実現するためのコンピュータプログラムについて、図3〜図6を参照してその制御構造につき説明する。書換パタン抽出部50の処理については、他の処理とは独立に実行でき、かつその処理内容については簡単であるのでここではその詳細については省略する。
[Computer program structure]
As will be described later, the unregistered word automatic registration device 30 can be realized by a computer and a computer program executed on the computer. Computer program for realizing an unregistered word automatic registration process comprising an example sentence / rewrite pattern collation unit 54, a variable unit analysis unit 56, an unregistered word registration information generation unit 58, a dictionary registration unit 60, and a registered word dictionary search unit 62 The control structure will be described with reference to FIGS. The processing of the rewrite pattern extraction unit 50 can be executed independently of other processing, and the processing content is simple, so the details are omitted here.

図3に、この未登録語自動登録処理プログラムの全体の処理フローを示す。図3を参照して、このプログラムの実行が開始されると、まず図1に示す対訳用例文群34を書換パタン記憶部52に記憶された書換パタンと照合し、書換パタンのいずれかと原文パタン及び訳文パタンの双方において一致する用例文を特定し、その中の可変部文字列を抽出する処理と、抽出された可変部文字列の各々について可変部情報を作成する処理とからなる、可変部抽出・可変部情報作成処理を行なう(ステップ120)。可変部抽出・可変部情報作成処理が終了すると、ステップ120で抽出された可変部文字列のうち、翻訳システムの辞書36に登録されていない文字列について、作成された可変部情報から辞書にともに登録すべき未登録語情報とともに辞書36に登録する処理を行なう(ステップ122)。以上で処理終了である。   FIG. 3 shows an overall processing flow of this unregistered word automatic registration processing program. Referring to FIG. 3, when the execution of this program is started, first, collation example sentence group 34 shown in FIG. 1 is collated with the rewrite pattern stored in rewrite pattern storage unit 52, and either one of the rewrite patterns and the original text pattern are checked. A variable part comprising: processing for identifying example sentences that match in both the translation pattern and the translation pattern, extracting a variable part character string therein, and creating variable part information for each of the extracted variable part character strings Extraction / variable portion information creation processing is performed (step 120). When the variable part extraction / variable part information creation process is completed, among the variable part character strings extracted in step 120, the character strings that are not registered in the dictionary 36 of the translation system are both stored in the dictionary from the created variable part information. A process of registering in the dictionary 36 together with unregistered word information to be registered is performed (step 122). This is the end of the process.

次に、図4を参照して、図3のステップ120で実行される可変部抽出・可変部情報作成処理の詳細について説明する。まずステップ140で初期設定を行なう。この初期設定では、ワークエリアのクリア等を行なう。ステップ142で、書換パタン記憶部52に記憶されている書換パタンを読出す。ステップ144で、全ての書換パタンの読出が終了したか否かについて判定する。もしも全ての書換パタンの読出が終了していればこの処理を終了する。全ての読出が終了していなければ、ステップ146に進む。   Next, details of the variable part extraction / variable part information creation process executed in step 120 of FIG. 3 will be described with reference to FIG. First, at step 140, initial setting is performed. In this initial setting, the work area is cleared. In step 142, the rewrite pattern stored in the rewrite pattern storage unit 52 is read. In step 144, it is determined whether or not reading of all rewrite patterns has been completed. If all the rewrite patterns have been read, this process ends. If all reading has not been completed, the process proceeds to step 146.

ステップ146では、対訳用例文群34中の用例文を読出す。ステップ148で用例文を全て読出したか否かを判定する。もしも全て読出していたら制御はステップ142に戻り、次の書換パタンについての処理を行なう。全て読出していない場合にはステップ150に進む。   In step 146, the example sentences in the parallel translation example sentence group 34 are read. In step 148, it is determined whether or not all example sentences have been read. If all have been read, control returns to step 142 to perform processing for the next rewrite pattern. If all are not read, the process proceeds to step 150.

ステップ150では、読出された用例文が、現在の書換パタンにマッチしているか否かについて判定する。この判定は、書換パタンのうち原文パタンに用例文の原文がマッチしているか否かと、訳文パタンに用例文の訳文がマッチしているか否かとの、双方について行なわれる。もしもマッチしていなければ制御はステップ146に戻り、次の用例文に対する処理を行なう。もしもマッチしていれば、制御はステップ152に進む。   In step 150, it is determined whether or not the read example sentence matches the current rewriting pattern. This determination is made for both of whether the original sentence of the example sentence matches the original sentence pattern and whether the translated sentence of the example sentence matches the translated sentence pattern. If there is no match, control returns to step 146 to process the next example sentence. If there is a match, control proceeds to step 152.

ステップ152では、用例文のうち原文及び訳文の双方において、書換パタンの可変部にマッチした文字列(可変部文字列)を特定する。   In step 152, a character string (variable part character string) that matches the variable part of the rewrite pattern is specified in both the original sentence and the translated sentence in the example sentence.

図5を参照して、さらにステップ182で、書換パタン記憶部52の当該書換パタンの可変部情報に、この可変部文字列が登録されているか否かを判定する。もしも登録されていれば、ステップ184で当該文字列の出現数に1を加算し、図4のステップ146に戻る。登録されていなければ、ステップ186に進む。   Referring to FIG. 5, in step 182, it is determined whether or not this variable part character string is registered in the variable part information of the rewrite pattern in rewrite pattern storage unit 52. If registered, in step 184, 1 is added to the number of occurrences of the character string, and the process returns to step 146 in FIG. If not registered, the process proceeds to step 186.

ステップ186では、この文字列を翻訳システムの辞書36内で検索する。ステップ188で、翻訳システムの辞書36にこの文字列が登録されているか否かについて判定する。もしも登録されていればステップ190でこの可変部文字列と、翻訳システムの辞書36から当該文字列に対して検索された結果とを、書換パタン記憶部52内の当該書換パタンの可変部情報に追加する。この後制御はステップ146に戻る。一方、ステップ188でこの文字列が辞書36に登録されていないと判定されれば、ステップ192でこの可変部文字列に、未登録を示す情報を付加して、書換パタン記憶部52内の当該書換パタンに付随する可変部情報として書換パタン記憶部52に追加する。このとき、当該可変部情報に関する出現回数を「1」に初期化しておく。この後制御はステップ146に戻り、次の用例文について同じ処理を繰返す。   In step 186, the character string is searched in the dictionary 36 of the translation system. In step 188, it is determined whether this character string is registered in the dictionary 36 of the translation system. If registered, in step 190, the variable part character string and the result searched for the character string from the dictionary 36 of the translation system are used as variable part information of the rewrite pattern in the rewrite pattern storage unit 52. to add. Thereafter, the control returns to step 146. On the other hand, if it is determined in step 188 that the character string is not registered in the dictionary 36, information indicating unregistration is added to the variable part character string in step 192, and the corresponding character in the rewrite pattern storage unit 52 is added. The variable part information accompanying the rewrite pattern is added to the rewrite pattern storage unit 52. At this time, the number of appearances related to the variable part information is initialized to “1”. Control then returns to step 146 and the same processing is repeated for the next example sentence.

こうして、全ての書換パタンと全ての用例文との組合せについて図4及び図5に示す処理が終了すると、制御は図3のステップ122に示す辞書更新処理に移る。その詳細について図6に示す。図6に示す処理のうち、ステップ202〜ステップ228までが図1に示す未登録語登録情報生成部58に相当し、ステップ230が辞書登録部60に相当する。   Thus, when the processing shown in FIGS. 4 and 5 is completed for the combinations of all the rewrite patterns and all the example sentences, the control shifts to the dictionary update processing shown in step 122 of FIG. The details are shown in FIG. 6, steps 202 to 228 correspond to the unregistered word registration information generation unit 58 shown in FIG. 1, and step 230 corresponds to the dictionary registration unit 60.

図6を参照して、辞書更新処理では、最初にステップ200で初期設定を行なう。この初期設定では、ワークエリアのクリア、辞書36に登録すべき語のリスト(未登録語リスト)の初期化等を行なう。ステップ202で、書換パタン記憶部52に記憶された書換パタンを読出す。ステップ210では、全ての書換パタンについて読出が終了したか否かを判定する。もしも終了していれば制御はステップ230に進む。さもなければ制御はステップ212に進む。   Referring to FIG. 6, in the dictionary update process, initial setting is first performed in step 200. In this initial setting, the work area is cleared, a list of words to be registered in the dictionary 36 (unregistered word list), and the like are performed. In step 202, the rewrite pattern stored in the rewrite pattern storage unit 52 is read. In step 210, it is determined whether reading has been completed for all rewrite patterns. If completed, control proceeds to step 230. Otherwise, control proceeds to step 212.

ステップ212では、この書換パタンに付随する可変部情報中に、未登録を示す情報が付された可変部文字列があるか否かを判定する。もしもなければ制御はステップ202に戻り、次の書換パタンについて処理を繰返す。もしも未登録を示す情報が付された可変部文字列が存在すれば、制御はステップ214に進む。   In step 212, it is determined whether or not there is a variable part character string with information indicating unregistered in the variable part information accompanying the rewrite pattern. If not, control returns to step 202 and the process is repeated for the next rewrite pattern. If there is a variable part character string with information indicating unregistered, the control proceeds to step 214.

ステップ214では、未登録を示す情報が付された可変部文字列を読出す。ステップ216では、この書換パタンに関する可変部情報中から、未登録を示す情報が付された可変部文字列を全て読出したか否かについての判定が行なわれる。もしも全て読出していれば制御はステップ202に戻り、次の書換パタンについて処理が実行される。もしもまだ全て読出していなければ、ステップ218でその可変部文字列に対する訳語を特定する処理が実行される。   In step 214, the variable part character string to which information indicating unregistration is attached is read. In step 216, it is determined whether or not all of the variable part character strings to which information indicating unregistration has been read out of the variable part information related to the rewrite pattern. If all have been read, control returns to step 202, and processing is executed for the next rewrite pattern. If all of them have not yet been read, a process for specifying a translation for the variable part character string is executed in step 218.

ステップ218で行なわれる処理の詳細について説明する。図2に示すように、書換パタンは原文パタンと訳文パタンとを含み、その可変部は、可変部文字列の対応関係を示す情報を含む。この対応関係を用い、訳文の可変部文字列のうち、原文の可変部文字列に対応する文字列がどれかを判定することができる。この文字列が、原文の可変部文字列に対する訳語であると考えることができる。ステップ218ではこのようにして書換パタンを使用して原文の可変部文字列に対する訳語を特定する。   Details of the processing performed in step 218 will be described. As shown in FIG. 2, the rewrite pattern includes an original sentence pattern and a translated sentence pattern, and the variable part thereof includes information indicating the correspondence between the variable part character strings. Using this correspondence relationship, it is possible to determine which character string corresponds to the variable part character string of the original sentence among the variable part character strings of the translated sentence. This character string can be considered as a translation for the original variable part character string. In step 218, the translation word for the variable part character string of the original text is specified using the rewrite pattern in this way.

続いてステップ220では、この書換パタンに付随する可変部情報の数が所定のしきい値より大きいか否かを判定する。可変部情報の数がしきい値より大きければステップ226に、さもなければステップ224に、それぞれ進む。   Subsequently, in step 220, it is determined whether or not the number of variable part information accompanying the rewrite pattern is larger than a predetermined threshold value. If the number of variable part information is larger than the threshold value, the process proceeds to step 226, and if not, the process proceeds to step 224.

ステップ226では、この書換パタンに付随する可変部情報のうち、出現回数がある一定値以上のものの可変部情報に含まれる品詞分類、意味分類等の情報の和集合をとり、それを当該可変部文字列に関する登録情報とする。一方、ステップ224では、全ての可変部情報に含まれる品詞分類、意味分類等の情報の和集合をとり、それを当該可変部文字列に関する登録情報とする。   In step 226, among the variable part information accompanying the rewrite pattern, the union of information such as part-of-speech classification and semantic classification included in the variable part information having the number of appearances equal to or greater than a certain value is taken, and this is taken as the variable part information. Registered information related to character strings. On the other hand, in step 224, a union of information such as part-of-speech classification and semantic classification included in all variable part information is taken and used as registration information regarding the variable part character string.

このように本実施の形態では、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けられている可変部情報が多数の時には、それらのうちで所定回数以上出現したものの和集合をとる。ある書換パタンに頻繁にマッチする文字列に対し付加すべき情報の和集合をとることにより得られる情報は、最初に特定された第1の言語の文字列に関しても妥当する可能性が高い。したがって、第1の言語の文字列に関する情報として正確な情報が得られることが期待できる。一方、当該書換パタンと関連付けられている可変部情報が少数のときには、それらの和集合をとることで、できるだけ漏れの少ない、包括的な情報を得ることができる。   As described above, in the present embodiment, when there are a large number of variable part information associated with the rewrite pattern in which the parallel translation including the character string of the first language is matched, a union of those appearing a predetermined number of times or more is obtained. Take. Information obtained by taking the union of information to be added to a character string that frequently matches a certain rewrite pattern is highly likely to be valid for the first-specified character string of the first language. Therefore, it can be expected that accurate information is obtained as information on the character string of the first language. On the other hand, when there is a small number of variable part information associated with the rewrite pattern, comprehensive information with as little leakage as possible can be obtained by taking the union of them.

もちろん、このような処理を行なわず、どのようなときにも全ての可変部情報の和集合をとるようにしてもよい。この場合でも、ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報の和集合をとることにより、最初に特定された第1の言語の文字列に関しても妥当する、漏れのない情報を作成できると考えられる。   Of course, such a process may not be performed, and the union of all variable part information may be taken at any time. Even in this case, by taking the union of the information to be added to the specified character string by matching a certain rewrite pattern, the leakage of the first language specified first is also valid. It is thought that no information can be created.

この後制御はいずれもステップ228に進み、当該可変部文字列と、その文字列に付随する未登録語情報とを未登録語リストに追加する。その後制御はステップ214に戻り、当該書換パタンに付随する可変部情報のうち、次のものに対する処理を実行する。   Thereafter, the control proceeds to step 228, and the variable part character string and unregistered word information attached to the character string are added to the unregistered word list. Thereafter, the control returns to step 214 to execute processing for the next variable part information associated with the rewrite pattern.

こうして、全ての書換パタンの全ての可変部情報に対し、ステップ202〜ステップ228の処理を実行すると、制御はステップ210からステップ230に移る。   In this way, when the processing of step 202 to step 228 is executed for all variable part information of all rewrite patterns, the control moves from step 210 to step 230.

ステップ230では、ステップ228において未登録語情報が追加された未登録語リストの先頭から、翻訳システムの辞書36に追加していく処理が実行される。この処理が終了すると、辞書更新処理は終了である。   In step 230, a process of adding to the dictionary 36 of the translation system from the top of the unregistered word list to which the unregistered word information is added in step 228 is executed. When this process ends, the dictionary update process ends.

[コンピュータハードウェア構成]
上記したコンピュータプログラムを実行するコンピュータシステムの外観の一例を図7に、そのブロック図の例を図8に、それぞれ示す。
[Computer hardware configuration]
FIG. 7 shows an example of the external appearance of a computer system that executes the above-described computer program, and FIG. 8 shows an example of a block diagram thereof.

図7を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。   Referring to FIG. 7, the computer system 330 includes a computer 340 having an FD (flexible disk) drive 352 and a CD-ROM (compact disk read only memory) drive 350, a keyboard 346, a mouse 348, and a monitor 342. including.

図8を参照して、コンピュータ340は、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352及びCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。   Referring to FIG. 8, in addition to the FD drive 352 and the CD-ROM drive 350, the computer 340 includes a CPU (central processing unit) 356 and a bus 366 connected to the CPU 356, the FD drive 352, and the CD-ROM drive 350. And a read only memory (ROM) 358 for storing a boot-up program and the like, and a random access memory (RAM) 360 connected to the bus 366 for storing a program command, a system program, work data, and the like. Computer system 330 further includes a printer 344.

ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。   Although not shown here, the computer 340 may further include a network adapter board that provides a connection to a local area network (LAN).

コンピュータシステム330に図1に示す未登録語自動登録装置30としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。   A computer program for causing the computer system 330 to operate as the unregistered word automatic registration device 30 shown in FIG. 1 is stored in the CD-ROM 362 or FD 364 inserted in the CD-ROM drive 350 or FD drive 352, and Transferred to the hard disk 354. Alternatively, the program may be transmitted to the computer 340 through a network (not shown) and stored in the hard disk 354. The program is loaded into the RAM 360 when executed. The program may be loaded directly into the RAM 360 from the CD-ROM 362, from the FD 364, or via a network.

このプログラムは、コンピュータ340にこの実施の形態の未登録語自動登録装置30としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)又はサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の未登録語自動登録装置30を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した未登録語自動登録装置30として動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。   This program includes a plurality of instructions for causing the computer 340 to operate as the unregistered word automatic registration device 30 of this embodiment. Some of the basic functions required to perform this operation are provided by operating system (OS) or third party programs running on the computer 340 or various toolkit modules installed on the computer 340. Therefore, this program does not necessarily include all functions necessary for realizing the unregistered word automatic registration device 30 of this embodiment. This program calls only an instruction to execute an operation as the above-described unregistered word automatic registration device 30 by calling an appropriate function or “tool” in a controlled manner so as to obtain a desired result. It only has to be included. The operation of computer system 330 is well known and will not be repeated here.

[動作]
上に構成を説明した本実施の形態に係る未登録語自動登録装置30は以下のように動作する。図1を参照して、予め翻訳システムの記憶部32及び翻訳システムの辞書36がこの未登録語自動登録装置30に接続されているものとする。また、対訳用例文群34が予め準備されており、かつ各対訳用例文は互いに正しい訳となっているものとする。
[Operation]
The unregistered word automatic registration device 30 according to the present embodiment whose configuration has been described above operates as follows. Referring to FIG. 1, it is assumed that a storage unit 32 of the translation system and a dictionary 36 of the translation system are connected to the unregistered word automatic registration device 30 in advance. Also, it is assumed that the parallel translation example sentence group 34 is prepared in advance, and the parallel translation example sentences are mutually correct.

最初に、書換パタン抽出部50が翻訳システムの記憶部32から書換パタンを抽出し、図2に示すような形式で書換パタン記憶部52に格納する。全ての書換パタンを翻訳システムの記憶部32から抽出し書換パタン記憶部52に格納させると、書換パタン抽出部50は動作を終了する。   First, the rewrite pattern extraction unit 50 extracts a rewrite pattern from the storage unit 32 of the translation system, and stores it in the rewrite pattern storage unit 52 in the format shown in FIG. When all the rewrite patterns are extracted from the storage unit 32 of the translation system and stored in the rewrite pattern storage unit 52, the rewrite pattern extraction unit 50 ends the operation.

続いて用例文・書換パタン照合部54が動作を開始する。具体的には、用例文・書換パタン照合部54は、まず書換パタン記憶部52から先頭の書換パタンを読出す。さらに対訳用例文群34から先頭の対訳用例文を読出す。用例文・書換パタン照合部54は、読出した書換パタンと対訳用例文とを比較し、対訳用例文の原文が書換パタンの原文パタンと一致し、かつ対訳用例文の訳文が書換パタンの訳文パタンと一致しているか否かを判定する。もしもそうした一致がなければこの対訳用例文は処理中の書換パタンとマッチしない。したがって用例文・書換パタン照合部54は次の対訳用例文を対訳用例文群34から読出し、同じ処理を実行する。   Subsequently, the example sentence / rewrite pattern matching unit 54 starts operating. Specifically, the example sentence / rewrite pattern matching unit 54 first reads the first rewrite pattern from the rewrite pattern storage unit 52. Further, the first example sentence for translation is read from the example sentence group 34 for translation. The example sentence / rewrite pattern matching unit 54 compares the read rewrite pattern with the example sentence for translation, the original sentence of the example sentence for translation matches the original pattern of the rewrite pattern, and the translation of the example sentence for translation is the translation pattern of the rewrite pattern. It is determined whether or not they match. If there is no such match, this bilingual example sentence will not match the rewriting pattern being processed. Therefore, the example sentence / rewrite pattern matching unit 54 reads the next example sentence for translation from the example sentence group 34 for translation, and executes the same processing.

もしも対訳用例文の原文が書換パタンの原文パタンと一致し、かつ対訳用例文の訳文が書換パタンの訳文パタンと一致している場合、用例文・書換パタン照合部54は、書換パタンと対訳用例文とを用いて、対訳用例文から原文の可変部文字列を抽出する。用例文・書換パタン照合部54はさらに、この原文の可変部文字列が、処理中の書換パタンに付随する可変部情報として登録されているか否かを判定する。もしも登録されていれば、当該可変部情報の出現数に1を加算し、次の対訳用例文に対する処理に移る。もしも登録されていなければ、次のような処理を実行する。   If the original text of the translation example sentence matches the original pattern of the rewrite pattern, and the translation of the example sentence for translation matches the translation pattern of the rewrite pattern, the example sentence / rewrite pattern matching unit 54 The variable part character string of the original sentence is extracted from the parallel translation example sentence using the example sentence. The example sentence / rewrite pattern matching unit 54 further determines whether or not the variable part character string of the original text is registered as variable part information associated with the rewrite pattern being processed. If registered, 1 is added to the number of appearances of the variable part information, and the process proceeds to the next example sentence for bilingual translation. If not registered, the following processing is executed.

すなわち用例文・書換パタン照合部54は、抽出された原文の可変部文字列を登録語辞書検索部62に与える。登録語辞書検索部62は、この可変部文字列を見出しに含む登録語を翻訳システムの辞書36内で検索し、当該文字列が登録されているか否かに関する情報と、登録されている場合にはそれら登録語に関する情報として検索された情報とを全て可変部解析部56に与える。   That is, the sample sentence / rewrite pattern matching unit 54 provides the extracted variable portion character string of the original text to the registered word dictionary search unit 62. The registered word dictionary search unit 62 searches the dictionary 36 of the translation system for a registered word including the variable part character string as a headline, and information regarding whether or not the character string is registered and Gives all of the retrieved information as information about the registered words to the variable part analysis unit 56.

可変部解析部56は、登録語辞書検索部62によって可変部文字列が翻訳システムの辞書36に登録されていないという情報が返された場合には、当該可変部文字列に未登録を示す情報を付加し、処理中の書換パタンに付随する可変部情報として書換パタン記憶部52に追加登録する。登録されている場合には、登録語辞書検索部62から与えられる情報をこの可変部文字列に付加し、処理中の書換パタンに付随する可変部情報として書換パタン記憶部52に登録する。   When the registered word dictionary search unit 62 returns information indicating that the variable part character string is not registered in the dictionary 36 of the translation system, the variable part analyzing unit 56 is information indicating that the variable part character string is not registered. And is additionally registered in the rewrite pattern storage unit 52 as variable part information accompanying the rewrite pattern being processed. If registered, the information given from the registered word dictionary search unit 62 is added to the variable part character string, and is registered in the rewrite pattern storage unit 52 as variable part information accompanying the rewrite pattern being processed.

ある書換パタンについて全ての対訳用例文の照合が終了すると、用例文・書換パタン照合部54は、書換パタン記憶部52から次の書換パタンを読出し、同様の処理を実行する。この処理を全ての書換パタンについて完了すると、可変部解析部56は未登録語登録情報生成部58に対して処理が終了したことを示す信号を与え、動作を終了する。   When collation of all the parallel translation example sentences for a certain rewrite pattern is completed, the example sentence / rewrite pattern collation unit 54 reads the next rewrite pattern from the rewrite pattern storage unit 52 and executes the same processing. When this process is completed for all the rewrite patterns, the variable part analysis unit 56 gives a signal indicating that the process has been completed to the unregistered word registration information generation unit 58 and ends the operation.

未登録語登録情報生成部58は、可変部解析部56から処理が終了したことを示す信号を受信すると、まず未登録語リストを初期化する。さらに未登録語登録情報生成部58は、書換パタン記憶部52を走査し、未登録であることを示す情報が付加された可変部情報を持つ書換パタンを順に読出す。未登録語登録情報生成部58は、読出した書換パタンの可変部情報を利用して、読込んだ可変部情報のうちの可変部文字列についての未登録語情報を以下のようにして生成する。すなわち、未登録語登録情報生成部58は、入力された対訳文のうち、書換パタンの訳文パタンに含まれる可変部に相当する文字列のうち、原文において可変部文字列が占めていた可変部に対応する部分の文字列を可変部文字列に対する訳語として特定する。また未登録語登録情報生成部58は、処理中の書換パタンに付随する可変部情報に含まれる品詞分類又は意味分類についてそれぞれ和集合をとることで、処理中の可変部文字列に関する品詞分類及び意味分類に関する情報を作成する。書換パタンに付随する可変部情報の数がしきい値より大きい場合には、出現数が一定値以上の可変部情報のみを用いて同様に品詞分類及び意味分類に関する情報を作成する。未登録語登録情報生成部58は、こうして作成した未登録語情報を未登録語リストに追加する。   When the unregistered word registration information generation unit 58 receives a signal indicating that the processing is completed from the variable unit analysis unit 56, it first initializes the unregistered word list. Further, the unregistered word registration information generation unit 58 scans the rewrite pattern storage unit 52 and sequentially reads the rewrite patterns having variable part information to which information indicating that they are not registered is added. The unregistered word registration information generation unit 58 uses the variable part information of the read rewrite pattern to generate unregistered word information for the variable part character string in the read variable part information as follows. . That is, the unregistered word registration information generation unit 58 includes the variable part that the variable part character string occupied in the original sentence among the character strings corresponding to the variable part included in the translation pattern of the rewrite pattern among the input parallel translations. The character string of the part corresponding to is specified as a translation for the variable part character string. Further, the unregistered word registration information generation unit 58 takes the union of the part-of-speech classification or the semantic classification included in the variable part information accompanying the rewriting pattern being processed, so that the part-of-speech classification and variable part character string being processed and Create information about semantic classification. When the number of variable part information accompanying the rewrite pattern is larger than the threshold value, information on the part-of-speech classification and the semantic classification is created using only the variable part information whose number of appearances is equal to or greater than a certain value. The unregistered word registration information generation unit 58 adds the unregistered word information thus created to the unregistered word list.

用例文・書換パタン照合部54は、書換パタンに複数の未登録を示す情報が付された可変部情報が存在する場合には、それらの各々について上記した処理を繰返す。   The example sentence / rewrite pattern collation unit 54 repeats the above-described process for each of the variable part information to which a plurality of unregistered information is added in the rewrite pattern.

未登録語登録情報生成部58はさらに、次の書換パタンを書換パタン記憶部52から読出し、同様の処理を繰返す。全ての書換パタンについての処理を終了すると、辞書登録部60に対して未登録語リストを渡すとともに、未登録語登録情報生成処理が完了したことを示す信号を辞書登録部60に与える。   The unregistered word registration information generation unit 58 further reads out the next rewrite pattern from the rewrite pattern storage unit 52 and repeats the same processing. When the process for all the rewrite patterns is completed, an unregistered word list is given to the dictionary registration unit 60 and a signal indicating that the unregistered word registration information generation process is completed is given to the dictionary registration unit 60.

辞書登録部60は、未登録語登録情報生成部58から未登録語登録情報生成処理が完了したことを示す信号が与えられると、未登録語登録情報生成部58から受け取った未登録語リストの先頭から順に処理し、可変部文字列と、その訳語、品詞分類、意味分類等の情報を翻訳システムの辞書36に追加していく。未登録語リストに含まれる全ての未登録語情報についてこの処理を終了すると、未登録語自動登録装置30は動作を終了する。   When a signal indicating that the unregistered word registration information generation process has been completed is received from the unregistered word registration information generation unit 58, the dictionary registration unit 60 receives the unregistered word list received from the unregistered word registration information generation unit 58. The variable part character string and its translation, part of speech classification, semantic classification, and other information are added to the translation system dictionary 36 in order from the beginning. When this process is completed for all unregistered word information included in the unregistered word list, the unregistered word automatic registration device 30 ends the operation.

[具体的動作例]
上記した未登録語自動登録装置30の動作について、具体的な例を用いて説明する。ここでは、書換パタンとして「最近〜という新技術が話題になっている」という原文パタンを持つ書換パタン(これを「第1の書換パタン」と呼ぶ。)が翻訳システムの記憶部32から抽出され書換パタン記憶部52に登録されたものとする。また対訳用例文群34には、この書換パタンにマッチする対訳用例文として、「最近ユビキタスという新技術が話題になっている。」という原文を持つ対訳用例文(これを第1の対訳用例文という。)と、「最近インターネットという新技術が話題になっている。」という原文を持つ対訳用例文(これを第2の対訳用例文と呼ぶ。)とが含まれているものとする。また前者では「ユビキタス」という語に対応する訳文の可変部には「ubiquitous computing」が含まれているものとする。また、「ユビキタス」については翻訳システムの辞書36には登録されておらず、「インターネット」については登録されているものとする。なお、「インターネット」については、品詞分類「普通名詞」、意味分類「技術用語」等の情報が翻訳システムの辞書36に登録されているものとする。
[Specific operation example]
The operation of the above-mentioned unregistered word automatic registration device 30 will be described using a specific example. Here, a rewrite pattern having the original pattern “recently new technology has become a hot topic” as a rewrite pattern (this is referred to as “first rewrite pattern”) is extracted from the storage unit 32 of the translation system. It is assumed that it is registered in the rewrite pattern storage unit 52. In the parallel translation example sentence group 34, as a parallel translation example sentence matching the rewriting pattern, a parallel translation example sentence having the original sentence “a new technology called ubiquitous has recently become a hot topic” (this is the first parallel translation example sentence). And a bilingual example sentence (this is referred to as a second bilingual example sentence) having the original sentence “A new technology called the Internet has recently become a hot topic”. In the former, it is assumed that the variable part of the translation corresponding to the word “ubiquitous” includes “ubiquitous computing”. Further, “ubiquitous” is not registered in the dictionary 36 of the translation system, and “Internet” is registered. For the “Internet”, information such as part-of-speech classification “common noun” and semantic classification “technical term” is registered in the dictionary 36 of the translation system.

用例文・書換パタン照合部54は、書換パタン記憶部52の書換パタンを読込み、対訳用例文群34に含まれる対訳用例文群と照合して原文の可変部文字列を抽出する。もしも抽出された可変部文字列を含む可変部情報が処理中の書換パタンの可変部情報として書換パタン記憶部52に登録済みであれば、用例文・書換パタン照合部54は当該可変部情報の出現数に1を加算し、次の対訳文に処理を進める。また可変部情報が書換パタン記憶部52に登録済みでなければ、以下のような処理を行なう。   The example sentence / rewrite pattern collation unit 54 reads the rewrite pattern stored in the rewrite pattern storage unit 52 and collates with the example sentence group for translation included in the example sentence group 34 for translation to extract the variable part character string of the original sentence. If the variable part information including the extracted variable part character string is already registered in the rewrite pattern storage unit 52 as the variable part information of the rewrite pattern being processed, the example sentence / rewrite pattern matching unit 54 stores the variable part information. Add 1 to the number of appearances and proceed to the next parallel translation. If the variable part information has not been registered in the rewrite pattern storage unit 52, the following processing is performed.

用例文・書換パタン照合部54が上記した第1の書換パタンを読込んだ場合、まず対訳用例文群34に含まれる第1の対訳用例文がこの書換パタンの原文パタンにマッチする。したがって用例文・書換パタン照合部54はこの対訳用例文から「ユビキタス」という語を可変部文字列として抽出する。可変部解析部56はこの語を含む可変部情報が書換パタン記憶部52に第1の書換パタンに付随するものとして登録されているか否かを判定する。ここでは登録されていないものとする。この場合可変部解析部56は、登録語辞書検索部62を用いて翻訳システムの辞書36を検索するが、対応する語は登録されておらず、情報は得られない。したがって可変部解析部56は、この可変部文字列に未登録を示す情報を付加し、書換パタン記憶部52に、第1の書換パタンに付随する可変部情報として追加登録する。   When the example sentence / rewrite pattern matching unit 54 reads the first rewrite pattern, the first example sentence for translation included in the example sentence group for translation 34 first matches the original pattern of the rewrite pattern. Therefore, the example sentence / rewrite pattern matching unit 54 extracts the word “ubiquitous” from the example sentence for translation as a variable part character string. The variable part analysis unit 56 determines whether variable part information including this word is registered in the rewrite pattern storage unit 52 as being associated with the first rewrite pattern. It is assumed that it is not registered here. In this case, the variable part analysis unit 56 searches the dictionary 36 of the translation system using the registered word dictionary search unit 62, but the corresponding word is not registered and information cannot be obtained. Therefore, the variable part analysis unit 56 adds information indicating unregistration to the variable part character string, and additionally registers it in the rewrite pattern storage unit 52 as variable part information associated with the first rewrite pattern.

用例文・書換パタン照合部54はさらに、第1の書換パタンにマッチする対訳用例文として、上記した第2の対訳用例文を対訳用例文群34から抽出する。可変部解析部56がこの可変部文字列について登録語辞書検索部62を用いて翻訳システムの辞書36を検索した結果、既に述べたようにこの語が登録されており、その情報が登録語辞書検索部62から可変部解析部56に戻される。この情報には、品詞分類「普通名詞」、意味分類「技術用語」等の情報が含まれている。可変部解析部56は、これら情報を可変部文字列「インターネット」とともに、第1の書換パタンに付随する可変部情報として書換パタン記憶部52に追加する。   The example sentence / rewrite pattern collation unit 54 further extracts the above-described second example sentence for translation from the example sentence group 34 for translation as the example sentence for translation that matches the first rewrite pattern. As a result of the variable part analysis part 56 searching the dictionary 36 of the translation system using the registered word dictionary search part 62 for the variable part character string, this word is registered as described above, and the information is stored in the registered word dictionary. The search unit 62 returns to the variable part analysis unit 56. This information includes information such as part-of-speech classification “common noun” and semantic classification “technical term”. The variable part analysis part 56 adds these pieces of information to the rewrite pattern storage part 52 as variable part information accompanying the first rewrite pattern together with the variable part character string “Internet”.

このようにして、他にも第1の書換パタンにマッチする対訳用例文が多数抽出され、可変部文字列について翻訳システムの辞書36に登録されているか否かが調べられる。辞書36に登録されている語については、辞書から得られた情報が第1の書換パタンに付随する可変部情報として書換パタン記憶部52に追加されていく。また、既に書換パタン記憶部52に登録された可変部情報については、対応する可変部文字列が対訳用例文群34から用例文・書換パタン照合部54により抽出されるたびに出現数が加算されていく。   In this way, many other parallel translation example sentences that match the first rewriting pattern are extracted, and it is checked whether or not the variable part character string is registered in the dictionary 36 of the translation system. For words registered in the dictionary 36, information obtained from the dictionary is added to the rewrite pattern storage unit 52 as variable part information accompanying the first rewrite pattern. The variable part information already registered in the rewrite pattern storage unit 52 is incremented each time the corresponding variable part character string is extracted from the bilingual example sentence group 34 by the example sentence / rewrite pattern matching part 54. To go.

用例文・書換パタン照合部54が全ての書換パタンについて処理を終了した後、未登録語登録情報生成部58による処理が開始される。未登録語登録情報生成部58は書換パタン記憶部52を走査し、未登録を示す情報が付加された可変部情報を抽出する。ここでは未登録語登録情報生成部58が上記した「ユビキタス」という語を抽出したものとする。未登録語登録情報生成部58は、この語が抽出された元の対訳用例文に対し、第1の書換パタンに含まれる原文パタンと訳文パタンとをあてはめ、「ユビキタス」に対応する訳文の可変部文字列として「ubiquitous computing」という文字列を特定する。さらに可変部解析部56は、「ユビキタス」に対する品詞分類及び意味分類等として、書換パタン記憶部52において第1の書換パタンに付随する可変部情報として登録されているものに含まれる品詞分類又は意味分類等の和集合を求め、その結果を「ユビキタス」に対する品詞分類及び意味分類とする。もしも第1の書換パタンに付随する可変部情報の数が所定のしきい値より大きければ、未登録語登録情報生成部58はそれら可変部情報のうちで出現数の大きなもののみを用いて、同様に品詞分類又は意味分類等の和集合を求めてその結果を「ユビキタス」に対する品詞分類及び意味分類とする。ここでは、「インターネット」という語について翻訳システムの辞書36から得られた品詞分類及び意味分類が「ユビキタス」という語の品詞分類及び意味分類として生成されたものとする。   After the example sentence / rewrite pattern matching unit 54 finishes the process for all the rewrite patterns, the process by the unregistered word registration information generation unit 58 is started. The unregistered word registration information generation unit 58 scans the rewrite pattern storage unit 52 and extracts variable part information to which information indicating unregistration is added. Here, it is assumed that the unregistered word registration information generation unit 58 has extracted the word “ubiquitous”. The unregistered word registration information generation unit 58 applies the original sentence pattern and the translated sentence pattern included in the first rewriting pattern to the original bilingual example sentence from which the word is extracted, and changes the translation corresponding to “ubiquitous”. The character string “ubiquitous computing” is specified as the sub character string. Further, the variable part analysis unit 56 includes a part of speech classification or meaning included in the part registered as variable part information associated with the first rewrite pattern in the rewrite pattern storage unit 52 as part of speech classification and semantic classification for “ubiquitous”. A union such as a classification is obtained, and the result is set as a part-of-speech classification and a semantic classification for “ubiquitous”. If the number of variable part information associated with the first rewrite pattern is larger than a predetermined threshold, the unregistered word registration information generation unit 58 uses only the variable part information having a large number of appearances, Similarly, a union such as part-of-speech classification or semantic classification is obtained, and the result is defined as part-of-speech classification and semantic classification for “ubiquitous”. Here, it is assumed that the part of speech classification and the semantic classification obtained from the dictionary 36 of the translation system for the word “Internet” are generated as the part of speech classification and the semantic classification of the word “ubiquitous”.

未登録語登録情報生成部58は、このようにして得られた可変部文字列「ユビキタス」と、対応する訳語「ubiquitous computing」、品詞分類「普通名詞」、意味分類「技術用語」等を含む未登録語情報を生成し、未登録語リストに追加する。   The unregistered word registration information generation unit 58 includes the variable part character string “ubiquitous” obtained in this way, the corresponding translated word “ubiquitous computing”, the part of speech classification “common noun”, the semantic classification “technical term”, and the like. Unregistered word information is generated and added to the unregistered word list.

この未登録語リストを得た辞書登録部60は、翻訳システムの辞書36に、「ユビキタス」という見出しを追加する。その訳語は「ubiquitous computing」であり、品詞分類は「普通名詞」を含み、意味分類は「技術用語」を含む。   The dictionary registration unit 60 that has obtained this unregistered word list adds the heading “ubiquitous” to the dictionary 36 of the translation system. The translation is “ubiquitous computing”, the part of speech classification includes “common nouns”, and the semantic classification includes “technical terms”.

[実施の形態の効果]
以上のようにこの実施の形態によれば、対訳用例文群34を準備しておくことで、翻訳システムの辞書36に全く登録されていない語であっても自動的に追加登録していくことができる。しかも、見出しとなる文字列だけでなく、その訳語、品詞分類、意味分類等の情報が自動的に生成され、登録される。したがって、従来必要であった未登録語のピックアップ、訳語の決定、意味分類の付与等という作業が不要になる。その結果、非常に少ない労力で翻訳システムの辞書36を常に最新に保っておくことができる。
[Effect of the embodiment]
As described above, according to this embodiment, by preparing the bilingual example sentence group 34, words that are not registered at all in the translation system dictionary 36 are automatically additionally registered. Can do. Moreover, not only the character string that becomes the heading but also information such as the translation, part-of-speech classification, and semantic classification are automatically generated and registered. Therefore, operations such as picking up unregistered words, determining translated words, assigning semantic classifications, and the like, which are conventionally required, are unnecessary. As a result, the translation system dictionary 36 can always be kept up-to-date with very little effort.

こうして得られた辞書36は、翻訳システムに限らず、自然言語処理に関する処理において汎用的に利用できる。その結果、自然言語処理に利用する全ての辞書において未登録である完全な未登録語を自動的に辞書に登録可能な未登録語自動登録装置を提供できる。また、この実施の形態により、自然言語処理を行なうシステム、たとえば自動翻訳システム等の利用効率が向上するという効果が得られる。   The dictionary 36 thus obtained is not limited to a translation system, and can be used for general purposes in processing related to natural language processing. As a result, it is possible to provide an unregistered word automatic registration device capable of automatically registering completely unregistered words that are unregistered in all dictionaries used for natural language processing in the dictionary. Further, according to this embodiment, an effect of improving the utilization efficiency of a system that performs natural language processing, for example, an automatic translation system can be obtained.

[可能な変形例]
なお、本実施の形態では、図1に示す辞書登録部60は自動的に翻訳システムの辞書36に対し追加登録を行なっている。もしも完全に自動的に追加登録した場合に不要な見出しが翻訳システムの辞書36に多く追加されるおそれがあれば、辞書登録部60による見出しの追加時に、ユーザに対して登録の可否を尋ねるダイアログを提示し、ユーザによる指示があって初めて翻訳システムの辞書36に見出しを追加するようにしてもよい。この場合でも、登録すべき見出しの抽出、訳語の特定、品詞分類、意味分類等の情報を手作業で収集する必要はなく、従来に比して翻訳システムの辞書36の保守を効率的に行なうことができる。また、このように少ない労力で翻訳システムの辞書36の保守ができることから、翻訳システムの辞書36を使用する自然言語処理システム全体の性能を常に一定に保つことができ、新たな語の出現等が多数あってもよい精度で自然言語処理を実行させることができる。
[Possible variants]
In the present embodiment, the dictionary registration unit 60 shown in FIG. 1 automatically performs additional registration in the dictionary 36 of the translation system. If there is a possibility that many unnecessary headlines may be added to the dictionary 36 of the translation system in the case of complete automatic addition registration, a dialog asking the user whether or not to register when adding headings by the dictionary registration section 60 The heading may be added to the translation system dictionary 36 only when the user gives an instruction. Even in this case, it is not necessary to manually collect information such as extraction of headings to be registered, specification of translated words, part-of-speech classification, and semantic classification, and the maintenance of the dictionary 36 of the translation system is performed more efficiently than before. be able to. In addition, since the translation system dictionary 36 can be maintained with such a small amount of effort, the performance of the entire natural language processing system using the translation system dictionary 36 can always be kept constant, and the appearance of new words, etc. Natural language processing can be executed with high accuracy.

なお、本実施の形態では書換パタンとして図2に示すようなものを使用している。しかし書換パタンはこのような例には限定されない。上記したように、書換パタンとしては、原文及び訳文において、固定部の文字列と、固定部に対する可変部の位置情報及び原文と訳文との可変部の対応情報さえ特定できればよい。上記したものと別の書換パタンの例を図9に示す。   In this embodiment, the rewrite pattern as shown in FIG. 2 is used. However, the rewrite pattern is not limited to such an example. As described above, as the rewriting pattern, it is only necessary to specify the character string of the fixed part, the position information of the variable part with respect to the fixed part, and the correspondence information of the variable part between the original sentence and the translated sentence in the original sentence and the translated sentence. An example of a rewrite pattern different from the above is shown in FIG.

図9に示す例では、書換パタンを構造化している。すなわち、この書換パタン390は、原文の固定部の数を示す情報(原文固定部数)と、各原文固定部の文字列(原文固定部1,2,3)と、訳文の固定部の数を示す情報(訳文固定部数)と、各訳文固定部の文字列(訳文固定部1、2)と、可変部の数(可変部数)と、各可変部の位置を示す情報(可変部1位置、可変部2位置)とを含む。   In the example shown in FIG. 9, the rewrite pattern is structured. That is, the rewrite pattern 390 includes information indicating the number of fixed parts of the original text (original text fixed number), a character string of each original text fixed part (original text fixed parts 1, 2, and 3), and the number of fixed parts of the translated text. Information (number of translation fixed parts), character strings of each translation fixed part (translation fixed parts 1 and 2), number of variable parts (number of variable parts), and information indicating the position of each variable part (variable part 1 position, Variable portion 2 position).

このように書換パタンを構造化しても上記した実施の形態と同様の処理を実現できる。なお、図9に示す例において、各部の名称は必ずしも書換パタン中に含まれていなくてもよい。各部の間を所定の分離記号で分離し、データの位置でそれらの意味を特定するようにしてもよい。   Even if the rewrite pattern is structured in this way, the same processing as in the above-described embodiment can be realized. In the example shown in FIG. 9, the name of each part does not necessarily have to be included in the rewrite pattern. The sections may be separated by a predetermined separation symbol, and their meaning may be specified by the data position.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

本発明の一実施の形態に係る未登録語自動登録装置30のブロック図である。It is a block diagram of unregistered word automatic registration device 30 concerning one embodiment of the present invention. 書換パタンの一例を示す図である。It is a figure which shows an example of a rewriting pattern. 未登録語自動登録装置30をコンピュータで実現する場合のコンピュータプログラムの概略フローチャートである。It is a schematic flowchart of the computer program in the case of implement | achieving the unregistered word automatic registration apparatus 30 with a computer. 図3のステップ120で実行される可変部抽出・可変部情報作成処理の前半のフローチャートである。4 is a flowchart of the first half of variable part extraction / variable part information creation processing executed in step 120 of FIG. 3. 可変部情報抽出・可変部情報作成処理の後半のフローチャートである。It is a flowchart of the latter half of variable part information extraction and variable part information creation processing. 図3のステップ122で実行される辞書更新処理のフローチャートである。It is a flowchart of the dictionary update process performed by step 122 of FIG. 図1に示す未登録語自動登録装置30を実現するコンピュータシステム330の外観を示す図である。It is a figure which shows the external appearance of the computer system 330 which implement | achieves the unregistered word automatic registration apparatus 30 shown in FIG. 図7に示すコンピュータシステム330のブロック図である。FIG. 8 is a block diagram of the computer system 330 shown in FIG. 7. 書換パタンの他の一例を示す図である。It is a figure which shows another example of a rewriting pattern.

符号の説明Explanation of symbols

30 未登録語自動登録装置
32 翻訳システムの記憶部
34 対訳用例文群
36 翻訳システムの辞書
50 書換パタン抽出部
52 書換パタン記憶部
54 用例文・書換パタン照合部
56 可変部解析部
58 未登録語登録情報生成部
60 辞書登録部
62 登録語辞書検索部
80,390 書換パタン
90 原文パタン
92 訳文パタン
100,102,104,106 可変部
30 Automatic unregistered word registration device 32 Storage unit 34 of translation system 36 Example sentence group for translation 36 Dictionary 50 of translation system Rewrite pattern extraction unit 52 Rewrite pattern storage unit 54 Example sentence / rewrite pattern matching unit 56 Variable unit analysis unit 58 Unregistered word Registered information generation unit 60 Dictionary registration unit 62 Registered word dictionary search unit 80, 390 Rewrite pattern 90 Original sentence pattern 92 Translated sentence pattern 100, 102, 104, 106 Variable part

Claims (8)

第1の言語の文と第2の言語の文との間の書換パタンと、前記第1の言語と前記第2の言語との間の複数の対訳用例文とに基づいて、前記第1の言語の機械可読な辞書に未登録な語を自動的に抽出する未登録語自動抽出装置であって、
前記書換パタンの前記第1の言語の文と前記第2の言語の文とは、それぞれ固定的な文字列と、互いに対応する、可変な部分を示す特定の文字列とを含み、
前記未登録語自動抽出装置は、
前記書換パタンと前記対訳用例文とを照合し、前記対訳用例文から書換パタンにマッチする対訳を抽出して、当該対訳のうち前記第1の言語の文中で、当該対訳にマッチした書換パタン内の前記第1の言語の文中の前記特定の文字列に対応する位置に存在する文字列を特定する用例文・書換パタン照合手段と、
前記用例文・書換パタン照合手段により特定された文字列を前記辞書内で検索し、登録されているか否かを判定する辞書検索手段と、
前記辞書検索手段により前記辞書に登録されていないと判定された前記第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該対訳内の前記第2の言語の文中で、当該マッチした書換パタン内の前記第2の言語の文内の前記特定の文字列に対応する位置に存在する前記第2の言語の文字列を、前記第1の言語の文字列とともに前記辞書に登録すべき情報として特定する登録情報特定手段とを含む、未登録語自動抽出装置。
Based on a rewrite pattern between a sentence in a first language and a sentence in a second language, and a plurality of parallel translation example sentences between the first language and the second language, the first language An unregistered word automatic extraction device that automatically extracts unregistered words in a machine-readable dictionary of languages,
The sentence of the first language and the sentence of the second language of the rewrite pattern each include a fixed character string and a specific character string indicating a variable part corresponding to each other,
The unregistered word automatic extraction device is:
The rewriting pattern and the parallel translation example sentence are collated, a parallel translation that matches the rewrite pattern is extracted from the parallel translation example sentence, and in the rewrite pattern that matches the parallel translation in the sentence of the first language in the parallel translation and said first language sentence of the specific string sentence, rewriting pattern checking means for that identifies a character string existing at a position corresponding to,
The character string specified by the for sentence-rewrite pattern checking means to search in the dictionary, the dictionary retrieval section you determine whether or not it is registered,
For the character string of the first language determined not to be registered in the dictionary by the dictionary search means, based on the bilingual translation including the character string of the first language and the rewriting pattern to which the bilingual match The second language character string existing at the position corresponding to the specific character string in the second language sentence in the matched rewriting pattern in the second language sentence in the parallel translation , it said with a string of a first language and a registration information identification module that identifies the information to be registered in the dictionary, unregistered word automatic extractor.
前記辞書検索手段により前記辞書に登録されていると判定された前記第1の言語の文字列について、前記辞書に当該第1の言語の文字列に関連して登録されている品詞分類又は意味分類とともに前記書換パタンと関連付けて可変部情報として記憶る可変部情報記憶手段をさらに含み、
前記登録情報特定手段は、
前記辞書検索手段により前記辞書に登録されていないと判定された前記第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該対訳のうち、前記第2の言語の文中で、当該マッチした書換パタン内の前記第2の言語の文内の前記特定の文字列に対応する位置に存在する文字列を特定することにより、当該第1の言語の文字列に対応する訳語として前記辞書に登録されるべき前記第2の言語の文字列を特定する訳語特定手段と、
前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報記憶手段に記憶されている可変部情報の一部又は全部を所定の基準にしたがって選択することにより、前記第1の言語の文字列に対応する前記品詞分類又は意味分類を前記辞書に登録すべき付加情報として特定する付加情報特定手段とを含む、請求項1に記載の未登録語自動抽出装置。
Part-of- speech classification or semantic classification registered in the dictionary in relation to the character string of the first language for the character string of the first language determined to be registered in the dictionary by the dictionary search means further comprising a variable portion information memory means you stored as the variable portion information in association with the rewriting pattern with,
The registration information specifying means includes:
For the character string of the first language determined not to be registered in the dictionary by the dictionary search means, based on the bilingual translation including the character string of the first language and the rewriting pattern to which the bilingual match By identifying a character string existing in a position corresponding to the specific character string in the sentence of the second language in the matched rewriting pattern in the sentence of the second language in the parallel translation , a translation word identifying means that identifies the string of the second language to be registered in the dictionary as a translation corresponding to the character string of the first language,
By selecting according to predetermined criteria a portion or all of the variable portion information translation including the character string of said first language is stored in the matching rewrite pattern in association with the variable portion information memory means, wherein and a first language the part of speech classification or semantic classification pressurized information identification module with that identifies as the additional information to be registered in the dictionary corresponding to the character string of the unregistered word the automatic extraction apparatus according to claim 1 .
前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報記憶手段に記憶されている可変部情報の和集合を、前記第1の言語の文字列に関する前記付加情報として特定する手段を含む、請求項2に記載の未登録語自動抽出装置。 The additional information specifying unit, the union of the variable portion information stored in the variable portion information storage means in association with the rewriting pattern translation matches including the string of said first language, the first language including hand stage that identifies as the additional information related to the character string of the unregistered word the automatic extraction apparatus according to claim 2. 前記用例文・書換パタン照合手段による照合の結果に前記第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数する出現回数計数手段をさらに含み、
前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報記憶手段に記憶されている可変部情報のうち、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第1の言語の文字列に関する前記付加情報として特定する手段を含む、請求項2に記載の未登録語自動抽出装置。
Each time the string of the first language appear on a result of matching by the use sentence-rewrite pattern checking means further includes a current number counting means leave you count the number of occurrences of the string,
The additional information specifying unit, among the variable portion information stored in the variable portion information storage means in association with the rewriting pattern translation matches including the string of said first language, counted by the occurrence number counting means has been the union of occurrence counts not less than a predetermined number of times, including hand stage that identifies as the additional information related to the character string of said first language, unregistered words automatic extraction apparatus according to claim 2.
前記用例文・書換パタン照合手段による照合の結果に前記第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数する出現回数計数手段をさらに含み、
前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報記憶手段に記憶されている可変部情報の数が所定のしきい値より大きいときに、当該可変部情報のうちで、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第1の言語の文字列に関する前記付加情報として特定する手段を含む、請求項2に記載の未登録語自動抽出装置。
Each time the string of the first language appear on a result of matching by the use sentence-rewrite pattern checking means further includes a current number counting means leave you count the number of occurrences of the string,
The additional information specifying unit, the number is larger than a predetermined threshold value of the variable portion information stored in the variable portion information storage means in association with the rewriting pattern translation matches including the string of said first language Occasionally, among the variable portion information, the union of the occurrence frequency counted not less than a predetermined number of times by the appearance count counting means, hand stage that identifies as the additional information related to the character string of said first language The unregistered word automatic extraction device according to claim 2, comprising:
コンピュータ、請求項1〜請求項5のいずれかに記載の未登録語自動抽出装置の全ての手段として機能させるための、未登録語自動抽出プログラム。 Computer, claims 1 to make function as all means of unregistered words automatic extraction apparatus according to any one of claim 5, unregistered word automatic extraction program. 請求項1〜請求項5のいずれかに記載の未登録語自動抽出装置と、
前記未登録語自動抽出装置により前記辞書に登録すべきとして特定された情報を、当該辞書に登録する辞書登録手段とをさらに含む、未登録語自動登録装置。
An unregistered word automatic extraction device according to any one of claims 1 to 5,
The unregistered word information identified as to be registered in the dictionary by the automatic extraction apparatus further comprises a dictionary registration unit to register to the dictionary, unregistered word automatic registration device.
コンピュータ、請求項7に記載の未登録語自動登録装置の全ての手段として機能させる、未登録語自動登録プログラム。
The computer causes function as all means of unregistered words automatic registration apparatus according to claim 7, unregistered word automatic registration program.
JP2005010712A 2005-01-18 2005-01-18 Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program Expired - Fee Related JP4431759B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005010712A JP4431759B2 (en) 2005-01-18 2005-01-18 Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005010712A JP4431759B2 (en) 2005-01-18 2005-01-18 Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program

Publications (3)

Publication Number Publication Date
JP2006201873A JP2006201873A (en) 2006-08-03
JP2006201873A5 JP2006201873A5 (en) 2007-02-15
JP4431759B2 true JP4431759B2 (en) 2010-03-17

Family

ID=36959840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005010712A Expired - Fee Related JP4431759B2 (en) 2005-01-18 2005-01-18 Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program

Country Status (1)

Country Link
JP (1) JP4431759B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100831037B1 (en) 2006-09-29 2008-05-20 한국전자통신연구원 Method and device for automatic selection of bandwords using parallel corpus
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
EP2274742A1 (en) * 2008-04-15 2011-01-19 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US12518105B2 (en) * 2023-04-21 2026-01-06 Sap Se Semantic domain assignment referencing governance domains and term databases

Also Published As

Publication number Publication date
JP2006201873A (en) 2006-08-03

Similar Documents

Publication Publication Date Title
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
US5895446A (en) Pattern-based translation method and system
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP2003223437A (en) Method of displaying candidate for correct word, method of checking spelling, computer device, and program
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
EP1787221A2 (en) Computer implemented method for use in a translation system
JP2008287406A (en) Information processing apparatus, information processing method, program, and recording medium
JP2020190970A (en) Document processing device, method therefor, and program
Simard Automatic insertion of accents in French text
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP3983265B1 (en) Dictionary creation support system, method and program
JP4431759B2 (en) Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
US8041556B2 (en) Chinese to english translation tool
JP4875040B2 (en) Machine translation system and machine translation program
JP2005202924A (en) Translation determination system, method, and program
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
JP3766406B2 (en) Machine translation device
JP2004265440A (en) Unknown word registration device and method and record medium
JP6417359B2 (en) Claim parsing configuration method
JP4708682B2 (en) Bilingual word pair learning method, apparatus, and recording medium on which parallel word pair learning program is recorded
JP3949874B2 (en) Translation translation learning method, translation translation learning device, storage medium, and translation system
JPH0561902A (en) Mechanical translation system
JP4206266B2 (en) Full-text search device, processing method, processing program, and recording medium
KR20020054244A (en) Apparatus and method of long sentence translation using partial sentence frame

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees