JP3708753B2 - Translation word selection dictionary automatic creation device and automatic translation device - Google Patents
Translation word selection dictionary automatic creation device and automatic translation device Download PDFInfo
- Publication number
- JP3708753B2 JP3708753B2 JP15344199A JP15344199A JP3708753B2 JP 3708753 B2 JP3708753 B2 JP 3708753B2 JP 15344199 A JP15344199 A JP 15344199A JP 15344199 A JP15344199 A JP 15344199A JP 3708753 B2 JP3708753 B2 JP 3708753B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- translation
- list
- subset
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
本発明は、自動翻訳装置、翻訳支援装置等、テキスト中の単語の正しい訳語を選択する処理を含む自然言語処理装置において利用可能な訳語選択辞書自動作成装置及び自動翻訳装置に関するものである。
【0002】
【従来の技術】
従来より、ある単語に対して選択可能な複数の訳語の中から、その単語の出現する文脈において正しい意味に対応する訳語を選択する「訳語選択」処理の一手法として、次のような訳語選択辞書を使う方法が提案され、実用化されている。
【0003】
即ち、予め単語の各用例に対して最も適切な訳語を対応付けた「訳語選択辞書」を作成しておき、この訳語選択辞書の中から、訳出対象単語の出現する文脈に最も適合する用例を検索し、その用例に対応する訳語を出力する方法である。
【0004】
ここで、用例とは訳すべき単語の周囲に出現する語句であり、計算機内部においては単語の列、あるいは単語を品詞等のクラスに置き換えた列で表現される。また、訳出対象単語の出現する文脈も同様に単語等の列で表現され、文脈と用例の適合の度合いは、これら単語列の一致の度合い、あるいは一方に含まれる単語がもう一方に含まれる単語と同一文脈に出現する確率等によって定義される。
【0005】
このような処理において、本質的な役割を持つ訳語選択辞書は人手で作成される場合の外、大きく分けて次の二種類の自動作成手法が提案されている。
【0006】
第1の方法は、大量の二言語対照テキストを統計的に処理するものであり、第2の方法は、大量の翻訳元言語のテキスト中の対象単語に予め人手で選ばれた正しい訳語を付与しておき、これを統計的に処理するものである。ここで、二言語対照テキストとは対訳関係にあるテキスト対のことであり、しばしば一方のテキストのどの文が、他方のテキストのどの文と対訳関係にあるかが明示されている。
【0007】
一方、ある概念、あるいはテキストを特徴づけるような単語のリストを入力とし、翻訳先言語の大量のテキストデータにおける訳語候補の出現分布を用いて、訳語選択辞書を使うことなく最適な訳語を得る「単語リスト翻訳」の手法が既に提案されている。翻訳しようとする単語とその文脈中の単語を組み合わせて単語リストを作ることによって、この手法を前記「訳語選択」の問題に適用することが考えられる。
【0008】
【発明が解決しようとする課題】
しかしながら、前記第1の方法では、必要とする分野、言語の組に対して大量の対訳テキストが必要であり、これを入手あるいは作成するのには多大なコストがかかるという問題があった。また、第2の方法では、テキスト中の単語に対して正しい訳語を人手で付与しなければならず、同様に多大なコストがかかるという問題があった。
【0009】
また、前記「単語リスト翻訳」を訳語選択に適用する場合、翻訳対象単語の意味を決定づけるような入力文脈中の単語の訳語が、翻訳先言語のテキストデータに存在するとは限らないため、必ずしも正しい結果が得られないという問題があった。
【0010】
本発明の目的は、大量の対訳テキストや最適訳語を付与した用例の集合を必要とすることなく、翻訳対象単語に最も適切な訳語を対応づけた訳語選択辞書が作成できる訳語選択辞書自動作成装置を提供することにある。
【0011】
本発明の他の目的は、前記訳語選択辞書自動作成装置によって作成された訳語選択辞書を用いて、最も適切な訳語を選択し得る自動翻訳装置を提供することにある。
【0012】
【課題を解決するための手段】
本発明では、前記目的を達成するため、任意の単語Wの用例を単語Wの用法に基づいて分類し、それぞれの分類に最も適合する単語Wの訳語を対応づけた訳語選択辞書を自動的に作成する装置において、翻訳元言語の大量のテキストを蓄積している翻訳元言語コーパスから単語Wと一致する単語を全て検出し、その前後のn単語からなる文字列である用例を作業用メモリに書き込み、用例中の単語をベクトルで表し、1つの用例をその用例に含まれる単語に対するベクトルの荷重和ベクトルで表し、任意の二つの用例間の距離を当該任意の二つの用例にそれぞれ対応する前記荷重和ベクトルのなす角のコサイン値で定義して、クラスタリングにより前記作業用メモリに書き込まれた用例を複数の部分集合に分割し、用例集合DBに書き込む用例集合生成部と、前記部分集合を構成する全ての用例に含まれる各異なり単語に対して、その単語が当該部分集合を構成する用例中に出現する回数が多いほど且つその単語を含む用例の個数が少ないほど高い値となるように定義付けたスコアを計算し、スコアの大きいものからm個の単語をその部分集合を特徴付ける単語の集合として抽出し、これを前記用例集合DBに書き込まれた各部分集合に対して実行する特徴語抽出部と、用例集合生成部で得られた各部分集合に対して、特徴語抽出部によって抽出されたm個の特徴単語を1〜m番目の要素とし、辞書作成対象単語Wをm+1番目の要素とした入力単語リストを生成し、各入力単語リストについて構成する各単語の訳語を対訳辞書から取得し、構成する各単語の訳語の組み合わせの数の訳語リストを作成し、訳語リスト内の各単語について翻訳先言語の大量のテキストを蓄積している翻訳先言語コーパスを用いて単語のベクトルを求め、訳語リスト内の単語の平均ベクトルを求め、各単語ベクトルと平均ベクトルとのコサイン値の平均を各訳語リストの関連性の値として求め、関連性が最大の訳語リストを選択し、該訳語リスト中の最後の単語を各部分集合の単語Wの訳語として出力する単語リスト翻訳部とを備えたことを特徴とする。
【0013】
前記構成によれば、まず、用例集合生成部によって、大量のテキスト中から抽出された単語Wの用例の集合が用例同士の類似性に基づいて複数の部分集合に自動的に分類される。ここで、用例とは単語Wの文脈の別名であること、及び「単語の意味はその周囲の文脈によって決定される」という経験則から、用例集合生成部によって作成される部分集合は単語Wの一つの意味に対応する。
【0014】
次に、特徴語抽出部によって、用例集合生成部を用いて分類された用例の部分集合からその部分集合を特徴付ける単語の集合が抽出される。
【0015】
最後に、単語リスト翻訳部によって、用例集合生成部で得られた各部分集合に対して、対訳辞書から得られる単語Wの訳語の中より、前記特徴語抽出部によって抽出された集合と最も関連性の高い訳語が対応づけられる。
【0016】
これによって、大量の対訳テキストや最適訳語を付与した用例の集合を用いることなく、翻訳元言語及び翻訳先言語それぞれの大量のテキスト、並びに対訳辞書のみから、単語Wの用例をその意味によって分類し、各分類に対して単語Wの訳語を対応づけた「訳語選択辞書」が自動的に作成される。
【0017】
また、本発明では、前記目的を達成するため、単語Wとその文脈の文字列である入力用例が与えられた時、この入力用例に最も適合する単語Wの訳語を選択する装置において、請求項1記載の訳語選択辞書自動作成装置によって作成された訳語選択辞書の中から、単語Wに対する全ての訳語とこれらの各訳語に対する用例の部分集合を読み込み、入力用例のベクトルと各部分集合を構成する各用例のベクトルの平均とのコサイン値を関連度として求め、関連度が最大の部分集合を選択し、これと対応づけられた訳語を出力する用例集合検索部を備えたことを特徴とする。
【0018】
前記構成によれば、前記装置によって作成された訳語選択辞書中の訳語のうちで、入力用例に最も適した訳語を自動的に選択できる。
【0019】
【発明の実施の形態】
【0020】
【実施の形態1】
図1は本発明の訳語選択辞書自動作成装置の実施の形態の一例を示すもので、図中、11は用例集合生成部、12は翻訳元言語コーパス、13は用例集合データベース(DB)、14は特徴語抽出部、15は単語リスト翻訳部、16は対訳辞書、17は翻訳先言語コーパス、18は出力部、19は制御部、20は訳語選択辞書である。
【0021】
用例集合生成部11は、源言語単語(辞書作成対象単語)30に対して、この単語を含む用例を、翻訳元言語の大量のテキストを蓄積している翻訳元言語コーパス12から取得し、類似性の高いもの同士を「用例集合」と呼ばれる部分集合にまとめ、用例集合DB13に登録する。
【0022】
特徴語抽出部14は、用例集合DB13の各用例集合に対して、その集合を特徴づける単語のリスト(特徴単語リスト)を抽出する。
【0023】
単語リスト翻訳部15は、辞書作成対象単語30に対して対訳辞書16に存在する全ての訳語のうち、特徴語抽出部14から出力される特徴単語リストと最も関連性の高いものを、翻訳先言語の大量のテキストを蓄積している翻訳先言語コーパス17の情報をもとに一つ選択して出力する。
【0024】
出力部18は、単語リスト翻訳部15から出力された辞書作成対象単語30の訳語と用例集合DB13の対応する用例集合とを対にして訳語選択辞書20に書き込む。
【0025】
制御部19は、各構成要素の動作とこれらの間のデータの流れを制御する。
【0026】
以下、図1の各部の動作について例を用いて詳細に説明する。
【0027】
なお、ここでは翻訳元言語を英語、翻訳先言語を日本語、辞書作成対象単語を”suit”とし、対訳辞書16中に規定されている”suit”に対する訳語は「スーツ」と「裁判」の2語であるとする。
【0028】
図2は制御部19の動作を示すフローチャートである。
【0029】
まず、ステップ0において配列をクリヤする等の必要な初期化を行った後、ステップ1で辞書作成対象単語30を読み込む。次に、ステップ2で対訳辞書16を参照して辞書作成対象単語30の訳語の多義数を取得し、その値に「0」以上の整数p(例えば、「2」)を加えた値を変数mに代入する。
【0030】
ここで、mは辞書作成対象単語30の用例を分類する際の分類数であり、pが「0」以上であることから、この数は訳語の多義数以上のある整数となる。例えば、対訳辞書16に規定されている”suit”の訳語数は2であるとすると、クラスタ(分類)の数はそれにp=2だけ加えた「4」である。
【0031】
ステップ3では辞書作成対象単語30と変数mを入力として用例集合生成部11を動作させる。その後、ステップ3で作成された用例集合DB13中の各用例集合に対して、ステップ4からステップ7の処理を実行し、訳語選択辞書20を作成する。
【0032】
即ち、ステップ4では処理対象の用例集合を入力として特徴語抽出部14を起動する。ステップ5では特徴語抽出部14から得られた単語の集合に辞書作成対象単語30を加え、ステップ6ではこの単語集合を入力として単語リスト翻訳部15を動作させる。ステップ7では出力部18において辞書作成対象単語30に対するステップ4で得られた訳語と用例集合生成部11との内容を結合して訳語選択辞書20に書き込む。
【0033】
図3は用例集合生成部11の動作を示すフローチャートである。
【0034】
まず、ステップ10で初期化を行い、次のステップ11で辞書作成対象単語30と分類クラスタ数を読み込む。ステップ12は翻訳元言語コーパス12から辞書作成対象単語30と一致する単語を検出し、その前後のn単語からなる文字列を作業用メモリに書き込む処理である。この文字列を「用例」と呼ぶ。ここで、記憶媒体中のテキストから特定の文字列を検出する効率的な方法については既にアルゴリズムの教科書等で詳述されているので、説明を省略する。
【0035】
ステップ13ではステップ12で得られた用例の集合をm個の部分集合に、クラスタリングと呼ばれる手法を用いて分割する。この部分については後述する。ステップ14では得られたクラスタを用例集合DB13に書き込む。
【0036】
ここで、クラスタリングの動作について説明する。クラスタリングにおいては与えられた集合中の任意の二つの要素の間の「距離」を予め定義し、同じ部分集合に属する要素間では距離が平均的に短く、異なった部分集合に属する要素間では距離が平均的に長くなるように部分集合を構成する。
【0037】
本実施の形態において、要素とは用例、即ち単語のリストを表す文字列であり、要素間の距離は用例の間の類似性を数量化した値である。2つの用例の間の類似性を測定する最適な手法は用例の性質によって異なり得るが、一つの実施の形態として、ここでは次のような方法を用いる。
【0038】
まず、用例中の単語wをベクトルv(w)(なお、本明細書ではベクトルを表す記号をアンダーラインで代用するものとする。)で表し、次に、1つの用例をその用例に含まれる単語に対するベクトルの荷重和ベクトルで表す。即ち、用例uに含まれる単語の集合をWuで表すと、この用例に対応するベクトルv(u)は
【0039】
【数1】
【0040】
で定義される。ここで、重みcwは各単語wに対して処理の精度を勘案して与えられる定数である。最後に、2つの用例ベクトルの間の距離d(v(u1),v(u2))はこれら2つのベクトルのなす角のコサイン値で与えられる。
【0041】
【数2】
【0042】
単語wをベクトルwで表現する方法として、ここではベクトルの第i成分を1つの単語wiに対応づけ、wの第i成分の値を翻訳元言語コーパス12においてwとwiとが近傍に出現する個数とする方法を用いる。一般に、単語をベクトルで表現する手法はこの他にも様々なものが既に提案されており、それらを用いても良い。
【0043】
なお、要素間の距離の定義が与えられた集合に対するクラスタリング手法は、従来から様々なアルゴリズムが知られているので、ここでは説明を省略する。
【0044】
図4は辞書作成対象単語に対する用例集合DB13の一例を示すもので、同図(a)は用例と用例の識別番号を対応づけたテーブル、同図(b)は用例の識別番号を部分集合(クラスタ)別に分類したテーブルである。
【0045】
次に、特徴語抽出部14について説明する。特徴語抽出部14は用例の集合に対してその集合を特徴づけるような単語のリストを出力する機能をもつ。特徴単語を抽出する最適な手法は対象とするテキストによって変わり得る。本実施の形態においては用例集合中の各用例を連結してできる文字列を一つのテキストとみなして、既存のテキストからのキーワード抽出手法を用いて特徴語を抽出する。
【0046】
具体的には、用例集合中の各異なり単語wに対して次の式によってスコアs(w)を計算し、スコアの大きいものからm語の特徴語を抽出する。
【0047】
【数3】
【0048】
図5は図4中の文脈文字列C(i)に対する特徴単語のリストの一例を示す。
【0049】
図6は単語リスト翻訳部15の動作を示すフローチャートである。この処理は大きく訳語候補生成部分(ブロック1)と多義解消部分(ブロック2)の2つのブロックから構成される。
【0050】
訳語候補生成部分では対訳辞書16を参照することによって、入力装置から与えられた単語リストの各単語をそれぞれ選択可能な訳語と置き換えることによって訳語候補を生成する。
【0051】
具体的には、ステップ20でSL[i]に入力単語リストの各単語を読み込んだ後、ステップ21において各単語に対して対訳辞書16から選択可能な訳語を全て取得し、配列dicに代入する。次のステップ22では、各入力単語に対してdicに存在する訳語の中から一つを選んで訳語リストを作る。ここで、もし各入力単語に対して複数の訳語が存在する場合は、それらの組み合わせの数だけ訳語リストを作成する。
【0052】
多義解消部分では各訳語候補リストの中から、リスト内の単語関連性が翻訳先言語において最も高いものを選ぶ処理を行う。
【0053】
具体的には、ステップ23において、各訳語リストTに対して次の式で定義される意味的関連性の値rel(T)を計算する。
【0054】
【数4】
【0055】
ここで、v(t)は式(1)によって単語tをベクトルに対応づけたもの、c(T)は単語集合Tの各単語に対応するベクトルの重心を表すベクトル、dは式(2)で定義されるベクトル間の距離である。
【0056】
次に、ステップ24において、関連性の値が最大の訳語リストを選び、最後にステップ25において選ばれた訳語リストの最後の単語、即ち辞書作成対象単語30に対する訳語を出力する。
【0057】
出力部18は用例集合DB13の各用例集合とこれに対応する訳語を結合して訳語選択辞書20に出力する。最終的に生成される訳語選択辞書の一例を図7に示す。
【0058】
【実施の形態2】
図8は本発明の自動翻訳装置の実施の形態の一例を示すもので、図中、41は翻訳元言語単語リスト、42は実施の形態1で説明した訳語選択辞書自動作成装置、43は訳語選択辞書、44は用例集合検索部である。
【0059】
訳語選択辞書自動作成装置42は、翻訳対象単語を収集したデータベースである翻訳元言語単語リスト41中の各単語を入力として訳語選択辞書、即ちその訳語と対応する用例集合との対を自動作成し、訳語選択辞書43に出力する。
【0060】
用例集合検索部44は、与えられた文脈中に出現する単語Wに対して、訳語選択辞書43を参照してこの文脈における単語Wの訳語として最も適切なものを選択し、出力する。
【0061】
各部の動作の順序及び内容は次の通りである。
【0062】
まず、翻訳元言語単語リスト41の各単語に対して訳語選択辞書自動作成装置42を適用して訳語選択辞書43の作成を行う。この処理は与えられた翻訳元言語単語リスト41に対して一回だけ行われる。処理の内容は既に実施の形態1で説明したので、ここでは省略する。
【0063】
訳語選択辞書43が作成された後、用例集合検索部44を用いて翻訳処理を行う。
【0064】
図9は用例集合検索部44の動作を示すフローチャートである。
【0065】
まず、ステップ30において配列等の初期化を行った後、ステップ31において入力単語と文脈の文字列を読み込む。次のステップ32では訳語選択辞書43の入力単語に対する全ての訳語とこれらの各訳語に対する用例の集合を読み込む。ステップ33では各訳語に対する用例の集合(dcset[i])の中で入力文脈と最も関連性(d2)の高いものを選ぶ。この関連性計算の一例は後述する。最後のステップ34では選ばれた用例集合に対応する訳語を出力する。
【0066】
ここで、用例集合検索部44で用いる関連度について説明する。なお、本発明において「文脈」とは単語の列から構成される文字列であり、「用例」と等価であるから、以下では「入力文脈」を「入力用例」と呼ぶ。
【0067】
用例は単語の列であるから、入力用例と訳語選択辞書43から与えられる用例集合との間の関連度として、ここでは前者と後者をベクトルに変換し、これらの間のコサインによって定義する。前者のベクトル表現としては、実施の形態1の式(1)で示した用例のベクトル表現をそのまま用い、後者のベクトル表現としては、集合内の各文脈を同じく実施の形態1の式(1)によってベクトルに変換したものの重心(平均)を用いる。
【0068】
即ち、入力用例をcstr、訳語選択辞書43から得られるi番目の用例(単語列)の集合をdcset[i]で表現すると、これらの間の関連度d2は次の式で与えられる。
【0069】
【数5】
【0070】
ここで、dは実施の形態1の式(2)で与えられるベクトル間の「距離」の定義、nはdcset[i]中の要素の数である。
【0071】
【発明の効果】
以上説明したように、本発明の訳語選択辞書自動作成装置によれば、単語Wの用例の集合が単語Wの意味によって自動的に分類され、各分類に対してその分類を特徴付ける単語の集合が分類内の用例から抽出され、前記得られた各分類に対して、単語Wの可能な訳語の中から前記抽出された単語の集合を訳したものと最も関連性の高い訳語が選ばれるので、大量の対訳テキストや最適訳語を付与した用例の集合を用いることなく、単語Wの用例の集合と翻訳先言語における単語との間の関連性を示す情報のみによって、翻訳元言語の用例に対して最も適切な訳語を対応づけた訳語選択辞書が作成できる。
【0072】
また、本発明の自動翻訳装置によれば、前記装置によって作成された訳語選択辞書中の訳語のうちで、入力用例に最も適した訳語を自動的に選択できる。
【図面の簡単な説明】
【図1】本発明の訳語選択辞書自動作成装置の実施の形態の一例を示すブロック図
【図2】制御部の動作を示すフローチャート
【図3】用例集合生成部の動作を示すローチャート
【図4】用例集合DBの一例を示す図
【図5】特徴単語のリストの一例を示す図
【図6】単語リスト翻訳部の動作を示すフローチャート
【図7】訳語選択辞書の一例を示す図
【図8】本発明の自動翻訳装置の実施の形態の一例を示すブロック図
【図9】用例集合検索部の動作を示すフローチャート
【符号の説明】
11:用例集合生成部、12:翻訳元言語コーパス、13:用例集合データベース(DB)、14:特徴語抽出部、15:単語リスト翻訳部、16:対訳辞書、17:翻訳先言語コーパス、18:出力部、19:制御部、20:訳語選択辞書、30:辞書作成対象単語、41:翻訳元言語単語リスト、42:訳語選択辞書自動作成装置、43:訳語選択辞書、44:用例集合検索部。[0001]
The present invention is an automatic translation system, the translation supporting apparatus or the like, and relates to the Word Selection dictionary device for automatically creating and automatic translation equipment available in the natural language processing apparatus comprising a process of selecting the correct translation of a word in the text .
[0002]
[Prior art]
Conventionally, as one method of “translation selection” processing to select a translation that corresponds to the correct meaning in the context in which the word appears from among multiple translations that can be selected for a word, the following translation selection A method of using a dictionary has been proposed and put into practical use.
[0003]
That is, a “translation word selection dictionary” in which the most appropriate translation word is associated with each word example in advance is created, and from this translation word selection dictionary, an example that best matches the context in which the word to be translated appears. This is a method of searching and outputting a translation corresponding to the example.
[0004]
Here, an example is a phrase that appears around a word to be translated, and is expressed in the computer as a word string or a string in which a word is replaced with a class such as a part of speech. Similarly, the context in which the word to be translated appears is also expressed as a string of words, etc., and the degree of matching between the context and the example is the degree of matching of these word strings, or a word that includes a word included in one Defined by the probability of appearing in the same context.
[0005]
In such processing, the following two types of automatic creation methods have been proposed in addition to the case where the translation word selection dictionary having an essential role is created manually.
[0006]
The first method statistically processes a large amount of bilingual contrast text, and the second method assigns a correct translation word selected in advance to the target word in a large amount of source language text. In addition, this is statistically processed. Here, the bilingual contrast text is a text pair in a translation relation, and it is often specified which sentence in one text is in a translation relation with which sentence in the other text.
[0007]
On the other hand, using a list of words that characterize a concept or text as an input, and using the appearance distribution of candidate translations in a large amount of text data in the target language, an optimal translation is obtained without using a translation selection dictionary. A method of “word list translation” has already been proposed. It is conceivable to apply this method to the problem of “translation selection” by creating a word list by combining words to be translated and words in the context.
[0008]
[Problems to be solved by the invention]
However, the first method has a problem that a large amount of bilingual text is required for a required field and language set, and it takes a lot of cost to obtain or create the text. In the second method, there is a problem that a correct translation must be manually added to the words in the text, which is similarly expensive.
[0009]
In addition, when applying the above-mentioned “word list translation” to the translation selection, the translation of the word in the input context that determines the meaning of the translation target word does not always exist in the text data of the translation destination language. There was a problem that results could not be obtained.
[0010]
SUMMARY OF THE INVENTION An object of the present invention is to provide an automatic translation selection dictionary creation device that can create a translation selection dictionary in which the most appropriate translation is associated with a translation target word without requiring a set of examples with a large amount of bilingual texts and optimal translations. Is to provide a place.
[0011]
Another object of the present invention uses the translation selected dictionary created by the Word Selection dictionary automatically creating device is to provide an automatic translation equipment capable of selecting the most appropriate translation.
[0012]
[Means for Solving the Problems]
In the present invention, in order to achieve the above object, an example of an arbitrary word W is classified based on the usage of the word W, and a translation selection dictionary in which a translation of the word W most suitable for each classification is associated is automatically created. In the device to be created , all the words that match the word W are detected from the source language corpus in which a large amount of text in the source language is accumulated , and an example that is a character string of n words before and after the word W is detected in the working memory Writing, expressing a word in an example as a vector, representing one example as a weighted vector of vectors for words included in the example, and the distance between any two examples corresponding to the two examples for defined by a cosine value of the angle of the weighted sum vector, the example written in the working memory by clustering divided into subsets of multiple writes to the examples set DB The number of examples, including a set generation unit for each different word contained in all of the example constituting the subset, a and the word as the number of times that the word appears in the example constituting the subset Calculate the score defined so that the smaller the number is, the m words having the highest score are extracted as a set of words characterizing the subset , and this is written in the example set DB. For each subset obtained by the feature word extraction unit to be executed for the subset and the example set generation unit , m feature words extracted by the feature word extraction unit are used as the first to mth elements, Generate an input word list with the dictionary creation target word W as the (m + 1) th element, obtain translations of each word constituting each input word list from the bilingual dictionary, and the number of translation combinations of each word constituting Create a translation list, find a vector of words for each word in the translation list using a translation language corpus that stores a large amount of text in the translation language, find an average vector of words in the translation list, The average cosine value of the word vector and the average vector is obtained as the relevance value of each translation list, the translation list having the maximum relevance is selected, and the last word in the translation list is selected as the word W of each subset. A word list translation unit that outputs the translated words is provided.
[0013]
According to the above configuration, first, the example set generation unit automatically classifies a set of examples of the word W extracted from a large amount of text into a plurality of subsets based on the similarity between the examples. Here, from the rule of thumb that the example is an alias for the context of the word W and that the meaning of the word is determined by the surrounding context, the subset created by the example set generation unit is the word W Corresponds to one meaning.
[0014]
Next, the feature word extraction unit extracts a set of words characterizing the subset from the subset of the examples classified using the example set generation unit .
[0015]
Finally, for each subset obtained by the example set generation unit by the word list translation unit , from the translation of the word W obtained from the bilingual dictionary, it is most related to the set extracted by the feature word extraction unit A highly translated translation is associated.
[0016]
As a result, the example of the word W is classified according to its meaning from only a large amount of text in each of the source language and the target language and the bilingual dictionary without using a set of examples to which a large amount of parallel texts and optimal translations are assigned. A “translation word selection dictionary” in which the translation of the word W is associated with each category is automatically created.
[0017]
According to the present invention, in order to achieve the above object , when an input example which is a word W and a character string of its context is given, an apparatus for selecting a translation of the word W most suitable for the input example. 1. Read all translations for word W and a subset of examples for each translation from the translation selection dictionary created by the automatic translation selection dictionary creation device described in 1 to construct a vector of input examples and each subset. An example set search unit is provided that obtains a cosine value with an average of vectors of each example as a degree of relevance , selects a subset having the maximum degree of relevance , and outputs a translation corresponding to the subset .
[0018]
According to the said structure, the translation most suitable for the example for an input can be automatically selected among the translation in the translation selection dictionary created by the said apparatus.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
[0020]
FIG. 1 shows an example of an embodiment of the automatic translation dictionary creation apparatus of the present invention. In the figure, 11 is an example set generation unit, 12 is a source language corpus, 13 is an example set database (DB), 14 Is a feature word extraction unit, 15 is a word list translation unit, 16 is a bilingual dictionary, 17 is a translation destination language corpus, 18 is an output unit, 19 is a control unit, and 20 is a translation word selection dictionary.
[0021]
For the source language word (dictionary creation target word) 30, the example set
[0022]
Feature
[0023]
Word
[0024]
The
[0025]
The
[0026]
Hereinafter, the operation of each unit in FIG. 1 will be described in detail using an example.
[0027]
Here, the translation source language is English, the translation destination language is Japanese, the dictionary creation target word is “suit”, and the translations for “suit” defined in the
[0028]
FIG. 2 is a flowchart showing the operation of the
[0029]
First, after necessary initialization such as clearing the array in
[0030]
Here, m is the classification number when classifying the example of the dictionary creation target word 30, and since p is “0” or more, this number is an integer greater than or equal to the ambiguous number of the translation word. For example, if the number of translated words of “suit” defined in the
[0031]
In
[0032]
That is, in
[0033]
FIG. 3 is a flowchart showing the operation of the example set
[0034]
First, initialization is performed in step 10, and the dictionary creation target word 30 and the number of classification clusters are read in the
[0035]
In step 13, the set of examples obtained in
[0036]
Here, the clustering operation will be described. In clustering, the “distance” between any two elements in a given set is defined in advance, the distance between elements belonging to the same subset is averagely short, and the distance between elements belonging to different subsets The subset is constructed so that becomes longer on average.
[0037]
In the present embodiment, an element is an example, that is, a character string representing a list of words, and the distance between elements is a value obtained by quantifying the similarity between examples. The optimum method for measuring the similarity between two examples may vary depending on the nature of the example, but as one embodiment, the following method is used here.
[0038]
First, the word w in the example is represented by a vector v (w) (in this specification, the symbol representing the vector is replaced by an underline), and then one example is included in the example. This is expressed as a weighted vector of vectors for words. That is, when a set of words included in the example u is represented by W u , the vector v (u) corresponding to this example is
[Expression 1]
[0040]
Defined by Here, the weight c w is a constant given to each word w in consideration of processing accuracy. Finally, the distance d ( v (u 1 ), v (u 2 )) between the two example vectors is given by the cosine value of the angle formed by these two vectors.
[0041]
[Expression 2]
[0042]
As a method of expressing the word w by the vector w , here, the i-th component of the vector is associated with one word w i, and the value of the i-th component of w is set in the
[0043]
Note that various algorithms have been conventionally known for clustering methods for which a definition of the distance between elements is given, and a description thereof will be omitted here.
[0044]
FIG. 4 shows an example of the example set DB 13 for the dictionary creation target word. FIG. 4A shows a table in which the example numbers are associated with the example identification numbers, and FIG. 4B shows a subset of the example identification numbers ( This table is classified by cluster.
[0045]
Next, the feature
[0046]
Specifically, for each different word w in the example set, a score s (w) is calculated by the following formula, and m characteristic words are extracted from those having a high score.
[0047]
[Equation 3]
[0048]
FIG. 5 shows an example of a list of feature words for the context character string C (i) in FIG.
[0049]
FIG. 6 is a flowchart showing the operation of the word
[0050]
In the translation candidate generation part, by referring to the
[0051]
Specifically, after each word of the input word list is read into SL [i] in step 20, all the selectable translation words are acquired from the
[0052]
In the ambiguity elimination part, a process is performed for selecting a translation word candidate list having the highest word relevance in the translation target language from each translation word candidate list.
[0053]
Specifically, in step 23, a semantic relevance value rel (T) defined by the following equation is calculated for each translated word list T.
[0054]
[Expression 4]
[0055]
Here, v (t) is obtained by associating the word t with a vector according to the equation (1), c (T) is a vector representing the center of gravity of the vector corresponding to each word of the word set T, and d is the equation (2). The distance between vectors defined by
[0056]
Next, in step 24, the translated word list having the maximum relevance value is selected, and finally, the translated word for the last word in the translated word list selected in step 25, that is, the dictionary creation target word 30 is output.
[0057]
The
[0058]
FIG. 8 shows an example of an embodiment of the automatic translation apparatus according to the present invention. In the figure, 41 is a translation source language word list, 42 is a translation word selection dictionary automatic creation apparatus described in the first embodiment, and 43 is a translation word. A
[0059]
The translation word selection dictionary
[0060]
The example set
[0061]
The order and contents of the operation of each part are as follows.
[0062]
First, the translation
[0063]
After the translated
[0064]
FIG. 9 is a flowchart showing the operation of the example set
[0065]
First, after initialization of the array and the like in step 30, the input word and the character string of the context are read in step 31. In the next step 32, all translations for the input words of the
[0066]
Here, the relevance used in the example set
[0067]
Since the example is a sequence of words, the former and the latter are converted into vectors and defined by a cosine between them as the degree of association between the input example and the example set given from the translation
[0068]
That is, when the input example cstr and the set of the i th example (word string) obtained from the translation
[0069]
[Equation 5]
[0070]
Here, d is a definition of “distance” between vectors given by the expression (2) in the first embodiment, and n is the number of elements in dcset [i].
[0071]
【The invention's effect】
As described above, according to the automatic translation dictionary creation apparatus of the present invention, a set of examples of the word W is automatically classified according to the meaning of the word W, and a set of words characterizing the classification for each classification is obtained. For each of the obtained classifications extracted from the examples in the classification, the translation most relevant to the translation of the extracted set of words is selected from the possible translations of the word W. Without using a large amount of bilingual text and a set of examples to which optimal translations are assigned, only the information indicating the relationship between the set of examples of the word W and the word in the target language is used for the source language example. A translation selection dictionary that associates the most appropriate translations can be created.
[0072]
Further, according to the automatic translation apparatus of the present invention, the translation most suitable for the input example can be automatically selected from the translations in the translation selection dictionary created by the apparatus.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an example of an embodiment of an automatic translation dictionary creation apparatus of the present invention. FIG. 2 is a flowchart showing the operation of a control unit. FIG. 3 is a flowchart showing the operation of an example set generation unit. 4 is a diagram illustrating an example of an example set DB. FIG. 5 is a diagram illustrating an example of a list of feature words. FIG. 6 is a flowchart illustrating an operation of a word list translation unit. FIG. 7 is a diagram illustrating an example of a translation word selection dictionary. 8 is a block diagram showing an example of an embodiment of an automatic translation apparatus according to the present invention. FIG. 9 is a flowchart showing the operation of an example set search unit.
11: Example set generation unit, 12: Source language corpus, 13: Example set database (DB), 14: Feature word extraction unit, 15: Word list translation unit, 16: Bilingual dictionary, 17: Destination language corpus, 18 : Output unit, 19: Control unit, 20: Translation word selection dictionary, 30: Dictionary creation target word, 41: Translation source language word list, 42: Translation word selection dictionary automatic creation device, 43: Translation word selection dictionary, 44: Example set search Department.
Claims (2)
翻訳元言語の大量のテキストを蓄積している翻訳元言語コーパスから単語Wと一致する単語を全て検出し、その前後のn単語からなる文字列である用例を作業用メモリに書き込み、用例中の単語をベクトルで表し、1つの用例をその用例に含まれる単語に対するベクトルの荷重和ベクトルで表し、任意の二つの用例間の距離を当該任意の二つの用例にそれぞれ対応する前記荷重和ベクトルのなす角のコサイン値で定義して、クラスタリングにより前記作業用メモリに書き込まれた用例を複数の部分集合に分割し、用例集合DBに書き込む用例集合生成部と、
前記部分集合を構成する全ての用例に含まれる各異なり単語に対して、その単語が当該部分集合を構成する用例中に出現する回数が多いほど且つその単語を含む用例の個数が少ないほど高い値となるように定義付けたスコアを計算し、スコアの大きいものからm個の単語をその部分集合を特徴付ける単語の集合として抽出し、これを前記用例集合DBに書き込まれた各部分集合に対して実行する特徴語抽出部と、
用例集合生成部で得られた各部分集合に対して、特徴語抽出部によって抽出されたm個の特徴単語を1〜m番目の要素とし、辞書作成対象単語Wをm+1番目の要素とした入力単語リストを生成し、各入力単語リストについて構成する各単語の訳語を対訳辞書から取得し、構成する各単語の訳語の組み合わせの数の訳語リストを作成し、訳語リスト内の各単語について翻訳先言語の大量のテキストを蓄積している翻訳先言語コーパスを用いて単語のベクトルを求め、訳語リスト内の単語の平均ベクトルを求め、各単語ベクトルと平均ベクトルとのコサイン値の平均を各訳語リストの関連性の値として求め、関連性が最大の訳語リストを選択し、該訳語リスト中の最後の単語を各部分集合の単語Wの訳語として出力する単語リスト翻訳部とを備えた
ことを特徴とする訳語選択辞書自動作成装置。In an apparatus for classifying an example of an arbitrary word W based on the usage of the word W and automatically creating a translation selection dictionary in which the translation of the word W that best fits each classification is associated
From the source language corpus in which a large amount of text in the source language is accumulated , all the words that match the word W are detected, and an example that is a character string consisting of n words before and after the word W is written to the working memory. A word is represented by a vector, and an example is represented by a vector weighted sum vector for words included in the example, and the distance between any two examples is defined by the weighted sum vector corresponding to each of the two examples. defined by a cosine value of the angle, the examples written in the working memory by clustering divided into subsets of multiple, & Examples set generation unit that writes the examples set DB,
For each different word included in all examples constituting the subset, the higher the number of occurrences of the word in the example constituting the subset and the smaller the number of examples including the word, the higher the value. The score defined so as to be calculated is extracted, m words having the highest score are extracted as a set of words characterizing the subset , and this is extracted for each subset written in the example set DB. A feature word extraction unit to be executed ;
For each subset obtained by the example set generation unit , the m feature words extracted by the feature word extraction unit are the 1st to mth elements and the dictionary creation target word W is the m + 1th element input Generate a word list, obtain the translation of each word that constitutes each input word list from the bilingual dictionary, create a translation list of the number of combinations of translations of each word that composes, and translate each word in the translation list Obtain a word vector using the translated language corpus that stores a large amount of text in the language, find the average vector of words in the translation list, and calculate the average cosine value of each word vector and average vector for each translation list determined as of the relevance of the value, relevance to select a maximum of translation list, Bei and a word list translation unit for outputting the last word in the該訳word list as the translation of the word W of each subset Word Selection dictionary automatically creating apparatus characterized by a.
請求項1記載の訳語選択辞書自動作成装置によって作成された訳語選択辞書の中から、単語Wに対する全ての訳語とこれらの各訳語に対する用例の部分集合を読み込み、入力用例のベクトルと各部分集合を構成する各用例のベクトルの平均とのコサイン値を関連度として求め、関連度が最大の部分集合を選択し、これと対応づけられた訳語を出力する用例集合検索部を備えた
ことを特徴とする自動翻訳装置。When an input example that is a word W and a character string of its context is given, an apparatus for selecting a translation of the word W that best matches the input example,
All translations for the word W and a subset of examples for each translation are read from the translation selection dictionary created by the automatic translation dictionary creation apparatus according to claim 1, and a vector of input examples and each subset are read. An example set search unit is provided that obtains the cosine value of the average of the vectors of each example constituting as a degree of relevance , selects a subset having the maximum degree of relevance , and outputs a translation corresponding to the subset. Automatic translation device.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15344199A JP3708753B2 (en) | 1999-06-01 | 1999-06-01 | Translation word selection dictionary automatic creation device and automatic translation device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15344199A JP3708753B2 (en) | 1999-06-01 | 1999-06-01 | Translation word selection dictionary automatic creation device and automatic translation device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2000348031A JP2000348031A (en) | 2000-12-15 |
| JP3708753B2 true JP3708753B2 (en) | 2005-10-19 |
Family
ID=15562616
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP15344199A Expired - Lifetime JP3708753B2 (en) | 1999-06-01 | 1999-06-01 | Translation word selection dictionary automatic creation device and automatic translation device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3708753B2 (en) |
-
1999
- 1999-06-01 JP JP15344199A patent/JP3708753B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2000348031A (en) | 2000-12-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109190117B (en) | Short text semantic similarity calculation method based on word vector | |
| CN109299480B (en) | Context-based terminology translation method and device | |
| US12412037B2 (en) | Machine learning method and named entity recognition apparatus | |
| CN106844350A (en) | A kind of computational methods of short text semantic similarity | |
| JP2005158010A (en) | Apparatus, method and program for classification evaluation | |
| CN101297288A (en) | Apparatus, method and program storage medium for determining naturalness of word arrangement | |
| JP2011227688A (en) | Method and device for extracting relation between two entities in text corpus | |
| JP2011118872A (en) | Method and device for determining category of unregistered word | |
| WO2019064137A1 (en) | EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE | |
| CN113656429A (en) | Keyword extraction method and device, computer equipment and storage medium | |
| CN108345694B (en) | Document retrieval method and system based on theme database | |
| CN112489689A (en) | Cross-database voice emotion recognition method and device based on multi-scale difference confrontation | |
| US8909511B2 (en) | Bilingual information retrieval apparatus, translation apparatus, and computer readable medium using evaluation information for translation | |
| KR20230014040A (en) | Text augmentation apparatus and method using hierarchy-based word replacement | |
| JP5146979B2 (en) | Ambiguity resolution device and computer program in natural language | |
| JP3198932B2 (en) | Document search device | |
| JP6495124B2 (en) | Term semantic code determination device, term semantic code determination model learning device, method, and program | |
| JP2003263441A (en) | Keyword determination database creation method, keyword determination method, apparatus, program, and recording medium | |
| CN112949287B (en) | Hot word mining method, system, computer equipment and storage medium | |
| KR20230093765A (en) | Method for transfer learning of neural network pre-trained with a corpus | |
| JP2008282328A (en) | Text classification device, text classification method, text classification program, and recording medium recording the program | |
| JP3708753B2 (en) | Translation word selection dictionary automatic creation device and automatic translation device | |
| JP3471253B2 (en) | Document classification method, document classification device, and recording medium recording document classification program | |
| Daelemans | Abstraction considered harmful: Lazy learning of language processing | |
| JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040310 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040726 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050802 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050804 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 3708753 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080812 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090812 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090812 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100812 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100812 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110812 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120812 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130812 Year of fee payment: 8 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |