JP4013489B2

JP4013489B2 - 対応カテゴリ検索システムおよび方法

Info

Publication number: JP4013489B2
Application number: JP2001058303A
Authority: JP
Inventors: 博増市
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2001-03-02
Filing date: 2001-03-02
Publication date: 2007-11-28
Anticipated expiration: 2021-03-02
Also published as: JP2002259445A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書集合が複数のカテゴリに分類されているカテゴリ構造を対象とし、異なる言語に対してそれぞれ構築された複数のカテゴリ構造間のカテゴリの対応関係を決定する技術に関する。
【０００２】
【従来の技術】
大量の文書集合へのアクセスを容易にする方法の一つとして、文書集合を複数のカテゴリへと分類する手法を挙げることができる。文書集合をカテゴリに分類した場合、ユーザが求める文書が属していると想定されるカテゴリのみを検索対象として検索を行うことにより、効率よく所望の文書を得ることが可能となる。文書集合を人手によってカテゴリへと分類する場合もあれば、文献「情報検索論認知的アプローチへの展望，ＤａｖｉｄＥｌｌｉｓ著，丸善株式会社，（１９９４）」に記述されているようなカテゴリ分類を自動化する手法もこれまで多く提案されてきた。
【０００３】
このようなカテゴリ化された文書集合（以降、カテゴリ構造とも呼ぶ）が複数の言語に対して構築されている場合、複数のカテゴリ構造間のカテゴリの対応関係（類似する意味内容の文書集合を含むカテゴリの対応関係）を決定することは、言語をまたがる文書検索（多言語文書検索）を行う上で重要である。すなわち、検索対象とするターゲット言語（二次的な検索に用いられる言語）の文書集合を、ソース言語（直接に検索に用いられる言語）による検索要求に近いカテゴリに限定することによって、検索の精度を向上させることが可能となる。
【０００４】
このようなカテゴリの対応関係を自動的に決定するための方法としては、多言語文書検索の手法を流用する方法が主である。例えば、文献「ＨｉｒｏｓｈｉＭａｓｕｉｃｈｉ，ＲａｙｍｏｎｄＦｌｏｕｒｎｏｙ，ＳｔｅｆａｎＫａｕｆｍａｎｎａｎｄＳｔａｎｌｅｙＰｅｔｅｒｓ，”ＱｕｅｒｙＴｒａｎｓｌａｔｉｏｎＭｅｔｈｏｄｆｏｒＣｒｏｓｓＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ”，ＴｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＳｕｍｍｉｔＶＩＩ ’９９ＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｆｏｒＣｒｏｓｓＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，（１９９９）」では、翻訳対の集合（パラレルコーパス）を学習データとして、異なる言語で書かれた文書の各々を同じベクトル空間上の文書ベクトルとして表現し、ベクトル間の余弦の値を文書間の類似度であるとして多言語文書検索を行う手法が提案されている。この手法を用いれば、カテゴリに属する全ての文書に対応する文書ベクトルの和をカテゴリベクトルと定義し、カテゴリベクトル間の余弦を類似度と定義することによって、異なる言語を対象として構築された複数のカテゴリ構造間のカテゴリの対応関係を決定することが可能となる。
【０００５】
【発明が解決しようとする課題】
しかしながら現状においては、上記の手法によって対応するカテゴリを決定する上で実用上十分な精度が得られているとは言い難い。一般に多言語情報検索の検索精度を低下させる最大の要因は、単語あるいはフレーズの意味曖昧性の問題である。第１の言語のある単語（フレーズ）を第２の言語の単語（フレーズ）へと翻訳する際には、多くの翻訳候補が存在する。例えば、英語の「ｂａｓｅ」という単語は、軍事用語としては「基地」、野球用語としては「塁」、政治用語としては「支持母体」、数学用語としては「基数」、化学用語としては「塩基」、文法用語としては「期体」、建築用語としては「（塗料の）主成分」等、分野に依存して様々な翻訳候補が存在する。これらの翻訳候補は多くの場合分野依存であるため、多言語情報検索では、検索対象を特定の分野の文書集合に限れば高い精度が得られると言われている。すなわち、カテゴリ内にはそのカテゴリの分野に応じた訳語が存在し、分野ごとに適切な訳語を用いて多言語文書検索を行う必要がある。上記の文書ベクトルを用いた手法では、学習データとしてある一つのパラレルコーパスを用いるため分野に応じた適切な文書ベクトルを生成することができず、したがって意味曖昧性の問題を解決することができない。カテゴリごとにパラレルコーパスを用意することができれば分野に応じた適切な文書ベクトルを生成することは可能であるが、一般にパラレルコーパスは入手が困難であり、実際にはそのようなアプローチは不可能である。パラレルコーパスを学習データとする多言語文書検索手法以外にも、２ヶ国語辞書を用いる多言語文書検索手法も数多く提案されているが、一般的な２ヶ国語辞書を用いた場合は意味曖昧性の問題が解決できず、分野（カテゴリ）ごとに２ヶ国語辞書を用意することが実際上不可能である点は全く同様である。
【０００６】
本発明はこのような点に鑑みてなされたものであり、カテゴリごとにパラレルコーパスを用意することなく、高い精度でカテゴリ間の対応関係を決定することができるシステムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
文献「ＨｉｒｏｓｈｉＭａｓｕｉｃｈｉ，ＲａｙｍｏｎｄＦｌｏｕｒｎｏｙ，ＳｔｅｆａｎＫａｕｆｍａｎｎａｎｄＳｔａｎｌｅｙＰｅｔｅｒｓ，”ＡＢｏｏｔｓｔｒａｐｐｉｎｇｍｅｔｈｏｄｆｏｒＥｘｔｒａｃｔｉｎｇＢｉｌｉｎｇｕａｌＴｅｘｔＰａｉｒｓ”，ＴｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆＴｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ｐｐ．１０６６−１０７０（２０００）」では、以下のような２ヶ国語の類似文書ペア決定手法が提案されている。
【０００８】
「あるパラレルコーパスを初期の学習データとして多言語文書検索を行い、２ヶ国語の文書が混在する文書集合中から類似する２ヶ国語文書ペアを決定し、得られた文書ペアを初期の学習データに追加し、得られた学習データに基づいて再度多言語文書検索を行う。この多言語文書検索処理と、得られた文書ペアの学習データへの追加処理を交互に繰り返すことによって、学習ペアを成長させ、最終的に精度の高いパラレルコーパス（２ヶ国語文書ペア）を得る。」
【０００９】
上記文献に記載されている通り、この手法は多言語文書検索の対象である文書集合中の各文書の意味内容が似通っている（同一の分野である）場合にしか有効に働かない。本発明は、上記手法のこの性質を逆に利用するものである。すなわち、第１の言語で書かれた文書集合を含む第１のカテゴリと第２の言語で書かれた文書集合を含む第２のカテゴリを合わせたものを、多言語文書検索の対象として上記手法を適用し、学習ペアが成長すれば第１のカテゴリと第２のカテゴリの分野が類似のものであると判断する。
【００１０】
本発明の一構成は、図１に示されるように、第１の言語を対象として生成された第１のカテゴリ構造と第２の言語を対象として生成された第２のカテゴリ構造を保持するカテゴリ構造保持手段（１）と、多言語文書検索を行う際の学習データを保持する学習データ保持手段（２）と、学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第１のカテゴリ中のカテゴリと第２のカテゴリ中のカテゴリを対象として多言語文書検索を行い、類似する第１の言語と第２の言語の２ヶ国語文書ペアを決定する多言語文書検索手段（３）と、多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段（４）と、検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段（５）とを備えることを特徴とし、この構成において、多言語文書検索手段による多言語検索処理と、検索結果保持手段による文書ペアの学習データへの追加処理とを交互に繰り返すものである。
【００１１】
なお、本発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能であり、少なくともその一部をコンピュータプログラムとして構成することもできることはもちろんである。
【００１２】
本発明の上述の一構成および本発明の他の構成は特許請求の範囲に明瞭に記載され、また以下において実施例を用いて詳細に説明される。
【００１３】
【発明の実施の形態】
以下、本発明の実施例について説明する。
【００１４】
図２は、本発明の実施例の対応カテゴリ検索システムの構成を示している。なお、この実施例においては、日本語と英語を対象として説明を行うが、形態素解析処理（文を単語へと分割する処理）が適用可能な言語であればいかなる言語であっても同様の効果を得ることができる。
【００１５】
図２において、カテゴリ構造保持手段１１は、複数の日本語文書および複数の英語文書をそれぞれカテゴリに分類して格納するカテゴリ構造（第１のカテゴリ構造と第２のカテゴリ構造）を計算機内部に保持する手段である。
【００１６】
学習データ保持手段１２は、日英の翻訳文書対の集合（日英のパラレルコーパス）を初期学習データとして保持する手段である。該パラレルコーパスは、特に分野を限るものではなく、入手が容易な一般的内容のパラレルコーパスである。また、検索結果保持手段１６から日英文書ペアを受け取ると、初期学習データであるパラレルコーパスに追加して新たな日英のパラレルコーパスとして保持する。
【００１７】
単語ベクトル生成手段１３は、学習データ保持手段１２に保持される日英のパラレルコーパスを学習データとして、そこに含まれる全ての日本語単語および英語単語に対して、対応する多次元ベクトル（単語ベクトル）を計算する手段である。以下、単語ベクトルを計算するアルゴリズムを説明する。
【００１８】
［ステップ１］：学習データ中に含まれる全ての日本語文書および英語文書に対して形態素解析処理を施す。
［ステップ２］：ステップ１で得られた全単語のうち、学習データ中で出現頻度の多いものから順にｎ個の単語を選択する。ここで得られたｎ個の単語のことを特徴表現語と呼ぶことにする。ｎの値は数千のオーダーとする。
［ステップ３］：行と列がそれぞれ、ステップ１で得られた全ての日本語／英語単語、および特徴表現語に対応する行列を作成する。ステップ１で得られた全ての日本語／英語単語の総異なり語数が１０万であり、ｎの値を３，０００とした場合、１０万行×３，０００列の行列ができることになる。この行列の各要素には、その要素の行に対応する単語と列に対応する特徴表現語が、学習データ中に含まれる全ての日英文書翻訳対中で何度共起しているか（同時に出現しているか）を記録する。すなわち、日英の翻訳対を一つの文書であるとみなして、文書内の共起回数をカウントする。こうして得られた行列のことを共起行列と呼ぶことにする。このようにして、全日本語単語と全英語単語をｎ次元のベクトルで表現する共起行列を作成することができる。このベクトルは、各単語がどのようなコンテキストで出現しやすい傾向にあるかを示すベクトルであるといえる。
【００１９】
［ステップ４］：ステップ３で得られたｎ次元のベクトルは次元数が大きいため、後に必要となる処理で計算時間が膨大なものになってしまう。そこで、計算処理を実時間の範囲に抑えるために、元のｎ次元のベクトルを行列の次元圧縮手法によって、ｎ’次元（数百次元）のベクトルへと圧縮する。次元圧縮手法には様々なものが存在するが、「Ｂｅｒｒｙ，Ｍ．，Ｄｏ，Ｔ．，Ｏ’Ｂｒｉｅｎ，Ｇ．，Ｋｒｉｓｈｎａ，Ｖ．ａｎｄＶａｒａｄｈａｎ，Ｓ．，”ＳＶＤＰＡＣＫＣＵＳＥＲ’ＳＧＵＩＤＥ”．Ｔｅｃｈ．Ｒｅｐ．ＣＳ−９３−１９４．ＵｎｉｖｅｒｓｉｔｙｏｆＴｅｎｎｅｓｓｅｅ，Ｋｎｏｘｖｉｌｌｅ，ＴＮ（１９９３）」で詳細な説明がなされているＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎがその代表例である。このようにして全ての日本語単語および英語単語に対して得られたｎ’次元のベクトルを単語ベクトルと呼ぶことにする。
【００２０】
文書ベクトル生成手段１４は、単語ベクトル生成手段１３で得られる単語ベクトルを用いて、カテゴリ構造保持手段１１中に保持されているカテゴリＡ中の全日本語文書およびカテゴリＢ中の全英語文書に対応する文書ベクトルを計算する手段である。まず、カテゴリ構造保持手段１１中に保持されているカテゴリＡ中の全日本語文書およびカテゴリＢ中の全英語文書に形態素解析処理を施し、単語へと分割する。次に、各文書中に含まれる全単語に対応する単語ベクトルの総和を正規化した（ベクトルの長さを１とした）ベクトルを計算し、得られたベクトルを文書ベクトルとする。ただし、対応する単語ベクトルが単語ベクトル生成手段１３によって生成されていない単語は無視するものとする。
【００２１】
多言語検索手段１５は、カテゴリ構造保持手段１１に保持されている第１のカテゴリ中の任意の日本語カテゴリ（カテゴリＡ）と第２のカテゴリ中の任意の英語カテゴリ（カテゴリＢ）のカテゴリペア中から類似する日英の文書ペアを検索する手段である。したがって、以下の処理を全ての日本語カテゴリと英語カテゴリのカテゴリペア（カテゴリＡとカテゴリＢの任意の組み合わせ）に対してそれぞれ行うものとする。
【００２２】
まず、文書ベクトル生成手段１４から得られる文書ベクトルを参照することにより、以下の条件を満たす日本語文書と英語文書のペアを、カテゴリＡおよびカテゴリＢに属する全ての文書集合から抽出する。
【００２３】
「文書ペア中の日本語文書に対応する文書ベクトルと最も関連度の高い（内積の値が大きい）英語文書ベクトルがペア中の英語文書ベクトルであり、逆にペア中の英語文書ベクトルと最も関連度の高い日本語文書ベクトルがペア中の日本語文書ベクトルである。」
【００２４】
次に、上記の条件を満たす日英文書ペアうち、ペア中の日英文書に対応する日英文書ベクトルの間の内積の値が予め設定された閾値よりも大きいペアを抽出する。このようにして得られた日英の文書ペアは、意味内容が極めて近いものであり、学習データとして使用することができるものとなる。
【００２５】
検索結果保持手段１６は、カテゴリＡとカテゴリＢを対象に多言語検索手段１５から得られた日英文書ペア集合を計算機内部に保持する手段である。得られた文書ペア集合は、新たな学習データの一部として学習データ保持手段１２へ渡される。
【００２６】
このようにして、
（１）学習データ保持手段１２に保持された学習データに基づき、単語ベクトル生成手段１３によって単語ベクトル集合を生成し、
（２）文書ベクトル生成手段１４によって文書ベクトル集合を生成し、
（３）多言語検索手段１５によって意味内容が近い日英の文書ペアを抽出し、
（４）検索結果保持手段１６によって、得られた文書ペアを学習データの一部として学習データ保持手段１２に追加する（既に追加されている場合は以前のものと置き換える）。
という処理を繰り返し行うことにより、カテゴリＡ中の日本語文書集合とカテゴリＢ中の英語文書集合の意味内容が近い（カテゴリＡとカテゴリＢが同分野に属する）場合に限り、検索結果保持手段１６中に保持される文書ペアの数が徐々に増加することになる。
【００２７】
カテゴリ対応関係決定手段１７は、「検索結果保持手段１６に保持されている文書ペアの総数」の「カテゴリＡおよびカテゴリＢに含まれる総文書数」に対する割合を参照し、該割合が予め定められた閾値Ｔよりも大きい場合、カテゴリＡとカテゴリＢが類似する（同分野の）カテゴリペアであると決定する。また、カテゴリＡとカテゴリＢに対して上記の繰り返し処理が一定回数以上行われたにもかかわらず、該割合が閾値Ｔを超えない場合は、カテゴリＡとカテゴリＢが類似する（同分野の）カテゴリペアではないと決定する。
【００２８】
カテゴリの対応関係の決定は、１回の文書検索だけで終了させても良い。また、閾値を多段に設定しても良い。例えば所定回数目の文書検索で閾値ａ（ａ＜ｂ）未満であれば、非対応と判別し、閾値ａ以上で閾値ｂ未満であれば、再度文書検索を繰返し、同様な判別を行い、閾値ｂ以上であれば、即座にカテゴリが対応すると判別するような構成を採用しても良い。要するに、文書検索結果が、カテゴリの対応関係を肯定する兆候を示すときに、カテゴリが対応すると判別すれば、どのような構成を採用しても良い。
【００２９】
このような構成をとり、カテゴリ対応関係決定手段１７によって、全ての日本語カテゴリと英語カテゴリのカテゴリペア（カテゴリＡとカテゴリＢの任意の組み合わせ）に対してそれぞれ対応関係の有無を決定することにより、第１のカテゴリと第２のカテゴリのカテゴリの対応関係を網羅的に決定することが可能となる。
【００３０】
なお、本実施例では前述の文献「ＨｉｒｏｓｈｉＭａｓｕｉｃｈｉ，ＲａｙｍｏｎｄＦｌｏｕｒｎｏｙ，ＳｔｅｆａｎＫａｕｆｍａｎｎａｎｄＳｔａｎｌｅｙＰｅｔｅｒｓ，”ＱｕｅｒｙＴｒａｎｓｌａｔｉｏｎＭｅｔｈｏｄｆｏｒＣｒｏｓｓＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ”，ＴｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＳｕｍｍｉｔＶＩＩ’９９ＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｆｏｒＣｒｏｓｓＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，（１９９９）」に記載のパラレルコーパスを学習データとするベクトル空間法に基づく多言語文書検索手法を利用したが、学習データへの検索結果の追加を繰り返し行うことが可能な多言語文書検索手法であれば、いかなる手法であっても同様の効果が得られる（図１参照）。
【００３１】
例えば、カテゴリＡ中の第１の言語で書かれた文書を機械翻訳システムによって第２の言語へと翻訳し、一般的な単言語を対象とする文書検索手法を用いて多言語文書検索を行う手法によっても同様の効果を得ることができる。
【００３２】
パラレルコーパスを学習データとして機械翻訳システムを実現する例として、文献「ＰｅｔｅｒＦ．Ｂｒｏｗｎ，ＳｔｅｐｈｅｎＡ．ＤｅｌｌａＰｉｅｔｒａ，ＶｉｎｃｅｎｔＪ．ＤｅｌｌａＰｉｅｔｒａ，ａｎｄＲｏｂｅｒｔＬ．Ｍｅｒｃｅｒ，”ＴｈｅｍａｔｈｅｍａｔｉｃｓｏｆｓｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：Ｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎ”，ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，３２：２６３−３１１，１９９３．」を挙げることができる。
【００３３】
【発明の効果】
以上のように本発明によれば、分野ごとに学習データを用意することなしに単語曖昧性解消の問題を回避し、異なる言語を対象として構築された複数のカテゴリ構造間のカテゴリの対応関係を高い精度で決定することが可能となる。
【図面の簡単な説明】
【図１】本発明に係る典型的な対応カテゴリ検索システムの構成を示す図である。
【図２】本発明の一実施例に係る対応カテゴリ検索システムの構成を示す図である。
【符号の説明】
１１カテゴリ構造保持手段
１２学習データ保持手段
１３単語ベクトル生成手段
１４文書ベクトル生成手段
１５多言語検索手段
１６検索結果保持手段
１７カテゴリ対応関係決定手段

Claims

第１の言語を対象として生成された第１のカテゴリ構造と第２の言語を対象として生成された第２のカテゴリ構造とを保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データを保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第１のカテゴリ構造中のカテゴリと第２のカテゴリ構造中のカテゴリとを対象として多言語文書検索を行い、類似する第１の言語および第２の言語の２ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段と、
検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。
第１の言語を対象として生成された第１のカテゴリ構造と第２の言語を対象として生成された第２のカテゴリ構造とを保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データとして翻訳文書対を保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第１のカテゴリ構造中のカテゴリと第２のカテゴリ構造中のカテゴリを対象としてベクトル空間法に基づく多言語文書検索を行い、類似する第１の言語および第２の言語の２ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段と、
検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。
第１の言語を対象として生成された第１のカテゴリ構造と第２の言語を対象として生成された第２のカテゴリ構造を保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データとして翻訳文書対を保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いてカテゴリ構造保持手段に保持されている第１のカテゴリ構造中のカテゴリに属する第１の言語で書かれた文書を第２の言語へと翻訳し、得られた翻訳文書集合と第２のカテゴリ構造中のカテゴリに属する文書集合を対象として文書検索を行い、類似する第１の言語と第２の言語の２ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段と、
検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。
第１の言語を対象として生成された第１のカテゴリ構造と第２の言語を対象として生成された第２のカテゴリ構造とをストアするカテゴリ構造保持ステップと、
多言語文書検索を行う際の学習データをストアする学習データ保持ステップと、
学習データ保持ステップにおいてストアされた学習データを用いて、カテゴリ構造ステップにおいてストアされた第１のカテゴリ構造中のカテゴリと第２のカテゴリ構造中のカテゴリとを対象として、多言語文書検索を行い、類似する第１の言語および第２の言語の２ヶ国語文書ペアを決定する多言語文書検索ステップと、
多言語文書検索ステップにおいて得られた文書ペアを保持すると共に、該文書ペアを学習データとして追加する検索結果保持ステップと、
検索結果保持ステップにおいてストアされた文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定ステップと、
を備えることを特徴とする対応カテゴリ検索方法。
第１の言語を対象として生成された第１のカテゴリ構造と第２の言語を対象として生成された第２のカテゴリ構造とをストアするカテゴリ構造保持ステップと、
多言語文書検索を行う際の学習データをストアする学習データ保持ステップと、
学習データ保持ステップにおいてストアされた学習データを用いて、カテゴリ構造ステップにおいてストアされた第１のカテゴリ構造中のカテゴリと第２のカテゴリ構造中のカテゴリとを対象として、多言語文書検索を行い、類似する第１の言語および第２の言語の２ヶ国語文書ペアを決定する多言語文書検索ステップと、
多言語文書検索ステップにおいて得られた文書ペアを保持すると共に、該文書ペアを学習データとして追加する検索結果保持ステップと、
検索結果保持ステップにおいてストアされた文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定ステップと、
をコンピュータに実行させるために用いられることを特徴とする対応カテゴリ検索用コンピュータ・プログラム。
第１の言語を対象として生成された第１のカテゴリ構造と第２の言語を対象として生成された第２のカテゴリ構造とを保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データを保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第１のカテゴリ構造中のカテゴリと第２のカテゴリ構造中のカテゴリとを対象として多言語文書検索を行い、類似する第１の言語および第２の言語の２ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアに基づいてカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。