JP4013489B2 - 対応カテゴリ検索システムおよび方法 - Google Patents
対応カテゴリ検索システムおよび方法 Download PDFInfo
- Publication number
- JP4013489B2 JP4013489B2 JP2001058303A JP2001058303A JP4013489B2 JP 4013489 B2 JP4013489 B2 JP 4013489B2 JP 2001058303 A JP2001058303 A JP 2001058303A JP 2001058303 A JP2001058303 A JP 2001058303A JP 4013489 B2 JP4013489 B2 JP 4013489B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- document
- learning data
- language
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書集合が複数のカテゴリに分類されているカテゴリ構造を対象とし、異なる言語に対してそれぞれ構築された複数のカテゴリ構造間のカテゴリの対応関係を決定する技術に関する。
【0002】
【従来の技術】
大量の文書集合へのアクセスを容易にする方法の一つとして、文書集合を複数のカテゴリへと分類する手法を挙げることができる。文書集合をカテゴリに分類した場合、ユーザが求める文書が属していると想定されるカテゴリのみを検索対象として検索を行うことにより、効率よく所望の文書を得ることが可能となる。文書集合を人手によってカテゴリへと分類する場合もあれば、文献「情報検索論認知的アプローチへの展望,David Ellis著,丸善株式会社,(1994)」に記述されているようなカテゴリ分類を自動化する手法もこれまで多く提案されてきた。
【0003】
このようなカテゴリ化された文書集合(以降、カテゴリ構造とも呼ぶ)が複数の言語に対して構築されている場合、複数のカテゴリ構造間のカテゴリの対応関係(類似する意味内容の文書集合を含むカテゴリの対応関係)を決定することは、言語をまたがる文書検索(多言語文書検索)を行う上で重要である。すなわち、検索対象とするターゲット言語(二次的な検索に用いられる言語)の文書集合を、ソース言語(直接に検索に用いられる言語)による検索要求に近いカテゴリに限定することによって、検索の精度を向上させることが可能となる。
【0004】
このようなカテゴリの対応関係を自動的に決定するための方法としては、多言語文書検索の手法を流用する方法が主である。例えば、文献「Hiroshi Masuichi,Raymond Flournoy,Stefan Kaufmann and Stanley Peters,”Query Translation Method for Cross Language Information Retrieval”,The Proceedingsof Machine Translation Summit VII ’99 Workshop on Machine Translation for Cross Language Information Retrieval,(1999)」では、翻訳対の集合(パラレルコーパス)を学習データとして、異なる言語で書かれた文書の各々を同じベクトル空間上の文書ベクトルとして表現し、ベクトル間の余弦の値を文書間の類似度であるとして多言語文書検索を行う手法が提案されている。この手法を用いれば、カテゴリに属する全ての文書に対応する文書ベクトルの和をカテゴリベクトルと定義し、カテゴリベクトル間の余弦を類似度と定義することによって、異なる言語を対象として構築された複数のカテゴリ構造間のカテゴリの対応関係を決定することが可能となる。
【0005】
【発明が解決しようとする課題】
しかしながら現状においては、上記の手法によって対応するカテゴリを決定する上で実用上十分な精度が得られているとは言い難い。一般に多言語情報検索の検索精度を低下させる最大の要因は、単語あるいはフレーズの意味曖昧性の問題である。第1の言語のある単語(フレーズ)を第2の言語の単語(フレーズ)へと翻訳する際には、多くの翻訳候補が存在する。例えば、英語の「base」という単語は、軍事用語としては「基地」、野球用語としては「塁」、政治用語としては「支持母体」、数学用語としては「基数」、化学用語としては「塩基」、文法用語としては「期体」、建築用語としては「(塗料の)主成分」等、分野に依存して様々な翻訳候補が存在する。これらの翻訳候補は多くの場合分野依存であるため、多言語情報検索では、検索対象を特定の分野の文書集合に限れば高い精度が得られると言われている。すなわち、カテゴリ内にはそのカテゴリの分野に応じた訳語が存在し、分野ごとに適切な訳語を用いて多言語文書検索を行う必要がある。上記の文書ベクトルを用いた手法では、学習データとしてある一つのパラレルコーパスを用いるため分野に応じた適切な文書ベクトルを生成することができず、したがって意味曖昧性の問題を解決することができない。カテゴリごとにパラレルコーパスを用意することができれば分野に応じた適切な文書ベクトルを生成することは可能であるが、一般にパラレルコーパスは入手が困難であり、実際にはそのようなアプローチは不可能である。パラレルコーパスを学習データとする多言語文書検索手法以外にも、2ヶ国語辞書を用いる多言語文書検索手法も数多く提案されているが、一般的な2ヶ国語辞書を用いた場合は意味曖昧性の問題が解決できず、分野(カテゴリ)ごとに2ヶ国語辞書を用意することが実際上不可能である点は全く同様である。
【0006】
本発明はこのような点に鑑みてなされたものであり、カテゴリごとにパラレルコーパスを用意することなく、高い精度でカテゴリ間の対応関係を決定することができるシステムを提供することを目的とする。
【0007】
【課題を解決するための手段】
文献「Hiroshi Masuichi,Raymond Flournoy,Stefan Kaufmann and Stanley Peters,”A Bootstrapping method for Extracting Bilingual Text Pairs”,The Proceedings of The 18th International Conference on Computational Linguistics,pp.1066−1070(2000)」では、以下のような2ヶ国語の類似文書ペア決定手法が提案されている。
【0008】
「あるパラレルコーパスを初期の学習データとして多言語文書検索を行い、2ヶ国語の文書が混在する文書集合中から類似する2ヶ国語文書ペアを決定し、得られた文書ペアを初期の学習データに追加し、得られた学習データに基づいて再度多言語文書検索を行う。この多言語文書検索処理と、得られた文書ペアの学習データへの追加処理を交互に繰り返すことによって、学習ペアを成長させ、最終的に精度の高いパラレルコーパス(2ヶ国語文書ペア)を得る。」
【0009】
上記文献に記載されている通り、この手法は多言語文書検索の対象である文書集合中の各文書の意味内容が似通っている(同一の分野である)場合にしか有効に働かない。本発明は、上記手法のこの性質を逆に利用するものである。すなわち、第1の言語で書かれた文書集合を含む第1のカテゴリと第2の言語で書かれた文書集合を含む第2のカテゴリを合わせたものを、多言語文書検索の対象として上記手法を適用し、学習ペアが成長すれば第1のカテゴリと第2のカテゴリの分野が類似のものであると判断する。
【0010】
本発明の一構成は、図1に示されるように、第1の言語を対象として生成された第1のカテゴリ構造と第2の言語を対象として生成された第2のカテゴリ構造を保持するカテゴリ構造保持手段(1)と、多言語文書検索を行う際の学習データを保持する学習データ保持手段(2)と、学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第1のカテゴリ中のカテゴリと第2のカテゴリ中のカテゴリを対象として多言語文書検索を行い、類似する第1の言語と第2の言語の2ヶ国語文書ペアを決定する多言語文書検索手段(3)と、多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段(4)と、検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段(5)とを備えることを特徴とし、この構成において、多言語文書検索手段による多言語検索処理と、検索結果保持手段による文書ペアの学習データへの追加処理とを交互に繰り返すものである。
【0011】
なお、本発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能であり、少なくともその一部をコンピュータプログラムとして構成することもできることはもちろんである。
【0012】
本発明の上述の一構成および本発明の他の構成は特許請求の範囲に明瞭に記載され、また以下において実施例を用いて詳細に説明される。
【0013】
【発明の実施の形態】
以下、本発明の実施例について説明する。
【0014】
図2は、本発明の実施例の対応カテゴリ検索システムの構成を示している。なお、この実施例においては、日本語と英語を対象として説明を行うが、形態素解析処理(文を単語へと分割する処理)が適用可能な言語であればいかなる言語であっても同様の効果を得ることができる。
【0015】
図2において、カテゴリ構造保持手段11は、複数の日本語文書および複数の英語文書をそれぞれカテゴリに分類して格納するカテゴリ構造(第1のカテゴリ構造と第2のカテゴリ構造)を計算機内部に保持する手段である。
【0016】
学習データ保持手段12は、日英の翻訳文書対の集合(日英のパラレルコーパス)を初期学習データとして保持する手段である。該パラレルコーパスは、特に分野を限るものではなく、入手が容易な一般的内容のパラレルコーパスである。また、検索結果保持手段16から日英文書ペアを受け取ると、初期学習データであるパラレルコーパスに追加して新たな日英のパラレルコーパスとして保持する。
【0017】
単語ベクトル生成手段13は、学習データ保持手段12に保持される日英のパラレルコーパスを学習データとして、そこに含まれる全ての日本語単語および英語単語に対して、対応する多次元ベクトル(単語ベクトル)を計算する手段である。以下、単語ベクトルを計算するアルゴリズムを説明する。
【0018】
[ステップ1]:学習データ中に含まれる全ての日本語文書および英語文書に対して形態素解析処理を施す。
[ステップ2]:ステップ1で得られた全単語のうち、学習データ中で出現頻度の多いものから順にn個の単語を選択する。ここで得られたn個の単語のことを特徴表現語と呼ぶことにする。nの値は数千のオーダーとする。
[ステップ3]:行と列がそれぞれ、ステップ1で得られた全ての日本語/英語単語、および特徴表現語に対応する行列を作成する。ステップ1で得られた全ての日本語/英語単語の総異なり語数が10万であり、nの値を3,000とした場合、10万行×3,000列の行列ができることになる。この行列の各要素には、その要素の行に対応する単語と列に対応する特徴表現語が、学習データ中に含まれる全ての日英文書翻訳対中で何度共起しているか(同時に出現しているか)を記録する。すなわち、日英の翻訳対を一つの文書であるとみなして、文書内の共起回数をカウントする。こうして得られた行列のことを共起行列と呼ぶことにする。このようにして、全日本語単語と全英語単語をn次元のベクトルで表現する共起行列を作成することができる。このベクトルは、各単語がどのようなコンテキストで出現しやすい傾向にあるかを示すベクトルであるといえる。
【0019】
[ステップ4]:ステップ3で得られたn次元のベクトルは次元数が大きいため、後に必要となる処理で計算時間が膨大なものになってしまう。そこで、計算処理を実時間の範囲に抑えるために、元のn次元のベクトルを行列の次元圧縮手法によって、n’次元(数百次元)のベクトルへと圧縮する。次元圧縮手法には様々なものが存在するが、「Berry,M.,Do,T.,O’Brien,G.,Krishna,V. and Varadhan,S.,”SVDPACKC USER’S GUIDE”.Tech.Rep.CS−93−194.University of Tennessee,Knoxville,TN(1993)」で詳細な説明がなされているSingular Value Decompositionがその代表例である。このようにして全ての日本語単語および英語単語に対して得られたn’次元のベクトルを単語ベクトルと呼ぶことにする。
【0020】
文書ベクトル生成手段14は、単語ベクトル生成手段13で得られる単語ベクトルを用いて、カテゴリ構造保持手段11中に保持されているカテゴリA中の全日本語文書およびカテゴリB中の全英語文書に対応する文書ベクトルを計算する手段である。まず、カテゴリ構造保持手段11中に保持されているカテゴリA中の全日本語文書およびカテゴリB中の全英語文書に形態素解析処理を施し、単語へと分割する。次に、各文書中に含まれる全単語に対応する単語ベクトルの総和を正規化した(ベクトルの長さを1とした)ベクトルを計算し、得られたベクトルを文書ベクトルとする。ただし、対応する単語ベクトルが単語ベクトル生成手段13によって生成されていない単語は無視するものとする。
【0021】
多言語検索手段15は、カテゴリ構造保持手段11に保持されている第1のカテゴリ中の任意の日本語カテゴリ(カテゴリA)と第2のカテゴリ中の任意の英語カテゴリ(カテゴリB)のカテゴリペア中から類似する日英の文書ペアを検索する手段である。したがって、以下の処理を全ての日本語カテゴリと英語カテゴリのカテゴリペア(カテゴリAとカテゴリBの任意の組み合わせ)に対してそれぞれ行うものとする。
【0022】
まず、文書ベクトル生成手段14から得られる文書ベクトルを参照することにより、以下の条件を満たす日本語文書と英語文書のペアを、カテゴリAおよびカテゴリBに属する全ての文書集合から抽出する。
【0023】
「文書ペア中の日本語文書に対応する文書ベクトルと最も関連度の高い(内積の値が大きい)英語文書ベクトルがペア中の英語文書ベクトルであり、逆にペア中の英語文書ベクトルと最も関連度の高い日本語文書ベクトルがペア中の日本語文書ベクトルである。」
【0024】
次に、上記の条件を満たす日英文書ペアうち、ペア中の日英文書に対応する日英文書ベクトルの間の内積の値が予め設定された閾値よりも大きいペアを抽出する。このようにして得られた日英の文書ペアは、意味内容が極めて近いものであり、学習データとして使用することができるものとなる。
【0025】
検索結果保持手段16は、カテゴリAとカテゴリBを対象に多言語検索手段15から得られた日英文書ペア集合を計算機内部に保持する手段である。得られた文書ペア集合は、新たな学習データの一部として学習データ保持手段12へ渡される。
【0026】
このようにして、
(1)学習データ保持手段12に保持された学習データに基づき、単語ベクトル生成手段13によって単語ベクトル集合を生成し、
(2)文書ベクトル生成手段14によって文書ベクトル集合を生成し、
(3)多言語検索手段15によって意味内容が近い日英の文書ペアを抽出し、
(4)検索結果保持手段16によって、得られた文書ペアを学習データの一部として学習データ保持手段12に追加する(既に追加されている場合は以前のものと置き換える)。
という処理を繰り返し行うことにより、カテゴリA中の日本語文書集合とカテゴリB中の英語文書集合の意味内容が近い(カテゴリAとカテゴリBが同分野に属する)場合に限り、検索結果保持手段16中に保持される文書ペアの数が徐々に増加することになる。
【0027】
カテゴリ対応関係決定手段17は、「検索結果保持手段16に保持されている文書ペアの総数」の「カテゴリAおよびカテゴリBに含まれる総文書数」に対する割合を参照し、該割合が予め定められた閾値Tよりも大きい場合、カテゴリAとカテゴリBが類似する(同分野の)カテゴリペアであると決定する。また、カテゴリAとカテゴリBに対して上記の繰り返し処理が一定回数以上行われたにもかかわらず、該割合が閾値Tを超えない場合は、カテゴリAとカテゴリBが類似する(同分野の)カテゴリペアではないと決定する。
【0028】
カテゴリの対応関係の決定は、1回の文書検索だけで終了させても良い。また、閾値を多段に設定しても良い。例えば所定回数目の文書検索で閾値a(a<b)未満であれば、非対応と判別し、閾値a以上で閾値b未満であれば、再度文書検索を繰返し、同様な判別を行い、閾値b以上であれば、即座にカテゴリが対応すると判別するような構成を採用しても良い。要するに、文書検索結果が、カテゴリの対応関係を肯定する兆候を示すときに、カテゴリが対応すると判別すれば、どのような構成を採用しても良い。
【0029】
このような構成をとり、カテゴリ対応関係決定手段17によって、全ての日本語カテゴリと英語カテゴリのカテゴリペア(カテゴリAとカテゴリBの任意の組み合わせ)に対してそれぞれ対応関係の有無を決定することにより、第1のカテゴリと第2のカテゴリのカテゴリの対応関係を網羅的に決定することが可能となる。
【0030】
なお、本実施例では前述の文献「Hiroshi Masuichi, Raymond Flournoy, Stefan Kaufmann and Stanley Peters,”Query Translation Method for Cross Language Information Retrieval”,The Proceedings of Machine Translation Summit VII’99 Workshopon Machine Translation for Cross Language Information Retrieval,(1999)」に記載のパラレルコーパスを学習データとするベクトル空間法に基づく多言語文書検索手法を利用したが、学習データへの検索結果の追加を繰り返し行うことが可能な多言語文書検索手法であれば、いかなる手法であっても同様の効果が得られる(図1参照)。
【0031】
例えば、カテゴリA中の第1の言語で書かれた文書を機械翻訳システムによって第2の言語へと翻訳し、一般的な単言語を対象とする文書検索手法を用いて多言語文書検索を行う手法によっても同様の効果を得ることができる。
【0032】
パラレルコーパスを学習データとして機械翻訳システムを実現する例として、文献「Peter F.Brown,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer,”The mathematics of statistical Machine Translation:Parameterestimation”,Computational Linguistics,32:263−311,1993.」を挙げることができる。
【0033】
【発明の効果】
以上のように本発明によれば、分野ごとに学習データを用意することなしに単語曖昧性解消の問題を回避し、異なる言語を対象として構築された複数のカテゴリ構造間のカテゴリの対応関係を高い精度で決定することが可能となる。
【図面の簡単な説明】
【図1】 本発明に係る典型的な対応カテゴリ検索システムの構成を示す図である。
【図2】 本発明の一実施例に係る対応カテゴリ検索システムの構成を示す図である。
【符号の説明】
11 カテゴリ構造保持手段
12 学習データ保持手段
13 単語ベクトル生成手段
14 文書ベクトル生成手段
15 多言語検索手段
16 検索結果保持手段
17 カテゴリ対応関係決定手段
Claims (6)
- 第1の言語を対象として生成された第1のカテゴリ構造と第2の言語を対象として生成された第2のカテゴリ構造とを保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データを保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第1のカテゴリ構造中のカテゴリと第2のカテゴリ構造中のカテゴリとを対象として多言語文書検索を行い、類似する第1の言語および第2の言語の2ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段と、
検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。 - 第1の言語を対象として生成された第1のカテゴリ構造と第2の言語を対象として生成された第2のカテゴリ構造とを保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データとして翻訳文書対を保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第1のカテゴリ構造中のカテゴリと第2のカテゴリ構造中のカテゴリを対象としてベクトル空間法に基づく多言語文書検索を行い、類似する第1の言語および第2の言語の2ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段と、
検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。 - 第1の言語を対象として生成された第1のカテゴリ構造と第2の言語を対象として生成された第2のカテゴリ構造を保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データとして翻訳文書対を保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いてカテゴリ構造保持手段に保持されている第1のカテゴリ構造中のカテゴリに属する第1の言語で書かれた文書を第2の言語へと翻訳し、得られた翻訳文書集合と第2のカテゴリ構造中のカテゴリに属する文書集合を対象として文書検索を行い、類似する第1の言語と第2の言語の2ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアを保持すると共に、該文書ペアを学習データ保持手段に追加する検索結果保持手段と、
検索結果保持手段に保持されている文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。 - 第1の言語を対象として生成された第1のカテゴリ構造と第2の言語を対象として生成された第2のカテゴリ構造とをストアするカテゴリ構造保持ステップと、
多言語文書検索を行う際の学習データをストアする学習データ保持ステップと、
学習データ保持ステップにおいてストアされた学習データを用いて、カテゴリ構造ステップにおいてストアされた第1のカテゴリ構造中のカテゴリと第2のカテゴリ構造中のカテゴリとを対象として、多言語文書検索を行い、類似する第1の言語および第2の言語の2ヶ国語文書ペアを決定する多言語文書検索ステップと、
多言語文書検索ステップにおいて得られた文書ペアを保持すると共に、該文書ペアを学習データとして追加する検索結果保持ステップと、
検索結果保持ステップにおいてストアされた文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定ステップと、
を備えることを特徴とする対応カテゴリ検索方法。 - 第1の言語を対象として生成された第1のカテゴリ構造と第2の言語を対象として生成された第2のカテゴリ構造とをストアするカテゴリ構造保持ステップと、
多言語文書検索を行う際の学習データをストアする学習データ保持ステップと、
学習データ保持ステップにおいてストアされた学習データを用いて、カテゴリ構造ステップにおいてストアされた第1のカテゴリ構造中のカテゴリと第2のカテゴリ構造中のカテゴリとを対象として、多言語文書検索を行い、類似する第1の言語および第2の言語の2ヶ国語文書ペアを決定する多言語文書検索ステップと、
多言語文書検索ステップにおいて得られた文書ペアを保持すると共に、該文書ペアを学習データとして追加する検索結果保持ステップと、
検索結果保持ステップにおいてストアされた文書ペアを参照してカテゴリ間の対応関係を決定するカテゴリ対応関係決定ステップと、
をコンピュータに実行させるために用いられることを特徴とする対応カテゴリ検索用コンピュータ・プログラム。 - 第1の言語を対象として生成された第1のカテゴリ構造と第2の言語を対象として生成された第2のカテゴリ構造とを保持するカテゴリ構造保持手段と、
多言語文書検索を行う際の学習データを保持する学習データ保持手段と、
学習データ保持手段に保持されている学習データを用いて、カテゴリ構造保持手段に保持されている第1のカテゴリ構造中のカテゴリと第2のカテゴリ構造中のカテゴリとを対象として多言語文書検索を行い、類似する第1の言語および第2の言語の2ヶ国語文書ペアを決定する多言語文書検索手段と、
多言語文書検索によって得られる文書ペアに基づいてカテゴリ間の対応関係を決定するカテゴリ対応関係決定手段と、
を備えることを特徴とする対応カテゴリ検索システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001058303A JP4013489B2 (ja) | 2001-03-02 | 2001-03-02 | 対応カテゴリ検索システムおよび方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001058303A JP4013489B2 (ja) | 2001-03-02 | 2001-03-02 | 対応カテゴリ検索システムおよび方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002259445A JP2002259445A (ja) | 2002-09-13 |
| JP4013489B2 true JP4013489B2 (ja) | 2007-11-28 |
Family
ID=18918045
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001058303A Expired - Fee Related JP4013489B2 (ja) | 2001-03-02 | 2001-03-02 | 対応カテゴリ検索システムおよび方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4013489B2 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5701787B2 (ja) * | 2012-02-17 | 2015-04-15 | 日本電信電話株式会社 | データ分類予測装置、方法、及びプログラム |
| JP6517537B2 (ja) * | 2015-02-26 | 2019-05-22 | 日本電信電話株式会社 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
| JP6346367B1 (ja) | 2017-11-07 | 2018-06-20 | 株式会社Fronteoヘルスケア | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
| JP7167997B2 (ja) | 2018-10-16 | 2022-11-09 | 株式会社島津製作所 | 文献検索方法および文献検索システム |
| WO2020079748A1 (ja) | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 事例検索方法および事例検索システム |
| WO2020079749A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 事例検索方法 |
-
2001
- 2001-03-02 JP JP2001058303A patent/JP4013489B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002259445A (ja) | 2002-09-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4066600B2 (ja) | 多言語文書検索システム | |
| Cohen et al. | Exploiting dictionaries in named entity extraction: combining semi-markov extraction processes and data integration methods | |
| US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
| US20100094835A1 (en) | Automatic query concepts identification and drifting for web search | |
| JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
| Houngbo et al. | Method mention extraction from scientific research papers | |
| CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
| JP2010519655A (ja) | 名前照合システムの名前インデックス付け | |
| JP2011118689A (ja) | 検索方法及びシステム | |
| CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
| Chen et al. | Integrating natural language processing with image document analysis: what we learned from two real-world applications | |
| Korobkin et al. | Methods for extracting the descriptions of sci-tech effects and morphological features of technical systems from patents | |
| JP4013489B2 (ja) | 対応カテゴリ検索システムおよび方法 | |
| Sangati et al. | Multiword expression identification with recurring tree fragments and association measures | |
| JP2005092253A (ja) | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム | |
| Shchukin et al. | Word clustering approach to bilingual document alignment (wmt 2016 shared task) | |
| CN112949287A (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
| Ehsan et al. | A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection. | |
| Bhanu Prasad et al. | Author verification using rich set of linguistic features | |
| JP3894428B2 (ja) | 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム | |
| Watrin et al. | An N-gram frequency database reference to handle MWE extraction in NLP applications | |
| JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
| Shekhar et al. | Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants | |
| Ilgen et al. | Exploring feature sets for Turkish word sense disambiguation | |
| CN113918804A (zh) | 商品信息检索系统及方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040921 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070810 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070821 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070903 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100921 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110921 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120921 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120921 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130921 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |