JP5113750B2 - 定義の抽出 - Google Patents
定義の抽出 Download PDFInfo
- Publication number
- JP5113750B2 JP5113750B2 JP2008525156A JP2008525156A JP5113750B2 JP 5113750 B2 JP5113750 B2 JP 5113750B2 JP 2008525156 A JP2008525156 A JP 2008525156A JP 2008525156 A JP2008525156 A JP 2008525156A JP 5113750 B2 JP5113750 B2 JP 5113750B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- text
- definition
- cue
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
「A blog is system for publishing images, text and video on the web, a diary enrichable with any sort of multimedia content that one wishes to share with other surfers.(ブログとは、ウェブ上でイメージ、テキストおよび映像を公開するためのシステムであり、他のサーファーと共有したいと思う任意の種類のマルチメディアコンテンツで内容を充実させることができる日記のことである。)」
さらに、いくつかの定義を、ソーステキスト内でのみ発見することができる。言い換えると、いくつかの語は、テキストデータ内でのみ発見することができるという情報の性質のために、辞書に記載されることはない。一方、テキストデータの中で正確な定義を発見することは、困難な場合があり、コストの高い処理を必要とする場合がある。定義を正確に表すテキストデータを識別することは、数多くの問題を提示する。例えば、以下の例2〜4で示されているセンテンスは、「is a」のような定義のパターンに関して、単純な文字列の一致が、センテンスが定義を含むかどうかを識別するために十分ではないということを示す。
「Microsoft Corp. is a great software company in Redmond.(マイクロソフト社とは、レドモンドにある大手のソフトウェア企業である)。」
「Microsoft Corp. is a software company in Redmond.(マイクロソフト社とは、レドモンドにあるソフトウェア企業である)。」
「Today is a valid workday.(今日は有効な営業日である)。」
これらのセンテンスの3つすべてが「is a」という語またはパターンを含むが、例3だけが定義を表す。例2のセンテンスは、定義とは対照的な意見を表す。例4のセンテンスもまた「is a」という定義のようなパターンを含むが、これは定義ではない。
ここで図2を参照すると、図1に示されるようなコンピューティング環境で実装することができる定義抽出システム200のブロック図が示されている。定義抽出システムは、テキストデータを分析し、定義を包含するセンテンスまたはパラグラフを識別する。開示される方法に従って動作するシステム200は、例えばドキュメント206から入力テキスト205を受け取る。ドキュメント206は、1つまたは複数の完全なドキュメント、ドキュメントの一部、ウェブページ、または他のテキストのソースを表す。ドキュメント206は、例えば、LAN上で、またはインターネットなどのグローバルネットワーク上で、デスクトップ環境で使用可能なテキストのソースとすることができる。他のテキストのソースを使用することもできる。
定義抽出コンポーネントまたはシステム200は、字句スキャナ215を使用し、パターンマッチングを実行して、連結動詞(例えば、「is a(である)」、「is the(である)」)および「is defined as(と定義される)」などの他のキューフレーズなどを認識するが、連結動詞および他のキューフレーズなどは、クローズドクラスを形成するので、次の定義抽出コードは、いつ優良な候補センテンスが分析に使用可能になるのかを知ることになる。字句スキャナは、テキスト内の字句パターンを認識するプログラムである。任意の様々な公知のスキャナジェネレータを使用して、字句パターンのセットから字句スキャナ215を作り出すことができる。1つの例示的な実施形態において、字句スキャナ215は、Flex(fast lexical analyzer)スキャナジェネレータによって生成される。Flexは、バークレーのカリフォルニア大学およびその寄与者によって開発されたソフトウェアである。Flexソフトウェアは、当技術分野で公知であり、米エネルギー省とカリフォルニア大学との間の契約第DE−AC03−76SF00098号に従って、米国政府がFlexソフトウェアに関する権利を有する。Flexの代わりに、(AT&Tベル研究所によって開発された)Lexなどの代替のスキャナジェネレータを使用することができる。
候補センテンスが、段階215によって分析され、識別されると、NP識別コンポーネント225は、そのNP構成要素を識別するために、計算およびスコアリング段階220によって使用される。以下でより詳細に説明するように、識別されたNP構成要素を用いて、計算およびスコアリング段階220は、候補センテンスを分析し、適切であれば候補センテンスを記録する。任意のスコアリングされた候補の定義センテンスに関して、スコアがしきい値を超えると、システム200は、定義を取り出すために、適切な情報を用いてそのセンテンスをマークする。言い換えると、センテンスは、そのセンテンスが定義を含んでいるという事実と、どの用語が定義されることとなるかということの両方を示す情報を用いてマークされる。例えば、センテンスをマークすることは、適切なオフセット(すなわち、センテンスまたは他のテキスト内の定義用語の位置)を、センテンスまたはテキストの特性に追加することを含むことができる。これらのセンテンスまたはテキストの特性は、説明の目的で、いくつかの実施形態では図2に示される定義出力210に含まれる。
ideal(理想的な)
idyllic(牧歌的な)
ignoble(下品な)
ignorant(無知な)
immature(未熟な)
imperfect(不完全な)
important(重要な)
improbable(ありそうもない)
incorrect(不正確な)
incredible(信じがたい)
indispensable(不可欠な)
inappropriate(不適切な)
insignificant(重要でない)
insincere(不誠実な)
intelligent(知的な)
irresponsible(無責任な)
mature(成熟した)
marvelous(素晴らしい)
nasty(ひどい)
nice(良い)
offensive(不快な)
perfect(完全な)
beauty(美)
bliss(至福)
bore(退屈なもの)
boredom(退屈)
contentment(満足)
counterpart(対応物)
challenge(挑戦)
chance(機会)
danger(危険)
dishonor(不名誉)
disgrace(恥辱)
disappointment(失望)
displease(不快にする)
jerk(愚か者)
joke(冗談)
relief(安心)
revelation(発見)
success(成功)
threat(脅威)
waste(無駄)
wonder(驚き)
図5に関して上述したステップ415および427では、左および右NPスコアリングが適用される。定義をスコアリングするために、実施形態で適用される一般的なアプローチは、優良な定義候補を識別するために有力な発見的パターンを定義し、その一方で除外ルールおよびスコアリングのためのしきい値を使用して、余計な候補を除外することである。そのような発見的問題解決法は、上記でパターンに応じて左NPおよび右NPのいずれかと呼ばれる、定義用語(すなわち、定義される用語)と対応するNPの記述(すなわち説明)との両方に適用される。実施形態は、定義される用語を表す左NPと、説明を表す右NPとを参照して説明するが、常にこのケースである必要はない。本発明の実施形態は、左NPが説明を表し、右NPが定義される用語を表す反対の構成も同様に処理するように構成することができる。
最終スコア=Σ(正の特徴ウェイト)−Σ(負の特徴ウェイト)
この式の中で、負の特徴ウェイトの合計は、負の特徴ウェイトの絶対値の合計を表す。言い換えると、正の特徴ウェイトの合計から負の特徴ウェイトの合計を引くことは、最終スコアを高くするのではなく、低くする役割を果たす。最終的に計算されたスコアは、定義が、センテンスの特性として認められ、公開されるべきであるかどうかを判定するために、しきい値と比較される。しきい値を設定および/または変更することができることにより、再呼び出しのための必要条件および/または精度が別々の領域について異なる場合に、アプローチアルゴリズム全体の変更を必要とせずに、アプリケーションが、発行される定義の品質を制御することが可能になる。
スコア=(キューフレーズのパターン)のスコア+(左NP)のスコア+(右NP)のスコア
4番目のセンテンス例は、除外ルールのために除外される。
「St Dunstan is the patron saint of blacksmiths and goldsmiths.(聖ダンスタンは、鍛冶屋と金細工職人の守護聖人である。)」
左NP(用語):St Dunstan(聖ダンスタン)
右NP(説明):the patron saint(守護聖人)
パターン:「is the(である)」
(パターン)のスコア=0.6
(用語)のスコア=(固有名詞)のスコア=0.2
(説明)のスコア=(「説明は限定的ものである。:the」)のスコア=−0.1
除外ルールのチェック:説明の右のコンテキストのPOS:「前置詞」(「of」)−>承認
最終スコアは:0.6+0.2−0.1=0.7
「In Minoan civilization the large storage jars were known as pithoi.(ミノス文明では、大型の貯蔵壺はピトス(pithoi)として知られていた。)」
左NP(説明):the large storage jars(大型の貯蔵壺)
右NP(用語):pithoi(ピトス)
パターン:「known as(として知られていた)」
(パターン)のスコア=0.6
(用語)のスコア=(用語オフセット)のスコア=0.6(このパターンについては、用語がセンテンスの最後の近くにあるほど、スコアが大きくなり、この場合はセンテンスの最後なので、この特徴のために用語が得ることができる最大値である)
(説明)のスコア=(「説明は限定的ものである。:the」)+(「説明は修飾子を有する:large」)=−0.1−0.1=−0.2
最終スコアは:0.6+0.6−0.2=1.00
「A vulnerability is a specific way that a threat is exploitable based on an unmitigated attack path.(脆弱性は、純然たる攻撃経路に基づいて脅威が利用することができる特別な道である。)」
左NP(用語):A vulnerability(脆弱性)
右NP(説明):specific way(特別な道)
パターン:「is a(である)」
(パターン)のスコア=0.6
(用語)のスコア=0(適用される特徴スコアリングはない)
(説明)のスコア=(説明は修飾子を有する:「specific(特別な)」)のスコア=−0.1
除外ルールのチェック:説明の右コンテキストのPOS:「that」−>承認
最終スコアは:0.6+−0.1=0.5
「Lucerne is the only large city.(ルツェルンは唯一の大都会である)。」
左NP(用語):Lucerne(ルツェルン)
右NP(説明):the only large city(唯一の大都会)
パターン:「is the(である)」
「IS/WAS the」パターンに適用される除外ルール
説明が限定的なものであり(この場合は「the」を有する)、センテンスを終了させる。
Claims (13)
- 複数のドキュメントの中で定義を識別するために定義抽出システムによって実行される方法であって、
複数のテキスト単位を入力テキストとして受け取るステップと、
前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むか識別するステップと、
前記複数のテキスト単位のうち、キューフレーズを含まないと識別された全てのテキスト単位を、定義を含む可能性のある検討対象から除外するステップと、
キューフレーズを含むと識別されたテキスト単位それぞれについて、キューフレーズを含むテキスト単位が定義を含むかどうかを判断するために、前記キューフレーズの周辺で局所的な解析を実行するステップであって、前記キューフレーズの周辺で局所的な解析を実行するステップは、前記キューフレーズの第1の所定のウィンドウ内で前記テキスト単位の左フレーズを検索することと、前記キューフレーズの第2の所定のウィンドウ内で前記テキスト単位の右フレーズを検索することとを含む、該局所的な解析を実行するステップと、
スコアリングルールのセットに基づいて、正および負のスコアリングを前記左フレーズおよび前記右フレーズに適用して、フレーズスコアリングを得るステップと、
前記左フレーズのスコアリングと前記右フレーズのスコアリングを結合して、前記テキスト単位の全体のスコアを得るステップと、
前記キューフレーズを含む前記テキスト単位が定義を含んでいるかどうかを、前記テキスト単位の前記全体のスコアに応じて判断するステップと
を含むことを特徴とする方法。 - 前記左フレーズおよび前記右フレーズを検索することは、構文上のフレーズを検索することをさらに含むことを特徴とする請求項1に記載の方法。
- 前記キューフレーズの第1の所定のウィンドウ内で前記テキスト単位の左フレーズを検索すること、および前記キューフレーズの第2の所定のウィンドウ内で前記テキスト単位の右フレーズを検索することは、
前記キューフレーズの前記第1の所定のウィンドウの前、および該ウィンドウ内にある前記テキスト単位の中のフレーズを検索すること
を含むことを特徴とする請求項2に記載の方法。 - 前記左フレーズおよび前記右フレーズが、前記キューフレーズの前記第1の所定のウィンドウおよび前記第2の所定のウィンドウ内の前記テキスト単位の中で識別されたかどうかを判断するステップと、
前記左フレーズおよび前記右フレーズが、前記キューフレーズの前記第1の所定のウィンドウおよび前記第2の所定のウィンドウ内の前記テキスト単位の中で識別されなかった場合は、前記キューフレーズを含む前記テキスト単位は定義を含まないと判断するステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記左フレーズおよび前記右フレーズが、前記キューフレーズの前記第1の所定のウィンドウおよび前記第2の所定のウィンドウ内の前記テキスト単位の中で識別されたと判定される場合は、
定義を含まない前記テキスト単位を示す手法で除外ルールのセットのいずれかが前記左フレーズまたは前記右フレーズに適用されるかどうかを判断するステップと
定義を含まない前記テキスト単位を示す手法で前記除外ルールのセットのいずれかが前記左フレーズまたは前記右フレーズに適用されると判断された場合、前記キューフレーズを含む前記テキスト単位は、定義を含まないと判断するステップと
をさらに含むことを特徴とする請求項4に記載の方法。 - 定義を含まない前記テキスト単位を示す手法で前記除外ルールのセットのいずれもが、で、前記左フレーズまたは前記右フレーズに適用されないと判断された場合、
スコアリングルールのセットに基づいて、正および負のスコアリングを前記左フレーズおよび前記右フレーズに適用し、前記左フレーズおよび前記右フレーズについてフレーズのスコアリングを得るステップ
をさらに含むことを特徴とする請求項5に記載の方法。 - 前記複数のテキスト単位を入力テキストとして受け取るステップは、複数のセンテンスを前記入力テキストとして受け取ることをさらに含むことを特徴とする請求項1に記載の方法。
- 前記テキスト単位の中の語に、定義のコンテキストの中で最も一般的な品詞に基づいた品詞(POS)タグでタグ付けするステップをさらに含むことを特徴とする請求項1に記載の方法。
- 前記テキスト単位の中の語に、定義のコンテキストの中で最も一般的な品詞に基づいたPOSタグでタグ付けするステップは、
前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むかを識別するのに使用されたパスと同じ処理パスにおいて、前記テキスト単位の中の語にPOSタグでタグ付けすること
をさらに含むことを特徴とする請求項8に記載の方法。 - 複数のドキュメントの中で定義を識別するための定義抽出システムであって、
複数のテキスト単位を入力として受け取り、前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むか識別するように構成された字句スキャナコンポーネントであって、前記複数のテキスト単位のうちのキューフレーズを含まない全てのテキスト単位を、検討対象から除外するように構成された字句スキャナコンポーネントと、
前記字句スキャナコンポーネントによってキューフレーズを含むと判断されたテキスト単位に対して、前記テキスト単位が定義を包含するかどうかを判断するために、前記キューフレーズの周辺で局所的な解析を実行するように構成された計算コンポーネントと、
スコアリングルールのセットに基づいて、前記キューフレーズの所定のウィンドウ内で前記テキスト単位の左フレーズおよび右フレーズに、正および負のスコアリングを適用して、フレーズスコアリングを得るように構成されたスコアリングコンポーネントであって、前記テキスト単位の全体のスコアを得るために前記左フレーズと前記右フレーズの前記スコアリングを結合し、前記テキスト単位の全体のスコアに応じて、前記キューフレーズを含む前記テキスト単位が、定義を含むかどうか判断するスコアリングコンポーネントと
を備えることを特徴とする定義抽出システム。 - 前記字句スキャナコンポーネントは、各テキスト単位の語に、定義のコンテキストの中でそれらの最も一般的な品詞(POS)でタグ付けするようにさらに構成されたことを特徴とする請求項10に記載の定義抽出システム。
- 前記字句スキャナコンポーネントは、前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むか識別するのに使用されたパスと同じ処理パスにおいて、各テキスト単位の前記語に、それぞれの最も一般的なPOSでタグ付けするようにさらに構成されたことを特徴とする請求項11に記載の定義抽出システム。
- キューフレーズを含むと判断されたテキスト単位の前記キューフレーズの前記所定のウィンドウ内で左フレーズおよび右フレーズを識別するように構成されたフレーズ識別コンポーネントをさらに備え、
前記計算コンポーネントは、前記識別された左および右フレーズを使用して前記局所化的な解析を実行するようにさらに構成されたことを特徴とする請求項12に記載の定義抽出システム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US11/194,873 | 2005-08-01 | ||
| US11/194,873 US7376551B2 (en) | 2005-08-01 | 2005-08-01 | Definition extraction |
| PCT/US2006/030094 WO2007016628A2 (en) | 2005-08-01 | 2006-08-01 | Definition extraction |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2009503739A JP2009503739A (ja) | 2009-01-29 |
| JP2009503739A5 JP2009503739A5 (ja) | 2009-09-24 |
| JP5113750B2 true JP5113750B2 (ja) | 2013-01-09 |
Family
ID=37695583
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008525156A Expired - Fee Related JP5113750B2 (ja) | 2005-08-01 | 2006-08-01 | 定義の抽出 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US7376551B2 (ja) |
| EP (1) | EP1913464A4 (ja) |
| JP (1) | JP5113750B2 (ja) |
| KR (1) | KR101279707B1 (ja) |
| CN (1) | CN101233484B (ja) |
| WO (1) | WO2007016628A2 (ja) |
Families Citing this family (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7668791B2 (en) * | 2006-07-31 | 2010-02-23 | Microsoft Corporation | Distinguishing facts from opinions using a multi-stage approach |
| US20100076965A1 (en) * | 2006-11-20 | 2010-03-25 | Access Co., Ltd. | Information display device, information display program and information display system |
| US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
| TW200843642A (en) * | 2007-03-08 | 2008-11-16 | Du Pont | Liquid sulfonylurea herbicide formulations |
| US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
| US8433559B2 (en) * | 2009-03-24 | 2013-04-30 | Microsoft Corporation | Text analysis using phrase definitions and containers |
| US8321848B2 (en) * | 2009-04-16 | 2012-11-27 | The Mathworks, Inc. | Method and system for syntax error repair in programming languages |
| KR101072100B1 (ko) * | 2009-10-23 | 2011-10-10 | 포항공과대학교 산학협력단 | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 |
| US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
| US8666785B2 (en) * | 2010-07-28 | 2014-03-04 | Wairever Inc. | Method and system for semantically coding data providing authoritative terminology with semantic document map |
| CN102541955B (zh) * | 2010-12-30 | 2015-03-11 | 中国移动通信集团公司 | 一种联系人信息保存的方法、设备及系统 |
| US8589791B2 (en) | 2011-06-28 | 2013-11-19 | Microsoft Corporation | Automatically generating a glossary of terms for a given document or group of documents |
| CN104572628B (zh) * | 2015-02-05 | 2017-08-08 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于句法特征的学术定义自动抽取系统及方法 |
| CN107402913B (zh) * | 2016-05-20 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 先行词的确定方法和装置 |
| US10740365B2 (en) * | 2017-06-14 | 2020-08-11 | International Business Machines Corporation | Gap identification in corpora |
| CN107423363B (zh) * | 2017-06-22 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的话术生成方法、装置、设备及存储介质 |
| CN111742322A (zh) * | 2017-12-29 | 2020-10-02 | 罗伯特·博世有限公司 | 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法 |
| US10642939B2 (en) | 2018-02-24 | 2020-05-05 | Twenty Lane Media, LLC | Systems and methods for generating jokes |
| US11080485B2 (en) | 2018-02-24 | 2021-08-03 | Twenty Lane Media, LLC | Systems and methods for generating and recognizing jokes |
| US10878817B2 (en) | 2018-02-24 | 2020-12-29 | Twenty Lane Media, LLC | Systems and methods for generating comedy |
| US12135938B2 (en) * | 2021-05-11 | 2024-11-05 | Corascloud, Inc. | Extended open information extraction by identifying nested relationships |
| CN116127971B (zh) * | 2022-11-21 | 2025-07-22 | 北京智谱华章科技股份有限公司 | 一种基于主客观词表的英语推文命名实体提取方法及设备 |
| CN119484138B (zh) * | 2024-11-26 | 2025-11-28 | 中国农业银行股份有限公司 | 基于Ranger的数据湖运维权限控制系统及方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
| US5841895A (en) * | 1996-10-25 | 1998-11-24 | Pricewaterhousecoopers, Llp | Method for learning local syntactic relationships for use in example-based information-extraction-pattern learning |
| JP2000259657A (ja) * | 1999-03-10 | 2000-09-22 | Fujitsu Ltd | 用語定義の検索/収集装置 |
| US7254530B2 (en) * | 2001-09-26 | 2007-08-07 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
-
2005
- 2005-08-01 US US11/194,873 patent/US7376551B2/en not_active Expired - Fee Related
-
2006
- 2006-08-01 KR KR1020087002614A patent/KR101279707B1/ko not_active Expired - Fee Related
- 2006-08-01 WO PCT/US2006/030094 patent/WO2007016628A2/en not_active Ceased
- 2006-08-01 JP JP2008525156A patent/JP5113750B2/ja not_active Expired - Fee Related
- 2006-08-01 EP EP06789195.2A patent/EP1913464A4/en not_active Ceased
- 2006-08-01 CN CN200680027965.3A patent/CN101233484B/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| EP1913464A4 (en) | 2013-06-26 |
| KR20080033325A (ko) | 2008-04-16 |
| WO2007016628A3 (en) | 2007-12-13 |
| WO2007016628A2 (en) | 2007-02-08 |
| KR101279707B1 (ko) | 2013-06-27 |
| CN101233484B (zh) | 2014-06-11 |
| US7376551B2 (en) | 2008-05-20 |
| JP2009503739A (ja) | 2009-01-29 |
| US20070027863A1 (en) | 2007-02-01 |
| EP1913464A2 (en) | 2008-04-23 |
| CN101233484A (zh) | 2008-07-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5113750B2 (ja) | 定義の抽出 | |
| JP4714400B2 (ja) | スケーラブル機械翻訳システム | |
| US8447588B2 (en) | Region-matching transducers for natural language processing | |
| JP5538820B2 (ja) | 2カ国語コーパスからの変換マッピングの自動抽出プログラム | |
| US8266169B2 (en) | Complex queries for corpus indexing and search | |
| Lita et al. | Truecasing | |
| Wacholder et al. | Disambiguation of proper names in text | |
| US7783476B2 (en) | Word extraction method and system for use in word-breaking using statistical information | |
| US8510097B2 (en) | Region-matching transducers for text-characterization | |
| US7092871B2 (en) | Tokenizer for a natural language processing system | |
| JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
| US9239826B2 (en) | Method and system for generating new entries in natural language dictionary | |
| US20060095250A1 (en) | Parser for natural language processing | |
| JP2008539476A (ja) | スペル提示の生成方法およびシステム | |
| WO2003056450A1 (en) | Syntax analysis method and apparatus | |
| WO1997004405A1 (en) | Method and apparatus for automated search and retrieval processing | |
| US8204736B2 (en) | Access to multilingual textual resources | |
| US7328404B2 (en) | Method for predicting the readings of japanese ideographs | |
| EP1503295A1 (en) | Text generation method and text generation device | |
| US20100094615A1 (en) | Document translation apparatus and method | |
| US20050086214A1 (en) | Computer system and method for multilingual associative searching | |
| Appelt et al. | Named entity extraction from speech: Approach and results using the TextPro system | |
| Nguyen et al. | Named entity disambiguation: A hybrid statistical and rule-based incremental approach | |
| Nair et al. | Sanskrit stemmer design: A literature perspective | |
| US20050102278A1 (en) | Expanded search keywords |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090803 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090803 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120524 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120601 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120903 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120928 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121012 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5113750 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |