JP5113750B2

JP5113750B2 - 定義の抽出

Info

Publication number: JP5113750B2
Application number: JP2008525156A
Authority: JP
Inventors: アール．パウエルケビン; ダブリュ．ハンフリーズケビン; アッザームサリハ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-08-01
Filing date: 2006-08-01
Publication date: 2013-01-09
Anticipated expiration: 2026-08-01
Also published as: EP1913464A4; KR20080033325A; WO2007016628A3; WO2007016628A2; KR101279707B1; CN101233484B; US7376551B2; JP2009503739A; US20070027863A1; EP1913464A2; CN101233484A

Description

本発明は、定義の抽出に関する。

以下の考察は、単に一般的な背景情報のために提供するものであり、請求する対象の範囲を判定する際の助けとして使用されることを意図するものではない。

テキストのソースから定義を発見することは、インターネット検索エンジン、デスクトップ検索アプリケーション、および関連検索アプリケーションにおいて、ますます重要な機能となっている。関連検索アプリケーションの例は、より従来的な検索エンジンで典型的に示されるようにウェブページまたはドキュメントへやや包括的に関連付けられたリンクを記載することとは対照的に、特定の質問に対して特定の応答をユーザに与えるように設計されたタイプのＱＡ（question answering）アプリケーションである。これらの様々な検索アプリケーションを使用して、語、用語またはフレーズについての定義を発見すること、またはある人についての情報（これもまた本明細書では定義と呼ばれる）を発見することが、しばしば求められる。

ウェブ、ｅメールおよび／またはパーソナルデスクトップのデータにおいて発見されるテキスト情報の量が増加するとともに、新しい用語は、その用語について辞書および百科事典が更新される前に、毎日作成されている。例えば、「ブログ」という語は、かつては辞書になかったが、その場合であっても、この語に関する情報の内部テキストソースを発見することができた。例えば、「ブログ」という語に関して、情報の内部テキストソースは、例１で示されるような記述文を含むかもしれない。

（例１）
「A blog is system for publishing images, text and video on the web, a diary enrichable with any sort of multimedia content that one wishes to share with other surfers.（ブログとは、ウェブ上でイメージ、テキストおよび映像を公開するためのシステムであり、他のサーファーと共有したいと思う任意の種類のマルチメディアコンテンツで内容を充実させることができる日記のことである。）」
さらに、いくつかの定義を、ソーステキスト内でのみ発見することができる。言い換えると、いくつかの語は、テキストデータ内でのみ発見することができるという情報の性質のために、辞書に記載されることはない。一方、テキストデータの中で正確な定義を発見することは、困難な場合があり、コストの高い処理を必要とする場合がある。定義を正確に表すテキストデータを識別することは、数多くの問題を提示する。例えば、以下の例２〜４で示されているセンテンスは、「is ａ」のような定義のパターンに関して、単純な文字列の一致が、センテンスが定義を含むかどうかを識別するために十分ではないということを示す。

（例２）
「Microsoft Corp. is a great software company in Redmond.（マイクロソフト社とは、レドモンドにある大手のソフトウェア企業である）。」

（例３）
「Microsoft Corp. is a software company in Redmond.（マイクロソフト社とは、レドモンドにあるソフトウェア企業である）。」

（例４）
「Today is a valid workday.（今日は有効な営業日である）。」
これらのセンテンスの３つすべてが「is a」という語またはパターンを含むが、例３だけが定義を表す。例２のセンテンスは、定義とは対照的な意見を表す。例４のセンテンスもまた「is a」という定義のようなパターンを含むが、これは定義ではない。

膨大な量のデータが毎日新たに作り出され、ユーザの情報ニーズに迅速かつ正確に答えることが求められる状況において、適切な定義または応答を発見するために、検索エンジン、ドキュメントを素早くクロールして処理するコンポーネント（例えばＱＡシステム）などで使用するための効率的な（高速な）索引付けパイプライン（indexing pipelines）を供給することが重要である。

この要約は、以下の詳細な説明においてさらに説明する概念の選択を簡略化した形式で紹介するために提供する。この要約は、請求する対象の主要な特徴または本質的な特徴を識別することを意図するものではなく、請求する対象の範囲を判定する際の助けとして使用されることを意図するものでもない。

定義抽出のシステムおよび方法は、例えばウェブページドキュメント、デスクトップドキュメントなどのドキュメントの中で定義を識別する能力を提供する。この方法およびシステムは、シャロー言語分析（shallow linguistic analysis）を使用することによって、定義をより迅速に、より正確に、または、より迅速かつ正確に識別するために、最適化することができる。例えば、いくつかの実施形態において、キューフレーズ（cue phrase）を包含するテキスト単位（センテンスなど）が識別される。これらのテキスト単位は、テキスト単位が定義を含む可能性があるかどうかを判定するために、キューフレーズの周辺で局所化された解析を受ける。

開示される実施形態は、テキストデータを分析し、定義を含むセンテンス、パラグラフまたは他のテキスト単位を識別する方法、装置およびシステムを含む。テキストデータは、例えば、インターネットなどのグローバルコンピュータネットワーク上で入手可能なウェブページまたは他のドキュメントの形式とすることができる。テキストデータは、ＬＡＮ（ローカルエリアネットワーク）またはデスクトップ上のドキュメントの集合とすることができる。さらに、定義が抽出されるテキストデータは、単一のドキュメントとすることができるか、またはドキュメントの一部とすることもできる。

この方法、装置およびシステムを、パーソナルコンピュータ、サーバコンピュータなどを含む様々なコンピューティング環境において具現化することができる。実施形態をさらに詳細に説明する前に、実施形態を実装することができるコンピューティング環境の例を論じることが有用であると思われる。図１は、そのようなコンピューティング環境の１つを図示する。

図１は、図示された実施形態の１つまたは複数の態様を実装することができる適切なコンピューティングシステム環境１００の例を図示する。コンピューティングシステム環境１００は、適切なコンピューティング環境の１つの例にすぎず、図示された実施形態の使用の範囲または機能の範囲に関していかなる制限を提示することを意図するものではない。また、コンピューティング環境１００は、例示的なオペレーティング環境１００内で図示されたコンポーネントの任意の１つまたはそれらの組合せに関して、任意の依存性または必要性を有するものとして解釈されるべきでもない。

図示された実施形態は、多数の他の汎用または専用のコンピューティングシステム環境または構成で操作可能である。図示された実施形態での使用に適するものとすることができる、よく知られたコンピューティングシステム、環境および／または構成の例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話通信システム、上記のシステムまたはデバイスの任意のものを含む分散型コンピューティング環境などを含むが、これらに限定されない。

図示された実施形態を、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。図示された実施形態を、通信ネットワークを通じてリンクされるリモート処理デバイスによってタスクが実行される分散型コンピューティング環境で実施することもできる。分散型コンピューティング環境において、プログラムモジュールは、メモリストレージデバイスを含むローカルおよびリモートの両方のコンピュータストレージ媒体に配置することができる。プログラムおよびモジュールによって実行されるタスクは、以下で図面とともに説明する。当業者であれば、本明細書で示される説明および図面を、任意の形式のコンピュータ読取可能媒体に書き込むことができるプロセッサ実行可能命令として実装することができる。

図１を参照すると、例示的なシステムは、コンピュータ１１０の形式の汎用コンピューティングデバイスを含む。コンピュータ１１０のコンポーネントは、処理ユニット１２０、システムメモリ１３０、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニットに結合するシステムバス１２１を含むが、これらに限定されるものではない。システムバス１２１は、メモリバスまたはメモリコントローラを含む任意のいくつかのタイプのバス構造、周辺バス、および様々なバスアーキテクチャの任意のものを使用するローカルバスとすることができる。限定ではなく例として、そのようなアーキテクチャは、ＩＳＡバス、ＭＣＡバス、ＥＩＳＡバス、ＶＥＳＡローカルバス、およびメザニンバスとしても知られているＰＣＩバスを含む。

コンピュータ１１０は、典型的に様々なコンピュータ読取可能媒体を含む。コンピュータ読取可能媒体は、コンピュータ１１０によってアクセスすることができる、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体の両方を含む任意の使用可能な媒体とすることができる。限定ではなく例として、コンピュータ読取可能媒体は、コンピュータストレージ媒体および通信媒体を備えることができる。コンピュータストレージ媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するための任意の方法または技術で実装される揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体の両方を含む。コンピュータストレージ媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、ＤＶＤまたは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、または所望の情報を格納するのに使用することができコンピュータ１１０によってアクセスすることができる任意の他の媒体を含むが、これらに限定されない。通信媒体は、典型的にコンピュータ読取可能命令、データ構造、プログラムモジュール、または、搬送波または他の伝送メカニズムなどの変調データ信号内の他のデータを具体化し、任意の情報伝達媒体を含む。「変調データ信号」という用語は、１つまたは複数の特性セットを有する信号、または信号内の情報をコード化するような方法で変更された信号を意味する。限定ではなく例として、通信媒体は有線ネットワークまたはダイレクト有線接続などの有線媒体、および、アコースティック、ＲＦ、赤外線および他の無線媒体などの無線媒体を含む。コンピュータ読取可能媒体の範囲には、上記の任意の組合せも含まれるものとする。

システムメモリ１３０は、読み出し専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性および／または不揮発性メモリの形式のコンピュータストレージ媒体を含む。起動の間などに、コンピュータ１１０内の要素間での情報の伝送を助ける基本ルーチンを包含する基本入力／出力システム１３３（ＢＩＯＳ）は、典型的にＲＯＭ１３１の中に格納される。ＲＡＭ１３２は典型的に、処理ユニット１２０によってすぐにアクセス可能な、および／または現在操作されているデータおよび／またはプログラムモジュールを包含する。限定ではなく例として、図１はオペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を図示する。

コンピュータ１１０はまた、他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータストレージ媒体も含むことができる。単に例として、図１は、非リムーバブルで不揮発性の磁気媒体から読み取り書き込むハードディスクドライブ１４１、リムーバブルで不揮発性の磁気ディスク１５２から読み取り書き込む磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭまたは他の光媒体などのリムーバブルで不揮発性の光ディスク１５６から読み取り書き込む光ディスクドライブ１５５を図示する。例示的なオペレーティング環境の中で使用することができる他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータストレージ媒体は、磁気テープカセット、フラッシュメモリカード、ＤＶＤ、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどを含むが、これらに限定されるものではない。ハードディスクドライブ１４１は典型的に、インターフェース１４０などの非リムーバブルのメモリインターフェースを通じてシステムバス１２１に接続されており、磁気ディスクドライブ１５１および光ディスクドライブ１５５は典型的に、インターフェース１５０などのリムーバブルのメモリインターフェースによってシステムバス１２１に接続されている。

図１に図示し、上述したドライブおよびそれらと関連したコンピュータストレージ媒体は、コンピュータ１１０に対し、コンピュータ読取可能命令、データ構造、プログラムモジュール、および他のデータのストレージを提供する。図１では、例えばハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６およびプログラムデータ１４７を格納するものとして図示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６およびプログラムデータ１３７と同じものとすることも、異なるものとすることもできることに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７には、少なくともそれらが異なるコピーであることを示すために、ここでは異なる番号を与えている。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボールまたはタッチパッドなどのポインティングデバイス１６１などの入力デバイスを通じて、コンピュータ１１０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）は、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどを含むことができる。これらおよび他の入力デバイスを、システムバスに結合されたユーザ入力インターフェース１６０を通じて処理ユニット１２０に接続することが多いが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースおよびバス構造によって接続することができる。モニタ１９１または他の種類のディスプレイデバイスもまた、ビデオインターフェース１９０などのインターフェースを介して、システム１２１に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース１９５を通じて接続することもできるスピーカ１９７およびプリンタ１９６などの他の周辺出力デバイスも含むことができる。

コンピュータ１１０は、リモートコンピュータ１８０などの１つまたは複数のリモートコンピュータへの論理接続を使用するネットワーク化された環境の中で操作される。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイスまたは他の一般的なネットワークノードとすることができ、典型的にはコンピュータ１１０に関して上述した要素の多く、またはすべてを含む。図１で描かれている論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むこともできる。そのようなネットワーク環境は、オフィス、企業内のコンピュータネットワーク、イントラネット、およびインターネットでは一般的なものである。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、ネットワークインターフェースまたはアダプタ１７０を通じて、ＬＡＮ１７１に接続される。ＷＡＮのネットワーキング環境で使用される場合、コンピュータ１１０は典型的に、インターネットなどのＷＡＮ１７３上で通信を確立するためのモデム１７２または他の手段を含む。内蔵型または外付け型とすることができるモデム１７２を、ユーザ入力インターフェース１６０または他の適切なメカニズムを介して、システムバス１２１に接続することもできる。ネットワーク化された環境において、コンピュータ１１０に関して描かれているプログラムモジュールまたはその一部を、リモートメモリストレージデバイスに格納することができる。限定ではなく例として、図１は、リモートコンピュータ１８０に存在するリモートアプリケーションプログラム１８５を図示する。示されているネットワーク接続は例示であり、コンピュータ間で通信リンクを確立する他の手段を使用することができることを認識されたい。

（定義抽出システムおよび方法）
ここで図２を参照すると、図１に示されるようなコンピューティング環境で実装することができる定義抽出システム２００のブロック図が示されている。定義抽出システムは、テキストデータを分析し、定義を包含するセンテンスまたはパラグラフを識別する。開示される方法に従って動作するシステム２００は、例えばドキュメント２０６から入力テキスト２０５を受け取る。ドキュメント２０６は、１つまたは複数の完全なドキュメント、ドキュメントの一部、ウェブページ、または他のテキストのソースを表す。ドキュメント２０６は、例えば、ＬＡＮ上で、またはインターネットなどのグローバルネットワーク上で、デスクトップ環境で使用可能なテキストのソースとすることができる。他のテキストのソースを使用することもできる。

例示的な実施形態において、システム２００は、２つの別々の段階で定義の抽出を実行する。第１段階は、いくつかの実施形態の例で以下に説明するように、スキャナ／ジェネレータ２１５を使用し、キューフレーズのパターンを包含するセンテンスまたはパラグラフを識別する。キューフレーズを包含するセンテンスまたはパラグラフは、図２の２１６に示されるように、システム２００の第２段階に提供される。本明細書で定義の計算およびスコアリング段階と呼ぶこの第２段階２２０は、定義の候補をスコアし、定義を実際に表すものを判定する。これらの定義、またはセンテンスまたはパラグラフを包含する定義は、図２の２１０に示されるように、提供される。いくつかの実施形態において、計算およびスコアリング段階２２０は、キューフレーズを包含するテキスト単位に対して局所的に解析を実行するように構成された計算コンポーネント２２０１−１と、これらのテキスト単位の中のフレーズの特徴をスコアリングするように構成されたスコアリングコンポーネント２２０−２との２つの別々の段階またはコンポーネントで実装される。他の実施形態においては、これらの２つの機能は、単一のコンポーネントで実装することができる。

以下でより詳細に説明するように、計算およびスコアリング段階２２０は、識別したキューフレーズに対して局所的に、例えば名詞句（ＮＰ）識別などのフレーズ識別を使用して、いずれの定義候補２１６が実際に定義を含むか、または定義を表すのかを判定する。フレーズ識別機能を、文法２２６を利用するフレーズ識別コンポーネントまたは段階２２５を使用して実装することができる。開示される実施形態を説明するために使用する実施形態の一例において、文法２２６はＮＰ文法であるが、他の文法（例えば、動詞句文法、前置詞句文法など）を、他の実施形態で使用することができる。フレーズ識別段階またはコンポーネント２２５を、必要に応じてシステム２００の一部であるとみなすことができ、したがって任意的に、点線２３０のように示す。いくつかの実施形態では、必要に応じて、フレーズ識別を、計算およびスコアリング段階２２０内で実装することもできる。フレーズ識別段階２２５を、計算およびスコアリング段階２２０によって呼び出されるものとして図示しているが、フレーズ識別段階２２５を、機能的には、開示される実施形態の範囲内で段階２１５と２２０との間に配置することができる。図２は、これらの実施形態も表すものとして解釈されるべきである。いくつかの実施形態において、フレーズ識別段階またはコンポーネント２２５は、図２の２２７で表されるように、左フレーズ識別を実行するが、以下で説明するように左フレーズ識別が成功する場合のみ（図２の２２８で表される）右フレーズ識別を実行する。したがって図２では、右フレーズ識別２２８を、その任意的または条件的な性質を表すために、点線で示す。

フレーズ識別は、様々な実施形態において、異なる言語構成要素に基づくものとすることができることを理解されたい。例えば、ＮＰは、実施形態を説明するために使用した主な例であるが、動詞句（ＶＰ）、前置詞句（ＰＰ）、または、これらまたは他の構文上のフレーズ（syntactic phrase）型の組合せを使用することができる。したがって、本開示の例におけるＮＰについての考察は、これらの他の実施形態を同様にサポートするものとみなされるべきである。この例のために、フレーズ識別段階２２５を、ＮＰ識別段階とみなすことができ、文法２２６を、ＮＰ文法であるとみなすことができ、左および右のフレーズ識別２２７および２２８を、この例の実施形態では左および右のＮＰ識別であるとみなすことができる。以下の説明では、このような専門用語が使用される。しかしながら、この手法でこの専門用語を使用することは、本発明をＮＰの実施形態に限定するわけではない。

（キューフレーズの識別）
定義抽出コンポーネントまたはシステム２００は、字句スキャナ２１５を使用し、パターンマッチングを実行して、連結動詞（例えば、「is a（である）」、「is the（である）」）および「is defined as（と定義される）」などの他のキューフレーズなどを認識するが、連結動詞および他のキューフレーズなどは、クローズドクラスを形成するので、次の定義抽出コードは、いつ優良な候補センテンスが分析に使用可能になるのかを知ることになる。字句スキャナは、テキスト内の字句パターンを認識するプログラムである。任意の様々な公知のスキャナジェネレータを使用して、字句パターンのセットから字句スキャナ２１５を作り出すことができる。１つの例示的な実施形態において、字句スキャナ２１５は、Ｆｌｅｘ（fast lexical analyzer）スキャナジェネレータによって生成される。Ｆｌｅｘは、バークレーのカリフォルニア大学およびその寄与者によって開発されたソフトウェアである。Ｆｌｅｘソフトウェアは、当技術分野で公知であり、米エネルギー省とカリフォルニア大学との間の契約第ＤＥ−ＡＣ０３−７６ＳＦ０００９８号に従って、米国政府がＦｌｅｘソフトウェアに関する権利を有する。Ｆｌｅｘの代わりに、（ＡＴ＆Ｔベル研究所によって開発された）Ｌｅｘなどの代替のスキャナジェネレータを使用することができる。

ここで図３を参照すると、表１は、例示の実施形態において、字句スキャナ２１５が入力テキスト２０５内で一致するように構成されたキューフレーズパターンの例を列挙する。表１に示されるキューフレーズの例を、字句スキャナ２１５、システム２００または対応する方法の開示される実施形態に限定することなく、例示の非網羅的なリストとして提供する。表１に示される例示のリストにおいて、キューフレーズパターンは、説明の目的で、（Ａ）入力テキストの文字列の主要用語（定義が与えられている語）の後に続く動詞パターン、および（Ｂ）主要用語の前に生じる動詞パターン、の２つのグループに体系づけられる。字句スキャナ２１５は、入力テキスト２０５の特定のパラグラフ、センテンス、または文字列の中でキューフレーズの一致を発見すると、計算およびスコアリング段階２２０によるさらなる処理／分析のために定義候補などを識別する。字句スキャナ２１５がキューフレーズの一致を発見しないと、特定のパラグラフ、センテンス、またはテキスト文字列は、定義候補とみなされない。

コストのかかる（時間および／または資源を消費する）処理をできるだけ定義抽出プロセスに留めるように、2段階のアプローチが、システム２００で、段階、モジュール、またはコンポーネント２１５および２２０を使用して実装された。この手段では、全体の中で分析する必要のあるセンテンスの総数が、最小化されるか、または大幅に減少されるが、一方で純粋なＮＰアプローチは、すべてのＮＰが識別され、その後フィルタリングされダウンストリームに廃棄されることを必要とする。言い換えると、システム２００および対応する開示される方法は、有望なキューフレーズの「近隣」でのみ定義を探す（すなわち、局所化されたチャンク／シャロー解析）。この局所化されたチャンク／シャロー解析は、識別されたキューフレーズの所定のウィンドウ（すなわち、語の数または文字の数）の中で、ＮＰを探し、分析する。

例示の実施形態において、パフォーマンスを向上または最適化するために、字句スキャナ２１５は、例えば字句スキャナ２１５がキューフレーズを探すか、または識別するのと同じパスにおいて、入力テキスト２０５の語に、最も一般的な品詞（ＰＯＳ）のタグを付けるようにさらに構成される。これを、字句スキャナ２１５でのＰＯＳタグ付け２１７として、図２に図示する。この発想は、ＮＰ解析フェーズの間にこのような情報を提供するコストのかかる字句探索フェーズをバイパスし、代わりに事前に割り当てられたタグ（定義のコンテキストの中で最も一般的なＰＯＳタグ）を使用するものである。他の実施形態では、ＰＯＳタグ付け２０７を、字句スキャナ２１５から独立したコンポーネントによって実装することができるが、いくつかの実施形態では、ＰＯＳタグ付け２０７は、最適なパフォーマンスのために、キューフレーズの識別に関して使用される入力テキスト２０５上の同一パスの間にＰＯＳタグ付けを可能にするために、字句スキャナ２１５に含まれることに留意されたい。

このフェーズの間に、複数の語に１つだけＰＯＳを割り当てることは、ＰＯＳタグ付けモジュールまたは機能２１７が、２つ以上の可能性のあるＰＯＳタグを有する語を一義的に選択することを伴う。実際に、パフォーマンスの理由上いかなる曖昧な解決を回避するために、１つの固有のタグは、機能２１７によって、定義上の目的のためにＮＰとなるその能力に基づいたセンテンスのコンテキストの外側の語に割り当てられ、全体のプロセスは、正確さとパフォーマンスとの間のトレードオフとなる。ＰＯＳタグ付け機能２１７によって実装される一義化のルールは、次の段階でＮＰ文法２２６の正確さについて直接的な影響力を有する。

例示の実施形態において、定義の抽出は、動詞フレーズ（ＶＰ）ではなく主にＮＰの探索を伴うこととなるので、いくつかの一義化のルールは、例えば、「動詞」タグよりも「名詞」タグに都合の良いタグで構成する。つまり、そのＰＯＳを名詞または動詞のいずれかとすることができる任意の語は、名詞としてタグ付けされ、したがって動詞は、ＮＰを識別するときには無視されることになる。また、いくつかの実施形態において、知られていない語、およびあらかじめタグ付けされていない語のすべては、名詞としてデフォルト設定される。別のルールは、動詞よりも形容詞を選び、例えば「used cars（中古車）」では「used（中古の）」を常に形容詞としてタグ付けすることができ、一方で「used（中古の）」が動詞の位置に現れると、「used（中古の）」はＮＰ構成要素のみから成るＮＰ文法２２６によって無視されることになる。

（名詞句の識別および定義のスコアリング）
候補センテンスが、段階２１５によって分析され、識別されると、ＮＰ識別コンポーネント２２５は、そのＮＰ構成要素を識別するために、計算およびスコアリング段階２２０によって使用される。以下でより詳細に説明するように、識別されたＮＰ構成要素を用いて、計算およびスコアリング段階２２０は、候補センテンスを分析し、適切であれば候補センテンスを記録する。任意のスコアリングされた候補の定義センテンスに関して、スコアがしきい値を超えると、システム２００は、定義を取り出すために、適切な情報を用いてそのセンテンスをマークする。言い換えると、センテンスは、そのセンテンスが定義を含んでいるという事実と、どの用語が定義されることとなるかということの両方を示す情報を用いてマークされる。例えば、センテンスをマークすることは、適切なオフセット（すなわち、センテンスまたは他のテキスト内の定義用語の位置）を、センテンスまたはテキストの特性に追加することを含むことができる。これらのセンテンスまたはテキストの特性は、説明の目的で、いくつかの実施形態では図２に示される定義出力２１０に含まれる。

速度のパフォーマンスの理由から、候補の定義センテンスの中でのＮＰの識別は、キューフレーズに対して局所的（所定のウィンドウ内）なものである、すなわち、センテンス全体に対して文法２２６の文法ルールを実行することとは対照的に、キューフレーズパターンの周辺のＮＰだけが解析される。候補センテンスの中でＮＰの識別を制御する所定のウィンドウとは、いくつかの開示される実施形態において、例えば３語、５語などの語の数である。他の実施形態において、所定のウィンドウを、語の数以外の他の基準によって確立することができる。例えば、所定のウィンドウは、文字の数とすることができる。

候補センテンスが分析され、構成要素ＮＰが識別されると、システム２００の段階２２０が、定義をスコアリングすることとなる。そのように識別されると、定義は、処理の単位に応じて、センテンスまたはパラグラフの最後までのすべてである。しかしながら、スコアリングは、キューフレーズの周辺のコンテキスト（すなわちＮＰ）を使用して、スコアを作り出し、定義を有効と認めるかまたは却下する。スコアリングの前に、候補センテンスを、例えば、説明の目的で図４−１に示される表２Ａで提供されるルールのセットなどの除外ルールのセットを使用して分析することができる。識別された候補の定義センテンスを分析し、スコアリングする方法を、図５に示されるフローチャートで提供する。図４−１の表２Ａの中で示される除外ルールの例は、図４−２の表２Ｂで示されるスコアリングルールと同様に、図５に示される方法の考察の内容でさらに詳細に説明する。パフォーマンスの理由から、除外ルールを、可能な場合（ルールパラメータに応じて）、プロセスの中で早期に適用することができ、それにより、これらのセンテンスに対する不必要な処理を回避するために、より早期にセンテンスを除外することができる。例えば、いくつかのセンテンスが、例えば「最初の代名詞」などのＮＰ構成要素の入力を必要としない明らかな除外パターンを包含する場合、ＮＰ構成要素が識別される前に、それらのセンテンスを却下することができる。前述したように、図５はＮＰの用語における概念を図示するが、図５によって表される他の代替実施形態においても、ＮＰを、例えばＶＰ、ＰＰ、またはフレーズ型の組合せなどの他のフレーズ型と置き換えることができる。

一実施形態において、アルゴリズムは、キューフレーズが識別される所与のセンテンスに関して、以下のように進む。ステップ４０５で、キューフレーズに先行する左ＮＰは、ＮＰ文法２２６を局所的にキューフレーズに適用することによって検索される。このステップでＮＰ文法を局所的にキューフレーズに適用することは、左側の所定のウィンドウ内またはキューフレーズに先行する側の語が、いずれが左ＮＰであるかを判定するためにＮＰ文法２２６を用いて分析されることを意味する。任意のそのような左ＮＰは、定義のセンテンスの中で、「is a」のようなキューフレーズで主要用語（定義される用語）を表す傾向がある。判定ステップ４０７で、キューフレーズには局所的に左ＮＰが発見されないと判定されると、アルゴリズムまたは方法は、ステップ４０９で示されるように終了し、定義は候補センテンスに存在する可能性がないと判定される。判定ステップ４０７で、キューフレーズには局所的に左ＮＰが発見されると判定されると、ステップ４１１で、任意の除外ルールのセットを左ＮＰに適用するかどうか、または候補センテンス全体に適用するかどうかについて判定される。上述したように、いくつかの実施形態においては、パラメータとしてＮＰ構成要素を必要としない任意の除外ルールは、可能な場合は早期に適用される。

図４−１に示される表２Ａは、候補センテンスを分析にのみ使用することができる除外ルールのセットの一例を表す。いくつかの除外ルールは、左ＮＰに適用する。他の除外ルールは、右ＮＰに適用する。さらに別のものは、候補センテンス全体に適用する。表２Ａに図示される除外ルールは、例として提供するものであり、網羅的な除外ルールのセットを表すことを意図するものではないことを理解されたい。また、すべての実施形態において、必ずしも図示したすべての除外ルールを使用する必要はない。結果をしかるべく調整するために、除外ルールを、特定の実装について確立することができる。

図示した第１の除外ルールは、（パターンによって、左ＮＰまたは右ＮＰのいずれともすることができる）説明部分に適用する。このルールは、説明が「意見／偏倚」修飾子（opinion/biased modifier）の語を有するので、たいていの場合は定義用語となる見込みがないという状況に適用される。これらを、主語と呼ぶこともできる。網羅的なものではないが、いくつかの意見／偏倚修飾子のリストの例は以下のとおりである。

humble（謙虚な）
ideal（理想的な）
idyllic（牧歌的な）
ignoble（下品な）
ignorant（無知な）
immature（未熟な）
imperfect（不完全な）
important（重要な）
improbable（ありそうもない）
incorrect（不正確な）
incredible（信じがたい）
indispensable（不可欠な）
inappropriate（不適切な）
insignificant（重要でない）
insincere（不誠実な）
intelligent（知的な）
irresponsible（無責任な）
mature（成熟した）
marvelous（素晴らしい）
nasty（ひどい）
nice（良い）
offensive（不快な）
perfect（完全な）

第２の型の除外ルールは、センテンスがある特徴を有する場合に、候補センテンスを除外する役割を果たすセンテンスフィルタを含む。これは、上記で紹介したように、ＮＰ構成要素を使用しない除外ルールの例である。そのような特徴の１つは、センテンスの最初の語が、例えば定義的なセンテンスの文字ではない代名詞である場合である。別のそのような特徴は、例えば最後にあるクエスチョンマーク、またはセンテンスの完結を示すものではない句読点などの、定義を示すものではない句読点を有する候補センテンスである。

３番目に図示した除外ルールの型は、主要用語が限定的なものであるかどうかに関する。ＮＰが限定的なものであれば、例えば冠詞「the」を有し、したがって前に使用したコンテキストを紹介するものであり、このセンテンスの中で定義される用語とはならない。定義された用語は、通常は一般的なコンテキストの中で提示される。この一般ルールに対する例外は、主要用語が固有名詞の場合に、この基準で除外されることである。

４番目に図示した除外ルールの型は、例えば「is a」のようなキューフレーズについて、そのキューフレーズの後に続く右ＮＰである説明部分の周囲のコンテキストに関する。この説明は、主要用語についての定義または説明の開始を表す。「is a」のようなキューフレーズの説明の右のコンテキストは、例えばＰＯＳのセットを使用して判定され、定義を表す（または代替として表さない）説明を示す可能性のある所定のＰＯＳを有する語のクラスを識別することができる。ＰＯＳフィルタの例については、説明の後にＰＯＳが例えば「this」などの指示代名詞である語が続く場合、定義を導く可能性があまりない「this」の「参照」コンテキストが与えられるので、候補センテンスは除外される。一方、説明の後に続く語のＰＯＳが「that」などの関係代名詞であった場合、「that」は、定義の記述（すなわち説明）をより拡大する可能性があるので、そのセンテンスが定義であるという事実を強化することになる。

５番目に図示した除外ルールの型は、ストップワードを使用し、ストップワードが、特定の用語または説明の中で発見されると、センテンスが定義を含んでいないということを大いに示し、候補センテンスを除外する。ストップワードは、必ずしも用語に適用されるのではなく、説明部分にしばしば適用される。網羅的なものではないが、いくつかのストップワードのリストの例は、以下のとおりである。

aspect（態様）
beauty（美）
bliss（至福）
bore（退屈なもの）
boredom（退屈）
contentment（満足）
counterpart（対応物）
challenge（挑戦）
chance（機会）
danger（危険）
dishonor（不名誉）
disgrace（恥辱）
disappointment（失望）
displease（不快にする）
jerk（愚か者）
joke（冗談）
relief（安心）
revelation（発見）
success（成功）
threat（脅威）
waste（無駄）
wonder（驚き）

別の除外ルールは、候補センテンスを除外する代名詞を含む主要用語を含むことができる。別の除外ルールは、「called（と呼ばれる）」パターンでテキストの最後に現れない主要用語を含むことができる。「called pattern（と呼ばれるパターン）」を伴う優良な定義の例は、以下のように与えられる。「Colorless, precious corundum is called white sapphire.（色のない宝石質のコランダムは、ホワイトサファイアと呼ばれる）」。この例の中では、用語は「white sapphire（ホワイトサファイア）」である。この例のルールは、用語がセンテンスの最後ではない場合（すなわち、用語の後ろに他の語が続く場合）、それは定義ではないということを言う。さらなる例として、このルールは以下の例が定義であることを禁止する。「Colorless, precious corundum is called white sapphire in America.（色のない宝石質のコランダムは、米国ではホワイトサファイアと呼ばれる）」。

さらに別の除外ルールは、説明が限定的であること（「the」を限定詞として有すること）と、定義を示すものではなく候補センテンスを除外する「IS/WAS」パターンでセンテンスを終了させることとを含むことができる。このルールの例は、説明が限定的なものであり、センテンスを終了させる場合、すなわち説明の後には何もないということを意味する場合に、センテンスを除外する。例は、以下のように与えられる。「Lucerne is the only large city.（ルツェルンは唯一の大都会である）」。この例では、説明「the only large city（唯一の大都会）」は、限定的なものであり、センテンスを終了させる。このルールの例の理由は、「the only large city（唯一の大都会）」が前のコンテキストを参照していることがよくあり、したがって一般的な定義のための優良な候補ではないということである。

再び図５を参照すると、ステップ４１１で、任意の除外ルールが、候補センテンスが定義となるのを除外する手法で適用されると判定される場合は、ステップ４１３でアルゴリズムまたは方法が終了し、定義は候補センテンスの中に存在する可能性がない判定される。ステップ４１１で、候補センテンスを除外する手法で適用される除外ルールはないと判定される場合は、方法はステップ４１５に進み、ここでは、正および負の左ＮＰスコアリングが、段階、モジュールまたはコンポーネント２２０によって適用される。スコアリングは、図４−２に示される表２Ｂを参照して、以下で詳細に説明する。表２Ｂおよび他の箇所で、「用語」および「説明」という用語は、開示される実施形態を説明するために使用する。「用語」とは、定義が説明されることとなるＮＰのことである。「説明」とは、「用語」についての定義または説明の始まりのことである。例えば、キューフレーズ「is a」については、用語はステップ４０５で識別された左ＮＰとなる。実施形態の例において、この場合に左ＮＰに適用される正および負のスコアリングは、表２Ｂで「用語」を参照するルールである。この場合に右ＮＰに適用される正および負のスコアリングは、表２Ｂで「説明」を参照するルールである。

ステップ４１５で左ＮＰ部分をスコアリングした後、方法はステップ４１７に進み、ここでは、キューフレーズの後に続く右ＮＰが、ＮＰ文法２２６をキューフレーズに局所的に適用することによって検索される。このステップでＮＰ文法をキューフレーズに局所的に適用することは、キューフレーズの右側または後ろ側の所定のウィンドウ内の語が、いずれが右ＮＰであるかを判定するために、ＮＰ文法２２６を用いて分析されることを意味する。任意のそのような右ＮＰは、キューフレーズが「is a」パターンである定義のセンテンスにおいて、説明用語を表す傾向がある。キューフレーズに局所的にＮＰ文法２２６を適用するのに使用されるウィンドウは、左および右ＮＰに対して異なることができ、正確さ、速度、またはそれら２つの組合せを最適化するために調整することができることに留意されたい。

次にステップ４１９では、右ＮＰが発見されたかどうかについての判定が行われる。右ＮＰが発見されなかった場合は、ステップ４２１でアルゴリズムまたは方法は終了し、定義は候補センテンスの中に存在する可能性がないと判定される。ステップ４１９で、右ＮＰが発見されたと判定される場合、ステップ４２３で、上述のように除外ルールが適用されるかどうかについて判定が行われる。このステップで、適切な除外ルールが、候補センテンスの右ＮＰに適用される。ステップ４２３で、除外ルールが、候補センテンスが定義となるのを除外する手法で適用されると判定されると、ステップ４２５で、アルゴリズムまたは方法は終了し、定義は候補センテンスの中に存在する可能性がないと判定される。ステップ４２３で、候補センテンスを除外する除外ルールはないと判定されると、方法は、ステップ４２７に進み、以下でより詳細に説明するように正および負の右ＮＰスコアリングが適用される。

次にステップ４２９で、左ＮＰスコアと右ＮＰスコアが結合され、ステップ４３１で、結合されたスコアの関数として、候補センテンスが定義を含むかどうかの判定が行われる。実施形態の例において、このステップは、結合されたスコアをしきい値と比較することによって実装される。結合されたスコアがしきい値を超えない場合、アルゴリズムはステップ４３３で終了し、定義は候補センテンスの中に存在する可能性がないと判定される。結合されたスコアがしきい値を超える場合、ステップ４３５で、定義は出力として提供される。このステップは、定義を含むものとして候補センテンスにタグ付けをすることと、適切なオフセット（センテンス内での定義づけ用語の位置）を追加することと、および／または出力でセンテンス自体を提供することを含むことができる。結合されたスコアの関数として、候補センテンスが定義を含むかどうかを判定するステップ４３１を、別の手法でも実装することができることに留意されたい。例えば優良な定義候補となるように、結合されたスコアがしきい値を超えることができないような代替の実施形態において、スコアリングを定義することができる。

（定義のスコアリング）
図５に関して上述したステップ４１５および４２７では、左および右ＮＰスコアリングが適用される。定義をスコアリングするために、実施形態で適用される一般的なアプローチは、優良な定義候補を識別するために有力な発見的パターンを定義し、その一方で除外ルールおよびスコアリングのためのしきい値を使用して、余計な候補を除外することである。そのような発見的問題解決法は、上記でパターンに応じて左ＮＰおよび右ＮＰのいずれかと呼ばれる、定義用語（すなわち、定義される用語）と対応するＮＰの記述（すなわち説明）との両方に適用される。実施形態は、定義される用語を表す左ＮＰと、説明を表す右ＮＰとを参照して説明するが、常にこのケースである必要はない。本発明の実施形態は、左ＮＰが説明を表し、右ＮＰが定義される用語を表す反対の構成も同様に処理するように構成することができる。

スコアリングに適用される特徴のセットの例は、図４−２に示される表２Ｂに列挙している。これらの特徴およびそれらの対応する型のスコアリングのウェイト（例えば、有力なウェイト（strong weight）、負のウェイト（negative weight）、標準のウェイト（normal weight）など）は、単に例として提供される。他のスコアリング技術は、特定の目的のために調整された他の実施形態で使用することができる。「有力」特徴ウェイトは所与の特徴に割り当てられた最大ウェイトを表し、一方「基本（basic）」特徴ウェイトは有力な特徴ではない特徴にデフォルトで割り当てられる標準的なウェイトであるということに留意されたい。「有力」特徴ウェイトおよび「基本」特徴ウェイトを表すのに使用される実際の数値は、特定の結果を達成するために、希望通りに設定することができる。

正のウェイト（positive weight）（値）を有する特徴は、一致する用語がその特徴を有すると、そのウェイトを計算されたスコアに追加することを意味する。負のウェイトを有する特徴は、一致する用語が対応する特徴を有すると、対応する特徴ウェイトを、計算されたスコアから引くことを意味する。長さおよび位置スコアは、用語またはセンテンスの長さ、またはそれらのオフセット位置をコード化するウェイトである。

いくつかの特徴は、所与の特徴に割り当てられた最大ウェイトを表す有力な特徴ウェイトに関連しており、一方でいくつかの特徴は、有力ではない特徴にデフォルトで割り当てられた標準ウェイトである基本特徴ウェイトに割り当てられる。スコアリング関数は、最終スコアを作成するために、一次関数で、これらの機能に関連した様々なウェイトを結合する。
最終スコア＝Σ（正の特徴ウェイト）−Σ（負の特徴ウェイト）
この式の中で、負の特徴ウェイトの合計は、負の特徴ウェイトの絶対値の合計を表す。言い換えると、正の特徴ウェイトの合計から負の特徴ウェイトの合計を引くことは、最終スコアを高くするのではなく、低くする役割を果たす。最終的に計算されたスコアは、定義が、センテンスの特性として認められ、公開されるべきであるかどうかを判定するために、しきい値と比較される。しきい値を設定および／または変更することができることにより、再呼び出しのための必要条件および／または精度が別々の領域について異なる場合に、アプローチアルゴリズム全体の変更を必要とせずに、アプリケーションが、発行される定義の品質を制御することが可能になる。

以下の説明は、３つのセンテンス例をスコアリングすることを含む。３つのセンテンス例は、以下の公式に基づいてスコアリングされる。
スコア＝（キューフレーズのパターン）のスコア＋（左ＮＰ）のスコア＋（右ＮＰ）のスコア
４番目のセンテンス例は、除外ルールのために除外される。

（スコアリング例１）
「St Dunstan is the patron saint of blacksmiths and goldsmiths.（聖ダンスタンは、鍛冶屋と金細工職人の守護聖人である。）」
左ＮＰ（用語）：St Dunstan（聖ダンスタン）
右ＮＰ（説明）：the patron saint（守護聖人）
パターン：「is the（である）」
（パターン）のスコア＝０．６
（用語）のスコア＝（固有名詞）のスコア＝０．２
（説明）のスコア＝（「説明は限定的ものである。：the」）のスコア＝−０．１
除外ルールのチェック：説明の右のコンテキストのＰＯＳ：「前置詞」（「of」）−＞承認
最終スコアは：０．６＋０．２−０．１＝０．７

（スコアリング例２）
「In Minoan civilization the large storage jars were known as pithoi.（ミノス文明では、大型の貯蔵壺はピトス（pithoi）として知られていた。）」
左ＮＰ（説明）：the large storage jars（大型の貯蔵壺）
右ＮＰ（用語）：pithoi（ピトス）
パターン：「known as（として知られていた）」
（パターン）のスコア＝０．６
（用語）のスコア＝（用語オフセット）のスコア＝０．６（このパターンについては、用語がセンテンスの最後の近くにあるほど、スコアが大きくなり、この場合はセンテンスの最後なので、この特徴のために用語が得ることができる最大値である）
（説明）のスコア＝（「説明は限定的ものである。：the」）＋（「説明は修飾子を有する：large」）＝−０．１−０．１＝−０．２
最終スコアは：０．６＋０．６−０．２＝１．００

（スコアリング例３）
「A vulnerability is a specific way that a threat is exploitable based on an unmitigated attack path.（脆弱性は、純然たる攻撃経路に基づいて脅威が利用することができる特別な道である。）」
左ＮＰ（用語）：A vulnerability（脆弱性）
右ＮＰ（説明）：specific way（特別な道）
パターン：「is a（である）」
（パターン）のスコア＝０．６
（用語）のスコア＝０（適用される特徴スコアリングはない）
（説明）のスコア＝（説明は修飾子を有する：「specific（特別な）」）のスコア＝−０．１
除外ルールのチェック：説明の右コンテキストのＰＯＳ：「that」−＞承認
最終スコアは：０．６＋−０．１＝０．５

（除外されるセンテンスの例）
「Lucerne is the only large city.（ルツェルンは唯一の大都会である）。」
左ＮＰ（用語）：Lucerne（ルツェルン）
右ＮＰ（説明）：the only large city（唯一の大都会）
パターン：「is the（である）」

以下の除外ルールは、定義としてセンテンスを除外する説明部分（この場合は右ＮＰ）に適用されることとなる。
「IS/WAS the」パターンに適用される除外ルール
説明が限定的なものであり（この場合は「the」を有する）、センテンスを終了させる。

図５は、ドキュメント内で定義を識別する開示された方法の１つの特定の方法の実施形態を図示するが、他のより一般的な実施形態も開示される。例えば、ここで図６を参照すると、フローチャート６００に示されているのは、１つのそのような方法の実施形態である。ブロック６０５で示されるように、この方法の実施形態は、複数のテキスト単位を入力テキストとして受け取るステップを含む。前述のように、これらのテキスト単位は、センテンス、パラグラフなどとすることができる。次にブロック６１０に示されるように、この方法は、複数のテキスト単位のいずれがキューフレーズを含むかを識別するステップを含む。上述のように、これは、字句スキャナ、およびテキスト単位に一致したパターンとすることができるキューフレーズのリストを用いて行うことができる。次にブロック６１５で図示されるように、この方法の実施形態は、キューフレーズを含むと識別されたテキスト単位について、キューフレーズを含むテキスト単位が定義を包含するかどうかを判定するために、キューフレーズの周辺で局所化された解析を実行するステップを含む。局所化された解析を行うステップは、例えば図５に示されるようなものとすることができる。

例えば、テキスト単位のキューフレーズの周辺で局所化された解析を実行することは、図５で説明したように、キューフレーズの第１の所定のウィンドウ内で、ユニット単位の中の主要用語ＮＰ（すなわち、多くの実施形態における左ＮＰ）を検索することを含むことができる。同様に、局所化された解析を実行することは、先に説明し、図示したように、キューフレーズの第２の所定のウィンドウ内で説明ＮＰ（すなわち多くの実施形態の中の右ＮＰ）を検索することを含むことができる。当然のことながら、第１および第２のウィンドウを、同じサイズにすることができ、または異なるサイズを有するように別々に確立することもできる。図６に示した方法の実施形態についての他のより詳細な特徴は、上で説明し、別の図面の中で図示したものと実質的に同じものとすることができる。例えば、主要用語ＮＰおよび説明ＮＰのスコアリングは、図５に図示し、上で説明したようなものとすることができる。同様に、この方法の実施形態の他の特徴は、上で説明し、図示したようなものとすることができる。

本主題を、構造的特徴および／または方法論的なアクトに特有の言語で説明したが、添付の特許請求の範囲で定義される本主題は、必ずしも上述の特定の特徴またはアクトに限定されるわけではないことを理解されたい。むしろ上述の特定の特徴およびアクトは、請求項を実装する形式の例として開示されている。例えば、実施形態は、英語の例を参照して説明されているが、本実施形態は英語または任意の特定の言語に限定されるわけではない。別の例として、いくつかの図示された実施形態では、局所化された解析を、ＮＰの検索を含むものとみなすことができるが、他の実施形態では、局所化された解析は、ＶＰ、ＰＰ、フレーズ型の組合せなどの他の言語構成要素の検索を含む。

開示される概念を実施することができる一般的なコンピューティング環境のブロック図である。定義抽出システムのブロック図である。キューフレーズの例を示す表である。除外ルールの例を示す表である。特徴を記録する態様を示す表である。方法の実施形態を示すフローチャートである。方法の実施形態を示すフローチャートである。

Claims

複数のドキュメントの中で定義を識別するために定義抽出システムによって実行される方法であって、
複数のテキスト単位を入力テキストとして受け取るステップと、
前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むか識別するステップと、
前記複数のテキスト単位のうち、キューフレーズを含まないと識別された全てのテキスト単位を、定義を含む可能性のある検討対象から除外するステップと、
キューフレーズを含むと識別されたテキスト単位それぞれについて、キューフレーズを含むテキスト単位が定義を含むかどうかを判断するために、前記キューフレーズの周辺で局所的な解析を実行するステップであって、前記キューフレーズの周辺で局所的な解析を実行するステップは、前記キューフレーズの第１の所定のウィンドウ内で前記テキスト単位の左フレーズを検索することと、前記キューフレーズの第２の所定のウィンドウ内で前記テキスト単位の右フレーズを検索することとを含む、該局所的な解析を実行するステップと、
スコアリングルールのセットに基づいて、正および負のスコアリングを前記左フレーズおよび前記右フレーズに適用して、フレーズスコアリングを得るステップと、
前記左フレーズのスコアリングと前記右フレーズのスコアリングを結合して、前記テキスト単位の全体のスコアを得るステップと、
前記キューフレーズを含む前記テキスト単位が定義を含んでいるかどうかを、前記テキスト単位の前記全体のスコアに応じて判断するステップと
を含むことを特徴とする方法。
前記左フレーズおよび前記右フレーズを検索することは、構文上のフレーズを検索することをさらに含むことを特徴とする請求項１に記載の方法。
前記キューフレーズの第１の所定のウィンドウ内で前記テキスト単位の左フレーズを検索すること、および前記キューフレーズの第２の所定のウィンドウ内で前記テキスト単位の右フレーズを検索することは、
前記キューフレーズの前記第１の所定のウィンドウの前、および該ウィンドウ内にある前記テキスト単位の中のフレーズを検索すること
を含むことを特徴とする請求項２に記載の方法。
前記左フレーズおよび前記右フレーズが、前記キューフレーズの前記第１の所定のウィンドウおよび前記第２の所定のウィンドウ内の前記テキスト単位の中で識別されたかどうかを判断するステップと、
前記左フレーズおよび前記右フレーズが、前記キューフレーズの前記第１の所定のウィンドウおよび前記第２の所定のウィンドウ内の前記テキスト単位の中で識別されなかった場合は、前記キューフレーズを含む前記テキスト単位は定義を含まないと判断するステップと
をさらに含むことを特徴とする請求項１に記載の方法。
前記左フレーズおよび前記右フレーズが、前記キューフレーズの前記第１の所定のウィンドウおよび前記第２の所定のウィンドウ内の前記テキスト単位の中で識別されたと判定される場合は、
定義を含まない前記テキスト単位を示す手法で除外ルールのセットのいずれかが前記左フレーズまたは前記右フレーズに適用されるかどうかを判断するステップと
定義を含まない前記テキスト単位を示す手法で前記除外ルールのセットのいずれかが前記左フレーズまたは前記右フレーズに適用されると判断された場合、前記キューフレーズを含む前記テキスト単位は、定義を含まないと判断するステップと
をさらに含むことを特徴とする請求項４に記載の方法。
定義を含まない前記テキスト単位を示す手法で前記除外ルールのセットのいずれもが、で、前記左フレーズまたは前記右フレーズに適用されないと判断された場合、
スコアリングルールのセットに基づいて、正および負のスコアリングを前記左フレーズおよび前記右フレーズに適用し、前記左フレーズおよび前記右フレーズについてフレーズのスコアリングを得るステップ
をさらに含むことを特徴とする請求項５に記載の方法。
前記複数のテキスト単位を入力テキストとして受け取るステップは、複数のセンテンスを前記入力テキストとして受け取ることをさらに含むことを特徴とする請求項１に記載の方法。
前記テキスト単位の中の語に、定義のコンテキストの中で最も一般的な品詞に基づいた品詞（ＰＯＳ）タグでタグ付けするステップをさらに含むことを特徴とする請求項１に記載の方法。
前記テキスト単位の中の語に、定義のコンテキストの中で最も一般的な品詞に基づいたＰＯＳタグでタグ付けするステップは、
前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むかを識別するのに使用されたパスと同じ処理パスにおいて、前記テキスト単位の中の語にＰＯＳタグでタグ付けすること
をさらに含むことを特徴とする請求項８に記載の方法。
複数のドキュメントの中で定義を識別するための定義抽出システムであって、
複数のテキスト単位を入力として受け取り、前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むか識別するように構成された字句スキャナコンポーネントであって、前記複数のテキスト単位のうちのキューフレーズを含まない全てのテキスト単位を、検討対象から除外するように構成された字句スキャナコンポーネントと、
前記字句スキャナコンポーネントによってキューフレーズを含むと判断されたテキスト単位に対して、前記テキスト単位が定義を包含するかどうかを判断するために、前記キューフレーズの周辺で局所的な解析を実行するように構成された計算コンポーネントと、
スコアリングルールのセットに基づいて、前記キューフレーズの所定のウィンドウ内で前記テキスト単位の左フレーズおよび右フレーズに、正および負のスコアリングを適用して、フレーズスコアリングを得るように構成されたスコアリングコンポーネントであって、前記テキスト単位の全体のスコアを得るために前記左フレーズと前記右フレーズの前記スコアリングを結合し、前記テキスト単位の全体のスコアに応じて、前記キューフレーズを含む前記テキスト単位が、定義を含むかどうか判断するスコアリングコンポーネントと
を備えることを特徴とする定義抽出システム。
前記字句スキャナコンポーネントは、各テキスト単位の語に、定義のコンテキストの中でそれらの最も一般的な品詞（ＰＯＳ）でタグ付けするようにさらに構成されたことを特徴とする請求項１０に記載の定義抽出システム。
前記字句スキャナコンポーネントは、前記複数のテキスト単位のうち、どのテキスト単位がキューフレーズを含むか識別するのに使用されたパスと同じ処理パスにおいて、各テキスト単位の前記語に、それぞれの最も一般的なＰＯＳでタグ付けするようにさらに構成されたことを特徴とする請求項１１に記載の定義抽出システム。
キューフレーズを含むと判断されたテキスト単位の前記キューフレーズの前記所定のウィンドウ内で左フレーズおよび右フレーズを識別するように構成されたフレーズ識別コンポーネントをさらに備え、
前記計算コンポーネントは、前記識別された左および右フレーズを使用して前記局所化的な解析を実行するようにさらに構成されたことを特徴とする請求項１２に記載の定義抽出システム。