JP2885489B2 - Document content search device - Google Patents
Document content search deviceInfo
- Publication number
- JP2885489B2 JP2885489B2 JP2206030A JP20603090A JP2885489B2 JP 2885489 B2 JP2885489 B2 JP 2885489B2 JP 2206030 A JP2206030 A JP 2206030A JP 20603090 A JP20603090 A JP 20603090A JP 2885489 B2 JP2885489 B2 JP 2885489B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- information
- pattern
- item
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 この発明は,質問文を入力することによって,蓄積さ
れた情報の中から必要な情報を取り出してユーザに提供
する文書内容検索装置に関する。Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document content search device that extracts necessary information from stored information by inputting a question sentence and provides it to a user.
従来のこの種の文書内容検索装置では,あらかじめ項
目毎に整理して蓄積したデータベースを検索対象として
検索する装置や,登録された文と入力された文との類似
度を算出して検索するテキスト型データベース装置(例
えば,特願平1−111626号)が知られている。In this type of conventional document content search device, a device for searching a database stored in advance organized for each item as a search target or a text for searching by calculating the similarity between a registered sentence and an input sentence A type database device (for example, Japanese Patent Application No. 1-1111626) is known.
しかしながら,前者の装置では,あらかじめ項目毎に
整理して蓄積したデータベースを検索対象としており,
文章のまま保存された情報を検索することができなかっ
た。また,データベースを検索するために分野知識を記
述した世界モデル等を用いてデータベース検索用コマン
ドに変換する処理を行っており,このような変換を正し
く行うためには,複雑なデータ構造を持った知識ベース
を構築する必要があった。後者の装置では,意味的な類
似性が高い文を検索することはできるが,例えば「NTT
が発売した製品は?」というような質問文形式に対して
的確な回答を行うことはできなかった。However, in the former device, a database that is organized and stored in advance for each item is targeted for retrieval.
Information stored as text could not be searched. In addition, in order to search the database, processing is performed to convert it to a database search command using a world model or the like that describes field knowledge. To perform such conversion correctly, a complicated data structure is required. We needed to build a knowledge base. With the latter device, sentences with high semantic similarity can be searched.
What products have been released? ], It was not possible to give an accurate answer to the question sentence format.
この発明の目的は,文章で記述された情報の中から,
入力された質問文に対して的確な回答を行うことがで
き,しかも,複雑なデータ構造を持った知識ベースその
ものを構築しなくても実現できる文書内容検索装置を提
供することにある。An object of the present invention is to provide information from textual information.
An object of the present invention is to provide a document content search device that can provide an accurate answer to an input question sentence and can be realized without building a knowledge base itself having a complicated data structure.
入力された文書ファイル中の各情報文について,情報
文パターンを決定し,文書内容テーブル作成部で,情報
文パターンに記述された項目属性に対応する項目内容を
抽出して,各情報文パターンごとに該当する情報文と項
目属性と項目内容の関係を記述した文書内容テーブルを
作成して蓄積しておき, 入力された質問文の単語情報と文節情報を抽出した
後,質問文パターン判定部でパターン間関係テーブルを
参照して質問文パターンを決定し,質問文パターンに記
述された項目属性に対応する項目内容を抽出し,決定さ
れた質問文パターンに対応する情報文パターンを得,得
られた情報文パターンに属する情報文の項目内容が,同
じ項目属性において,質問文パターンの項目内容と一致
する情報文を文書内容テーブルを参照して決定し, 決定された情報文において,決定された質問文パター
ンに対応する回答項目属性と一致する項目属性の項目内
容を抽出して,抽出された内容を基に,回答内容を表示
するよう構成している。For each information sentence in the input document file, an information sentence pattern is determined, and the document content table creator extracts the item contents corresponding to the item attributes described in the information sentence pattern, for each information sentence pattern. Creates and accumulates a document content table that describes the relationship between the information sentence, item attributes, and item contents corresponding to, and extracts the word information and phrase information of the input question sentence. A question sentence pattern is determined with reference to the inter-pattern relation table, an item content corresponding to the item attribute described in the question sentence pattern is extracted, and an information sentence pattern corresponding to the determined question sentence pattern is obtained. The information sentence that belongs to the information sentence pattern that has the same item attribute as the item sentence of the question sentence pattern is determined with reference to the document content table. In information statement, by extracting the item content of the item attribute corresponding to the answer attribute corresponding to the determined question pattern, based on the extracted contents, and configured to display the answer content.
決定された質問文パターンの項目内容と一致する情報
文を得て,その上で当該情報文において,上記決定され
た質問文に対応する回答項目属性と一致する項目属性の
項目内容を抽出する。したがって,文章で記述された情
報の中から,入力された質問文に対して的確な回答を行
うことができる。An information sentence that matches the item content of the determined question sentence pattern is obtained, and then the item content of the item attribute that matches the answer item attribute corresponding to the determined question sentence is extracted from the information sentence. Therefore, an accurate answer can be made to the input question sentence from the information described in the sentence.
第1図は本発明の実施例を示すブロック図である。以
下,第1図において,本発明の実施例の動作について説
明する。図中,1は単語辞書部,2は形態素解析部,3は情報
文解析部,4は情報文パターン辞書部,5はパターン間関係
テーブル部,6は情報文パターン判定部,7は項目内容抽出
部,8は文書内容テーブル作成部,9は文書内容テーブル蓄
積部,10は質問文解析部,11は質問文パターン判定部,12
は回答抽出部,13は回答表示部を表す。FIG. 1 is a block diagram showing an embodiment of the present invention. Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG. In the figure, 1 is a word dictionary unit, 2 is a morphological analysis unit, 3 is an information sentence analysis unit, 4 is an information sentence pattern dictionary unit, 5 is a pattern relation table unit, 6 is an information sentence pattern determination unit, and 7 is item contents. Extraction unit, 8 is a document content table creation unit, 9 is a document content table storage unit, 10 is a question sentence analysis unit, 11 is a question sentence pattern determination unit, 12
Denotes an answer extraction unit, and 13 denotes an answer display unit.
第2図は,文書ファイルの1例を示す図である。第2
図において,文番号は,情報文解析部3で読み込まれる
ときに各文毎に付与され,各情報分のIDとして以下の処
理で用いられる。なお,ここでは文書ファイル中の各文
を情報文と呼び,文番号iの情報文を情報文iと記述す
る。FIG. 2 is a diagram showing an example of a document file. Second
In the figure, a sentence number is assigned to each sentence when it is read by the information sentence analysis unit 3, and is used as an ID for each information in the following processing. Here, each sentence in the document file is called an information sentence, and the information sentence with the sentence number i is described as an information sentence i.
まず,情報文の解析処理について説明する。 First, the information sentence analysis processing will be described.
情報文解析部3では,文書ファイル中から情報分を読
み込んで,形態素解析部2へ送り,単語情報と分析情報
とを得る。The information sentence analysis unit 3 reads information from the document file and sends it to the morphological analysis unit 2 to obtain word information and analysis information.
形態素解析部2では,単語辞書部1を参照して,被解
析文を構成する単語の表記と該単語の品詞と意味属性か
らなる単語情報と,文節情報とを抽出する。The morphological analysis unit 2 refers to the word dictionary unit 1 and extracts notation of a word constituting the analyzed sentence, word information including the part of speech and the semantic attribute of the word, and phrase information.
第3図は,単語辞書部1に記述されている表記と意味
属性との関係の1例を示した図である。例えば,「販
売」と「発売」とには同じ意味属性[売]が付与されて
いる。この意味属性は後で説明する情報文パターンの判
定や質問文パターンの判定で用いられる。FIG. 3 is a diagram showing an example of the relationship between the notation described in the word dictionary unit 1 and the semantic attributes. For example, the same semantic attribute [sale] is assigned to "sale" and "release". This semantic attribute is used for determining an information sentence pattern and a question sentence pattern, which will be described later.
第4図は,情報文「NTTがハウディコードレスホンを
5月1日から発売した。」の情報文解析部3の処理結果
の例を示した図である。情報文は単語に分割され,文節
情報として文節番号が付与され,単語情報として品詞,
意味属性が抽出される。文節番号が同じ単語は同一文節
内にあることを示している。例えば、「NTT」と「が」
とは同一文節にあり,各々,品詞として“固有名詞",
“助詞”が抽出される。また,「発売」は,品詞として
“動詞語幹",意味属性として[売]が抽出される。な
お,「ハウディコードレスホン」は,単語辞書部1に登
録されてない単語で,前後関係や文字の種類などにより
1単語とみなされた未知語であり,品詞や意味属性の情
報は得られない。FIG. 4 is a diagram showing an example of the processing result of the information sentence analyzing unit 3 for the information sentence "NTT released the Howdy cordless phone from May 1." The information sentence is divided into words, a phrase number is given as phrase information, and a part of speech,
The semantic attributes are extracted. Words with the same phrase number indicate that they are in the same phrase. For example, "NTT" and "GA"
Are in the same phrase, and have the parts of speech “proper noun”,
"Particles" are extracted. As for “release”, “verb stem” is extracted as a part of speech, and “selling” is extracted as a semantic attribute. The “howdy cordless phone” is a word that is not registered in the word dictionary unit 1 and is an unknown word that is regarded as one word depending on the context, the type of character, and the like, and information on the part of speech and the meaning attribute cannot be obtained.
次に,情報文パターンの判定処理について説明する。 Next, the information sentence pattern determination processing will be described.
情報文パターン判定部6は,情報文解析部3で得られ
た単語情報を基に,情報文パターン辞書部4を参照し
て,情報文パターンを決定する。The information sentence pattern determination unit 6 determines an information sentence pattern by referring to the information sentence pattern dictionary unit 4 based on the word information obtained by the information sentence analysis unit 3.
第5図は,情報文パターン辞書部4に蓄積される情報
文パターンの1例を示す図である。情報文パターン辞書
部4には,項目属性,単語,意味属性の列からなる文節
パターンの組み合わせで表された情報文パターンを蓄積
している。例えば,第5図では,2つの情報文パターンA
1,A2の例を示している。ここで,文パターン中のDiは,
項目属性を示し,項目属性に続く文字列は品詞が“助
詞”である単語を示し,項目属性と単語で文節パターン
の1つが表されている。また,[]で囲まれたデータは
意味属性を示し,これも1つの文節パターンを表してい
る。例えば,情報文パターンA1の場合には,項目属性D1
を含む文節パターン‘D1が’と項目属性D2を含む文節パ
ターン‘D2を’と意味属性[売]の組み合わせで文パタ
ーンが表されている。FIG. 5 is a diagram showing an example of information sentence patterns stored in the information sentence pattern dictionary unit 4. The information sentence pattern dictionary unit 4 stores an information sentence pattern represented by a combination of phrase patterns composed of columns of item attributes, words, and semantic attributes. For example, in FIG. 5, two information sentence patterns A
1, examples of A2 are shown. Here, Di in the sentence pattern is
An item attribute is shown, and a character string following the item attribute indicates a word whose part of speech is "particle", and one of the phrase patterns is represented by the item attribute and the word. Data enclosed by [] indicates a semantic attribute, which also represents one phrase pattern. For example, in the case of information sentence pattern A1, item attribute D1
A sentence pattern is represented by a combination of a phrase pattern 'D1' containing 'and a phrase pattern' D2 'containing an item attribute D2 and a semantic attribute [sales].
パターン決定方法には,規定された条件を満たすかに
ついての判定による決定や類似度を算出してある閾値以
上であるかにより決定するなど多様な方法が適用でき
る。ここでは,情報文Tに含まれる意味属性の集合が,
情報文パターンの意味属性の集合を含むような情報文パ
ターンPがある場合,情報文Tの情報文パターンはPで
あると決定する場合の例について説明する。Various methods can be applied to the pattern determination method, such as a determination based on whether a specified condition is satisfied or a determination based on whether the similarity is calculated to be equal to or greater than a certain threshold. Here, the set of semantic attributes included in the information sentence T is
An example will be described in which, when there is an information sentence pattern P that includes a set of semantic attributes of the information sentence pattern, the information sentence pattern of the information sentence T is determined to be P.
例えば,情報文1の意味属性の集合Mtは, Mt={[時],[売]} である。 For example, the set Mt of the semantic attributes of the information sentence 1 is Mt = {[hour], [selling]}.
一方,情報文パターンA1,A2の意味属性の集合M1,M2
は, M1={[売]} M2={[提携]} である。On the other hand, a set M1 and M2 of semantic attributes of information sentence patterns A1 and A2
Is M1 = {[selling]} M2 = {[partnership]}.
M1はMtに含まれるので,情報文1の情報文パターンは
A1であると決定される。Since M1 is included in Mt, the information sentence pattern of information sentence 1 is
A1 is determined.
次に,文書内容テーブル作成処理について説明する。 Next, the document content table creation processing will be described.
文書内容テーブル作成部8では,まず,各情報文にお
いて,項目内容の抽出処理を以下のように行う。The document content table creator 8 first extracts the item contents from each information sentence as follows.
情報文を被抽出文とし,情報文パターン判定部6で決
定された情報文パターンを参照文パターンとして,項目
内容抽出部7を起動して,項目内容を抽出する。Using the information sentence as an extracted sentence, and using the information sentence pattern determined by the information sentence pattern determination unit 6 as a reference sentence pattern, the item content extraction unit 7 is started to extract the item contents.
項目内容抽出部7では,被抽出文から抽出された単語
情報と文節情報を基に参照文パターン中の文節パターン
との照合を行うことにより,参照文パターン中の項目属
性に対応する項目内容を被抽出文中から抽出する。The item content extraction unit 7 compares the word information extracted from the extracted sentence and the phrase information with the phrase pattern in the reference sentence pattern, thereby extracting the item content corresponding to the item attribute in the reference sentence pattern. Extract from the extracted sentence.
ここでは,文節パターン中の助詞を手がかりに項目内
容を抽出する方法について説明する。情報文1の場合に
は,情報文パターンはA1であるから,情報文1を被抽出
文,情報文パターンA1を参照文パターンとして項目内容
抽出部7を起動する。例えば,項目内容抽出部7では,
項目属性D1に対する項目内容の抽出処理を以下のように
行う。項目属性D1は,助詞「が」を含む文節パターン
「D1が」に属する。情報文1の中で助詞「が」を含む文
節は「NTTが」である。したがって,D1を「NTT」と置き
換えることによって同一文節となる。このようにして,
ある文字列を項目属性と置き換えることによって文節が
一致するような文字列をこの項目属性の項目内容とす
る。この例の場合には,情報文1における項目属性D1の
項目内容は「NTT」となる。このようにして,各情報文
における項目内容が抽出される。なお,複数の同一助詞
が存在する場合には,文節パターン間の関係を考慮して
決定する。Here, a method of extracting item contents based on particles in a phrase pattern will be described. In the case of the information sentence 1, since the information sentence pattern is A1, the item content extraction unit 7 is started using the information sentence 1 as an extracted sentence and the information sentence pattern A1 as a reference sentence pattern. For example, in the item content extraction unit 7,
The process of extracting the item contents for the item attribute D1 is performed as follows. The item attribute D1 belongs to a phrase pattern "D1 ga" containing the particle "ga". In the information sentence 1, the phrase containing the particle "GA" is "NTT ga". Therefore, replacing D1 with "NTT" results in the same phrase. In this way,
A character string that matches a phrase by replacing a certain character string with an item attribute is defined as the item content of this item attribute. In the case of this example, the item content of the item attribute D1 in the information sentence 1 is “NTT”. In this way, the item contents in each information sentence are extracted. If a plurality of identical particles exist, the determination is made in consideration of the relationship between the phrase patterns.
文書内容テーブル作成部8では,次に,情報文パター
ン毎に,各情報文パターンに属する情報文と,各情報文
毎に各項目属性の項目内容を記述した文書内容テーブル
を作成する。Next, the document content table creator 8 creates, for each information sentence pattern, a document content table that describes the information sentences belonging to each information sentence pattern and the item content of each item attribute for each information sentence pattern.
第6図は,文書内容テーブルの1例を示す図である。
例えば,情報文パターンA1には,情報文1と情報文2と
が属し,情報文1の項目属性D1,D2の項目内容は各々「N
TT」,「ハウディコードレスホン」であり,情報文2の
項目属性D1,D2の項目内容は各々「NTT」,「留守番電
話」である。なお,「ハウディコードレスホン」は未知
語であるが,文節情報が正しければ,上記のように項目
内容を正しく抽出できる。FIG. 6 is a diagram showing an example of a document content table.
For example, information sentence 1 and information sentence 2 belong to information sentence pattern A1, and the item contents of item attributes D1 and D2 of information sentence 1 are each “N”.
TT "and" howdy cordless phone ", and the item contents of the item attributes D1 and D2 of the information sentence 2 are" NTT "and" answering machine ", respectively. Although "howdy cordless phone" is an unknown word, if the phrase information is correct, the item contents can be correctly extracted as described above.
このようにして,作成された文書内容テーブルは文書
内容テーブル蓄積部9に蓄積される。The document content table created in this way is stored in the document content table storage unit 9.
次に,文書内容検索処理について説明する。第8図は
文書内容検索処理の例を示す図であり,以下この図に基
づいて説明する。Next, the document content search processing will be described. FIG. 8 is a diagram showing an example of a document content search process, which will be described below with reference to FIG.
まず,質問文の解析処理について説明する。 First, the question sentence analysis process will be described.
質問文解析部10では,入力された質問文を形態素解析
部2へ送り,単語情報と文節情報を得る。例えば,質問
文Q「NTTが販売した製品は?」が入力されると,第8
図における‘質問文解析結果’のように文節情報および
単語情報が抽出される。このとき,質問文の意味属性の
集合をIとすると, I={[売],[商品]} である。The question sentence analyzer 10 sends the input question sentence to the morphological analyzer 2 and obtains word information and phrase information. For example, if the question Q "What products are sold by NTT?"
Phrase information and word information are extracted like "question sentence analysis result" in the figure. At this time, assuming that the set of semantic attributes of the question text is I, I = {[selling], [product]}.
次に,質問文パターンの判定処理について説明する。 Next, a process of determining a question sentence pattern will be described.
質問文パターン判定部11では,質問文解析部10で得ら
れた単語情報と,パターン間関係テーブル部5に蓄積さ
れたパターン間関係テーブル中の質問文パターンとを参
照して,質問文がどの質問文パターンに属するかを決定
する。次に,質問文パターン中に含まれる項目属性と,
その質問文パターンに対応する情報文パターンと回答項
目属性とを抽出する。The question sentence pattern determination unit 11 refers to the word information obtained by the question sentence analysis unit 10 and the question sentence patterns in the inter-pattern relation table stored in the inter-pattern relation table unit 5, and determines which question sentence It is determined whether it belongs to the question sentence pattern. Next, item attributes included in the question sentence pattern,
An information sentence pattern and an answer item attribute corresponding to the question sentence pattern are extracted.
第7図は,パターン間関係テーブル部5に蓄積される
パターン間関係テーブルの1例を示す図である。第7図
では,3つの質問文パターンQ1,Q2,Q3の例を示している。
パターン間関係テーブル部5は,質問文パターンとし
て,項目属性,単語,意味属性の列からなる文節パター
ンの組み合わせで定義され,さらに,各質問文パターン
毎に,参照すべき情報文パターンのIDと回答項目属性と
が定義されている。このパターン間関係テーブルによ
り,質問文がどの質問文パターンに属するかがわかれ
ば,どの情報文パターンに属する情報文を参照し,どの
項目属性(回答項目属性)を参照すればよいかを表して
いる。例えば,質問文パターンQ1は,文節パターン‘D
1'がと意味属性[売],[商品]との集合で定義され,
参照すべき情報文パターンとしてA1が,回答項目属性と
してD2が定義されている。FIG. 7 is a diagram showing an example of an inter-pattern relation table stored in the inter-pattern relation table section 5. FIG. 7 shows an example of three question sentence patterns Q1, Q2, and Q3.
The inter-pattern relation table section 5 is defined as a question sentence pattern by a combination of phrase patterns composed of columns of item attributes, words, and semantic attributes. Further, for each question sentence pattern, an ID of an information sentence pattern to be referred to and The answer item attribute is defined. If the question sentence belongs to which question sentence pattern from the pattern relation table, it indicates which information sentence pattern belongs to which information sentence pattern and which item attribute (answer item attribute) should be referred to. I have. For example, the question sentence pattern Q1 is a phrase pattern 'D
1 'is defined as a set of and semantic attributes [sell] and [product],
A1 is defined as an information sentence pattern to be referenced, and D2 is defined as an answer item attribute.
ここで,各質問文パターンQ1,Q2,Q3の意味属性の集合
N1,N2,N3とすると, N1={[売],[商品]} N2={[提携],[会社]} N3={[売],[会社]} である。Here, a set of semantic attributes of each question sentence pattern Q1, Q2, Q3
Assuming N1, N2, and N3, N1 = {[Sell], [Product]} N2 = {[Affiliation], [Company]} N3 = {[Sell], [Company]}.
質問文パターン判定部11では,情報文パターン判定部
6の処理と同様な処理で質問文パターンが決定される。
質問文Qの意味属性の集合Iは質問文パターンQ1の意味
属性の集合N1を含むから,質問文Qの質問文パターンは
Q1と決定される。さらに,参照すべき情報文パターンと
してA1が,回答項目属性としてD2が得られる。In the question sentence pattern determining unit 11, a question sentence pattern is determined by a process similar to the process of the information sentence pattern determining unit 6.
Since the set I of semantic attributes of the question sentence Q includes the set N1 of semantic attributes of the question sentence pattern Q1, the question sentence pattern of the question sentence Q is
Q1 is determined. Further, A1 is obtained as an information sentence pattern to be referenced, and D2 is obtained as an answer item attribute.
次に,回答抽出処理について説明する。 Next, the answer extraction processing will be described.
回答抽出部12では,まず,質問文の項目内容の抽出を
以下のように行う。The answer extraction unit 12 first extracts the item contents of the question sentence as follows.
質問文を被抽出文とし,質問文パターン判定部11で決
定された質問文パターンを参照文パターンとして,項目
内容抽出部7を起動して,項目内容を抽出する。The item content extraction unit 7 is started by using the question sentence as the sentence to be extracted and the question sentence pattern determined by the question sentence pattern determination unit 11 as the reference sentence pattern, and extracts the item contents.
抽出方法は,前に述べた情報文の場合と同様である。
例えば,質問文Qの場合,被抽出分は質問文Qであり,
参照文パターンは質問文パターンQ1である。このとき項
目属性D1の内容として「NTT」が抽出される(第8図に
おける‘項目内容抽出結果’参照)。The extraction method is the same as in the case of the information sentence described above.
For example, in the case of the question sentence Q, the extracted part is the question sentence Q,
The reference sentence pattern is a question sentence pattern Q1. At this time, "NTT" is extracted as the content of the item attribute D1 (see "item content extraction result" in FIG. 8).
次に,質問文パターン中の各項目属性において,質問
文の項目内容が,参照すべき情報文パターンに属する情
報文の項目内容と一致する情報文を決定する。Next, in each item attribute in the question sentence pattern, an information sentence in which the item content of the question sentence matches the item content of the information sentence belonging to the information sentence pattern to be referred to is determined.
例えば質問文Qの場合には,参照すべき情報文パター
ンはA1である。A1に属する情報文は,文書内容テーブル
を参照することにより,情報文1および情報文2である
ことがわかる。各情報文の項目属性D1の項目内容は,情
報文1では「NTT」,情報文2では「ATT」である。した
がって,質問文Qに対して,質問文Qの項目属性D1の項
目内容「NTT」と一致する情報文1が決定される。For example, in the case of the question sentence Q, the information sentence pattern to be referred to is A1. By referring to the document content table, the information sentences belonging to A1 are found to be the information sentences 1 and 2. The item content of the item attribute D1 of each information sentence is “NTT” in information sentence 1 and “ATT” in information sentence 2. Therefore, for the question sentence Q, the information sentence 1 that matches the item content “NTT” of the item attribute D1 of the question sentence Q is determined.
次に,決定された情報文の項目内容の中から,回答項
目属性と一致する項目属性の項目内容を抽出する。例え
ば,質問文Qの場合,回答項目属性はD2であるから,決
定された情報文1の項目属性D2の項目内容「ハウディコ
ードレスホン」が抽出される。Next, the item content of the item attribute that matches the answer item attribute is extracted from the item content of the determined information sentence. For example, in the case of the question sentence Q, since the answer item attribute is D2, the item content “howdy cordless phone” of the item attribute D2 of the determined information sentence 1 is extracted.
最後に,回答表示部13では,抽出された項目内容を基
に,回答内容を表示する。例えば、質問文Qの場合,
「ハウディコードレスホン」が表示される。Finally, the answer display section 13 displays the answer contents based on the extracted item contents. For example, in the case of question Q,
“Howdy Cordless Phone” is displayed.
以上説明したように,本発明によれば,文章で記述さ
れた情報を検索対象として,質問文を入力することによ
って,蓄積された情報の中から必要な情報を容易に取り
出すことができる。従来の装置では,あらかじめ検索対
象とする方法を項目毎に整理して蓄積したデータベース
を構築しなければ検索できなかったが,本発明による装
置では,文書ファイル中の文を解析し,情報文パターン
を決定し,情報文パターンで定義された項目属性の項目
内容を抽出して,文書内容テーブルを作成し,その文書
内容テーブルを参照して検索するため,文章で記述され
た情報をそのまま検索対象とできる。このため,本発明
による装置を用いれば,新聞記事等のように毎日送られ
てくる大量の情報に対しても,文書内容を検索できる情
報サービスを短時間で提供できるなどの効果がある。As described above, according to the present invention, it is possible to easily extract necessary information from accumulated information by inputting a question sentence with information described in a sentence as a search target. In a conventional device, a search cannot be performed without constructing a database in which methods to be searched are arranged in advance for each item. However, the device according to the present invention analyzes sentences in a document file and executes an information sentence pattern. Is determined, the item contents of the item attributes defined by the information sentence pattern are extracted, a document contents table is created, and the document contents table is searched for. And can be. Therefore, the use of the apparatus according to the present invention has an effect that an information service capable of retrieving document contents can be provided in a short time even for a large amount of information sent daily, such as newspaper articles.
また,従来の装置では検索コマンドで検索するため,
質問文を入力して検索する場合には,世界モデルのよう
な複雑なデータ構造を持った知識ベースを用いて,検索
コマンドに変換していたが,本発明による装置では,パ
ターン間関係テーブルにより,質問文パターンと情報文
パターンとの関係を記述しておくことにより,質問文を
入力して検索が行えるため,知識ベース構築のための多
大な労力を必要とせず,文書内容を検索できる装置を容
易に構築できる。In addition, since the conventional device searches using the search command,
When searching by inputting a question sentence, it is converted into a search command using a knowledge base having a complicated data structure such as a world model. However, in the apparatus according to the present invention, a pattern relation table is used. By describing the relationship between a question sentence pattern and an information sentence pattern, a question sentence can be input and searched, so that a device that can search the contents of a document without requiring a great deal of effort for building a knowledge base. Can be easily constructed.
第1図は本発明の実施例を示すブロック図,第2図は文
書ファイルの1例を示す図,第3図は単語辞書の表記と
意味属性の関係の1例を示す図,第4図は情報文解析部
の処理結果の1例を示す図,第5図は情報文パターンの
1例を示す図,第6図は文書内容テーブルの1例を示す
図,第7図はパターン間関係テーブルの1例を示す図,
第8図は文書内容検索処理の1例を示す図である。 1…単語辞書部,2…形態素解析部,3…情報文解析部,4…
情報文パターン辞書部,5…パターン間関係テーブル部,6
…情報文パターン判定部,7…項目内容抽出部,8…文書内
容テーブル作成部,9…文書内容テーブル蓄積部,10…質
問文解析部、11…質問文パターン判定部,12…回答抽出
部,13…回答表示部。FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram showing an example of a document file, FIG. 3 is a diagram showing an example of the relationship between the notation of a word dictionary and semantic attributes, FIG. Is a diagram showing an example of a processing result of the information sentence analyzing unit, FIG. 5 is a diagram showing an example of an information sentence pattern, FIG. 6 is a diagram showing an example of a document content table, and FIG. Figure showing an example of a table,
FIG. 8 is a diagram showing an example of a document content search process. 1. Word dictionary unit, 2. Morphological analysis unit, 3. Information sentence analysis unit, 4.
Information sentence pattern dictionary part, 5… Pattern relation table part, 6
… Information sentence pattern judgment unit, 7… item content extraction unit, 8… document content table creation unit, 9… document content table storage unit, 10… question sentence analysis unit, 11… question sentence pattern judgment unit, 12… answer extraction unit , 13… An answer display part.
Claims (1)
単語の表記と該単語の品詞と意味属性とからなる単語情
報および文節情報を抽出する形態素解析部と, 文書ファイル中の情報文を読み出して前記形態素解析部
に送って,単語情報を得る情報文解析部と, 項目属性と単語と意味属性との列からなる文節パターン
の組み合わせで表した情報文パターンを蓄積した情報文
パターン辞書部と, 項目属性と単語と意味属性との列からなる文節パターン
の組み合わせで表した質問文パターンと該質問文パター
ンに対応する前記情報文パターンと回答すべき項目属性
を表す回答項目属性とを定義したパターン間関係テーブ
ルを蓄積したパターン間関係テーブル部と, 前記情報文解析部で得られた単語情報と,前記情報文パ
ターン辞書部に蓄積された情報文パターンとを参照し
て,各情報文がどの情報文パターンに属するかを決定す
る情報文パターン判定部と, 被抽出文から抽出された単語情報と文節情報とを基に,
参照文パターン中の文節パターンとの照合を行うことに
より,該参照文パターン中の項目属性に対応する項目内
容を該被抽出文中から抽出する項目内容抽出部と, 各情報文において,該情報文を被抽出文とし,該情報文
に対して前記情報文パターン判定部で決定された情報文
パターンを参照文パターンとして,前記項目内容抽出部
を起動して,項目内容を抽出して,情報文パターン毎
に,該情報文パターンに属する情報文と,各情報文毎に
各項目属性の項目内容とを記述した文書内容テーブルを
作成する文書内容テーブル作成部と, 質問分を前記形態素解析部に送って,該質問文に対する
単語情報と文節情報とを得る質問文解析部と, 前記質問文解析部で得られた単語情報と,前記パターン
間関係テーブル部に蓄積されたパターン間関係テーブル
中の質問文パターンとを参照して,該質問文がどの質問
文パターンに属するかを決定し,該質問文パターン中に
含まれる項目属性と該質問文パターンに対応する情報文
パターンと回答項目属性とを得る質問文パターン判定部
と, 前記質問文を被抽出文とし,前記質問文パターン判定部
で前記質問文に対して決定された質問文パターンを参照
文パターンとして,前記項目内容抽出部を起動して,該
質問文パターン中の各項目属性に対応する項目内容を抽
出し,前記質問文パターン中の各項目属性において,前
記質問文パターン判定部で得られた情報文パターンに対
応する情報文の前記文書内容テーブルの項目内容が,前
記質問文から抽出された前記項目内容と一致する情報文
を決定し,該情報文の項目内容の中から,前記回答項目
属性と一致する項目属性の項目内容を抽出する回答抽出
部と, 前記回答抽出部で抽出された項目内容を基に,回答内容
を表示する回答表示部とを, 有することを特徴とする文書内容検索装置。1. A morphological analysis unit for extracting word information and phrase information comprising a notation of a word constituting a parsed sentence, a part of speech and a semantic attribute of the word with reference to a word dictionary, and information in a document file. An information sentence analysis unit that reads out a sentence and sends it to the morphological analysis unit to obtain word information; and an information sentence pattern that stores an information sentence pattern represented by a combination of a clause pattern consisting of a column of item attributes, words, and semantic attributes A dictionary part, a question sentence pattern represented by a combination of phrase patterns composed of columns of item attributes, words, and semantic attributes; an answer item attribute representing the information sentence pattern corresponding to the question sentence pattern; A pattern relation table unit that stores a pattern relation table that defines the information, word information obtained by the information sentence analysis unit, and an information sentence pattern dictionary that is stored in the information sentence pattern dictionary unit. An information sentence pattern determining unit that determines which information sentence pattern each information sentence belongs to with reference to the information sentence pattern, and based on the word information and phrase information extracted from the extracted sentence,
An item content extraction unit for extracting an item content corresponding to an item attribute in the reference sentence pattern from the extracted sentence by performing a matching with a phrase pattern in the reference sentence pattern; Is used as an extracted sentence, and the information sentence pattern determined by the information sentence pattern determination unit for the information sentence is used as a reference sentence pattern. For each pattern, a document content table creating unit for creating a document content table describing information sentences belonging to the information sentence pattern and item contents of each item attribute for each information sentence; A question sentence analysis unit for sending word information and phrase information for the question sentence, a word information obtained by the question sentence analysis unit, and an inter-pattern relation table stored in the inter-pattern relation table unit. The question text pattern in the table is referred to to determine which question text pattern the question text belongs to, and the item attributes included in the question text pattern, the information text pattern corresponding to the question text pattern, and the answer A question sentence pattern determining unit for obtaining an item attribute, the question sentence as an extracted sentence, and the question content pattern determined for the question sentence by the question sentence pattern determining unit as a reference sentence pattern; Activate the section and extract the item contents corresponding to each item attribute in the question sentence pattern, and in each item attribute in the question sentence pattern, correspond to the information sentence pattern obtained by the question sentence pattern determination section. An information sentence whose item content in the document content table of the information sentence matches the item content extracted from the question sentence is determined, and the answer item attribute and the answer item attribute are determined from the item content of the information sentence. A document content search device comprising: an answer extraction unit for extracting item contents of a matching item attribute; and an answer display unit for displaying answer contents based on the item contents extracted by the answer extraction unit. .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2206030A JP2885489B2 (en) | 1990-08-03 | 1990-08-03 | Document content search device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2206030A JP2885489B2 (en) | 1990-08-03 | 1990-08-03 | Document content search device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0490052A JPH0490052A (en) | 1992-03-24 |
| JP2885489B2 true JP2885489B2 (en) | 1999-04-26 |
Family
ID=16516736
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2206030A Expired - Fee Related JP2885489B2 (en) | 1990-08-03 | 1990-08-03 | Document content search device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2885489B2 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3207947B2 (en) * | 1992-11-26 | 2001-09-10 | 日本電信電話株式会社 | Content extraction device |
| JP3317767B2 (en) * | 1993-11-30 | 2002-08-26 | 日本電信電話株式会社 | Automatic database creation device |
| JP2001101162A (en) * | 1999-09-27 | 2001-04-13 | Just Syst Corp | Document processing device and storage medium storing document processing program |
| JP2022169011A (en) * | 2021-04-27 | 2022-11-09 | 大日本印刷株式会社 | Input sentence verification device and program |
-
1990
- 1990-08-03 JP JP2206030A patent/JP2885489B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0490052A (en) | 1992-03-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2783558B2 (en) | Summary generation method and summary generation device | |
| US7343371B2 (en) | Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus | |
| JP4654776B2 (en) | Question answering system, data retrieval method, and computer program | |
| US7493252B1 (en) | Method and system to analyze data | |
| US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
| JP2742115B2 (en) | Similar document search device | |
| JP6505421B2 (en) | Information extraction support device, method and program | |
| CN110297880B (en) | Corpus product recommendation method, apparatus, device and storage medium | |
| CN106649778A (en) | Interactive method and device based on deep questions and answers | |
| CN114238654A (en) | Knowledge graph construction method and device and computer readable storage medium | |
| CN112818005A (en) | Structured data searching method, device, equipment and storage medium | |
| US20070011160A1 (en) | Literacy automation software | |
| JP2885489B2 (en) | Document content search device | |
| JP4005343B2 (en) | Information retrieval system | |
| JP2005115468A (en) | Text mining device, text mining method, and text mining program | |
| KR100376931B1 (en) | A Method of Database System Implementation for Korean-English Translation Using Information Retrieval Techniques | |
| JPH06149887A (en) | Text type database device | |
| JP3943005B2 (en) | Information retrieval program | |
| Sinclair | 4.2 Corpus processing | |
| CN118643115B (en) | Educational AI content generation method, system and equipment based on knowledge base | |
| JP3239845B2 (en) | Full-text search apparatus and method | |
| JPS63228326A (en) | Automatic key word extracting system | |
| JP3501240B2 (en) | Document creation support device | |
| TWI221991B (en) | Computer system capable of processing inquiry of natural language | |
| CN121501921A (en) | Rail transit document retrieval methods, devices, electronic equipment and storage media |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090212 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090212 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100212 Year of fee payment: 11 |
|
| LAPS | Cancellation because of no payment of annual fees |