JP2806867B2 - Document database construction method, display method, and display device - Google Patents
Document database construction method, display method, and display deviceInfo
- Publication number
- JP2806867B2 JP2806867B2 JP8087013A JP8701396A JP2806867B2 JP 2806867 B2 JP2806867 B2 JP 2806867B2 JP 8087013 A JP8087013 A JP 8087013A JP 8701396 A JP8701396 A JP 8701396A JP 2806867 B2 JP2806867 B2 JP 2806867B2
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- sentence
- network
- document
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 107
- 238000010276 construction Methods 0.000 title claims 3
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 62
- 230000008569 process Effects 0.000 description 55
- 238000010411 cooking Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 239000003086 colorant Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 241001539176 Hime Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001446467 Mama Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】[0001]
【発明の属する技術分野】本発明は、新聞記事、技術文
書、文芸著作文書等より特定な単語を抽出し、その単語
同士をネットワーク形式で関係付けるドキュメントデー
タベースに関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document database for extracting specific words from newspaper articles, technical documents, literary works, etc., and relating the words in a network format.
【0002】[0002]
【従来の技術】近年、新聞記事、技術文書、あるいは文
芸著作文書等は電子化されているものが増えているが、
これらの電子化文書群の中には著者によるキーワードや
要約が作成されていないものも多く、電子計算機上で主
題の抽出を行い要約の自動作成を行う試みが種々なされ
ている。2. Description of the Related Art In recent years, newspaper articles, technical documents, literary works, and the like have been digitized.
Many of these digitized documents do not have keywords or summaries created by the authors, and various attempts have been made to extract subjects and automatically create summaries on electronic computers.
【0003】特定の文書から主題を示す単語または文を
抽出する方法としては、第1にキーワードの出現頻度を
利用する方法、第2に言語的な解析を行う方法が挙げら
れる。As a method of extracting a word or a sentence indicating a subject from a specific document, first, a method of utilizing the frequency of appearance of a keyword, and second, a method of performing linguistic analysis.
【0004】前者は、「一般に、文書中で強調したい事
柄はくり返し述べられるものであり、頻繁に出現する単
語が文書の主題を示す可能性が高い」という理論に基づ
いている。しかし、自立語のなかには、「そして」、
「その」、「この」、「早く」、「(そんな)こと」、
「か(よわい)」、「(つやっ)ぽい」等のように、言
語機能として出現する単語(接続詞、連体詞、副詞、形
式名詞、接頭辞、接尾辞、指示代名詞の一部等)があ
る。このため、単に出現頻度だけで重要単語を決定する
ことはできない。このような言語機能単語を除外した上
で単独で意味をもち、文書の特徴を表わす単語を抽出し
なければならない。そのためにまず、大量の語彙をもつ
重要語リストを予め準備しておいてから文書中の単一語
の出現頻度を計算してキーワードを決定する。このキー
ワードの決定に際しては後述の言語的解析の結果を利用
してもよい。そしてこのキーワード群のうち出現頻度の
高い単語をもとに要約を生成する。[0004] The former, "in general, what you want to emphasize in the document are those mentioned repeatedly, frequently there is a high possibility that indicate the subject matter of the document words that appear" is based on the theory that. However, in the independent words, "and"
"That", "this", "early", "(that)",
There are words (such as connectives, adnominals, adverbs, formal nouns, prefixes, suffixes, part of demonstrative pronouns, etc.) that appear as linguistic functions, such as "ka (Yoi)" and "(tsuya) pi". . For this reason, it is not possible to determine an important word simply based on the appearance frequency. After excluding such language function words, it is necessary to extract words that have a meaning alone and represent the features of the document. For that purpose, first, an important word list having a large vocabulary is prepared in advance, and then the appearance frequency of a single word in the document is calculated to determine a keyword. In determining this keyword, a result of a linguistic analysis described later may be used. Then, an abstract is generated based on words having a high appearance frequency in the keyword group.
【0005】ところが、この方法では同義語などによっ
て単語が言い換えられている文書には対応できないた
め、単純にキーワードの出現頻度だけでは適確に手段を
抽出することは困難である。[0005] However, this method cannot cope with a document in which words are paraphrased by synonyms or the like, so that it is difficult to accurately extract means only by simply using the appearance frequency of keywords.
【0006】さらに、同義語に対応するためには大規模
なシソーラス(類義語辞書)を用意しておかなくてはな
らず、システムの負荷が大きくなるという問題もある。
一方、後者の言語解析は、接続詞や文の構造に注目して
これらに関する固有のパラメータを設定することで重要
語を決定し、文と文の関係や文書の論理構造を解析する
方法である。Further, a large-scale thesaurus (synonym dictionary) must be prepared in order to cope with synonyms, which causes a problem that the load on the system increases.
On the other hand, the latter language analysis is a method of determining important words by setting unique parameters related to the conjunctions and the structure of the sentence by focusing on the structure of the conjunction and the sentence, and analyzing the relation between the sentences and the logical structure of the document.
【0007】この手法によれば、「は」、「が」を付属
語として伴っている名詞句や、文末が「だ」、「であ
る」などで終わる文の最後尾にある単語を重要語とす
る。たとえば、「明日の天気は晴れでしょう」という文
の場合、「は」を伴う名詞句「天気」が重要語となる。According to this method, a noun phrase with "ha" and "ga" as adjuncts, or a word at the end of a sentence ending with "da" or "da-na" is used as an important word. And For example, in the sentence "Tomorrow's weather will be fine", the noun phrase "weather" accompanied by "ha" is an important word.
【0008】この方法では、対象とする文書内容を分野
的に限定(たとえば技術文書のみに限定)すれば効果的
ではあるが、文芸著作文書のように、「ある日」、「や
がて」などの接続詞や主人公の行動の記述から物語の展
開を判断する場合には異なる固有パラメータが必要とな
ってしまう。In this method, it is effective if the contents of the target document are limited in terms of the field (for example, only technical documents). However, as in a literary work document, it is effective to use "one day", "soon", etc. When judging the development of the story from the conjunction or the description of the hero's action, different unique parameters are required.
【0009】[0009]
【発明が解決しようとする課題】本発明は、上記の問題
点に鑑みてなされたものであり、(1)単語辞書や文法
に関する知識を構築することなく、(2)文書内容の分
野を限定せずに、(3)人間が文書の前処理等の介入を
することなく、文書内容の適確な把握が可能な主題抽出
および表現生成を自動的に行うことを課題とする。SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and (1) limits the field of document contents without building knowledge on word dictionaries and grammar. (3) It is an object of the present invention to automatically perform subject extraction and expression generation capable of accurately grasping the contents of a document without human intervention such as document preprocessing.
【0010】[0010]
【課題を解決するための手段】本発明は、まず与えられ
た文書から自立語を抽出する自立語抽出ステップを実行
する。このステップでは文の中から自立語を抽出する作
業を行う。本発明でいう「自立語」とは単独で意味をな
す単語を指し、たとえば「料理の先生になりたい」とい
う文の場合、「料理」、「先生」および「なる」が自立
語である。According to the present invention, first, an independent word extraction step for extracting an independent word from a given document is executed. In this step, an operation of extracting an independent word from a sentence is performed. The “independent word” in the present invention refers to a word that has a meaning alone. For example, in the case of the sentence “I want to be a cooking teacher”, “cooking”, “teacher”, and “become” are independent words.
【0011】次に、前記で抽出された各自立語に対する
共起単語とその共起回数を記録する共起テーブルを作成
する共起テーブル作成ステップが実行される。本発明で
いう「共起」とは同一文中に同時に存在する二つの自立
語間の関係をいう。すなわち同一文中に同時に複数の自
立語が存在する場合にはそれらの自立語は互いに共起し
ている、または、共起関係にあるという。また、互いに
共起関係にある2つの自立語が存在する場合に、一方の
自立語を他方の自立語に対する共起単語という。Next, a co-occurrence table creation step of creating a co-occurrence table for recording the co-occurrence words and the number of times of co-occurrence for each of the extracted independent words is executed. The term “co-occurrence” in the present invention refers to a relationship between two independent words that exist simultaneously in the same sentence. That is, when a plurality of independent words exist in the same sentence at the same time, these independent words are said to co-occur with each other or to have a co-occurrence relationship. When two independent words having a co-occurrence relation exist, one independent word is referred to as a co-occurring word with respect to the other independent word.
【0012】ここで、共起テーブルの具体例を図1およ
び図2に示す。図1は、文1「料理の先生になりた
い」、文2「料理学校の先生です」という2つの文に基
づいて共起テーブルを作成する例を示している。同図に
おいて、文1の自立語として「料理」、「先生」および
「なる」が抽出され、文2の自立語として「料理」、
「学校」および「先生」が抽出される。これらの自立語
と共起関係にある同図右側の共起単語が抽出され共起回
数が算出される。たとえば、「料理」という自立語は文
1と文2の双方に存在しており、この「料理」という自
立語に対して「先生」という共起単語は文1に1回、文
2に1回出現しており合計2回共起されている。したが
って自立語「料理」に対する共起単語「先生」の共起回
数は2となる。Here, specific examples of the co-occurrence table are shown in FIG. 1 and FIG. FIG. 1 shows an example of creating a co-occurrence table based on two sentences, sentence 1 “I want to be a cooking teacher” and sentence 2 “I am a cooking school teacher”. In the figure, “cooking”, “teacher”, and “nar” are extracted as independent words of sentence 1, and “cooking”,
"School" and "teacher" are extracted. The co-occurrence words on the right side of the figure that are co-occurring with these independent words are extracted and the number of co-occurrence is calculated. For example, the independent word “cooking” exists in both sentence 1 and sentence 2, and for the independent word “cooking”, the co-occurrence word “teacher” occurs once in sentence 1 and 1 in sentence 2 Appeared twice and co-occurred twice. Therefore, the co-occurrence frequency of the co-occurrence word “teacher” with respect to the independent word “cooking” is 2.
【0013】図2は、「料理の先生になるために、料理
学校に通っている」という文に基づいて共起テーブルを
作成する例を示している。次に、前記共起テーブルに基
づいて共起関係の強さを表わす共起確率を算出する共起
確率算出ステップが実行される。ここで共起確率とは、
ある自立語wiが出現したとき、wiに対する共起単語
cjがwiと共起する確率P(cj/wi)であり、下記
の(1)式により算出可能である。FIG. 2 shows an example in which a co-occurrence table is created based on the sentence "I attend a cooking school to become a cooking teacher." Next, a co-occurrence probability calculation step of calculating a co-occurrence probability indicating the strength of the co-occurrence relationship based on the co-occurrence table is executed. Here, the co-occurrence probability is
When there is independent word wi appeared, it is the probability co-occurrence word cj for w i is co-occur with wi P (cj / wi), can be calculated by the following equation (1).
【0014】 P(cj/wi)=M(cj/wi)/Nwi ・・・・・ (1) ただし、 wi:自立語(1≦i≦NB、NB:一文書中の総語量
数) cj:自立語wiに対する共起単語(1≦J≦N
b(wi)、Nb(wi:wiに対する共起単語数)
M(cj/wi):自立語wiとそれに対する共起単語
cjとの共起回数 Nwi:自立語wiの出現数 前記(1)式により算出される共起確率は、自立語wi
の生起という条件つき確率であり、wiからそれに対す
る共起単語cjへの意味的な繋がりを示すから、この情
報を「自立語wi→共起単語cj」のような片方向リン
クにより表現することができる。[0014] P (c j / w i) = M (c j / wi) / N wi ····· (1) However, w i: independent words (1 ≦ i ≦ N B, N B: one document the total word amount number) c j in: co-occurrence word for independent words w i (1 ≦ J ≦ N
b (wi), N b ( wi: the number of co-occurrence word for the wi)
M (c j / w i): co-occurrence frequency of the independent words w i and the co-occurrence word c j thereto N wi: the co-occurrence probability calculated by the number of occurrences of (1) of independent words w i is independent word w i
It is the conditional probability of the occurrence of, because shows the semantic links from w i to the co-occurrence word c j for it, one-way links, such as the information "independent word w i → co-occurrence word c j" Can be expressed by
【0015】続いて、本発明は、共起回数の期待値を算
出する共起回数期待値算出ステップを実行する。共起回
数の期待値E(cj/wi)は下記の(2)式により算
出することができる。Subsequently, the present invention executes a co-occurrence number expected value calculating step of calculating an expected value of the co-occurrence number. The expected value E (c j / w i ) of the co-occurrence count can be calculated by the following equation (2).
【0016】 E(cj/wi)=Ns・{1−(1−Pcj)m−(1−Pwi)m +(1−Pcj)m・(1−Pwi)m} ・・・・ (2) ただし、 Ns:一文書中の総文数 Ni:総自立語数 m:一文中の平均自立語数 Pcj=Ncj/NI Pcj:共起単語cjの出現
確率 Pwi=Nwi/NI Pwi:自立語wiの出現確
率 m−NI/Ns 次に、期待値E(cj/wi)と実際の共起回数M(c
j/wi)を比較して、一定の条件を満たす自立語とそ
れに対する共起単語との組み合わせを抽出する主題示唆
自立語群選定ステップが実行される。一定の条件として
は、下記の(3)式を例示することができる。[0016] E (c j / w i) = N s · {1- (1-P cj) m - (1-P wi) m + (1-P cj) m · (1-P wi) m} ... (2) However, N s: one Sobun number in the document N i: total independence number of words m: average independence number of words in a sentence P cj = N cj / N I P cj: the co-occurrence word c j the occurrence probability P wi = N wi / N I P wi: independent words w i occurrence probability m-N I / N s then, the expected value E (c j / w i) and the actual co-occurrence number of times M (c
A subject suggestion independent word group selection step of extracting a combination of an independent word satisfying a certain condition and a co-occurring word corresponding thereto is executed by comparing j / wi ) . As the constant condition, the following equation (3) can be exemplified.
【0017】 M(cj/wi)>E(cj/wi) ・・・・・ (3) そして、上記の(3)式を満たせば期待値E(cj/w
i)よりも実際の共起回数M(cj/wi)が大きいこ
とになり、自立語wiと共起単語cjとの意味的な繋が
りがあるといえる。しかし、文書中の総自立語数NIに
対して語量数NBが極端に少ない場合、たとえば子供向
けの物語などのように少ない語量での繰り返しが多い場
合には、意味的な繋がりが非常に弱くても上記の(3)
式の条件を満たす自立語と共起単語の組み合わせが多数
出現することになる。M (c j / w i )> E (c j / w i ) (3) Then, if the above equation (3) is satisfied, the expected value E (c j / w)
i) the actual co-occurrence number will be M (c j / w i) is greater than, it can be said that there is a semantic connection between independent words w i and the co-occurrence word c j. However, the case is extremely small word equivalent number N B with respect to the total independence number of words N I in the document, for example, when repeated often with a small word amount, such as the story of a child-friendly, semantic connection is (3) above even if it is very weak
Many combinations of independent words and co-occurring words that satisfy the condition of the expression will appear.
【0018】そこで、一単語の平均出現数を考慮し、こ
こでは次の(4)式を満たす場合のみを共起関係が強い
と判断してもよい。 M(cj/wi)>E(cj/wi)+α・NI/NB ・・・・・(4) αはたとえば、実験的に求めることができる。Therefore, considering the average number of appearances of one word, it may be determined that the co-occurrence relation is strong only when the following expression (4) is satisfied. M (c j / w i) > E (c j / w it) + α · N I / N B ····· (4) α , for example, can be determined experimentally.
【0019】図3は総自立語数5984語、語量数11
98語の共起データを用いてα=1.5に設定した共起
回数M(cj/wi)とその期待値E(cj/wi)と
の関係を示したグラフ図である。図4は同様の条件でα
=2.5とした場合、図5は同様の条件でα=0.5と
した場合である。図3〜図5におけるプロットの点は共
起した自立語の組み合わせを示し、各図の実線よりも上
にある点は前記(4)式を満たすことになる。すなわち
αを大きくすればより強い共起関係を有する情報のみを
抽出することができ、小さくすれば共起関係のより弱い
情報まで抽出可能である。このαの設定は初期値として
例えば1.5とし、ユーザーにより任意に変更可能とし
てもよい。FIG. 3 shows a total of 5984 words and 11 words.
FIG. 9 is a graph showing the relationship between the number of co-occurrences M (c j / w i ) set to α = 1.5 using 98 words of co-occurrence data and its expected value E (c j / w i ). . FIG. 4 shows α under similar conditions.
FIG. 5 shows a case where α = 0.5 under the same conditions. Points in the plots in FIGS. 3 to 5 indicate combinations of co-occurring independent words, and points above the solid line in each of the figures satisfy the above equation (4). That is, if α is increased, only information having a stronger co-occurrence relationship can be extracted, and if α is decreased, information having a weaker co-occurrence relationship can be extracted. The setting of α may be 1.5 as an initial value, for example, and may be arbitrarily changed by the user.
【0020】次に、本発明は、共起ネットワーク生成ス
テップを実行し、自立語からそれに対する共起単語への
リンクの設定および共起ネットワークの生成を行う。す
なわち、強い共起関係にある自立語群が持つ意味的な繋
がりを自立語wiからそれに対する共起単語cjへのリ
ンクによって表現し、前述の共起確率P(cj/wi)
をリンクの表示形態に反映して共起関係の強さを示すこ
とにより、文書の主題を可視的に表す共起ネットワーク
を生成して表示する。この共起ネットワークは、例え
ば、主題示唆自立語群選定ステップで選定された自立語
群の各自立語を表す文字列と、これらの共起関係にある
自立語それぞれを表す文字列の間を視覚的に結ぶ共起線
とをCRT等の画面上で形成することができる。Next, the present invention executes a co-occurrence network generation step to set a link from an independent word to a co-occurrence word corresponding thereto and to generate a co-occurrence network. That is, strong semantic connection to the co-occurrence relation is to have the independent word group represented by a link from the independent word w i to the co-occurrence word c j thereto, the aforementioned co-occurrence probability P (c j / w i)
Is reflected in the link display form to indicate the strength of the co-occurrence relationship, thereby generating and displaying a co-occurrence network that visually represents the subject of the document. This co-occurrence network, for example, visually recognizes a character string representing each independent word of the independent word group selected in the subject suggestion independent word group selection step and a character string representing each of these independent words having a co-occurrence relationship. A co-occurrence line that is supposed to be connected can be formed on a screen such as a CRT.
【0021】共起線は、例えば、ある自立語とそれに対
する共起単語の共起確率の大きさによってその線種、
色、濃淡、向き、長さ、又は太さが決定される線もしく
は矢印を例示できる。さらに、共起確率の大きさを、三
次元表現によって視覚的に区別できるようにしてもよ
い。The co-occurrence line is, for example, a line type according to the magnitude of the co-occurrence probability of a certain independent word and the co-occurrence word corresponding thereto.
A line or an arrow whose color, shade, direction, length, or thickness is determined can be exemplified. Further, the magnitude of the co-occurrence probability may be visually distinguishable by a three-dimensional expression.
【0022】ここで、生成された共起ネットワークの実
例を図6に示す。このような共起ネットワークは、CR
T画面またはプリンタ等の出力装置によって表示して可
視化することができ、文書の主題の把握が可視的に容易
となっている。FIG. 6 shows an example of the generated co-occurrence network. Such a co-occurrence network is called CR
It can be displayed and visualized by an output device such as a T screen or a printer, and the subject of the document can be easily visually recognized.
【0023】ここでは、リンクの表示形態として矢印及
び線を用い、この矢印及び線の太さを共起確率P(cj
/wi)の強弱によって以下に示すような3段階に分け
ている。Here, an arrow and a line are used as the display form of the link, and the thickness of the arrow and the line is determined by the co-occurrence probability P (c j
/ W i ) is divided into three stages as shown below, depending on the strength of / wi.
【0024】[0024]
【表1】 このような表は、テーブル形式(たとえばレベルテーブ
ル)として電子計算機の記憶装置上に保持していてもよ
い。[Table 1] Such a table may be stored in a storage device of the computer as a table format (for example, a level table).
【0025】図6における丸付き数字は上記表1のレベ
ルに対応している。同図では自立語「ママ」から、それ
に対する共起単語である「私」へのリンクが最も強いこ
とがわかる。The numbers with circles in FIG. 6 correspond to the levels in Table 1 above. In the figure, it can be seen that the link from the independent word "Mama" to the co-occurring word "I" is the strongest.
【0026】このように本発明では、大規模な文法辞書
を構築することなく文書の主題を抽出することができ
る。さらにネットワーク形式で主題を示唆し得る自立語
の意味的な繋がりを可視的に表現できるため、マニュア
ルによる検索、電子計算機による自動検索も極めて効率
的に行うことができる。As described above, according to the present invention, the subject of a document can be extracted without constructing a large-scale grammar dictionary. Further, since the semantic connection of the independent words that can suggest the subject can be visually expressed in a network format, a manual search and an automatic search by a computer can be performed extremely efficiently.
【0027】加えて、要約作成に必要な文法知識をこの
ネットワーク出力を参照して人間が補ってやることによ
りこのネットワーク出力からさらに主題抽出、要約生成
が可能であり、キーワードのみの情報に較べより詳細な
文章把握が可能となる。In addition, a human can supplement the grammar knowledge necessary for summarization by referring to the network output, so that the subject can be further extracted and the summarization can be generated from the network output. Detailed text comprehension becomes possible.
【0028】さらに本発明では、主題示唆単語の抽出に
際して定数((4)式のα)を可変にしたことから、ユ
ーザの要求に合わせて抽出(表示)するリンクを自由に
増減することができる。そのため、少ない語量で構成さ
れている昔話等の物語から、多数の語葉が存在する技術
文書に至るまで文書の内容を問わずにデータベースの作
成、共起ネットワークの生成が可能である。Furthermore, in the present invention, since the constant (α in equation (4)) is made variable when extracting the subject suggestion words, the number of links to be extracted (displayed) can be freely increased or decreased according to the user's request. . For this reason, it is possible to create a database and generate a co-occurrence network regardless of the contents of a document, from a story such as an old story composed of a small amount of words to a technical document having a large number of words.
【0029】また、本発明は、ユーザが共起ネットワー
クを参照することにより必要な原文章を判別し、その原
文章を取得するするための操作を容易に行えるようにす
るため、CRT等の表示装置を利用した以下のような方
法を提供する。Also, the present invention provides a method of displaying a CRT or the like in order to allow a user to determine a required original text by referring to a co-occurrence network and to easily perform an operation for acquiring the original text. The following method using an apparatus is provided.
【0030】すなわち、本発明は、共起ネットワーク生
成ステップにおいて生成された1つあるいは2つ以上の
共起ネットワークを検索し、任意のキーワードを自立語
として含む1つあるいは2つ以上の共起ネットワークを
抽出して画面表示する文書検索ステップと、この文書検
索ステップで画面表示された1つあるいは2つ以上の共
起ネットワークのうちの任意の共起ネットワークに対応
する文書の原文章を読み出して画面表示する原文参照ス
テップとを実行する。That is, the present invention searches one or more co-occurrence networks generated in the co-occurrence network generation step, and searches for one or more co-occurrence networks including an arbitrary keyword as an independent word. A document retrieval step for extracting and displaying the screen, and reading out the original text of a document corresponding to an arbitrary co-occurrence network among one or more co-occurrence networks displayed on the screen in the document retrieval step And performing a text reference step to be displayed.
【0031】文書検索ステップでは、表示装置の画面上
に、キーワードを特定する検索式を入力するための検索
式入力部と、検索実行命令を入力するための検索実行命
令入力部とを表示するようにしてもよい。このとき、ユ
ーザは、キーボード等の入力装置を利用して検索式を入
力して、検索実行命令入力部に検索実行命令を入力す
る。検索式と検索実行命令とが入力されると、文書検索
ステップでは、共起ネットワーク生成ステップで生成さ
れた1つあるいは2つ以上の共起ネットワークを検索
し、前記検索式によって特定されるキーワードを含む共
起ネットワークが抽出される。抽出された共起ネットワ
ークは、CRT等によって画面表示される。In the document search step, a search formula input section for inputting a search formula for specifying a keyword and a search execution command input section for inputting a search execution command are displayed on the screen of the display device. It may be. At this time, the user inputs a search expression using an input device such as a keyboard, and inputs a search execution command to the search execution command input unit. When a search expression and a search execution command are input, in the document search step, one or two or more co-occurrence networks generated in the co-occurrence network generation step are searched, and a keyword specified by the search expression is searched. The included co-occurrence network is extracted. The extracted co-occurrence network is displayed on a screen by a CRT or the like.
【0032】共起ネットワークを画面表示する際には、
例えば、キーワードと一致する自立語を強調又は他と区
別して表示するようにしてもよい。強調または区別する
方法としては、キーワードと一致する自立語を他の自立
語とは異なる色、書体、あるいは大きさ等で表示する方
法を例示できる。When displaying the co-occurrence network on the screen,
For example, an independent word that matches a keyword may be displayed emphasized or distinguished from others. The method emphasize or discriminate can illustrate how to display a different color, font, or size, etc. The keywords and match independent words and other independent word.
【0033】また、原文参照ステップにおいて原文章を
画面表示する場合には、原文章の全部を画面表示する方
法と、原文章の一部を画面表示する方法とがある。原文
章の一部を画面表示する場合には、文書検索ステップに
て入力されたキーワードを含む文又は文字列、あるいは
キーワードを含む文又は文字列とその前後の文又は文字
列を表示するようにしてもよい。このとき、キーワード
のみ、あるいはキーワードを含む文を強調して表示する
ようにしてもよい。強調する方法としては、例えば、キ
ーワードのみあるいはキーワードを含む文を網掛け表示
する方法、反転表示する方法、文字の色、書体、大きさ
を他の文字とは異なるようにする方法等を例示できる。When the original text is displayed on the screen in the original text reference step, there are a method of displaying the entire original text on the screen and a method of displaying a part of the original text on the screen. When displaying a part of the original sentence on the screen, display the sentence or character string containing the keyword entered in the document search step, or the sentence or character string containing the keyword and the sentence or character string before and after it. You may. At this time, it may be displayed by highlighting the sentence containing only keywords, or keyword. Examples of the emphasizing method include, for example, a method of displaying only a keyword or a sentence including the keyword in a shaded manner, a method of reversely displaying the same, and a method of making the color, font, and size of characters different from those of other characters. .
【0034】尚、文書検索ステップにて入力されたキー
ワード(第1のキーワード)とは別に、原文参照ステッ
プにて新たなキーワード(第2のキーワード)が入力さ
れた場合には、第2のキーワードを含む文を画面表示す
るようにする。第2のキーワードの指定方法としては、
第2のキーワードの表示座標を位置指定手段によって指
定する方法を例示できる。When a new keyword (second keyword) is input in the original text reference step, separately from the keyword (first keyword) input in the document search step, the second keyword is input. To display the sentence containing As a method of specifying the second keyword,
A method of designating the display coordinates of the second keyword by the position designation means can be exemplified.
【0035】また、原文章の参照を要求する場合には、
その原文章に対応する共起ネットワークの表示座標を位
置指定手段によって指定する方法を例示できる。さら
に、キーワードを含む文が原文章中に複数存在する可能
性があるので、複数ある文のうちの一文を画面表示する
とともに、前記キーワード(検索式)と、キーワードを
含む文が原文章中に幾つあるかを示す数値と、キーワー
ドを含む文のうち現在表示されている文が何番目の文で
あるかを示す数値と、キーワードを含む文のうち現在表
示されている文より前の文の表示命令を入力する前文表
示命令入力部と、キーワードを含む文のうち現在表示さ
れている文より後の文の表示命令を入力する次文表示命
令入力部とを画面表示するようにしてもよい。When requesting reference to the original text,
A method of designating the display coordinates of the co-occurrence network corresponding to the original text by the position designation means can be exemplified. Further, since there may be a plurality of sentences including the keyword in the original sentence, one sentence of the plurality of sentences is displayed on the screen, and the keyword (search formula) and the sentence including the keyword are included in the original sentence. and a number indicating how many, and the numerical value indicating whether the statements that are currently displayed out of the sentence, including the keyword is what the second sentence, the sentence before the sentence that is currently displayed in one of the statements, including the keyword A pre-sentence display instruction input unit for inputting a display instruction and a next sentence display instruction input unit for inputting a display instruction for a sentence after the currently displayed sentence among sentences including a keyword may be displayed on the screen. .
【0036】このとき、ユーザは、キーワードを含む文
が原文章中に幾つあるかを示す数値と、キーワードを含
む文のうち現在表示されている文が何番目の文であるか
を示す数値とを参照することによって、現在表示されて
いる文の前あるいは後にも、キーワードを含む文が存在
することを認識することができる。そして、ユーザが前
文表示命令入力部に前文表示命令を入力すれば、キーワ
ードを含む文のうち現在表示されている文の前の文が画
面表示されるとともに、キーワードを含む文のうち現在
表示されている文が何番目の文であるかを示す数値が1
つデクリメントされる。また、ユーザが次文表示命令入
力部に次文表示命令を入力すれば、キーワードを含む文
のうち現在表示されている文の次の文が画面表示される
とともに、キーワードを含む文のうち現在表示されてい
る文が何番目の文であるかを示す数値が1つインクリメ
ントされる。At this time, the user inputs a numerical value indicating the number of sentences including the keyword in the original sentence, and a numerical value indicating the number of the sentence currently displayed among the sentences including the keyword. , It can be recognized that a sentence including a keyword exists before or after the currently displayed sentence. Then, when the user inputs a preamble display command to the preamble display command input unit, the sentence before the currently displayed sentence among the sentences including the keyword is displayed on the screen, and the currently displayed sentence including the keyword is displayed. The number indicating the number of the sentence is 1
Is decremented by one. Further, if the user inputs the next sentence display command to the next sentence display command input unit, with the following statement statement currently displayed among the sentences containing the keywords is displayed on the screen, of the sentence containing the keywords The number indicating the number of the sentence currently displayed is incremented by one.
【0037】さらに、共起ネットワーク生成ステップに
おいて、生成された共起ネットワークを画面表示する場
合には、期待値に加算される所定の定数を変更する指示
を入力するための定数変更指示入力部を画面表示するよ
うにしてもよい。このとき、定数変更指示入力部に定数
変更指示が入力されると、主題示唆自立語選定ステップ
が再起動されて共起回数と期待値に変更後の定数を加算
した数値とを比較して文書の主題を示唆する自立語を選
定し直す。そして、選定し直された自立語に基づいて共
起ネットワークが作り直されて画面表示される。Further, when displaying the generated co-occurrence network on the screen in the co-occurrence network generation step, a constant change instruction input unit for inputting an instruction to change a predetermined constant added to the expected value is provided. You may make it display on a screen. At this time, if a constant change instruction is input to the constant change instruction input section, the subject suggestion independent word selection step is restarted, and the number of co-occurrences is compared with the expected value and the numerical value obtained by adding the changed constant to the document. Re-select independent words that suggest the subject of Then, the co-occurrence network is re-created based on the re-selected independent words and displayed on the screen.
【0038】次に、本発明のドキュメントデータベース
表示装置について述べる。ドキュメントデータベース表
示装置は、共起テーブル、共起確率算出手段、共起回数
期待値算出手段、主題示唆自立語群選定手段、共起ネッ
トワーク生成手段、キーワード入力手段、文書検索手
段、共起ネットワーク指定手段、及び原文参照手段を備
える。Next, the document database display device of the present invention will be described. The document database display device includes a co-occurrence table, a co-occurrence probability calculation unit, a co-occurrence count expected value calculation unit, a subject suggestion independent word group selection unit, a co-occurrence network generation unit, a keyword input unit, a document search unit, and a co-occurrence network designation. Means and an original text reference means.
【0039】共起テーブルは、与えられた文書から抽出
された自立語毎に、各自立語に対する共起単語とその共
起回数とを記録する。共起確率算出手段は、共起テーブ
ルに基づいて共起関係の強さを表わす共起確率を算出す
る。The co-occurrence table records, for each independent word extracted from a given document, a co-occurring word for each independent word and the number of co-occurrences. The co-occurrence probability calculating means calculates a co-occurrence probability indicating the strength of the co-occurrence relationship based on the co-occurrence table.
【0040】共起回数期待値算出手段は、共起テーブル
に基づいて共起回数の期待値を算出する。主題示唆自立
語群選定手段は、期待値と共起回数とを比較して文書の
主題を示唆する自立語群を選定する。The co-occurrence count expected value calculating means calculates an expected value of the co-occurrence count based on the co-occurrence table. The subject suggestion independent word group selecting means selects an independent word group suggesting the subject of the document by comparing the expected value and the number of times of co-occurrence.
【0041】共起ネットワーク生成手段は、主題示唆自
立語群選定手段によって選定された自立語群の各自立語
を表す文字列と、それらの文字列のうち共起関係にある
文字列間を前記共起確率の大きさに応じた表示形態の共
起線によって結んで共起ネットワークを生成する。The co-occurrence network generation means includes a character string representing each independent word of the independent word group selected by the subject suggestion independent word group selection means, and a character string having a co-occurrence relation among the character strings. The co-occurrence network is generated by connecting the columns by a co-occurrence line having a display form corresponding to the magnitude of the co-occurrence probability.
【0042】キーワード入力手段は、例えば、キーボー
ドであり、ユーザがキーワードを特定する検索式を入力
する装置である。文書検索手段は、共起ネットワーク生
成手段によって生成された1つあるいは2つ以上の共起
ネットワークを検索し、検索式によって特定されるキー
ワードを含む1つあるいは2つ以上の共起ネットワーク
を抽出して画面表示する。The keyword input means is, for example, a keyboard, and is a device for the user to input a search formula for specifying a keyword. The document search means searches one or more co-occurrence networks generated by the co-occurrence network generation means, and extracts one or more co-occurrence networks including a keyword specified by the search expression. Screen display.
【0043】共起ネットワーク指定手段は、文書検索手
段によって画面表示された1つあるいは2つ以上の共起
ネットワークのうちの任意の共起ネットワークを指定す
る。原文参照手段は、共起ネットワーク指定手段によっ
て指定された共起ネットワークに対応する文書の原文章
を読み出し、その原文章の一部あるいは全部を画面表示
する。The co-occurrence network designating means designates any one of two or more co-occurrence networks displayed on the screen by the document search means. The original text reference means reads the original text of the document corresponding to the co-occurrence network specified by the co-occurrence network specifying means, and displays a part or all of the original text on a screen.
【0044】共起ネットワークの共起線は、共起関係に
ある自立語間の共起確率の大きさによってその線種、向
き、色、濃淡、長さ、又は太さが決定される線もしくは
矢印であり、これらの線種、向き、色、濃淡、長さ、又
は太さはユーザによって任意に変更されるようにしても
よい。The co-occurrence line of the co- occurrence network
A line or arrow whose line type, direction, color, shading, length, or thickness is determined by the size of the co-occurrence probability between certain independent words , and these line types, directions, colors, shading, and lengths The thickness or thickness may be arbitrarily changed by the user.
【0045】[0045]
【発明の実施の形態】以下、本発明の実施の形態につい
て図面に基づいて説明する。図7は、本発明の処理の概
念図を示したものである。また図11は本発明の処理の
手順をフローで示したものである。Embodiments of the present invention will be described below with reference to the drawings. FIG. 7 shows a conceptual diagram of the processing of the present invention. FIG. 11 is a flowchart showing the procedure of the process of the present invention.
【0046】本実施の形態の処理は大きく分けて、共起
データベース作成処理(100)と、主題示唆自立語ネ
ットワーク表示処理(200)とからなる。そして、こ
れらの処理を実現するために、16ビット処理好ましく
は32ビット処理以上のCPU、メインメモリ、ハード
ディスク装置等の大容量外部記憶装置、及びCRTまた
はプリンタ等の外部表示・出力装置を備えた電子計算機
システムを用いる。上記の共起データベース作成処理
(100)と主題示唆自立語ネットワーク表示処理(2
00)とは、大容量外部記憶装置より実行プログラムが
CPUに読み込まれて実行される。また、原文章の入力
は予めエディタあるいはワードプロセッサ等のアプリケ
ーションソフトによって入力され、例えばテキストファ
イル形式で大容量外部記憶装置に格納されているものと
する。The processing of this embodiment is roughly divided into a co-occurrence database creation processing (100) and a subject suggestion independent word network display processing (200). In order to realize these processes, a CPU having 16-bit processing, preferably 32-bit processing or more, a large-capacity external storage device such as a main memory and a hard disk device, and an external display / output device such as a CRT or a printer are provided. An electronic computer system is used. The co-occurrence database creation processing (100) and the subject suggestion independent word network display processing (2)
00) means that the execution program is read into the CPU from the large-capacity external storage device and executed. The input of the original text is input in advance by application software such as an editor or a word processor, and is stored in a large-capacity external storage device in, for example, a text file format.
【0047】上記の共起データベース作成処理(10
0)と主題示唆自立語ネットワーク表示処理(200)
とは、単一の電子計算機で実現されるようにしてもよ
く、あるいは共起データベース作成処理(100)を実
現する共起データベース作成装置と、主題示唆自立語ネ
ットワーク表示処理(200)を実現する主題示唆自立
語ネットワーク表示装置とに分け、これらの装置を通信
回線で接続して、電子化された文書データや共起データ
ベース等を通信によって送受信できるようにした形態と
してもよい。さらに、共起データベース作成装置と主題
示唆自立語ネットワーク表示装置とのデータの受け渡し
は通信に限られるものでないことは当然であり、例えば
FDやCD−ROM等の記録媒体に記録して受け渡しを
行う方法等を例示することができる。The above co-occurrence database creation processing (10
0) and subject suggestion independent word network display processing (200)
May be realized by a single computer, or may realize a co-occurrence database creation device for realizing a co-occurrence database creation process (100) and a subject suggestion independent word network display process (200). It may be divided into a subject suggestion independent word network display device, and these devices may be connected by a communication line so that digitized document data, a co-occurrence database, and the like can be transmitted and received by communication. Further, it is natural that the data transfer between the co-occurrence database creation device and the subject suggestion independent word network display device is not limited to communication. For example, the data transfer is performed by recording on a recording medium such as an FD or a CD-ROM. Methods and the like can be exemplified.
【0048】以下、共起データベース作成処理(10
0)、及び主題示唆自立語ネットワーク表示処理(20
0)について述べる。 〈共起データベース作成処理(100)〉共起データベ
ース作成処理(100)は、電子化された文書データか
ら、共起テーブル(TBLn)と、共起確率テーブル
(TBMn)と、期待値テーブル(TBNn)とから構
成される共起データベース(KDB)を作成し、この共
起データベース(KDB)を大容量外部記憶装置(ある
いはメインメモリ)に記録する処理である。この共起デ
ータベース作成処理(100)は、図7に示すように自
立語抽出処理(110)、共起テーブル作成処理(12
0)、共起確率算出処理(130)、及び共起回数期待
値算出処理(140)に分けることができる。The co-occurrence database creation processing (10
0) and subject suggestion independent word network display processing (20
0) will be described. <Co-occurrence database creation process (100)> The co-occurrence database creation process (100) is based on digitized document data, and includes a co-occurrence table (TBLn), a co-occurrence probability table (TBMn), and an expected value table (TBNn). ) Is created, and this co-occurrence database (KDB) is recorded in a large-capacity external storage device (or main memory). The co-occurrence database creation process (100) includes an independent word extraction process (110) and a co-occurrence table creation process (12) as shown in FIG.
0), a co-occurrence probability calculation process (130), and a co-occurrence count expected value calculation process (140).
【0049】自立語抽出処理(110)は、電子化され
た文書データから、自立語を抽出し、その文書中の総自
立語数と語彙数を算出する。共起テーブル作成処理(1
20)は、自立語抽出処理(110)によって抽出され
た自立語毎に、各自立語に対する共起単語とその共起回
数とを登録する共起テーブル(TBLn)を作成する。The independent word extraction process (110) extracts independent words from the digitized document data and calculates the total number of independent words and the number of vocabulary words in the document. Co-occurrence table creation processing (1
20) creates a co-occurrence table (TBLn) for registering, for each independent word extracted by the independent word extraction process (110) , a co-occurring word for each independent word and its co-occurrence count.
【0050】共起確率算出処理(130)は、共起テー
ブル(TBLn)に記録された全自立語に対し、各自立
語がそれに対する共起単語と共起する共起確率を算出す
る。尚、1つの自立語に対して複数の共起単語が存在す
る場合には、各共起単語毎に共起確率を算出する。さら
に、共起確率算出処理(130)では、各自立語毎に、
それに対する共起単語と、その共起単語と共起する共起
確率と、を登録する共起確率テーブル(TBMn)を作
成する。The co-occurrence probability calculation process (130) calculates the co-occurrence probability of each independent word co-occurring with the corresponding co-occurrence word for all independent words recorded in the co-occurrence table (TBLn). When a plurality of co-occurring words exist for one independent word, a co-occurrence probability is calculated for each co-occurring word. Further, in the co-occurrence probability calculation process (130), for each independent word,
A co-occurrence probability table (TBMn) for registering co-occurrence words and co-occurrence probabilities co-occurring with the co-occurrence word is created.
【0051】共起回数期待値算出処理(140)は、共
起テーブル(TBLn)に記録された全自立語に対し、
各自立語のそれに対する共起単語と共起する共起回数の
期待値を算出する。尚、1つの自立語に対して複数の共
起単語が存在する場合には、各共起単語毎に共起回数の
期待値を算出する。そして、各自立語毎に、それに対す
る共起単語とその共起単語と共起する共起回数の期待値
とを登録する期待値テーブル(TBNn)を作成する。The co-occurrence frequency expected value calculation process (140) is performed on all independent words recorded in the co-occurrence table (TBLn).
An expected value of the number of co-occurrences of each independent word co-occurring with the co-occurring word is calculated. When a plurality of co-occurring words exist for one independent word, an expected value of the number of co-occurring times is calculated for each co-occurring word. Then, for each independent word, an expected value table (TBNn) for registering a co-occurring word and an expected value of the number of co-occurrences co-occurring with the co-occurring word is created.
【0052】(主題示唆自立語ネットワーク表示処理
(200)) 主題示唆自立語ネットワーク表示処理(200)は、共
起データベース(KDB)に基づいて共起ネットワーク
を作成し、作成された共起ネットワークをCRTやプリ
ンタ等の出力装置に出力するとともに、共起ネットワー
クの原文章を検索して出力装置に出力する処理である。
本実施の形態では、出力装置としてCRTを用いる。(Subject suggestion independent word network display processing (200)) The subject suggestion independent word network display processing (200) creates a co-occurrence network based on a co-occurrence database (KDB) , and creates the co-occurrence network. This is a process of outputting to an output device such as a CRT or a printer, as well as searching for the original text of the co-occurrence network and outputting it to the output device.
In this embodiment, a CRT is used as an output device.
【0053】主題示唆自立語ネットワーク表示処理(2
00)は、図7に示すように、主題示唆自立語群選定処
理(210)、共起ネットワーク生成処理(220)、
文書検索処理(230)、及び原文参照処理(240)
に分けることができる。Theme suggestion independent word network display processing (2)
00), as shown in FIG. 7, a subject suggestion independent word group selection process (210), a co-occurrence network generation process (220),
Document search processing (230) and original text reference processing (240)
Can be divided into
【0054】主題示唆自立語群選定処理(210)は、
大容量外部記憶装置のなかから、ユーザが指定する文書
データに対応した共起データベース(KDB)、すなわ
ち、共起テーブル(TBLn)と共起確率テーブル(T
BMn)と期待値テーブル(TBNn)とを読み出す。そ
して、全ての自立語について、自立語とそれに対する共
起単語との関係(すなわち、共起回数期待値と実際の共
起回数との関係)が前述の(4)式を満たす自立語とそ
れに対する共起単語との組み合わせを判別し、これらの
組み合わせを登録するテーブルを作成する。通常、
(4)式の定数αには、初期値(1.5)が設定されて
いる。The subject suggestion independent word group selection processing (210)
From a large-capacity external storage device, a co-occurrence database (KDB) corresponding to document data specified by a user, that is, a co-occurrence table (TBLn) and a co-occurrence probability table (T
BMn) and the expected value table (TBNn) are read. Then, for all the independent words, the relationship between the independent word and the co-occurring word corresponding to the independent word (ie, the relationship between the expected co-occurrence count and the actual co-occurrence count) satisfies the above expression (4). Are determined, and a table for registering these combinations is created. Normal,
An initial value (1.5) is set for the constant α in the equation (4).
【0055】共起ネットワーク生成処理(220)は、
主題示唆自立語群選定処理(210)によって作成され
たテーブルを参照し、各文書に対応ずる共起ネットワー
クを作成する。作成された共起ネットワークはCRTに
画面表示される。この共起ネットワークは、前述の図6
に示すように、自立語を示す文字列と、共起関係にある
自立語を示す文字列間を結ぶ共起線とから構成されてい
る。共起線は、共起関係の強さによってその線種、色、
濃淡、長さ、あるいは太さが異なっている。リンクの線
種、色、濃淡、長さ、あるいは太さを決定する場合、共
起確率テーブルの共起確率を参照し、共起確率の大きさ
に応じてリンクの線種、色、長さ、あるいは太さを決定
する。尚、共起関係の強さを差別化する方法としては、
共起関係にある2つの自立語とこれらの自立語間を結ぶ
共起線を三次元表現によって表示し、共起確率の大きさ
によって三次元表現の表現形式を変更する方法も例示で
きる。さらに、共起線を、共起関係の強さに応じた濃淡
で表す場合、ユーザの選択によって共起関係がある程度
以上強いものだけが実質的にユーザに可視になるように
することもできるし、共起関係がより弱いものまで実質
的にユーザに可視となるようにすることもできる。The co-occurrence network generation process (220)
The co-occurrence network corresponding to each document is created with reference to the table created by the subject suggestion independent word group selection process (210). The created co-occurrence network is displayed on the CRT screen. This co-occurrence network is based on FIG.
As shown in FIG. 2, the character string is a word indicating an independent word and a co-occurrence line connecting the character strings indicating the independent words in a co-occurrence relationship. Co-occurrence lines have different line types, colors,
Different shades, lengths, or thicknesses. When determining the line type, color, shading, length, or thickness of a link, refer to the co-occurrence probability in the co-occurrence probability table, and select the line type, color, and length of the link according to the magnitude of the co-occurrence probability. Or determine the thickness. As a method for differentiating the strength of co-occurrence,
A method in which two independent words having a co-occurrence relationship and a co-occurrence line connecting these independent words are displayed in a three-dimensional expression, and the expression form of the three-dimensional expression is changed depending on the magnitude of the co-occurrence probability can also be exemplified. Further, when the co-occurrence line is represented by shading according to the strength of the co-occurrence relation, it is possible to make only those whose co-occurrence relation is stronger than a certain degree by the user's selection substantially visible to the user. Alternatively, even weaker co-occurrence relationships can be made substantially visible to the user.
【0056】共起ネットワーク生成処理(220)で
は、ユーザによって複数の文書が指定された場合には、
各文書毎に共起ネットワークを生成する。そして、それ
らの共起ネットワークを画面上に表示する際には、一画
面上に並べて表示する全文書表示と、一画面上に重ねて
表示する1文書ずつ表示とを、ユーザが選択できるよう
になっている。また、(4)式の定数αの値を変更して
主題示唆自立語群を選定し直し、共起ネットワークの表
現レベル(共起レベル)を変更することも可能である。In the co-occurrence network generation process (220), when a plurality of documents are specified by the user,
A co-occurrence network is generated for each document. When the co-occurrence networks are displayed on the screen, the user can select between displaying all documents arranged side by side on one screen and displaying each document superimposed on one screen. Has become. It is also possible to change the expression level (co-occurrence level) of the co-occurrence network by changing the value of the constant α in equation (4) and re-selecting the subject suggestion independent word group.
【0057】文書検索処理(230)は、ユーザが例え
ばキーボード等からキーワードを入力したときに、共起
ネットワーク生成処理(220)で生成された1つある
いは2つ以上の共起ネットワークを検索して、ユーザが
入力したキーワードを含む共起ネットワークを抽出す
る。ここで、キーワードを含む共起ネットワークが複数
存在する場合には、それらの共起ネットワークは、ユー
ザの選択によって全文書表示あるいは1文書ずつ表示さ
れる。The document search process (230) searches for one or more co-occurrence networks generated in the co-occurrence network generation process (220) when the user inputs a keyword from a keyboard or the like, for example. , A co-occurrence network including the keyword input by the user is extracted. Here, when there are a plurality of co-occurrence networks including a keyword, these co-occurrence networks are displayed as a whole document or one document at a time depending on the selection of the user.
【0058】原文参照処理(240)は、大容量記憶装
置の文書データの中から、ユーザが指定する文書の原文
章を読み出し、画面表示する。原文章を指定する手順と
しては、文書検索処理(230)によって画面表示され
た1つあるいは2つ以上の共起ネットワークのうち、ユ
ーザが希望する文書の共起ネットワークの表示座標を位
置指定手段によって指定すればよい。位置指定手段は、
例えば、マウス等のポインティングデバイスである。
尚、ユーザが、原文章の指定を行う前に、共起ネットワ
ーク上の一又は二以上の任意の自立語の表示位置をポイ
ンティングデバイスによって指定すれば、その自立語が
本発明の第2のキーワードとして認識される。そして、
原文章を表示する際には、原文章の中から、第2のキー
ワードを含む文とその前後の文とがピックアップされて
表示される。このとき、第2のキーワード、あるいは第
2のキーワードを含む文は、網掛け表示や反転表示等の
方法によって強調または区別される。さらに、キーワー
ドを含む文が原文章中に複数存在する場合には、ユーザ
の指定により、キーワードを含む文のうち現在表示され
ている文の前の部分又は文へスクロールまたはジャンプ
したり、次の部分又は文へスクロールまたはジャンプし
たりすることができるようになっている。The original text reference process (240) reads out the original text of the document specified by the user from the document data in the mass storage device and displays it on the screen. As a procedure for designating the original text, the display coordinates of the co-occurrence network of the document desired by the user among one or two or more co-occurrence networks displayed on the screen by the document search process (230) by the position designation means. You can specify it. The position designation means
For example, it is a pointing device such as a mouse.
If the user specifies the display position of one or more arbitrary independent words on the co-occurrence network using a pointing device before designating the original sentence, the independent words are used as the second keyword of the present invention. Will be recognized as And
When displaying the original sentence, a sentence including the second keyword and sentences before and after the sentence are picked up and displayed from the original sentence. At this time, the second keyword or a sentence including the second keyword is emphasized or distinguished by a method such as hatching or reverse display. Further, when there are a plurality of sentences including the keyword in the original sentence, scroll or jump to a portion or a sentence before the currently displayed sentence among the sentences including the keyword, and You can scroll or jump to a part or sentence.
【0059】以下、本実施の形態の作用について述べ
る。先ず、アンデルセン童話の「人魚姫」を例に上げて
共起データベース作成処理(100)の流れについて述
べる。Hereinafter, the operation of the present embodiment will be described. First, the flow of the co-occurrence database creation processing (100) will be described using the example of the Andersen fairy tale “Mermaid Princess”.
【0060】「人魚姫」の文書は、エディタまたはワー
ドプロセッサによってテキスト入力され、文書データと
して大容量外部記憶装置に格納される。この「人魚姫」
の総文数は687であり、これらの文を入力文1,2,
3・・・687とする。The “Mermaid Princess” document is input as text by an editor or a word processor, and is stored as document data in a large-capacity external storage device. This "Mermaid Princess"
Is 687, and these sentences are input sentences 1, 2,
3 ... 687.
【0061】共起データベース作成処理(100)で
は、自立語抽出処理(110)が実行されて、文1〜文
Ns(ここではNs=687)を順次読み出し、各文に
対して自立語wiの抽出が行われる。この自立語抽出処
理(110)は、具体的にはCPUが大容量外部記憶装
置上に設定された自立語・付属語辞書(DIC)を参照
しながら行われる。この自立語・付属語辞書(DIC)
には、自立語の語幹及び活用や、自立語に付随する可能
性のある付属語の接続情報等が格納されている。さら
に、自立語・付属語辞書(DIC)には、本発明の自立
語の対象から除外される自立語、例えば、接続詞、連体
詞、副詞、形式名詞、及び接頭尾辞等の品詞からなる自
立語のように文書の主題となる可能性が低い自立語も格
納されている。In the co-occurrence database creation process (100), an independent word extraction process (110) is executed to sequentially read sentences 1 to Ns (here, Ns = 687), and for each sentence, create an independent word wi An extraction is performed. This independent word extraction processing (110) is specifically performed by the CPU while referring to an independent word / attached word dictionary (DIC) set on a large-capacity external storage device. This independent word / adjunct dictionary (DIC)
Stores the stem and use of the independent word, connection information of an auxiliary word that may accompany the independent word, and the like. Furthermore, the independent word / adjunct dictionary (DIC) includes independent words that are excluded from the subject of the independent words of the present invention, for example, independent words composed of parts of speech such as conjunctions, adverbs, adverbs, formal nouns, and prefixes. Independent words that are unlikely to be the subject of the document, such as
【0062】このようにして、自立語の抽出処理が行わ
れた結果、文書「人魚姫」からは、「人魚」、「姫」、
「王子」、「キス」、「する」および「若い」等の単語
が自立語wiとして抽出された。As a result of the independent word extraction processing, the document “Mermaid” is converted to “Mermaid”, “Princess”,
"The Prince", "kiss", the words such as "" and "young" has been extracted as independent words w i.
【0063】続いて、共起テーブル作成処理(120)
が実行され、自立語抽出処理(110)によって抽出さ
れた自立語wiの各々について、その共起単語cjとそ
の共起回数M(cj/wi)が算出される。そして、各
自立語wi毎に、共起単語cjとその共起回数M(cj
/wi)とを登録する共起テーブル(TBL1)が生成
される。ここで、共起テーブル(TBL1)の具体例を
図8に示す。Subsequently, a co-occurrence table creation process (120)
There is performed, for each independent word w i extracted by the independent word extraction processing (110), the co-occurrence word c j and their co-occurrence count M (c j / w i) is calculated. Then, for each independent word w i , the co-occurrence word c j and its co-occurrence number M (c j
/ W i ) is generated. Here, a specific example of the co-occurrence table (TBL1) is shown in FIG.
【0064】同図に示すように、たとえば自立語「人
魚」とそれに対する共起単語「姫」が文書中で共起した
回数は47回であり、一方、自立語「姫」とそれに対す
る共起単語「人魚」が文書中で共起した回数は50回で
ある。このようにして作成された共起テーブル(TBL
1)は、大容量外部記憶装置に格納される。As shown in the figure, for example, the independent word “mermaid” and its co-occurrence word “hime” co-occur in the document 47 times, while the independent word “hime” and its co-occurrence word “hime” co-occur. The number of times that the word “mermaid” co-occurs in the document is 50 times. The co-occurrence table (TBL) thus created
1) is stored in a large-capacity external storage device.
【0065】次に、共起確率算出処理(130)が実行
され、共起テーブル(TBL1)に登録された共起回数
M(cj/wi)に基づいて共起確率P(cj/wi)
が算出される。共起確率P(cj/wi)の算出は前述
の(1)式に基づいて計算される。例えば、自立語「人
魚」の文書中での出現数Nwiは74回である。したが
って、自立語「人魚」がそれに対する共起単語「姫」と
共起する共起確率P(cj/wi)は、下記のようにな
る。Next, a co-occurrence probability calculation process (130) is executed, and based on the number of co-occurrences M (c j / w i ) registered in the co-occurrence table (TBL1), the co-occurrence probability P (c j / wi) is calculated. w i )
Is calculated. The calculation of the co-occurrence probability P (c j / w i ) is calculated based on the above equation (1). For example, the number of occurrences N wi of the independent word “mermaid” in a document is 74 times. Accordingly, the co-occurrence probability P (c j / w i ) at which the independent word “mermaid” co-occurs with the co-occurrence word “princess” is as follows.
【0066】P(cj/wi)=M(cj/wi)/N
wi=47/74=0.635135 算出された共起確率P(cj/wi)は、自立語wi及
びそれに対する共起単語cjとともに、共起確率テーブ
ル(TBMn)に登録される。P (c j / w i ) = M (c j / w i ) / N
wi = 47/74 = 0.635135 calculated co-occurrence probability P (c j / w i), together with the independent words w i and the co-occurrence word c j thereto, is registered in the co-occurrence probability table (TBMn) .
【0067】図9では、共起確率P(cj/wi)が共
起テーブル(TBL1)と同一形式の共起確率テーブル
(TBMn)に登録されているが、算出された共起確率
P(cj/wi)を、共起テーブル(TBL1)と一定
の関係付けを持たせて大容量外部記憶装置等に格納して
おいてもよい。また、単一のテーブルに、後述の共起回
数期待値E(cj/wi)とともに格納するようにして
もよい。さらに、単一のテーブルに共起回数M(cj/
wi)と共起確率P(cj/wi)と後述の共起回数期
待値E(cj/wi)とを関係付けて格納してもよい。In FIG. 9, the co-occurrence probability P (c j / w i ) is registered in the co-occurrence probability table (TBMn) of the same format as the co-occurrence table (TBL1). (C j / w i ) may be stored in a large-capacity external storage device or the like so as to have a certain relation with the co-occurrence table (TBL1). Further, a single table may be stored together with the co-occurrence count expected value E (c j / w i ) described later. Furthermore, the co-occurrence frequency M (c j /
w i ), the co-occurrence probability P (c j / w i ), and the co-occurrence count expected value E (c j / w i ) described below may be stored in association with each other.
【0068】次に、共起回数期待値算出処理(140)
が実行され、前述の(2)式に基づいて共起回数期待値
E(cj/wi)が算出される。この結果、自立語「人
魚」がそれに対する共起単語「姫」と共起する共起回数
期待値E(cj/wi)は16.575816となる。
以上のようにして算出された共起回数期待値E(cj/
wi)は、自立語wj及びそれに対する共起単語cjと
ともに期待値テーブル(TBNn)に登録され、この期
待値テーブル(TBNn)は大容量外部装置の共起デー
タベースKDBに格納される。Next, the co-occurrence count expected value calculation processing (140)
Is performed, and the co-occurrence count expected value E (c j / w i ) is calculated based on the above-described equation (2). As a result, the co-occurrence frequency expected value E (c j / w i ) at which the independent word “mermaid” co-occurs with the co-occurrence word “princess” is 16.575816.
The co-occurrence count expected value E (c j /
w i ) is registered in the expected value table (TBNn) together with the independent word w j and the co-occurring word c j corresponding thereto, and the expected value table (TBNn) is stored in the co-occurrence database KDB of the large-capacity external device.
【0069】以上の処理を通じて共起データベース(K
DB)の作成処理が完了する。図7では共起テーブル
(TBL1、2、・・・n)と、共起確率P(cj/w
i)を登録する共起確率テーブル(TBM1、2、・・
・n)と、共起回数期待値E(cj/wi)を登録する
期待値テーブル(TBN1、2、・・・n)とが共起デ
ータベース(KDB)を構成している。Through the above processing, the co-occurrence database (K
DB) is completed. In FIG. 7, the co-occurrence table (TBL1, 2,... N) and the co-occurrence probability P (c j / w)
i ) is registered in the co-occurrence probability table (TBM1, 2,...)
.. N) and an expected value table (TBN1, 2,... N) for registering the co-occurrence count expected value E (c j / w i ) constitute a co-occurrence database (KDB).
【0070】続いて、主題示唆自立語ネットワーク表示
処理(200)の流れについて述べる。主題示唆自立語
ネットワーク表示処理(200)では、先ず主題示唆自
立語群選定処理(210)が実行される。この主題示唆
自立語群選定処理(210)では、大容量外部記憶装置
の共起データベース群の中から、ユーザが指定する文書
(たとえばここでは童話「人魚姫」)に対応する共起デ
ータベースが読み出される。そして、図11に示すよう
に、全自立語wiと全共起単語cjのそれぞれについて
前述の(4)式が吟味される。なおここでは定数αにつ
いて初期値として1.5が設定されている。Next, the flow of the subject suggestion independent word network display processing (200) will be described. In the subject suggestion independent word network display processing (200), a subject suggestion independent word group selection processing (210) is first executed. In the subject suggestion independent word group selection process (210), a co-occurrence database corresponding to a document specified by the user (for example, a fairy tale "Mermaid Princess") is read from the co-occurrence database group of the large-capacity external storage device. It is. Then, as shown in FIG. 11, the above-mentioned equation (4) for each of all the independent words w i and the total co-occurrence word c j is examined. Here, 1.5 is set as the initial value for the constant α.
【0071】そして、前述の(4)式を満たした自立語
wiとそれに対する共起単語cjとの組み合わせを登録
するテーブルを作成する。次に、共起ネットワーク生成
処理(220)が実行される。この共起ネットワーク生
成処理(220)では、主題示唆自立語群選定処理(2
10)にて作成されたテーブルから自立語wiとそれに
対する共起単語cjとの組み合わせを読み出し、自立語
wiからそれに対する共起単語cjへ向かうリンクを大
容量外部記憶装置に格納されている表示モジュールに引
き渡す。表示モジュールは、自立語wiを表す文字列、
それに対する共起単語cjを表す文字列、及び自立語w
iとそれに対する共起単語cjとの間を結ぶ共起線から
なる共起ネットワークを画面上に形成する。このとき、
前述の表1に示したレベルテーブル(大容量外部記憶装
置上に格納)に基づいて共起線の太さを決定する。尚、
共起関係の強さは、自立語wiとそれに対する共起単語
cjとを結ぶ線の太さではなく、線種、色、濃淡、長
さ、あるいは三次元表示によって区別するようにしても
よい。[0071] Then, to create a table for registering a combination of co-occurrence word c j for it and the independent word w i that satisfies the above equation (4). Next, a co-occurrence network generation process (220) is performed. In the co-occurrence network generation processing (220), the subject suggestion independent word group selection processing (2)
Reading combinations of the tables created with independent words w i and the co-occurrence word c j for it at 10), stores the link towards the co-occurring word c j in the large capacity external storage device thereto from the independent word w i Hand over to the display module that is being used. Display module, a string that represents the independent word w i,
A character string representing a co-occurrence word c j and an independent word w
A co-occurrence network consisting of co-occurrence lines connecting i and the co-occurrence word c j is formed on the screen. At this time,
The thickness of the co-occurrence line is determined based on the level table (stored on the large-capacity external storage device) shown in Table 1 described above. still,
Strength of the co-occurrence relation is not the thickness of independent words w i and a line connecting the co-occurrence word c j thereto, linetype, color, shading, as distinguished by length, or three-dimensional representation Is also good.
【0072】また、CRTあるいはプリンタ等から出力
された共起ネットワークを参照したユーザが共起レベル
を変更することもできる。この場合、前述の式(4)の
定数αの値が変更されることになるため、主題示唆自立
語群選定処理(210)及び共起ネットワーク生成処理
(220)が再度実行される。主題示唆自立語群選定処
理(210)では、定数αの値を変更した式(4)を満
たず自立語wiとそれに対する共起単語cjとの組み合
わせが選定され、これらの組み合わせを登録したテーブ
ルが再作成される。そして、共起ネットワーク生成処理
(220)では、再作成されたテーブルに基づいて新た
な共起ネットワークが作成され、CRTに出力される。Further, the user who refers to the co-occurrence network output from the CRT or the printer can change the co-occurrence level. In this case, the value of the constant α in the above equation (4) is changed, so that the subject suggestion independent word group selection processing (210) and the co-occurrence network generation processing (220) are executed again. In Subject suggesting independent word group selection process (210), the combination of the co-occurrence word c j thereto and independent word w i not satisfy the equation (4) for changing the value of the constant α is selected, registering a combination thereof Table is recreated. Then, in the co-occurrence network generation process (220), a new co-occurrence network is created based on the re-created table and output to the CRT.
【0073】これらの主題示唆自立語群選定処理(21
0)と共起ネットワーク生成処理(220)とは、ユー
ザが複数の文書を選択した場合には、選択された全ての
文書について実行される。これにより作成された複数の
共起ネットワークは、1画面上に同時に表示されるよう
にしてもよく、あるいは1画面上に1つの共起ネットワ
ークのみを表示して画面切替や頁切替等によって各々の
共起ネットワークが表示されるようにしてもよい。The subject suggestion independent word group selection processing (21)
0) and the co-occurrence network generation process (220) are executed for all the selected documents when the user selects a plurality of documents. A plurality of co-occurrence networks created in this way may be displayed simultaneously on one screen, or only one co-occurrence network may be displayed on one screen and each screen may be switched by screen switching or page switching. A co-occurrence network may be displayed.
【0074】文書検索処理(230)は、ユーザがキー
ボード等の入力装置から任意のキーワード(自立語)を
入力すると、入力されたキーワードと各文書の共起ネッ
トワークに含まれている自立語とが比較され、入力され
たキーワードと一致する自立語を含む共起ネットワーク
が抽出される。抽出された共起ネットワークは、CRT
に画面表示される。このとき、共起ネットワーク上で
は、ユーザが入力したキーワードと一致する自立語が強
調または他の自立語と区別されるように表示される。例
えば、キーワードと一致する自立語の表示色、大きさ、
書体等を他の自立語と異なるようにしたり、その自立語
を網掛け表示、反転表示、もしくは四角く囲んだりす
る。In the document search process (230), when the user inputs an arbitrary keyword (independent word) from an input device such as a keyboard, the input keyword and the independent word included in the co-occurrence network of each document are determined. A co-occurrence network that includes a self-sufficient word that matches the input keyword is extracted. The extracted co-occurrence network is a CRT
Is displayed on the screen. At this time, on the co-occurrence network, an independent word that matches the keyword input by the user is displayed so as to be emphasized or distinguished from other independent words. For example, the display color, size,
The typeface and the like are made different from other independent words, or the independent words are shaded, inverted, or squared.
【0075】尚、キーワードは複数入力することができ
るようになっているため、複数のキーワードが入力され
た場合には全てのキーワードを含む共起ネットワークが
判別されることになる。Since a plurality of keywords can be input, a co-occurrence network including all keywords is determined when a plurality of keywords are input.
【0076】以上のような処理によって、ユーザはCR
Tやプリンタ等に出力された共起ネットワークを参照す
れば、各文書の主題を可視的に把握することができる。
そして、ユーザは、原文章を参照したい文書を選択す
る。文書の選択は、画面上で、ユーザが希望する文書の
共起ネットワークの表示座標を位置指定手段としてのマ
ウスによってダブルクリックする。これにより、原文参
照処理(240)が実行され、マウスによって指定され
た表示座標の共起ネットワークを判別し、この共起ネッ
トワークに対応する文書の原文章を大容量外部記憶装置
から読み出す。そして、読み出された原文章の中から、
ユーザが入力したキーワードを含む文とその前後の文と
がピックアップされてCRTに画面表示される。With the above processing, the user can enter the CR
By referring to the co-occurrence network output to T or a printer, the subject of each document can be visually grasped.
Then, the user selects a document to refer to the original text. To select a document, the user double-clicks on the screen the display coordinates of the co-occurrence network of the desired document by using a mouse as a position specifying means. As a result, the original text reference processing (240) is executed, the co-occurrence network of the display coordinates specified by the mouse is determined, and the original text of the document corresponding to this co-occurrence network is read from the large-capacity external storage device. And from among the read original sentences,
The sentence including the keyword input by the user and the sentences before and after the keyword are picked up and displayed on the CRT screen.
【0077】次に、主題示唆自立語ネットワーク表示処
理(200)を、CRT及び大容量外部記憶装置として
のハードディスク装置を備えた電子計算機で実現した場
合の操作手順について図13〜図31に沿って説明す
る。Next, an operation procedure when the subject suggestion independent word network display processing (200) is realized by a computer having a CRT and a hard disk device as a large-capacity external storage device will be described with reference to FIGS. explain.
【0078】図13は、主題示唆自立語ネットワーク表
示処理(200)を起動したときにCRTに表示される
初期画面である。この初期画面には、メニューバー「フ
ァイル」、「表示」、及び「ヘルプ」が設けられてい
る。ユーザは、これらのメニューバーの中から「ファイ
ル」を選択する。メニューバー「ファイル」が選択され
ると、図14に示すように、「ファイル」のプルダウン
メニューが表示される。このプルダウンメニューには、
「新規作成」と「開く」と「アプリケーションの終了」
とが設定されている。「新規作成」は、新たに文書を読
み込むとき、すなわち新たな文書の共起ネットワークを
作成ずるときに選択するものである。「開く」は既に読
み込み済みの文書あるいはその文書の共起ネットワーク
を表示するときに選択する。また、「アプリケーション
の終了」は主題示唆自立語ネットワーク表示処理(20
0)を終了する場合に選択する。FIG. 13 is an initial screen displayed on the CRT when the subject suggestion independent word network display processing (200) is activated. This initial screen is provided with a menu bar “File”, “Display”, and “Help”. The user selects "File" from these menu bars. When the menu bar “File” is selected, a “File” pull-down menu is displayed as shown in FIG. This pull-down menu includes
"New", "Open" and "Exit"
Is set. “New creation” is selected when a new document is read, that is, when a co-occurrence network for a new document is created. “Open” is selected when displaying a document that has already been read or a co-occurrence network of the document. "Termination of the application" indicates the subject suggestion independent word network display processing (20
Select this to end 0).
【0079】ユーザが上記プルダウンメニューの中から
「新規作成」を選択すると、図15に示すような「新規
作成」のダイアログボックスが表示される。このダイア
ログボックスには、ハードディスク装置内で文書ファイ
ルが格納されている場所「bunsyo」(既定値)と、その
文書ファイルに格納されている文書の数「4」とが表示
される。さらに、ダイアログボックスには、「全文書表
示」ボタン、「1文書ずつ表示」ボタン、「キャンセ
ル」ボタンが設定されている。「全文書表示」ボタン
は、複数の共起ネットワークを1画面上に並べて表示す
る場合に選択するボタンであり、「1文書ずつ表示」ボ
タンは複数の共起ネットワークを1画面上に重ねて表示
する場合に選択するボタンである。「キャンセル」ボタ
ンは新規作成処理を終了する場合に選択するボタンであ
る。When the user selects “new creation” from the pull-down menu, a “new creation” dialog box as shown in FIG. 15 is displayed. This dialog box displays the location “bunsyo” (default value) where the document file is stored in the hard disk device and the number “4” of documents stored in the document file. Further, a “display all documents” button, a “display one document at a time” button, and a “cancel” button are set in the dialog box. The "Display All Documents" button is used to display multiple co-occurrence networks side by side on one screen. The "Display One Document at a Time" button displays multiple co-occurrence networks on one screen. a button to be selected if you <br/>. The “cancel” button is a button that is selected when ending the new creation processing.
【0080】「全文書表示」ボタンの表示座標がポイン
ティングデバイスによって指定されると、主題示唆自立
語ネットワーク表示処理(200)の主題示唆自立語群
選定処理(210)と共起ネットワーク生成処理(22
0)とが実行されて、文書ファイル内の各文書について
共起ネットワークが作成される。そして、作成された共
起ネットワークは、図16に示すように1画面上に並べ
られて表示される。この画面上では、メニューバー「フ
ァイル」、「表示」、「ヘルプ」に加えて、「編集」と
「ウィンドウ」とが追加される。When the display coordinates of the "display all documents" button are designated by the pointing device, the subject suggestion independent word group selection process (210) of the subject suggestion independent word network display process (200) and the co-occurrence network generation process (22)
0) is executed to create a co-occurrence network for each document in the document file. The created co-occurrence networks are displayed side by side on one screen as shown in FIG. On this screen, “edit” and “window” are added in addition to the menu bar “file”, “display”, and “help”.
【0081】ここで、ユーザがメニューバー「編集」を
選択すると、図17に示すようにプルダウンメニュー
「検索」が表示される。続いて、ユーザがプルダウンメ
ニュー「検索」を選択すると、図18に示すように「検
索」のダイアログボックスが表示される。このダイアロ
グボックスには、検索文字列(自立語)を入力する領域
(図面上では3語まで入力可能)と、「検索実行」ボタ
ンと、「キャンセル」ボタンとが設けられている。検索
文字列は、キーボード等の入力装置から入力される(図
19参照)。検索文字列の入力が終了すると、ユーザは
「検索実行」ボタンを選択する。Here, when the user selects the menu bar "edit", a pull-down menu "search" is displayed as shown in FIG. Subsequently, when the user selects the “search” pull-down menu, a “search” dialog box is displayed as shown in FIG. This dialog box is provided with an area for inputting a search character string (independent word) (up to three words can be input in the drawing), a “search execution” button, and a “cancel” button. The search character string is input from an input device such as a keyboard (see FIG. 19). When the input of the search character string is completed, the user selects the “search execution” button.
【0082】「検索実行」ボタンが選択されると、主題
示唆自立語ネットワーク表示処理(200)では、文書
検索処理(230)が実行されて入力された全ての検索
文字列を含む共起ネットワークが抽出される。そして、
抽出された共起ネットワーク上において検索文字列と一
致する自立語wiは、他の自立語とは異なる色、大き
さ、書体等、異なる形式で表示される(図19では、四
角い囲みを表示)。これにより、ユーザは、各文書の主
題を可視的に把握することができ、原文章を参照したい
文書の選択を容易に行うことができる。When the “execute search” button is selected, in the subject suggestion independent word network display processing (200), the co-occurrence network including all the search character strings input by executing the document search processing (230) is displayed. Is extracted. And
Independent word w i that matches the search string on the extracted co-occurrence network, displays different colors, sizes and other independent word, font, etc., (FIG. 19 is displayed in a different format, a square enclosed ). Thus, the user can visually grasp the subject of each document, and can easily select a document whose original text is to be referred to.
【0083】ユーザが原文章を参照する場合には、その
原文章に対応する共起ネットワークの表示座標、あるい
は共起ネットワークの表示ウィンドウの表示座標をマウ
スでダブルクリックする。この操作によって、画面上に
は、図20に示すような原文章のダイアログボックスが
表示される。このダイアログボックス内には、選択され
た共起ネットワークに対応する文書の原文章の一部が表
示される。この原文章の一部は、原文章中で検索文字列
を含む文のうち、最も早く登場する文とその前後の文と
を表示しており、検索文字列を含む文は網掛け表示され
る。When the user refers to the original text, the user double-clicks the display coordinates of the co-occurrence network corresponding to the original text or the display coordinates of the display window of the co-occurrence network with the mouse. By this operation, a dialog box of the original sentence is displayed on the screen as shown in FIG. In this dialog box, a part of the original text of the document corresponding to the selected co-occurrence network is displayed. A part of the original sentence displays the earliest sentence and the sentences before and after the sentence including the search character string in the original sentence, and the sentence including the search character string is shaded. .
【0084】さらに、ダイアログボックスには、文書検
索処理時に入力したキーワードとしての検索文字列と、
これらの検索文字列を含む文が原文章中に幾つ含まれて
いるかを示す数値及び現在表示されている文が検索文字
列を含む文のうち何番目の文であるかを示す数値(図2
0中、件数)と、「前」ボタンと、「次」ボタンと、
「OK」ボタンとが表示されている。Further, in the dialog box, a search character string as a keyword input at the time of document search processing,
A numerical value indicating how many sentences including the search character string are included in the original sentence and a numerical value indicating the number of the sentence currently displayed sentence among the sentences including the search character string (FIG. 2)
0, number of cases), “Previous” button, “Next” button,
An “OK” button is displayed.
【0085】「前」ボタンは、検索文字列を含む文のう
ち、現在表示されている文の前の文を参照する場合に選
択されるボタンである。この「前」ボタンの表示座標が
ポインティングデバイスによって指定されると、表示画
面は、検索文字列を含む文のうち、現在表示されている
文の前の文へスクロールまたはジャンプする。The "previous" button is a button selected when referring to a sentence preceding the currently displayed sentence among sentences including the search character string. When the display coordinates of the "previous" button are designated by the pointing device, the display screen scrolls or jumps to the sentence preceding the currently displayed sentence among the sentences including the search character string.
【0086】「次」ボタンは、検索文字列を含む文のう
ち、現在表示されている文の次の文を参照する場合に選
択されるボタンである。この「次」ボタンの表示座標が
ポインティングによって指定されると、表示画面は、検
索文字列を含む文のうち、現在表示されている文の次の
文へスクロールまたはジャンプする。The "next" button is a button selected when referring to a sentence next to the currently displayed sentence among sentences including the search character string. When the display coordinates of the “next” button are designated by pointing, the display screen scrolls or jumps to the sentence next to the currently displayed sentence among the sentences including the search character string.
【0087】尚、「前」ボタンもしくは「次」ボタンに
よって表示画面がスクロールされた場合も、検索文字列
を含む文は網掛け表示される。「OK」ボタンは、ダイ
アログボックスを閉じる場合に選択するボタンである。Note that, even when the display screen is scrolled by the “previous” button or the “next” button, the sentence including the search character string is displayed in a shaded manner. The “OK” button is a button selected when closing the dialog box.
【0088】このような手順を各文書について行えば、
全ての文書の原文章を参照することができる。これによ
り、ユーザは必要な文書と不必要な文書とを判別するこ
とができる。By performing such a procedure for each document,
You can refer to the original text of all documents. As a result, the user can determine a necessary document and an unnecessary document.
【0089】図21は、文書4を保存あるいは廃棄した
後の画面を示している。本実施の形態では、文書4が保
存あるいは廃棄されると、その文書4に対応する共起ネ
ットワークの表示ウィンドウが画面上から削除される。FIG. 21 shows a screen after the document 4 has been saved or discarded. In the present embodiment, when the document 4 is saved or discarded, the display window of the co-occurrence network corresponding to the document 4 is deleted from the screen.
【0090】前述の図15に示す画面において、ユーザ
が「1文書ずつ表示」ボタンを選択すると、図22に示
すように、各共起ネットワークの表示ウィンドウが重な
り、あたかも1画面上に1つの共起ネットワークのみが
表示されているようになる。この画面上では、メニュー
バー「ファイル」、「表示」、「ヘルプ」に加えて、
「編集」と「ウィンドウ」とが追加される。When the user selects the "display one document at a time" button on the screen shown in FIG. 15, the display windows of the co-occurrence networks overlap as shown in FIG. Only the originating network will be displayed. On this screen, in addition to the menu bar "File", "View", "Help",
"Edit" and "Window" are added.
【0091】ここで、文書検索処理(230)を実行す
るには、前述の「全文書表示」の場合と同様に、メニュ
ーバー「編集」を選択してプルダウンメニューを読み出
し、このプルダウンメニューのなかから「検索」を選択
する。「検索」が選択されると、図23に示すように
「検索」のダイアログボックスが表示される。このダイ
アログボックスの構成は、「全文書表示」の場合と同様
である。Here, in order to execute the document search process (230), the menu bar "edit" is selected and the pull-down menu is read out in the same manner as in the case of the above-mentioned "all document display", and the pull-down menu is read out. Select "Search" from. When "search" is selected, a "search" dialog box is displayed as shown in FIG. The configuration of this dialog box is the same as in the case of “display all documents”.
【0092】キーボードによってキーワードとしての検
索文字列が入力された後に、「検索実行」ボタンの表示
座標がポインティングデバイスによって指定されると、
入力された全ての検索文字列を含む共起ネットワークが
抽出され、その共起ネットワークの表示ウィンドウが最
前面へ移動させられる。この時点で検索処理は、一旦中
断される(図24参照)。After the search character string as a keyword is input by the keyboard, when the display coordinates of the “execute search” button are designated by the pointing device,
The co-occurrence network including all the input search character strings is extracted, and the display window of the co-occurrence network is moved to the front. At this point, the search process is temporarily interrupted (see FIG. 24).
【0093】最前面に移動させられた共起ネットワーク
では、検索文字列と一致する自立語が共起ネットワーク
中の他の自立語とは異なる色や書体等、異なる形式で表
示される(図24中、四角い囲みを表示)。In the co-occurrence network moved to the foreground, the independent word that matches the search character string is displayed in a different form, such as a different color or font, from the other independent words in the co-occurrence network (FIG. 24). Medium, square box).
【0094】再度、「検索実行」ボタンの表示座標がポ
インティングデバイスによって指定されると、検索処理
が再開される。そして、該当する共起ネットワークが見
つかると、その共起ネットワークの表示ウィンドウが先
に表示されていた共起ネットワークの表示ウィンドウに
代わって、最前面に移動させられる(図25、26参
照)。When the display coordinates of the “execute search” button are designated by the pointing device again, the search process is restarted. When a corresponding co-occurrence network is found, the display window of the co-occurrence network is moved to the foreground instead of the previously displayed co-occurrence network display window (see FIGS. 25 and 26).
【0095】また、最前面の共起ネットワークに対応す
る文書の原文章を参照する場合には、文書検索処理(2
30)で入力されたキーワード(第1のキーワード)と
は別のキーワード(第2のキーワード)を入力して原文
章を参照する手順と、第2のキーワードを入力せずに原
文章を参照する手順とがある。When referring to the original text of the document corresponding to the foreground co-occurrence network, the document search process (2
30) A procedure for inputting a keyword (second keyword) different from the keyword (first keyword) input and referring to the original text, and referring to the original text without inputting the second keyword. There is a procedure.
【0096】先ず、第2のキーワードを選択せずに原文
章を参照する手順は、例えば図27に示す共起ネットワ
ークに対応する原文章を参照する場合に、共起ネットワ
ークの表示座標をマウスによってダブルクリックする。
これにより、画面上には原文章のダイアログボックスが
表示される。表示される原文章は、第1のキーワードを
含む文とその文の前後の文である。First, the procedure for referring to the original text without selecting the second keyword is as follows. For example, when referring to the original text corresponding to the co-occurrence network shown in FIG. Double-click.
As a result, a dialog box of the original text is displayed on the screen. The displayed original sentence is a sentence including the first keyword and sentences before and after the sentence.
【0097】第2のキーワードを選択してから原文章を
参照する手順は、例えば前述の図27に示す共起ネット
ワーク上で希望の自立語の表示座標をマウスによってク
リックする。このとき、図示していないが、選択された
自立語は、他の自立語とは異なる形式で表示される。次
に、共起ネットワークの表示座標(共起ネットワークの
表示ウィンドウの表示座標)がマウスによってダブルク
リックされると、図28に示すように、原文章のダイア
ログボックスが表示される。このダイアログボックス内
には、原文章のうち、第2のキーワードを含む文とその
前後の文とが表示される。このうち第2のキーワードを
含む文は網掛け表示される。In the procedure for selecting the second keyword and then referring to the original text, for example, the display coordinates of the desired independent word are clicked on the co-occurrence network shown in FIG. 27 with the mouse. At this time, although not shown, the selected independent word is displayed in a format different from other independent words. Next, when the display coordinates of the co-occurrence network (the display coordinates of the display window of the co-occurrence network) are double-clicked with the mouse, a dialog box of the original text is displayed as shown in FIG. In this dialog box, among the original sentences, a sentence including the second keyword and sentences before and after the second keyword are displayed. The sentence including the second keyword is shaded.
【0098】さらに、ダイアログボックスには、第2の
キーワードとして選択された自立語の文字列と、第2の
キーワードを含む文が原文書中に幾つ含まれているかを
示す数値及び現在表示されている文が原文章中の検索文
字列を含む文のうち何番目の文であるかを示す数値と、
「前」ボタンと、「次」ボタンと、「OK」ボタンとが
表示されている。「前」ボタン、「次」ボタン、及び
「OK」ボタンの各機能は「全文書表示」の場合と同様
である。Further, the dialog box displays a character string of the independent word selected as the second keyword, a numerical value indicating how many sentences including the second keyword are included in the original document, and a currently displayed text. A number indicating which sentence is the sentence containing the search string in the original sentence,
A “Previous” button, a “Next” button, and an “OK” button are displayed. The functions of the “previous” button, “next” button, and “OK” button are the same as in the case of “display all documents”.
【0099】最前面に位置する共起ネットワークに対応
する文書が廃棄されると、その共起ネットワークの表示
ウィンドウが消去されて、次に位置する共起ネットワー
クの表示ウィンドウが最前面に移動させられる。When the document corresponding to the foreground co-occurrence network is discarded, the display window of the co-occurrence network is deleted, and the display window of the next co-occurrence network is moved to the foreground. .
【0100】次に、共起ネットワークの表現レベル(共
起レベル)を変更する手順について述べる。「全文書表
示」と「1文書ずつ表示」の何れの場合にも、共起ネッ
トワークの表示ウィンドウには、「+」ボタンと「−」
ボタンが設けられており、何れか一方のボタンの表示座
標がポインティングデバイスによって指定されると、表
現レベルが変更される。例えば、図29のように共起ネ
ットワークを重ねて表示した場合において、表現レベル
を上げる(共起レベルを下げる)には、ユーザは、
「+」ボタンの表示座標をポインティングデバイスによ
って指定する。「+」ボタンの表示座標が指定される
と、主題示唆自立語ネットワーク表示処理(200)の
主題示唆自立語群選定処理(210)と共起ネットワー
ク生成処理(220)が再度実行される。主題示唆自立
語群選定処理(210)では、(4)式の定数αの値を
小さくし、定数αの値が小さくなった(4)式を満たす
自立語wiとそれに対する共起単語cjの組み合わせを
選定する。そして、共起ネットワーク生成処理(22
0)では、新たに選定された自立語wiとそれに対する
共起単語cjとの組み合わせてに基づいて共起ネットワ
ークを作り直す。作り直された共起ネットワークは、C
RTに表示される(図30参照)。Next, a procedure for changing the expression level (co-occurrence level) of the co-occurrence network will be described. In both cases of “display all documents” and “display one document at a time,” the “+” button and “−”
Buttons are provided, and when the display coordinates of one of the buttons is designated by the pointing device, the expression level is changed. For example, in the case where the co-occurrence networks are displayed in a superimposed manner as shown in FIG. 29, in order to increase the expression level (decrease the co-occurrence level), the user needs:
The display coordinates of the "+" button are designated by a pointing device. When the display coordinates of the "+" button are designated, the subject suggestion independent word group selection process (210) and the co-occurrence network generation process (220) of the subject suggestion independent word network display process (200) are executed again. In Subject suggesting independent word group selection process (210), (4) the smaller the value of the constant alpha, the value of the constant alpha is decreased (4) independent words satisfy the equation w i and the co-occurrence word c to it Select a combination of j . Then, the co-occurrence network generation processing (22
0), recreate the co-occurrence network based at in combination with the newly selected the independent words w i and the co-occurrence word c j thereto. The recreated co-occurrence network is C
It is displayed on the RT (see FIG. 30).
【0101】一方、表現レベルを下げる(共起レベルを
上げる)には、ユーザは、「−」ボタンの表示座標をポ
インティングデバイスによって指定する。「−」ボタン
の表示座標が指定されると、主題示唆自立語ネットワー
ク表示処理(200)の主題示唆自立語群選定処理(2
10)と共起ネットワーク生成処理(220)が再度実
行される。主題示唆自立語群選定処理(210)では、
(4)式の定数αの値を大きくし、定数αの値が大きく
なった(4)式を満たす自立語wiとそれに対する共起
単語cjの組み合わせを選定する。そして、共起ネット
ワーク生成処理(220)では、新たに選定された自立
語wiとそれに対する共起単語cjとの組み合わせに基
づいて共起ネットワークを作り直す。作り直された共起
ネットワークは、CRTに表示される(図31参照)。On the other hand, to lower the expression level (increase the co-occurrence level), the user specifies the display coordinates of the "-" button using a pointing device. When the display coordinates of the "-" button are designated, the subject suggestion independent word group selection processing (2) of the subject suggestion independent word network display processing (200)
10) and the co-occurrence network generation process (220) are executed again. In the subject suggestion independent word group selection process (210),
(4) increasing the value of the constant α in Equation selects a combination of independent words w i and the co-occurrence word c j thereto satisfying the value of the constant α is increased (4). Then, the co-occurrence network generation processing (220), reshaping the co-occurrence network based on a combination of the co-occurrence word c j newly selected and independent word w i with respect thereto. The recreated co-occurrence network is displayed on the CRT (see FIG. 31).
【0102】以上、本実施の形態によれば、ユーザは、
原文章を読まなくとも各文書の主題を可視的に把握する
ことができる。また、各文書の主題を把握するために行
う操作も簡略である。As described above, according to the present embodiment, the user
The subject of each document can be visually grasped without reading the original text. Also, the operation performed to grasp the subject of each document is simple.
【0103】尚、共起ネットワークの表現方法として
は、図32に示すように、自立語間の共起関係の強弱
を、自立語間を結ぶ直線の線種によって差別化するよう
にしてもよい。同図では、共起線は、太い実線、細い実
線、及び点線の三種類に区別されている。線種の決定方
法としては、予め3つの定数A、B、C(A>B>C)
を決めておき、前述の(4)式を満たし且つ差分(左辺
一右辺)が定数Aより大きい共起関係にある自立語間を
太い実線で結び、前述の(4)式を満たし且つ差分が定
数B以上であるとともに定数A以下の共起関係にある自
立語間を細い実線で結び、前述の(4)式を満たし且つ
差分が定数C未満の共起関係にある自立語間を点線で結
ぶ方法を例示できる。各自立語を結ぶ共起線の線種は、
「+」ボタン及び「−」ボタンによって表現レベル(共
起レベル)が変更されると、この変更に応じて変更され
ることになる。As a method of expressing the co-occurrence network, as shown in FIG. 32, the strength of the co-occurrence relationship between independent words may be differentiated by the type of a straight line connecting the independent words. . In the drawing, the co-occurrence lines are classified into three types: a thick solid line, a thin solid line, and a dotted line. As a method of determining a line type, three constants A, B, and C (A>B> C) are set in advance.
Is determined, and a thick solid line connects the independent words having the co-occurrence relationship with the expression (4) that satisfies the expression (4) and the difference (left side and right side) is larger than the constant A, and satisfies the expression (4) and the difference is The independent words having a co-occurrence relationship equal to or greater than the constant B and equal to or less than the constant A are connected by a thin solid line, and the independent words having the co-occurrence relationship satisfying the expression (4) and having a difference less than the constant C are indicated by a dotted line. A method of tying can be exemplified. The line type of the co-occurrence line connecting the independent words is
When the expression level (co-occurrence level) is changed by the "+" button and the "-" button, the expression level (co-occurrence level) is changed in accordance with the change.
【0104】さらに、共起ネットワークの表現方法とし
て、図33から図36に示すように、自立語間の共起関
係の強弱を、自立語及び共起線のグラデーション(濃
淡)によって差別化する方法を例示できる。この場合、
共起ネットワーク生成処理では、予め表現レベルが高い
(共起レベルが弱い)共起ネットワーク(図33参照)
を生成しておく。生成する際には、共起関係にある自立
語間の共起レベルもその大きさに応じて数段階に分類し
ておく。例えば、共起レベルを三段階に分類する場合に
は、予め3つの定数A、B、C(A>B>C)を決めて
おき、(条件1)前述の(4)式を満たし且つ差分(左
辺−右辺)が定数Aより大きい共起関係にある自立語
間、(条件2)前述の(4)式を満たし且つ差分が定数
B以上であるとともに定数A以下の共起関係にある自立
語間、(条件3)前述の(4)式を満たし且つ差分が定
数C未満の共起関係にある自立語間の3つに分類する。
そして、共起ネットワークを画面表示する際には、例え
ば、図34に示すように、上記の(条件1)を満たす自
立語と共起線のみを表示する。図34の画面では、グラ
デーションの濃い部分(図中「髪」と「毛」、「透き」
と「通った」)のみがユーザの可視レベルに達している
ものとする。Further, as a method of expressing the co-occurrence network, as shown in FIGS. 33 to 36, a method of differentiating the strength of the co-occurrence relation between independent words by gradation (shading) of the independent words and the co-occurrence lines. Can be exemplified. in this case,
In the co-occurrence network generation processing, a co-occurrence network having a high expression level (co-occurrence level is low) in advance (see FIG. 33)
Is generated. At the time of generation, the co-occurrence level between independent words having a co-occurrence relationship is also classified into several stages according to the size. For example, when the co-occurrence levels are classified into three levels, three constants A, B, and C (A>B> C) are determined in advance, and (condition 1) the above equation (4) is satisfied and the difference (Condition 2) A self-sustained word that satisfies the above expression (4) and has a co-occurrence relation that is equal to or greater than the constant B and equal to or less than the constant A (condition 2). Inter-words, (Condition 3) Classify into three inter-independent words that satisfy the above expression (4) and have co-occurrence with a difference less than the constant C.
Then, when the co-occurrence network is displayed on the screen, for example, as shown in FIG. 34, only the independent word and the co-occurrence line satisfying the above (condition 1) are displayed. In the screen of FIG. 34, the portions with a dark gradation (“hair” and “hair”, “transparent”
And "passed") have reached the user's visibility level.
【0105】ユーザが、画面上の「+」ボタン、あるい
は「−」ボタンを選択すると、グラデーションが変更さ
れる。例えば、画面上の「+」ボタンが選択されると、
図3語に示すように、上記の(条件2)を満たす自立語
と共起線との色が徐々に濃くなっていき、最終的には図
36に示すように(条件1)を満たす自立語及び共起線
と同じ濃さになる。このとき、ユーザには、(条件1)
を満たす自立語及び共起線に加え、(条件2)を満たす
自立語及び共起線が見えることになる。When the user selects the "+" button or the "-" button on the screen, the gradation is changed. For example, if the "+" button on the screen is selected,
As shown in FIG. 3, the colors of the independent word and the co-occurrence line satisfying the above (condition 2) gradually become darker, and finally, as shown in FIG. It has the same depth as words and co-occurrences. At this time, (Condition 1)
In addition to the independent words and the co-occurrence lines satisfying (2), the independent words and the co-occurrence lines satisfying (Condition 2) can be seen.
【0106】また、上記の(条件1)を満たす自立語及
び共起線と、(条件2)を満たす自立語及び共起線が画
面表示されているときに、画面上の「−」ボタンが選択
されると、(条件2)を満たす自立語及び共起線の色が
徐々にうすくなっていき、最終的には人間の視力では捉
えられないレベルまでうすくなる。このとき、ユーザに
は、(条件1)を満たす自立語及び共起線のみが見える
ことになる。When the independent word and the co-occurrence line satisfying the above (condition 1) and the independent word and the co-occurrence line satisfying the (condition 2) are displayed on the screen, the "-" button on the screen is displayed. When selected, the colors of the self-contained word and the co-occurrence line satisfying (Condition 2) gradually decrease, and eventually decrease to a level that cannot be captured by human vision. At this time, the user sees only the independent word and the co-occurrence line satisfying (condition 1).
【0107】共起線の線種、グラデーションの他にも、
共起線や自立語の色、あるいは三次元表現等によって差
別化する方法でも構わない。 〈他の実施の形態〉本発明を共起データベース作成装置
と主題示唆自立語ネットワーク表示装置とで実現する場
合には、共起データベース作成装置をサーバ側に配置
し、主題示唆自立語ネットワーク表示装置をクライアン
ト側に配置し、これらの装置間を通信回線で接続する方
法が考えられる。この方法を採用する場合には、共起デ
ータベース作成装置にて主題示唆自立語群選定処理と共
起ネットワーク生成処理とを行い、予め共起ネットワー
クを生成しておくことが好ましい。そして、主題示唆自
立語ネットワーク表示装置から共起データベース作成装
置に対して、任意のキーワードを含む共起ネットワーク
の送信要求が送信される。共起データベース作成装置
は、予め作成しておいた共起ネットワーク群を検索して
任意のキーワードを含む共起ネットワークを抽出して、
主題示唆自立語ネットワーク表示装置へ送信する。In addition to the co-occurrence line type and gradation,
A method of differentiating by the color of a co-occurrence line or an independent word, or a three-dimensional expression may be used. <Other Embodiments> When the present invention is realized by a co-occurrence database creation device and a subject suggestion independent word network display device, the co-occurrence database creation device is arranged on the server side, and the subject suggestion independent word network display device is provided. Can be conceived on the client side and these devices are connected by a communication line. When this method is adopted, it is preferable that the subject-suggested independent word group selection process and the co-occurrence network generation process are performed by the co-occurrence database creation device to generate a co-occurrence network in advance. Then, a request for transmitting a co-occurrence network including an arbitrary keyword is transmitted from the subject suggestion independent word network display device to the co-occurrence database creation device. The co-occurrence database creation apparatus searches for a co-occurrence network group created in advance and extracts a co-occurrence network including an arbitrary keyword,
Send to the subject suggestion independent word network display device.
【0108】主題示唆自立語ネットワーク表示装置は、
共起データベース作成装置からの共起データベースを受
信すると、その共起データベースをCRT等の表示装置
によって画面表示する。The subject suggestion independent word network display device:
When the co-occurrence database is received from the co-occurrence database creation device, the co-occurrence database is displayed on a screen by a display device such as a CRT.
【0109】画面上の共起ネットワークを参照したユー
ザが原文章の参照要求(共起ネットワークの表示座標を
位置指定手段によって指定)を入力すると、主題示唆自
立語ネットワーク表示装置は、ユーザが指定した共起ネ
ットワークの識別情報を共起データベース作成装置へ送
信する。When a user who has referred to the co-occurrence network on the screen inputs a reference request for the original text (specifies the display coordinates of the co-occurrence network by the position specifying means), the subject suggestion independent word network display device specifies The identification information of the co-occurrence network is transmitted to the co-occurrence database creation device.
【0110】共起データベース作成装置は、主題示唆自
立語ネットワーク表示装置からの識別情報を受信する
と、識別情報によって特定される共起ネットワークに対
応する文書の原文章を読み出し、主題示唆自立語ネット
ワーク表示装置へ送信する。When the co-occurrence database creation device receives the identification information from the subject suggestion independent word network display device, it reads the original text of the document corresponding to the co-occurrence network specified by the identification information, and displays the subject suggestion independent word network display. Send to device.
【0111】原文章を受信した主題示唆自立語ネットワ
ーク表示装置では、前述の実施の形態と同様の手順によ
って原文章の画面表示を行う。尚、この方法を採用する
場合には、共起ネットワークを参照したユーザが表現レ
ベルの変更を希望したときに、共起データベース作成装
置にて共起ネットワークを作り直し、作り直した共起ネ
ットワークを再度主題示唆自立語ネットワーク表示装置
へ送信しなおしてもよいが、共起データベース作成装置
で予め表現レベルの高い共起ネットワークを作成しでお
くとともに、共起ネットワークの各自立語間の共起線に
レベル識別子を設定しておくようにしてもよい。ここで
いうレベル識別子は、各自立語間の共起関係の強さを識
別する情報である。In the subject suggestion independent word network display device which has received the original text, the original text is displayed on the screen in the same procedure as in the above-described embodiment. When this method is adopted, when the user who refers to the co-occurrence network desires to change the expression level, the co-occurrence network is recreated by the co-occurrence database creation device, and the re-created co-occurrence network is re-subjected to the subject. Although it may be sent back to the suggestion independent word network display device, a co-occurrence database creation device creates a co-occurrence network with a high expression level in advance, and adds a level An identifier may be set. Here, the level identifier is information for identifying the strength of the co-occurrence relationship between the independent words.
【0112】例えば、共起関係の強さを三段階のレベル
に分類する場合には、予め3つの定数A、B、C(A>
B>C)を決めておき、(条件1)前述の(3)式(も
しくは(4)式)を満たし且つ差分(左辺−右辺)が定
数Aより大きい共起関係にある自立語間、(条件2)前
述の(3)式(もしくは(4)式)を満たし且つ差分が
定数B以上であるとともに定数A以下の共起関係にある
自立語間、(条件3)前述の(3)式(もしくは(4)
式)を満たし且つ差分が定数C未満の共起関係にある自
立語間の3つに分類する。For example, when classifying the co-occurrence strength into three levels, three constants A, B, and C (A>
B> C), and (Condition 1) between independent words having a co-occurrence relationship that satisfies the above-mentioned expression (3) (or expression (4)) and whose difference (left side−right side) is larger than the constant A, Condition 2) between independent words that satisfy the above-mentioned expression (3) (or expression (4)) and have a co-occurrence relationship in which the difference is equal to or greater than the constant B and equal to or less than the constant A, (condition 3) the expression (3) (Or (4)
) Are satisfied, and the difference is classified into three of the independent words having a co-occurrence relationship smaller than the constant C.
【0113】そして、上記条件1を満たす自立語間には
レベル識別子“1”を、上記条件2を満たす自立語間に
はレベル識別子“2”を、上記条件3を満たす自立語間
にはレベル識別子“3”を付加する。A level identifier "1" is set between independent words satisfying the above condition 1, a level identifier "2" is set between independent words satisfying the above condition 2, and a level identifier "2" is set between independent words satisfying the above condition 3. An identifier “3” is added.
【0114】共起ネットワーク作成装置は、レベル識別
子が付加された共起ネットワークを大容量記憶装置に記
憶しておく。そして、主題示唆自立語ネットワーク表示
装置から共起ネットワーク作成装置に対して、任意のキ
ーワードを含む共起ネットワークの送信要求が送信され
ると、共起ネットワーク作成装置は、大容量記憶装置に
記憶された共起ネットワークを検索し、任意のキーワー
ドを含む共起ネットワークとそのレベル識別子とを抽出
する。そして、共起ネットワーク作成装置は、共起ネッ
トワークとともにレベル識別子を主題示唆自立語ネット
ワーク表示装置へ送信する。The co-occurrence network creation device stores the co-occurrence network to which the level identifier has been added in the mass storage device. Then, when a transmission request for a co-occurrence network including an arbitrary keyword is transmitted from the subject suggestion independent word network display device to the co-occurrence network creation device, the co-occurrence network creation device is stored in the mass storage device. Then, the co-occurrence network including the arbitrary keyword and its level identifier are extracted. Then, the co-occurrence network creating device transmits the level identifier together with the co-occurrence network to the subject suggestion independent word network display device.
【0115】主題示唆自立語ネットワーク表示装置は、
先ず、レベル識別子“1”が付加された自立語間と、レ
ベル識別子“2”が付加された自立語間とを画面表示す
る。そして、ユーザが表現レベルを上げる(共起レベル
を下げる)ことを指定した場合には、主題示唆自立語ネ
ットワーク表示装置は、レベル識別子“1”が付加され
た自立語間と、レベル識別子“2”が付加された自立語
間と、レベル識別子“3”が付加された自立語間とを画
面表示する。The subject suggestion independent word network display device is:
First, a screen is displayed on the screen between the independent words to which the level identifier “1” is added and the independent words to which the level identifier “2” is added. Then, when the user specifies to increase the expression level (reduce the co-occurrence level), the subject-suggested independent word network display device displays between the independent words to which the level identifier “1” is added and the level identifier “2”. Are displayed on the screen between the independent words to which "" is added and the independent words to which the level identifier "3" is added.
【0116】一方、ユーザが表現レベルを下げる(共起
レベルを上げる)ことを指定した場合には、主題示唆自
立語ネットワーク表示装置は、レベル識別子“1”が付
加された自立語間のみを画面表示する。On the other hand, when the user specifies to lower the expression level (increase the co-occurrence level), the subject suggestion independent word network display device displays the screen only between the independent words to which the level identifier “1” is added. indicate.
【0117】[0117]
【発明の効果】本発明によれば、共起関係を利用して単
語間の意味的な繋がりを示すことにより、オペレータに
とって可視的な文書主題の把握が可能となる。According to the present invention, by showing the semantic connection between words using the co-occurrence relation, it becomes possible to grasp the document subject visible to the operator.
【0118】また、リンクを増減できる定数を設けたこ
とにより、文書の種類を問わずに汎用的なデータベース
の作成、共起ネットワークの抽出が可能である。Further, by providing a constant capable of increasing or decreasing the number of links, a general-purpose database can be created and a co-occurrence network can be extracted regardless of the type of document.
【図1】 共起テーブルの具体例を示す説明図FIG. 1 is an explanatory diagram showing a specific example of a co-occurrence table.
【図2】 共起テーブルの具体例を示す説明図FIG. 2 is an explanatory diagram showing a specific example of a co-occurrence table;
【図3】 共起回数M(cj/wi)とその期待値E
(cj/wi)との関係をα=1.5において示したグ
ラフ図FIG. 3 shows the number of co-occurrences M (c j / w i ) and its expected value E
Graph showing the (c j / w i) relationship alpha = 1.5 and
【図4】 共起回数M(cj/wi)とその期待値E
(cj/wi)との関係をα=2.5において示したグ
ラフ図FIG. 4 shows the number of co-occurrences M (c j / w i ) and its expected value E
Graph showing the relationship between the alpha = 2.5 and (c j / w i)
【図5】 共起回数M(cj/wi)とその期待値E
(cj/wi)との関係をα=0.5において示したグ
ラフ図FIG. 5 shows the number of co-occurrences M (c j / w i ) and its expected value E
Graph showing the (c j / w i) the relationship between alpha = 0.5
【図6】 共起ネットワークの表現形態の一例を示す説
明図FIG. 6 is an explanatory diagram showing an example of an expression form of a co-occurrence network.
【図7】 本発明の処理の概念を示すブロック図FIG. 7 is a block diagram showing the concept of the processing of the present invention.
【図8】 実施の形態における共起テーブルを示す説明
図FIG. 8 is an explanatory diagram showing a co-occurrence table according to the embodiment;
【図9】 実施の形態における共起確率の算出結果を示
す説明図FIG. 9 is an explanatory diagram illustrating a calculation result of a co-occurrence probability according to the embodiment;
【図10】 実施の形態における共起回数期待値の算出
結果を示す説明図FIG. 10 is an explanatory diagram showing a calculation result of a co-occurrence count expected value according to the embodiment;
【図11】 実施の形態の共起データベース作成処理
と、主題示唆自立語ネットワーク表示処理を示すフロー
図FIG. 11 is a flowchart showing co-occurrence database creation processing and subject suggestion independent word network display processing according to the embodiment;
【図12】 実施の形態の共起ネットワークの表示例を
示す説明図FIG. 12 is an explanatory diagram illustrating a display example of a co-occurrence network according to the embodiment;
【図13】 主題示唆自立語ネットワーク表示処理を実
行したときの初期画面FIG. 13 is an initial screen when the subject suggestion independent word network display processing is executed.
【図14】 主題示唆自立語ネットワーク表示処理を実
行したときの操作画面(1)FIG. 14 is an operation screen (1) when the subject suggestion independent word network display processing is executed.
【図15】 主題示唆自立語ネットワーク表示処理を実
行したときの操作画面(2)FIG. 15 is an operation screen (2) when subject display independent word network display processing is executed.
【図16】 共起ネットワークの表示画面FIG. 16 is a display screen of a co-occurrence network.
【図17】 文書検索処理の操作画面(1)FIG. 17 is an operation screen (1) of a document search process.
【図18】 文書検索処理の操作画面(2)FIG. 18 is an operation screen (2) of a document search process.
【図19】 文書検索処理の操作画面(3)FIG. 19 is an operation screen (3) of a document search process.
【図20】 原文章の表示画面[Figure 20] Original text display screen
【図21】 原文章を格納あるいは廃棄したのちの共起
ネットワーク表示画面[FIG. 21] Co-occurrence network display screen after original text is stored or discarded
【図22】 共起ネットワークの表示画面FIG. 22: Co-occurrence network display screen
【図23】 文書検索処理の操作画面(4)FIG. 23 is an operation screen (4) of a document search process.
【図24】 文書検索処理の操作画面(5)FIG. 24 is an operation screen (5) of a document search process.
【図25】 文書検索処理の操作画面(6)FIG. 25 is an operation screen (6) for a document search process.
【図26】 文書検索処理の操作画面(7)FIG. 26 is an operation screen (7) of a document search process.
【図27】 原文章参照処理の操作画面FIG. 27: Operation screen for original sentence reference processing
【図28】 原文章の表示画面[FIG. 28] Original text display screen
【図29】 共起ネットワークの表現レベルを変更する
場合の操作画面FIG. 29 is an operation screen when changing the expression level of a co-occurrence network
【図30】 共起ネットワークの表現レベルを変更した
後の表示画面(1)FIG. 30 is a display screen (1) after the expression level of the co-occurrence network is changed.
【図31】 共起ネットワークの表現レベルを変更した
後の表示画面(2)FIG. 31 is a display screen (2) after changing the expression level of the co-occurrence network
【図32】 共起ネットワークの他の表示形式を示す図
(1)FIG. 32 shows another display format of the co-occurrence network (1).
【図33】 共起ネットワークの他の表示形式を示す図
(2)FIG. 33 shows another display format of the co-occurrence network (2).
【図34】 共起ネットワークの他の表示形式を示す図
(3)FIG. 34 shows another display format of the co-occurrence network (3).
【図35】 共起ネットワークの他の表示形式を示す図
(4)FIG. 35 shows another display format of the co-occurrence network (4).
【図36】 共起ネットワークの他の表示形式を示す図
(5)FIG. 36 shows another display format of the co-occurrence network (5).
DIC・・自立語・付属語辞書 TBL1〜n・・共起テーブル TBM1〜n・・共起確率テーブル TBN1〜n・・期待値テーブル KDB・・共起データベース 100・・共起データベース作成処理 110・・自立語抽出処理 120・・共起テーブル作成 130・・共起確率算出処理 140・・共起回数期待値算出処理 200・・主題示唆自立語ネットワーク表示処理 210・・主題示唆自立語群選定処理 220・・共起ネットワーク生成処理 230・・文書検索処理 240・・原文参照処理 DIC, independent word, attached word dictionary TBL1-n, co-occurrence table TBM1-n, co-occurrence probability table TBN1-n, expected value table KDB, co-occurrence database 100, co-occurrence database creation process 110・ Independent word extraction processing 120 ・ ・ Co-occurrence table creation 130 ・ ・ Co-occurrence probability calculation processing 140 ・ ・ Co-occurrence count expected value calculation processing 200 ・ ・ Subject suggestive independent word network display processing 210 ・ ・ Subject suggestive independent word group selection processing 220: Co-occurrence network generation processing 230: Document search processing 240: Original text reference processing
フロントページの続き (56)参考文献 特開 平7−56948(JP,A) 特開 平6−332939(JP,A) 特開 平5−197712(JP,A) 特開 平5−282367(JP,A) 特開 平7−200608(JP,A) 特開 平5−28199(JP,A) 特開 昭63−292268(JP,A) 特開 平9−134360(JP,A) 特開 平8−329118(JP,A) 特開 平6−103311(JP,A) 特開 平6−176058(JP,A) 特開 昭59−38846(JP,A) 特開 平2−98778(JP,A) 特開 平5−346938(JP,A) 特開 平3−252767(JP,A) 特開 平3−15981(JP,A) 特開 平1−140332(JP,A) 特開 平2−188871(JP,A) 特開 平4−1854(JP,A) 有田英一,岡隆一,「新聞記事テキス トデータからの断片的知識の連鎖の抽 出」,電子情報通信学会技術研究報告 Vol.93,No.528 (NLC93− 63〜68),PP.23−30 (1994年3月 22日) 田村俊作,細野公男ほか,「意味地図 を用いた検索式の拡張」,第24回情報科 学技術研究集会発表論文集 PP.161 −167,日本科学技術情報センター (昭和63年3月18日) 鈴木康広,栃内香次,「キーワード密 度方式自動抄録法の改良」,情報処理学 会論文誌 Vol.29,No.3 P P.325−328 (昭和63年3月15日) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30Continuation of the front page (56) References JP-A-7-56948 (JP, A) JP-A-6-332939 (JP, A) JP-A-5-197712 (JP, A) JP-A-5-282367 (JP) JP-A-7-200608 (JP, A) JP-A-5-28199 (JP, A) JP-A-63-292268 (JP, A) JP-A-9-134360 (JP, A) 8-329118 (JP, A) JP-A-6-103311 (JP, A) JP-A-6-176058 (JP, A) JP-A-59-38846 (JP, A) JP-A-2-98778 (JP, A) A) JP-A-5-346938 (JP, A) JP-A-3-252767 (JP, A) JP-A-3-15981 (JP, A) JP-A-1-140332 (JP, A) JP-A-2 -188881 (JP, A) JP-A-4-1854 (JP, A) Eiichi Arita, Ryuichi Oka, "Extraction of fragmentary knowledge chain from newspaper article text data", IEICE Technical Report Vol. . 93, no. 528 (NLC93-63-68), PP. 23-30 (March 22, 1994) Shunsaku Tamura, Kimio Hosono, et al., "Expansion of search formula using semantic maps", Proceedings of the 24th Information Science and Technology Research Conference PP. 161-167, Japan Science and Technology Information Center (March 18, 1988) Yasuhiro Suzuki, Koji Tochiuchi, "Improvement of Automatic Abstraction Method with Keyword Density Method", Transactions of the Information Processing Society of Japan, Vol. 29, No. 3 PP. 325-328 (March 15, 1988) (58) Field surveyed (Int. Cl. 6 , DB name) G06F 17/30
Claims (16)
立語抽出ステップと、 前記で抽出された各自立語に対
する共起単語とその共起回数を記録する共起テーブルを
作成する共起テーブル作成ステップと、 前記共起テーブルに基づいて共起関係の強さを表わす共
起確率を算出する共起確率算出ステップと、 前記共起テーブルに基づいて共起回数の期待値を算出す
る共起回数期待値算出ステップと、 前記期待値と前記共起回数とを比較して文書の主題を示
唆し得る共起関係にある自立語群を選定する主題示唆自
立語群選定ステップと、 前記で選定された主題を示唆する共起関係にある自立語
間にリンクを設定するとともに、リンクの表現形式を前
記共起確率に基づいて決定した共起ネットワークとして
表示する共起ネットワーク生成ステップとを含むドキュ
メントデータベースの構築方法。An independent word extraction step of extracting an independent word from a given document; and a co-occurrence table for creating a co-occurrence table for recording the co-occurring words and the number of co-occurrences for each of the extracted independent words. A creating step, a co-occurrence probability calculating step of calculating a co-occurrence probability indicating the strength of the co-occurrence relationship based on the co-occurrence table, and a co-occurrence calculating an expected value of the number of co-occurrence times based on the co-occurrence table An expected number of times calculation step; a subject suggestion independent word group selecting step of comparing the expected value and the co-occurrence number to select a group of independent words having a co-occurrence relationship capable of suggesting the subject of the document; Co-occurrence network generating step of setting a link between independent words having a co-occurrence relationship suggesting the subject and displaying the expression form of the link as a co-occurrence network determined based on the co-occurrence probability How to build a document database that contains the.
前記共起回数と前記期待値に所定の定数を加算した数値
とを比較して、文書の主題を示唆し得る共起関係にある
自立語群を選定することを特徴とする請求項1記載のド
キュメントデータベースの構築方法。2. The method according to claim 1, wherein the subject suggestion independent word group selection step comprises:
2. The independent word group having a co-occurrence relation that can suggest a subject of a document by comparing the number of times of co-occurrence with a numerical value obtained by adding a predetermined constant to the expected value. How to build a document database.
係にある自立語群の各自立語を表す文字列と、共起関係
にある自立語それぞれを表す文字列を視覚的に結ぶ共起
線とから形成される共起ネットワークを画面表示するス
テップを含む請求項1記載のドキュメントデータベース
の構築方法。3. The co-occurrence network generation step includes: a character string representing each independent word of the co-occurrence independent word group selected in the subject suggestion independent word group selection step; 2. The method according to claim 1, further comprising the step of displaying on a screen a co-occurrence network formed from co-occurrence lines visually connecting the character strings representing the respective characters.
の共起確率の大きさによってその線種、色、濃淡、向
き、長さ、又は太さが決定される線もしくは矢印である
請求項3記載のドキュメントデータベースの構築方法。4. The co-occurrence line is a line or an arrow whose line type, color, shading, direction, length, or thickness is determined by the magnitude of co-occurrence probabilities between co-occurring independent words. 4. The method for constructing a document database according to claim 3, wherein
成された1つあるいは2つ以上の共起ネットワークを検
索して、任意のキーワードを含む1つあるいは2つ以上
の共起ネットワークを抽出し、その共起ネットワークを
画面表示する文書検索ステップと、 前記文書検索ステップで画面表示された1つあるいは2
つ以上の共起ネットワークのうちの任意の共起ネットワ
ークに対応する原文章を抽出し、その原文章の全てある
いは一部を画面表示する原文参照ステップとを含む請求
項1記載のドキュメントデータベースの構築方法。5. Searching one or more co-occurrence networks generated in the co-occurrence network generation step to extract one or more co-occurrence networks including an arbitrary keyword, A document search step of displaying a co-occurrence network on a screen, and one or two displayed on the screen in the document search step
2. The construction of a document database according to claim 1, further comprising the steps of: extracting an original sentence corresponding to an arbitrary co-occurrence network among the one or more co-occurrence networks and displaying all or a part of the original sentence on a screen. Method.
成された1つあるいは2つ以上の共起ネットワークを検
索して、1つ又は2つ以上の第1のキーワードを含む1
つあるいは2つ以上の共起ネットワークを抽出し、その
共起ネットワークを画面表示する文書検索ステップと、 前記文書検索ステップで画面表示された1つあるいは2
つ以上の共起ネットワークのうちの任意の共起ネットワ
ークに対応する原文章を抽出し、その原文章のうち1つ
又は2つ以上の第2のキーワードを含む文又は文字列、
あるいは第2のキーワードを含む文又は文字列とその前
後の文又は文字列を画面表示する原文参照ステップとを
含む請求項1記載のドキュメントデータベースの構築方
法。6. Searching for one or more co-occurrence networks generated in the co-occurrence network generation step, and including one or more first keywords
A document search step of extracting one or more co-occurrence networks and displaying the co-occurrence network on a screen; and one or two screens displayed on the screen in the document search step
Extracting a source sentence corresponding to an arbitrary co-occurrence network of the one or more co-occurrence networks, and a sentence or character string including one or more second keywords of the original text;
2. The document database construction method according to claim 1, further comprising: an original sentence reference step of displaying a sentence or character string including the second keyword and sentences or character strings before and after the second keyword on a screen.
2つ以上の第2のキーワードを含む文又は文字列とその
前後の文又は文字列を画面表示するときに、前記第2の
キーワードあるいは第2のキーワードを含む文を区別し
て表示する請求項6記載のドキュメントデータベースの
構築方法。7. The original sentence reference step includes: when displaying a sentence or character string including the one or more second keywords and a sentence or character string before and after the sentence or character string on the screen, the second keyword or 7. The method according to claim 6, wherein the sentence including the second keyword is displayed in a distinguished manner.
力部と検索実行命令を入力するための検索実行命令入力
部とを表示するステップと、 前記検索式入力部に検索式が入力され、前記検索実行命
令入力部に検索実行命令が入力されたときに、前記共起
ネットワーク生成ステップにおいて生成された1つある
いは2つ以上の共起ネットワークを検索し、前記検索式
によって特定されるキーワードを含む1つあるいは2つ
以上の共起ネットワークを抽出するステップと、 前記で抽出された1つあるいは2つ以上の共起ネットワ
ークを画面表示するとともに、前記共起ネットワークに
含まれる自立語のうち前記検索式によって特定されるキ
ーワードを区別して表示するステップと、を含む請求項
5記載のドキュメントデータベースの構築方法。8. The document search step includes: displaying a search formula input unit for inputting a search formula for specifying a keyword and a search execution command input unit for inputting a search execution command; When a search formula is input to the input unit and a search execution command is input to the search execution command input unit, one or two or more co-occurrence networks generated in the co-occurrence network generation step are searched, Extracting one or more co-occurrence networks including the keyword specified by the search expression; displaying the one or more co-occurrence networks extracted above on a screen; The method according to claim 5, further comprising the step of: distinguishing and displaying a keyword specified by the search expression among the independent words included in the network. How to build a document database.
ードを含む文を画面表示するときに、 前記キーワードと、前記キーワードを含む文が原文章中
に幾つ含まれているかを示す数値と、前記キーワードを
含む文のうち現在表示されている文が何番目の文である
かを示す数値と、前記キーワードを含む文のうち現在表
示されている文より前の文の表示命令を入力するための
前文表示命令入力部と、前記キーワードを含む文のうち
現在表示されている文より後の文の表示命令を入力する
ための次文表示命令入力部とを表示し、 前記前文表示命令入力部に前文表示命令が入力される
と、前記キーワードを含む文のうち現在表示されている
文の前の文を画面表示し、 前記次文表示命令入力部に次文表示命令が入力される
と、前記キーワードを含む文のうち現在表示されている
文の次の文を画面表示する請求項5記載のドキュメント
データベースの構築方法。9. In the original sentence reference step, when displaying a sentence including the keyword on a screen, the keyword, a numerical value indicating how many sentences including the keyword are included in the original sentence, and the keyword A numerical value indicating the number of the sentence currently displayed in the sentence including the sentence, and a pre-sentence display for inputting a display instruction of a sentence prior to the currently displayed sentence among the sentences including the keyword Displaying a command input unit and a next sentence display command input unit for inputting a display command of a sentence after the currently displayed sentence among the sentences including the keyword, and displaying a preamble sentence on the preamble display command input unit When a command is input, a sentence before the currently displayed sentence among the sentences including the keyword is displayed on the screen, and when a next sentence display command is input to the next sentence display command input unit, the keyword is displayed. Containing sentence 6. The method according to claim 5, wherein a sentence next to the currently displayed sentence is displayed on the screen.
は、 生成された共起ネットワークとともに、前記期待値に加
算される所定の定数を変更する指示を入力する定数変更
指示入力部を画面表示するステップと、 前記定数変更指示入力部に定数の変更指示が入力された
ときに、前記主題示唆自立語選定ステップを再起動し、
前記共起回数と前記期待値に変更後の定数を加算した数
値とを比較して文書の主題を示唆し得る共起関係にある
自立語群を選定し直すステップと、 前記で選定し直された自立語に基づいて共起ネットワー
クを作り直すステップと、 前記で作り直された共起ネットワークを画面表示するス
テップとを含む請求項2記載のドキュメントデータベー
スの構築方法。10. The co-occurrence network generation step includes: displaying a constant change instruction input unit for inputting an instruction to change a predetermined constant added to the expected value together with the generated co-occurrence network on a screen; When a constant change instruction is input to the constant change instruction input unit, the subject suggestion independent word selection step is restarted,
A step of comparing the number of times of co-occurrence and the numerical value obtained by adding the constant after the change to the expected value to re-select an independent word group having a co-occurrence relationship that can suggest the subject of the document; and 3. The method according to claim 2, further comprising the steps of: re-creating the co-occurrence network based on the independent word; and displaying the re-created co-occurrence network on a screen.
る自立語群の各自立語を表す文字列と、共起関係にある
自立語それぞれの文字列を視覚的に結ぶ共起線とから構
成される共起ネットワークを画面表示し、 任意の文字列の表示座標が位置指定手段によって指定さ
れ、前記共起ネットワークの表示座標が位置指定手段に
よって指定されると、前記共起ネットワークに対応する
文書の原文章を抽出し、その原文章のうち前記位置指定
手段によって指定された文字列を含む文又は文字列、あ
るいは前記文字列を含む文又は文字列とその前後の文又
は文字列を画面表示するドキュメントデータベースの表
示方法。11. A character string representing each independent word of a group of independent words in a co-occurrence relationship that can suggest the subject of a document, and a co-occurrence line visually connecting the character strings of the independent words in a co-occurrence relationship. When the display coordinates of an arbitrary character string are specified by the position specifying means and the display coordinates of the co-occurrence network are specified by the position specifying means, the co-occurrence network corresponding to the co-occurrence network is displayed. The original sentence of the document to be extracted is extracted, and a sentence or a character string including the character string specified by the position designation unit, or a sentence or a character string including the character string and sentences or character strings before and after the original sentence are extracted from the original sentence. How to display the document database to be displayed on the screen.
間の共起確率の大きさによってその線種、向き、色、長
さ、又は太さが決定される線もしくは矢印である請求項
11記載のドキュメントデータベースの表示方法。12. The co-occurrence line is a line or an arrow whose line type, direction, color, length, or thickness is determined by the magnitude of the co-occurrence probability between co-occurring independent words. The method for displaying a document database according to claim 11.
毎に、各自立語に対する共起単語とその共起回数とを記
録する共起テーブルと、 前記共起テーブルに基づいて共起関係の強さを表わす共
起確率を算出する共起確率算出手段と、 前記共起テーブルに基づいて共起回数の期待値を算出す
る共起回数期待値算出手段と、 前記期待値と前記共起回数とを比較して文書の主題を示
唆し得る共起関係にある自立語群を選定する主題示唆自
立語群選定手段と、 前記主題示唆自立語群選定手段によって選定された自立
語群の各自立語を表す文字列と、それらの文字列のうち
共起関係にあるそれぞれの自立語を表す文字列間を共起
確率の大きさに応じた形態で結ぶ共起線とからなる共起
ネットワークを生成する共起ネットワーク生成手段と、 キーワードを入力するためのキーワード入力手段と、 前記共起ネットワーク生成手段によって生成された1つ
あるいは2つ以上の共起ネットワークを検索し、前記入
力手段に入力されたキーワードを含む1つあるいは2つ
以上の共起ネットワークを抽出して画面表示する文書検
索手段と、 前記文書検索手段によって画面表示された1つあるいは
2つ以上の共起ネットワークのうちの任意の共起ネット
ワークを指定する共起ネットワーク指定手段と、 前記
共起ネットワーク指定手段によって指定された共起ネッ
トワークに対応する文書の原文章を読み出し、その原文
章の一部あるいは全部を画面表示する原文参照手段とを
備えるドキュメントデータベース表示装置。13. A co-occurrence table for recording, for each independent word extracted from a given document, a co-occurrence word for each independent word and the number of times of co-occurrence, and a co-occurrence relationship based on the co-occurrence table. A co-occurrence probability calculating means for calculating a co-occurrence probability representing strength; a co-occurrence number expected value calculating means for calculating an expected value of the number of co-occurrence based on the co-occurrence table; A subject suggestion independent word group selecting means for selecting independent word groups having a co-occurrence relationship that can suggest the subject of the document by comparing A co-occurrence network consisting of a character string representing a word and a co-occurrence line connecting the character strings representing the independent words in co-occurrence among the character strings in a form corresponding to the magnitude of the co-occurrence probability Co-occurrence network generation means and keywords Keyword input means for inputting, and one or two or more co-occurrence networks generated by the co-occurrence network generation means are searched, and one or two or more keywords including the keyword input to the input means are searched. Document search means for extracting a co-occurrence network and displaying the screen, and co-occurrence network designating means for designating an arbitrary co-occurrence network among one or more co-occurrence networks displayed on the screen by the document search means A document database display device comprising: an original text reference unit that reads an original text of a document corresponding to the co-occurrence network specified by the co-occurrence network specification unit and displays a part or all of the original text on a screen.
自立語を表す文字列と、共起関係にあるそれぞれの自立
語を表す文字列間を結ぶ共起線とから構成される共起ネ
ットワークを画面表示し、 任意の文字列の表示座標が位置指定手段によって指定さ
れたのちに、前記共起ネットワークの表示座標が位置指
定手段によって指定されると、前記共起ネットワークに
対応する文書の原文章を読み出し、その原文章のうち前
記指定された文字列を含む文又は文字列、あるいは前記
文字列を含む文又は文字列とその前後の文又は文字列を
画面表示するとともに前記文字列を含む文あるいは前記
文字列のみを区別して表示するドキュメントデータベー
ス表示装置。14. A co-occurrence line composed of a character string representing each independent word of a group of independent words that can suggest a subject of a document, and a co-occurrence line connecting character strings representing respective independent words having a co-occurrence relationship. When the display coordinates of the co-occurrence network are specified by the position specifying means after the display coordinates of an arbitrary character string are specified by the position specification means, a document corresponding to the co-occurrence network is displayed. Of the original sentence, and a sentence or character string including the specified character string in the original sentence, or a sentence or character string including the character string, and a sentence or character string before and after the character string are displayed on a screen. A document database display device that displays only a sentence including the character string or only the character string.
間の共起確率の大きさによってその線種、向き、色、濃
淡、長さ、又は太さが決定される線もしくは矢印である
請求項14記載のドキュメントデータベースの表示装
置。15. The co-occurrence line is a line or an arrow whose line type, direction, color, shading, length, or thickness is determined according to the magnitude of the co-occurrence probability between co-occurring independent words. The display device for a document database according to claim 14, wherein:
又は太さは、ユーザによって任意に変更される請求項1
4記載のドキュメントデータベースの表示装置。16. The co-occurrence line type, color, shading, length,
Or the thickness is arbitrarily changed by a user.
4. The display device of the document database according to 4.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8087013A JP2806867B2 (en) | 1995-03-13 | 1996-03-04 | Document database construction method, display method, and display device |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7-53085 | 1995-03-13 | ||
| JP5308595 | 1995-03-13 | ||
| JP8087013A JP2806867B2 (en) | 1995-03-13 | 1996-03-04 | Document database construction method, display method, and display device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08314980A JPH08314980A (en) | 1996-11-29 |
| JP2806867B2 true JP2806867B2 (en) | 1998-09-30 |
Family
ID=26393797
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8087013A Expired - Fee Related JP2806867B2 (en) | 1995-03-13 | 1996-03-04 | Document database construction method, display method, and display device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2806867B2 (en) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3431836B2 (en) * | 1998-06-18 | 2003-07-28 | 株式会社トレンディ | Document database search support method and storage medium storing the program |
| TW482962B (en) * | 2000-01-15 | 2002-04-11 | Topology Technology Inc | Method of automatic extracting for key features in digital document |
| JP3606159B2 (en) * | 2000-04-04 | 2005-01-05 | 日本電気株式会社 | Text processing device |
| JP2003330966A (en) * | 2002-05-13 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | Document analysis method and apparatus, document analysis program, and storage medium storing document analysis program |
| JP4366062B2 (en) * | 2002-09-18 | 2009-11-18 | 株式会社野村総合研究所 | Associative search system |
| JP4599898B2 (en) * | 2004-06-11 | 2010-12-15 | 富士ゼロックス株式会社 | Program, method and portable information device for screen display control |
| JP4833336B2 (en) | 2007-05-08 | 2011-12-07 | 富士通株式会社 | Keyword output program, apparatus, and method |
| CN107193803B (en) * | 2017-05-26 | 2020-07-10 | 北京东方科诺科技发展有限公司 | A semantic-based task-specific text keyword extraction method |
| JP6987003B2 (en) * | 2018-03-20 | 2021-12-22 | 株式会社Screenホールディングス | Text mining methods, text mining programs, and text mining equipment |
| JP7403216B2 (en) * | 2018-10-24 | 2023-12-22 | Solize株式会社 | Text display method and text display device |
-
1996
- 1996-03-04 JP JP8087013A patent/JP2806867B2/en not_active Expired - Fee Related
Non-Patent Citations (3)
| Title |
|---|
| 有田英一,岡隆一,「新聞記事テキストデータからの断片的知識の連鎖の抽出」,電子情報通信学会技術研究報告 Vol.93,No.528 (NLC93−63〜68),PP.23−30 (1994年3月22日) |
| 田村俊作,細野公男ほか,「意味地図を用いた検索式の拡張」,第24回情報科学技術研究集会発表論文集 PP.161−167,日本科学技術情報センター (昭和63年3月18日) |
| 鈴木康広,栃内香次,「キーワード密度方式自動抄録法の改良」,情報処理学会論文誌 Vol.29,No.3 PP.325−328 (昭和63年3月15日) |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH08314980A (en) | 1996-11-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5257186A (en) | Digital computing apparatus for preparing document text | |
| US5907841A (en) | Document detection system with improved document detection efficiency | |
| JP2783558B2 (en) | Summary generation method and summary generation device | |
| US6823325B1 (en) | Methods and apparatus for storing and retrieving knowledge | |
| JP3429184B2 (en) | Text structure analyzer, abstracter, and program recording medium | |
| US7113954B2 (en) | System and method for generating a taxonomy from a plurality of documents | |
| US7191119B2 (en) | Integrated development tool for building a natural language understanding application | |
| JPH04127370A (en) | Information collecting system | |
| KR20170106308A (en) | Annotation assistance device and computer program therefor | |
| JP2004157981A (en) | Abstract expression device | |
| JP2003085193A (en) | Text summary generating system and method | |
| JPH07319917A (en) | Document data base managing device and document data base system | |
| JPH11161682A (en) | Information retrieval apparatus, information retrieval method, and recording medium | |
| JP2806867B2 (en) | Document database construction method, display method, and display device | |
| JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
| JP2957875B2 (en) | Document information search device and document search result display method | |
| JP3431836B2 (en) | Document database search support method and storage medium storing the program | |
| JP2004334382A (en) | Structured document summarizing apparatus, program, and recording medium | |
| JP2000099526A (en) | Document information extraction device | |
| JPH09190453A (en) | Database device | |
| JP4719921B2 (en) | Data display device and data display program | |
| JPH08329108A (en) | How to turn text into hypertext | |
| JPH0877196A (en) | Document information extraction device | |
| AU2005202353A1 (en) | Methods and apparatus for storing and retrieving knowledge | |
| JP2000105769A (en) | Document display method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070724 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080724 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080724 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090724 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100724 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110724 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 15 |
|
| LAPS | Cancellation because of no payment of annual fees |