JPH0782503B2 - Article integrated processing device - Google Patents
Article integrated processing deviceInfo
- Publication number
- JPH0782503B2 JPH0782503B2 JP2041513A JP4151390A JPH0782503B2 JP H0782503 B2 JPH0782503 B2 JP H0782503B2 JP 2041513 A JP2041513 A JP 2041513A JP 4151390 A JP4151390 A JP 4151390A JP H0782503 B2 JPH0782503 B2 JP H0782503B2
- Authority
- JP
- Japan
- Prior art keywords
- article
- sentence
- integrated
- text
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 title claims description 47
- 230000010354 integration Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 description 22
- 230000000295 complement effect Effects 0.000 description 9
- 238000007493 shaping process Methods 0.000 description 6
- 239000002245 particle Substances 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 4
- 230000033772 system development Effects 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書データベース装置に関するものであり、
同一のニュースソースから発生した複数の記事内容を統
合化して一つの記事としてもれのない情報を提供するも
のである。特に同一のニュースソースに基づいて書かれ
た複数の新聞の記事を一つの記事として統合化した情報
として読者に提供するシステムに利用する。DETAILED DESCRIPTION OF THE INVENTION [Industrial application] The present invention relates to a document database device,
The contents of multiple articles generated from the same news source are integrated to provide complete information as one article. In particular, it is used in a system that provides readers with integrated information of a plurality of newspaper articles written based on the same news source as one article.
本発明は、同一対象に対して記述された複数の記事内容
を統合整理して一つの統合化された記事として提供する
記事統合化処理装置において、 抽出した見出しについては、情報量のもっとも多い見出
しから順に同一内容の見出しを棄却しながら採択し、ま
た統合化文は最も情報量の多い記事を基本記事として採
択し、その基本記事の各文について他の非採択記事の文
とその情報量について比較して情報量の多い方の文とを
入れ替えて統合化文を作成し、さらに作成した統合化文
に含まれない内容の文を非採択記事から抽出して付記す
ることにより、 一つのニュースソースからの記事内容を情報についても
れがなく、複数の記事を読むことはなく包括的に提供で
きるようにするものである。According to the present invention, in an article integration processing device that integrates and organizes a plurality of article contents described for the same target and provides them as one integrated article, the extracted headline has the largest amount of information. From the beginning, the headings with the same contents are rejected, and the integrated sentence adopts the article with the most information as the basic article. For each sentence of the basic article, about the sentences of other non-adopted articles and its information amount By creating a unified sentence by replacing the sentence with the larger amount of information by comparison, and extracting sentences with contents not included in the created unified sentence from the non-adopted articles and adding them It is intended to provide a comprehensive source of information about the content of the source, without having to read multiple articles.
新聞あるいは雑誌などでは、一つのニュースソースにつ
いて、それぞれの記者がいろいろな角度観点から記事を
書く。このため、新聞社によって同一のニュースソース
に基づいて書かれた記事でも、その内容が異なってお
り、正確に事態を把握するには複数の新聞を読むべきで
あるといわれている。In newspapers or magazines, each reporter writes articles from one angle for one news source. Therefore, the articles written by the newspaper companies based on the same news source have different contents, and it is said that you should read multiple newspapers to grasp the situation accurately.
このため、ビジネスマンにおいては複数の新聞を取り寄
せて読むことが求められている。また、複数の新聞につ
いて依頼されたある主題で切り抜きを行い、これを契約
した読者に提供する業務が成立している。Therefore, businessmen are required to order and read a plurality of newspapers. In addition, there is a business that cuts out a requested subject for multiple newspapers and provides it to the readers who have contracted it.
しかし、一人で複数の新聞を取り寄せてそこに記述され
た情報を検討することは時間および金銭の浪費となりや
すい問題があり、また契約して記事提供を受ける方法で
は個人としては負担が大きく、また切り抜きに人手がか
かる問題がある。However, there is a problem that it is easy to waste time and money to order multiple newspapers and examine the information described therein, and the method of contracting to receive articles is a heavy burden for individuals, and There is a problem that it takes manpower to cut out.
また、各新聞社では自社で提供する新聞の記事内容をデ
ータベース化して提供している。しかし、このデータベ
ースサービスは各新聞社はそれぞれが自社の記事につい
てのみを提供しているため、複数社の記事について検討
しようとすると、それぞれの社ごとにデータベースの提
供に関して契約を結ぶ必要があり、複数の記事を検討す
るには高額の費用および人手がかかる問題があった。Also, each newspaper company provides a database of the article contents of newspapers it provides. However, since each newspaper company only provides its own articles for this database service, if you want to consider articles from multiple companies, you need to make a contract for providing a database for each company, Considering multiple articles has been a problem of high cost and labor.
本発明は上述の課題を解決するものであり、複数の記事
から情報を落とすことなく一つの統合化された記事を自
動的に作成して提供することができる記事統合化システ
ムを提供することを目的とする。The present invention is to solve the above-mentioned problems, and to provide an article integration system capable of automatically creating and providing one integrated article without losing information from a plurality of articles. To aim.
本発明は、同一の対象について記述された複数の記事内
容をファイルに記憶し、このファイルに記憶された原記
事内容から、一つの統合化された記事を作成する記事統
合化処理装置において、 上記ファイルから統合化しようとする記事の本文を抽出
する本文抽出手段と、 この抽出された複数の記事本文のうちから文字数が多く
しかも記事本文の主題に関連する語句である重要語数が
多い記事本文を統合化文の基本記事文として採択する基
本記事決定手段と、この採択された基本記事文に含まれ
る各文の文字数を同一内容について記述した基本記事以
外の他の記事本文と比較して文字数の多い文があった場
合基本記事の文と入れ替えて統合化本文を作成する文入
替手段と、この作成された統合化本文を読点単位で分割
し、この分割された文のそれぞれについて処理対象とな
る文より前に位置する統合化本文中に既に現れた単語と
同一の単語が全て含まれるか否かを判断し、全て含まれ
る場合はこの処理対象となる文を削除して統合化本文を
整形する文整形手段とを備えた統合化本文処理手段を含
み、上記基本記事決定手段は、最も文字数の多い記事か
ら重み付けを行う手段と、記事内に含まれる重要語を抽
出してこの重要語数の最も多い記事から重み付けを行う
手段と、文字数および重要語数による重み数を加算して
重み数が最も多い記事を基本記事として採択する手段と
を備えることを特徴とする。The present invention provides an article integration processing device for storing a plurality of article contents describing the same target in a file and creating one integrated article from the original article contents stored in the file, A text extraction unit that extracts the text of articles to be integrated from a file, and an article text that has a large number of characters from the extracted article texts and that has a large number of important words that are words and phrases related to the subject of the article text. The basic article determination means adopted as the basic article sentence of the integrated sentence and the number of characters of each sentence included in this adopted basic article sentence are compared with the text of other articles other than the basic article describing the same content to determine the number of characters. If there are many sentences, replace the sentence of the basic article to create an integrated text, and the created integrated text is divided into reading points. For each, it is judged whether all the same words as the words already appearing in the integrated text located before the sentence to be processed are included, and if all are included, the sentence to be processed is The basic article determining means includes means for performing weighting from an article having the largest number of characters, and important words included in the article, including integrated text processing means having a sentence shaping means for deleting and shaping the integrated text. And a means for adding weights by the number of characters and the number of important words and adopting the article with the largest number of weights as a basic article. .
なお、統合化本文処理手段の文入替手段は、基本記事内
の各文中の数詞および重要語を切り出し、この切り出さ
れた数詞または重要語が含まれる他の記事の文と比較
し、長い方の文を統合化本文として採択する手段を備え
ることが好ましい。In addition, the sentence replacement means of the integrated text processing means cuts out the numbers and important words in each sentence in the basic article, compares them with the sentences of other articles containing the cut-out numbers or important words, and selects the longer one. It is preferable to provide means for adopting a sentence as an integrated text.
また、上記ファイルから統合化しようとする記事の見出
しを抽出する手段と、この抽出された見出しの中から最
も長い文字数の見出しを順に選択する手段と、この選択
された見出しに含まれる文字とすでに採択された見出し
に含まれる文字とを比較することによって同一内容であ
る見出しを不採択とする見出し同一性判断手段とを備え
た統合化見出し処理手段を含むことが好ましい。In addition, a means for extracting the headings of articles to be integrated from the above file, a means for sequentially selecting the heading with the longest number of characters from the extracted headings, and a character included in the selected heading It is preferable to include integrated headline processing means including headline identity determination means for rejecting headlines having the same content by comparing the characters included in the adopted headline.
また、この統合化見出し処理手段の見出し同一性判断手
段は、各見出し中の文字から数詞または独立の単語を切
り出す切出し手段と、数詞または独立の単語がある場
合、同一の数詞または同一の独立の単語がすでに採択さ
れた見出し中にあるときにはその数詞またはその独立の
単語を含む見出しを不採択とする手段と、すでに採択さ
れた見出し中の文字と比較して所定数以上の文字が一致
している見出しおよび不一致の文字数が所定数以下であ
る見出しを不採択とする手段とを含むことが好ましい。Further, the headline identity determining means of the integrated headline processing means is a cutting-out means for cutting out a number or an independent word from a character in each heading, and a cutting out means or an independent word if there is a number or an independent word. When a word is in an already adopted heading, the means of disabling the heading containing the number or its independent word is compared to the characters in the already adopted heading, and more than a certain number of characters match. It is preferable to include a heading that has not been adopted and a heading in which the number of mismatched characters is a predetermined number or less.
さらに、本発明の記事統合化処理装置には、統合化され
た記事本文から重要語および数詞を切り出す手段と、切
り出された重要語および数詞が全く存在しない文を原記
事文中から抽出して、上記統合化見出しおよび統合化文
に付加する手段とを備えたことを特徴とする。Further, in the article integration processing device of the present invention, a means for cutting out the important words and numbers from the integrated article body, and a sentence in which the cut out important words and numbers are not present at all, is extracted from the original article sentence, And a means for adding to the integrated headline and the integrated sentence.
複数の記事は被統合化記事としてファイルに記憶されて
いる。Multiple articles are stored in the file as integrated articles.
統合化記事の見出しは、まず全体の見出しを抽出し、情
報量の最も多い見出しから統合化記事の見出しとして採
択する。その際に、同一内容の見出しは棄却していき内
容の異なる見出しのみを採択していく。For the headline of the integrated article, first, the entire headline is extracted, and the headline having the largest amount of information is adopted as the heading of the integrated article. At that time, headings with the same content are rejected and only headings with different content are adopted.
統合化記事の本文の作成は次の手順で行う。まず、複数
の記事の中から文字数の量と重要な語がもっとも含まれ
ていると考えられる文を統合化文の基本記事として採択
する。そして、この採択された基本記事の各文単位で、
同一内容を記述した他の記事の文と比較して、より情報
量が多いと考えられる文を採択して、全体としての文を
整形して統合化文の本文を作成する。Follow the steps below to create the text of an integrated article. First, we select the sentence that is considered to contain the most words and the most important words from multiple articles as the basic article of the integrated sentence. And, for each sentence of this adopted basic article,
Compared with the sentences of other articles that describe the same content, the sentence that is considered to have more information is adopted, the sentence as a whole is shaped, and the text of the integrated sentence is created.
さらに、上述の統合化本文に採択されなかった文で全く
内容が異なる文を抽出して特記事項として見出しおよび
統合化文に付記し、全体としての統合化記事を作成す
る。Furthermore, sentences that are not adopted in the above-mentioned integrated text and have completely different contents are extracted and added as special notes to the headline and the integrated text to create an integrated article as a whole.
以下、本発明実施例を図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
第1図は本発明一実施例の記事統合化処理装置の構成を
示すブロック図である。この実施例では、複数の新聞記
事から一つの統合化記事を作成するシステムの例で説明
する。FIG. 1 is a block diagram showing the configuration of an article integration processing device according to an embodiment of the present invention. In this embodiment, an example of a system that creates one integrated article from a plurality of newspaper articles will be described.
この実施例の記事統合化処理装置は、大きく分けて4つ
の部分から構成されている。すなわち、統合化しようと
する原記事が記憶されたファイル装置1と、このファイ
ル装置1に記憶された原記事の見出しを処理して統合化
された見出しを作成する統合化見出し処理手段2と、フ
ァイル装置1内の原記事から統合化された統合化本文を
作成する統合化本文処理手段3と、作成された統合化見
出しおよび統合化本文に含まれていない重要な情報を抽
出して本文に付記する特記事項処理手段4とから構成さ
れており、原新聞記事から統合化された統合化記事5を
作成する。The article integration processing apparatus of this embodiment is roughly divided into four parts. That is, the file device 1 in which the original articles to be integrated are stored, the integrated headline processing means 2 for processing the original article headlines stored in the file device 1 to create an integrated headline, An integrated text processing means 3 for creating an integrated text integrated from the original article in the file device 1 and the created integrated heading and important information not included in the integrated text are extracted into the text. It is composed of special note processing means 4 to be added, and creates an integrated article 5 integrated from original newspaper articles.
次に各手段の動作について説明する。Next, the operation of each means will be described.
ファイル装置1には原記事ファイル11が設けられてお
り、この原記事ファイル11には統合化しようする一つの
対象についての複数の新聞社から提供される原記事が格
納されている。The file device 1 is provided with an original article file 11, and the original article file 11 stores original articles provided by a plurality of newspaper companies about one target to be integrated.
すなわち、それぞれの新聞において一つのニュースソー
スに基づいて書いた記事が抽出され、これが原記事ファ
イル11に格納される。この記事の格納は通常の文字認識
処理によって行い、認識された記事からその内容にした
がって記事内容を分類し、統合化処理のために同一のニ
ュースに係わる記事を指定しておく。That is, articles written based on one news source in each newspaper are extracted and stored in the original article file 11. This article is stored by normal character recognition processing, the article content is classified according to the content of the recognized article, and articles related to the same news are designated for the integration processing.
次に統合化見出し処理手段2での統合化見出し作成処理
について説明する。Next, the integrated headline creating process in the integrated headline processing means 2 will be described.
この統合化見出し処理手段2は、原記事ファイル11内の
統合化しようとする複数の社にわたる新聞記事の原記事
から見出しのみを抽出する見出し抽出手段21と、抽出さ
れた見出しをまず文字数の多い順から選択していく見出
し選択手段22と、この見出し選択手段22で選択された見
出しについて、すでに採択された見出しと同一内容のも
のがあるか否かを判断し、すでに採択された見出しと同
一内容のものであるときは統合化見出しには不採択とし
て棄却する見出し同一性判断手段23とを備えており、抽
出した見出しから最終的に同一内容の見出しを除いて統
合化記事の見出しを決定する。The integrated headline processing means 2 includes a headline extraction means 21 for extracting only headlines from original articles of newspaper articles across a plurality of companies to be integrated in the original article file 11, and the extracted headings have a large number of characters. The heading selecting means 22 that selects from the order and the heading selected by this heading selecting means 22 determine whether or not there is the same content as the heading already adopted, and it is the same as the heading already adopted. When the heading has the same content, the heading identity judgment means 23 that rejects the integrated heading as rejected is provided, and finally the heading of the integrated article is determined by removing the heading of the same content from the extracted heading. To do.
次に見出し同一性判断手段23の動作を第2図にその動作
フローチャートを挙げて説明する。この見出し同一性判
断手段23は、文字数の多い順序で選択されていく見出し
について、一つ一つの見出しについてすでに採択された
見出しと同一内容のものがあるときは、その見出しは不
要のものとして棄却して統合化見出しとしては不採択と
なる処理である。Next, the operation of the headline identity determination means 23 will be described with reference to the operation flowchart of FIG. This headline identity determination means 23 rejects the headings that are selected as the headings selected in descending order of the number of characters if they have the same content as the headings already adopted for each heading as unnecessary. This is a process that is rejected as an integrated heading.
すなわち、第2図に示すように、統合化見出しとして選
択された見出しに数詞があるか否かを判断する(ステッ
プS21)。そして数詞が含まれている場合には、数詞を
切り出す(ステップS22)。この数詞の切り出しは、少
数点であれば一緒に切り出し、アラビア数字なら、漢数
字も共に切り出し、漢数字であれば、アラビア数字も共
に切り出し、数字一字のときは、次語とともに二語で切
出す。そして、採択済みの残り見出しに同一数詞が切り
出されていれば同一内容のものとして、この見出しを統
合化見出しとしては不採択として棄却する(ステップS2
3、26)。さらに、採択済みの残り見出しと文字を比較
し、7文字以上が一致している場合または不一致の文字
が2文字以下の場合も同一内容のものとして不採択とし
て棄却する(ステップS24、26)。That is, as shown in FIG. 2, it is determined whether or not the heading selected as the integrated heading has a number (step S21). If the number is included, the number is cut out (step S22). If the number is a decimal point, it is cut out together, if it is an Arabic numeral, the Chinese numeral is also cut out, if it is a Chinese numeral, the Arabic numeral is also cut out. Cut out. Then, if the same number is cut out from the remaining headline that has been adopted, it is regarded as the same content, and this heading is rejected as an unadopted integrated heading (step S2).
3, 26). Further, the remaining headlines that have been adopted are compared with the characters, and if seven or more characters match or if the mismatching characters are two characters or less, they are rejected as unaccepted as having the same content (steps S24 and S26).
また選択された見出し中に数詞がないときは、ひら仮名
で囲まれたかな、漢字で構成されている単語を切り出す
(ステップS28)。この単語の切り出しでは、2文字以
上を単語として切り出し、また、文頭、文尾の単語は片
側がひら仮名の所で切り出し、さらに見出し中のスペー
ス、特殊符号はひら仮名として扱う。そして、この切り
出された単語をすでに採択済みの残りの見出しの単語と
比較し、残り見出しに同一の切り出し単語があるとき
は、同一の内容として不採択として棄却する(ステップ
S23、26)。さらに、採択済みの残り見出しとその文字
を比較して、7文字以上が一致している場合または不一
致の文字が2文字以下の場合も同一内容のものとして不
採択として棄却する(ステップS24、26)。If the selected headline does not have a number, a word composed of kana or kanji enclosed in hiragana is cut out (step S28). In this word cutout, two or more characters are cut out as a word, words at the beginning and end of a sentence are cut out at a hiragana on one side, and spaces in the heading and special codes are treated as hiragana. Then, this cut-out word is compared with the words of the remaining headings that have already been adopted, and if there are the same cut-out words in the remaining headings, they are rejected as rejected because they have the same content (step
S23, 26). Further, the remaining headings that have been adopted are compared with the characters, and if seven or more characters match or if the mismatching characters are two characters or less, the same content is rejected and rejected (steps S24, S26). ).
このようにして、文字数の多い見出しから統合化見出し
を採択しながら同一内容の見出しを棄却していき統合化
見出しを決定する(ステップS25)。In this way, while adopting an integrated heading from a heading having a large number of characters, the headings having the same contents are rejected to determine the integrated heading (step S25).
この統合化見出し作成処理の具体例を挙げて説明する。A specific example of this integrated headline creation processing will be described.
次の見出しは、1989年7月26日の号に掲載された株式会
社日立製作所が開発した高速文書検索システムに関する
各新聞社の原文記事の見出しを抽出したものである。The following headings extract the headings of the original text articles of each newspaper company regarding the high-speed document retrieval system developed by Hitachi, Ltd., which was published in the issue of July 26, 1989.
電波新聞 1年間の新聞挟持1.5秒で捜し出す 文書検索システム開発 日立が超高速型 朝日新聞 1年分の新聞から1.5秒で探したい記事 日立製作所 超高速検索のシステム開発 2年後めど製品化 日経産業新聞 WSで素早く文書検索 日立低コストシステム試作 日本経済新聞 日立 1.5秒で必要文書検索 WS採用システム試作 電気新聞 全ての言葉を検索 日立 超高速文書検索システム 日本工業新聞 一年分の記事を1.5秒で 日立が高速検索システム 読売新聞 新聞記事1年分1.5秒で検索 日立が新システム 日刊工業新聞 一年分の新聞記事わずか1.5秒で検索 この見出しをまず、文字数が最も多い日刊工業新聞の
『一年分の新聞記事わずか1.5秒で検索』を統合化見出
しの最初のものとして選択し採択する。次に文字数の多
い見出しの『日立製作所 超高速検索のシステム開発』
を選択して、単語を切り出しても、先の見出しには同一
の単語がないため、統合化見出しとして採択する。次の
文字数の多い見出しは『1年間の新聞記事1.5秒で捜し
出す』であるが、この見出しには「1年」と「1.5」の
数詞が切り出され、この数詞は先に採択された最初の見
出し中に同一の語があるため同一内容のものとして棄却
する。このようにして、「1年」、「1.5」の数詞が含
まれる後の見出しはすべて棄却される。Radio newspaper one year of locating in the newspaper sandwiched 1.5 seconds document retrieval system developed by Hitachi ultra-high-speed type Asahi Shimbun one year's worth of articles Hitachi ultra-high-speed retrieval of system development two years after the prospect commercialization Nikkei Sangyo you want to find in 1.5 seconds from newspaper Quickly search documents with newspaper WS Hitachi low-cost system prototype Nihon Keizai Shimbun Hitachi 1.5 seconds required document search WS prototype system Denki Shimbun Search all words Hitachi ultra-high-speed document search system Nippon Kogyo Shimbun Articles in one year in 1.5 seconds Hitachi's high-speed search system Yomiuri Shimbun Newspaper articles searched in 1.5 seconds for one year Hitachi new system Nikkan Kogyo Shimbun Newspaper articles for one year searched in only 1.5 seconds This headline was first searched for in the Nikkan Kogyo Shimbun Search for newspaper articles in just 1.5 seconds ”is selected and adopted as the first integrated heading. Next, heading with the largest number of characters, "Hitachi, Ltd. Ultra-high speed search system development"
Even if you select and cut out a word, there is no same word in the previous heading, so it is adopted as an integrated heading. The next headline with a large number of letters is "Search for a newspaper article in 1.5 seconds in a year", but the heading has the numbers "1 year" and "1.5" cut out, and this number is the first to be adopted first. Since the same word is included in the heading, it is rejected as having the same content. In this way, all headings after the ones containing "1 year" and "1.5" are rejected.
また、電気新聞の『日立 超高速文書検索システム』の
見出しは第二番目に採択された見出しと7文字以上が同
一であるため、これも棄却される。Also, the headline of "Hitachi Ultra High-speed Document Search System" in Denki Shimbun is rejected because it has 7 or more characters that are the same as the headline adopted second.
このようにして、上述の見出しから、見出し同一性判断
手段23にて、統合化見出しとして、別紙に示す統合化見
出しに示すように8つの統合化見出しが採択され、決定
される。In this way, from the above-mentioned headlines, the headline identity determination means 23 adopts and determines eight integrated headlines as the integrated headings as shown in the integrated headline shown in a separate sheet.
次に統合化本文処理手段3の動作を第3図ないし第5図
に基づいて説明する。Next, the operation of the integrated text processing means 3 will be described with reference to FIGS.
統合化本文処理手段3は、第1図に示すように、原記事
ファイル11から、見出しを除いた記事本文を抽出する本
文抽出手段31と、この本文抽出手段31で抽出された各記
事本文について、その文字数と各記事本文から抽出され
る重要語の数とに基づいて重み付けを行い、この重み付
けから、最も重み付け数の大きい記事本文を基本記事本
文として決定する基本記事決定手段32と、この基本記事
決定手段32で決定された基本記事の各文について、同一
の内容について記述する他の記事本文の文と比較して、
より情報量の多く内容の濃い文の方を選択して統合化本
文として採択する文入替手段33と、全体の文を整形し
て、文章として滑らかにする文整形手段34とを備えてお
り、統合化記事5の統合化本文を作成する。As shown in FIG. 1, the integrated body text processing unit 3 extracts the body text of the original article file 11 from which the body text is removed, and the body text extraction unit 31 extracts the body text of each article. , A basic article determination means 32 for performing weighting based on the number of characters and the number of important words extracted from each article text, and determining the article text with the largest weighting number as the basic article text, and this basic For each sentence of the basic article decided by the article deciding means 32, compared with the sentence of the other article text describing the same content,
The sentence replacement unit 33 that selects a sentence with a larger amount of information and has a richer content and adopts it as an integrated text, and the sentence shaping unit 34 that shapes the entire sentence to make it smooth as a sentence, The integrated text of the integrated article 5 is created.
まず、基本記事決定手段32の動作を第3図のフローチャ
ートに基づいて説明する。First, the operation of the basic article determining means 32 will be described based on the flowchart of FIG.
記事本文を統合化する際にまず、どの記事を基にして統
合化本文を作成するかを決定する必要があり、これを基
本記事決定手段32において判断する。この基本記事決定
判断の基本的な考えは情報量が多くしかも内容の濃い記
事を基本記事として抽出することである。When integrating the article texts, it is first necessary to determine which article is used as the basis for creating the integrated text, and the basic article determining means 32 determines this. The basic idea of this basic article decision judgment is to extract an article with a large amount of information and a high content as a basic article.
まず、原文記事ファイル11から統合化しようとする記事
の本文のみを本文抽出手段31によって抽出する(ステッ
プS31)。抽出した記事本文の文字数をカウントし、文
字数の多い記事本文から記事数の逆番、すなわち、重み
付け数をふる。(ステップS32)。次に記事本文内の重
要語数を計算する(ステップS33)。この重要語とは、
助詞「は」、「には」、「とは」および文頭より読
点「、」の前の漢字かな文字列で構成されている単語の
ことを指す。ここで、この助詞の前の単語を重要語とす
るのは、この単語はその文章の主題を構成しており、
「は」、「には」、「とは」を使う単語がその文が記述
しようとする概念に最も対応するものと考えられるた
め、このような単語を抽出してその表出頻度をカウント
することにより、内容の豊富さを知ることができるから
である。First, only the body of the article to be integrated is extracted from the original article file 11 by the body extracting means 31 (step S31). The number of characters in the extracted article body is counted, and the article number is reversed from the article body having a large number of characters, that is, the weighted number. (Step S32). Next, the number of important words in the article body is calculated (step S33). This important word is
It refers to a word composed of the particles "ha", "ni", "toha" and the kanji / kana character string before the reading point "," from the beginning of the sentence. Here, the word before this particle is taken as an important word because this word constitutes the subject of the sentence,
The words that use "ha", "ha", and "toha" are considered to correspond most to the concept that the sentence is trying to describe, so such words are extracted and their frequency of expression is counted. By doing so, it is possible to know the richness of the content.
そこで、この重要語の数にしたがって重要語数の多い記
事から重み付けを行って記事数の逆番をふる(ステップ
S34)。そして、文字数の重み付け数と重要語数による
重み付け数を加算して最も重み付け数の大きい記事本文
を基本記事本文として採択する(ステップS35)。Therefore, according to the number of important words, the articles with the most important words are weighted and the number of articles is reversed (step
S34). Then, the weighted number of characters and the weighted number of important words are added to adopt the article body with the largest weighting as the basic article body (step S35).
具体例を挙げて説明する。A specific example will be described.
上述の統合見出しを作成した日立製作所が開発した高速
文書検索システムに関しての各新聞社の記事本文につい
て、文字数と重要語との重み付けを行ったら下記の表の
とおりになった。The following table shows the weight of the number of characters and the important words in the article text of each newspaper company regarding the high-speed document search system developed by Hitachi, Ltd., which created the above integrated headings.
したがって、この例では、電波新聞での記事本文を基本
記事として採択する。 Therefore, in this example, the text of the article in the Denpa newspaper is adopted as the basic article.
次に文入替手段33による処理動作を第4図に示す。この
文入替手段33による処理は、同一内容を表す文章につい
て、より情報量の多い文を統合化本文として採択するた
めの処理であって、基本記事より同一内容について情報
量の多い文が他の記事にあった場合、基本記事の文と入
れ替えるための処理である。Next, the processing operation by the sentence replacement means 33 is shown in FIG. The processing by the sentence replacement unit 33 is processing for adopting a sentence having a larger amount of information as a unified text for sentences expressing the same content, and a sentence having a larger amount of information for the same content than the basic article is different. If there is an article, it is a process for replacing the sentence of the basic article.
まず、基本記事を文単位で切り出し、一つ一つの文を読
み込む(ステップS41、42)。次に文内に数詞が含まれ
ているか否かを判断し(ステップS43)、数詞を切り出
す(ステップS44)。さらに文内に重要語があるか否か
を判断し(ステップS45)、重要語がある場合には重要
語を切り出し(ステップS46)、この切り出された重要
語と数詞とが全て含まれる補完文を他の記事本文から探
す(ステップS47)。この補完文と基本記事本文との長
さを比較し(ステップS48)、補完文の方が長い場合
は、基本記事本文と入れ替えて統合化本文の文として採
択する(ステップS49)。このとき、補完文がすでに統
合化本文として採択済みであるときは次候補文と比較
し、基本記事本文より文字数が多い補完文と入れ替え
る。First, the basic article is cut out sentence by sentence and each sentence is read (steps S41 and S42). Next, it is judged whether or not the sentence includes a number (step S43), and the number is cut out (step S44). Furthermore, it is judged whether or not there is an important word in the sentence (step S45), and if there is an important word, the important word is cut out (step S46), and the complemented sentence including all of the cut out important word and number Is searched from the text of other articles (step S47). The lengths of the supplemental sentence and the basic article body are compared (step S48). If the supplementary sentence is longer, it is replaced with the basic article body and adopted as the integrated body sentence (step S49). At this time, when the complementary sentence has already been adopted as the integrated text, it is compared with the next candidate sentence and replaced with a complementary sentence having more characters than the basic article text.
重要語がない場合には、切り出された数詞がすべて含ま
れる補完文を他の記事本文から探し(ステップ50)、こ
の補完文と基本記事本文と文字数を比較し長い方の文を
統合化本文として採択する(ステップS48、49)。If there is no important word, search for a supplemental sentence containing all the cut out numbers from other article texts (step 50), compare this supplemental text with the basic article text and the number of characters, and integrate the longer sentence. Is adopted (steps S48, S49).
基本記事本文中に数詞がなく、重要語がある場合には、
重要語を切り出し、その語が含まれている補完文を他の
記事本文から探す(ステップS51、52、53)。そして、
ステップS48、49によって基本記事文より長い補完文が
あれば補完文を統合化本文として採択する。重要語がな
いときは基本記事本文を統合化本文として採択する(ス
テップS54)。If there is no number in the basic article text but an important word,
An important word is cut out, and a complementary sentence including the word is searched for from other article texts (steps S51, 52, 53). And
If there is a complementary sentence longer than the basic article sentence by steps S48 and S49, the complementary sentence is adopted as the integrated text. If there is no important word, the basic article text is adopted as the integrated text (step S54).
このように基本記事本文のすべての文について文単位で
同一内容の文があるかを検討して、もっとも情報量の多
いと考えられる文を統合化本文として採択する。In this way, all the sentences in the basic article text are examined for the same content sentence by sentence, and the sentence considered to have the largest amount of information is adopted as the integrated text.
具体例を挙げて説明する。A specific example will be described.
上述の日立製作所の開発した高速文書検索システムの記
事は、基本記事として電波新聞のものが採択された。The article on the high-speed document retrieval system developed by Hitachi, Ltd. was adopted by Denpa Shimbun as a basic article.
その基本記事本文の第1番目の文章は、 『日立製作所は、膨大な文書情報から自由な言葉による
検索を実用化する超高速文書検索システムを開発した
と、二十五日発表した。』 である。The first sentence of the text of the basic article is "Hitachi, Ltd. announced that it has developed an ultra-high-speed document retrieval system that puts a large amount of document information into practical use in free-word retrieval. ].
この文章から数詞として「二十五」が切り出され、重要
語として「日立製作所」が切り出される。この二つの文
字と同一の補完文を他社の記事から抽出し、その語数を
比較すると、日刊工業新聞の『日立製作所は(社長三田
勝茂氏)二十五日、ワープなどで作成された電子化文書
を、本文中にでているどの言葉でも検索することができ
る超高速文書検索システム(写真)を開発したと発表し
た。』の方が文字数が多いことが分かった。このため、
この日刊工業新聞の補完文を統合化本文として採択し
て、基本記事本文と入れ替える。From this sentence, "25" is cut out as a number and "Hitachi" is cut out as an important word. The same supplementary sentence as these two letters was extracted from the articles of other companies, and the number of words was compared. "Hitachi Ltd. (Katsushige Mita, President) 25th, electronic digitization created by warp etc. of Nikkan Kogyo Shimbun It announced that it has developed an ultra-high-speed document retrieval system (photograph) that can retrieve documents using any of the words in the text. It turns out that the number of characters is larger. For this reason,
The supplementary text of this Nikkan Kogyo Shimbun is adopted as the integrated text and replaced with the basic text.
このように、文入替手段33において基本記事本文の各文
を他の記事の補完文と比較して情報量の多い文を統合化
本文として取り込む。In this way, the sentence replacement means 33 compares each sentence of the basic article text with the complementary sentences of other articles, and takes in a sentence having a large amount of information as an integrated text.
上述の記事例では、7つの文について補完文との入れ替
えが行われた。In the above article example, seven sentences were replaced with complementary sentences.
次に文整形手段34の処理動作について第5図にフローチ
ャートを示して説明する。Next, the processing operation of the sentence shaping means 34 will be described with reference to the flowchart of FIG.
上述の文入替手段33で、基本記事本文を他の記事の補完
文と入れ替えため、コンテキストの異なる文章が統合化
本文に混在し、同一内容の文章が統合化本文内に存在す
る結果となる。このため、統合化本文の文章全体を滑ら
かにするための文章整形を行う必要がある。In the sentence replacement means 33, the basic article text is replaced with the complementary text of another article, so that sentences with different contexts are mixed in the integrated text, and sentences with the same content exist in the integrated text. For this reason, it is necessary to perform text formatting to smooth the entire text of the integrated text.
この文章整形は、まず、統合化本文の最初の行から、読
点単位で、言葉列を切り出す(ステップS61)。次に切
り出された言葉列を、ひら仮名、特殊記号、スペースで
囲まれた漢字、カタ仮名、数詞の単語を切り出す(ステ
ップS62)。ただし1文字であれば無視する。そして、
次行より、読点単位でステップS42で切り出された単語
の全てが入っているとき、読点単位でその言葉列を削除
して文を詰め合わせる(ステップS63)。In this sentence shaping, first, a word string is cut out in reading point units from the first line of the integrated text (step S61). Next, from the cut out word string, words of hiragana, special symbols, kanji surrounded by spaces, katakana, and numerical words are cut out (step S62). However, if it is one character, it is ignored. And
From the next line, when all of the words cut out in step S42 are included in reading point units, the word string is deleted in reading point units and the sentences are packed (step S63).
この具体例を上述の日立製作所が開発した高速文書検索
システムの記事で説明する。A concrete example of this will be described in the article on the high-speed document retrieval system developed by Hitachi, Ltd.
基本記事本文となった電波新聞には、 『約一万文字からなる一般的な技術文書の場合、二万五
千件を約五秒で検索できる。』 の文がある。この文は文入替手段33で補完文と対比して
も、この数詞が含まれる文章は先に採択されており、次
候補となる文はないため、補完文との入れ替えはされず
統合化本文に残る。しかし、その前の統合化本文で日刊
工業新聞の補完文から入れ替えた文章は、 『同システムは最大読み出し速度が毎秒二十MバイトRA
Mディスク、毎秒十Mバイトの集合型磁気ディスク装
置、毎秒一.六Mビットのビットサーチプロセッサー、
毎秒二十Mバイトの文字列サーチプロセッサーで、構
成、等価的に毎秒百Mバイトのシステム検索速度を達
成、約一万字の一般的な技術文書の場合、二万五千件を
五秒で検索できる。特許情報・文献情報サービス、雑誌
・新聞などの記事情報管理などに利用できる。』 であり、上述の同一単語のすべてが入っている言葉列が
あり、同一内容の文章なので、基本記事本文にあった文
章を削除する。According to Denpa Shimbun, which became the basic article text, "In the case of a general technical document consisting of about 10,000 characters, 25,000 can be searched in about 5 seconds. 』There is a sentence. Even if this sentence is compared with the complementary sentence by the sentence replacement means 33, the sentence containing this number has been adopted first, and there is no sentence to be the next candidate. Remain in. However, in the previous integrated text, the sentence replaced from the supplemental sentence of Nikkan Kogyo Shimbun says, "The system has a maximum read speed of 20 MB per second RA.
M disk, aggregate magnetic disk drive of 10 Mbytes per second, 1. 6M bit search processor,
With a string search processor of 20 Mbytes per second, the system achieves a system search speed of equivalently 100 Mbytes per second, and in the case of a general technical document of about 10,000 characters, 25,000 items can be obtained in 5 seconds. You can search. It can be used for patent information / literature information service, article information management for magazines, newspapers, etc. , And there is a word string containing all of the same words mentioned above, and the sentences have the same content, so the sentences in the basic article body are deleted.
このような処理によって、別紙に記載する統合化本文が
作成される。Through such processing, the integrated text described in the attached sheet is created.
次に特記事項の付記について説明する。Next, the remarks of special notes will be described.
上述の統合化本文に採択されなかった他の記事文中には
基本記事文とは異なる情報が含まれることがある。これ
らの統合化本文に欠けた情報を統合化記事文に加えるた
め、統合化本文とは全く内容の異なる文を基本記事以外
の記事から抽出する処理が必要である。この処理を特記
事項処理手段4によって行う。Other article sentences not adopted in the above-mentioned integrated text may include information different from the basic article sentence. In order to add information lacking in the integrated text to the integrated article sentence, it is necessary to perform processing to extract a sentence whose content is completely different from the integrated text from articles other than the basic article. This processing is performed by the special item processing means 4.
この特記事項処理手段4での処理を第6図に示す。FIG. 6 shows the processing by the special note processing means 4.
まず統合化本文より重要語および数詞を切り出す(ステ
ップS71)。この重要語および数詞の切り出しは、統合
化本文処理手段3で行った重要語および数詞の切り出し
と同じ基準で行う。First, important words and numbers are cut out from the integrated text (step S71). The extraction of the important words and the numerical words is performed on the same basis as the extraction of the important words and the numerical words performed by the integrated text processing means 3.
そして切り出された重要語および数詞が全く存在しない
文を、原記事文より抽出し、これを新聞社ごとに特記事
項として統合化見出しおよび統合化本文に付記する(ス
テップS72)。Then, a sentence in which the cut-out important words and numbers do not exist at all is extracted from the original article sentence and added to the integrated headline and the integrated text as a special note for each newspaper company (step S72).
上述の日立製作所が開発した高速文書検索システムにつ
いての記事では、特記事項として例えば朝日新聞からは 『日立では、最初に文字、次いで単語、文書と次々に
三段階のふるいにかけてデータをチェックし、目的の文
章を探し出す方式を採用、時間を短縮した。たとえば
「情報の商品化が進む」という文章の場合、この文章を
まず「情」「報」「の」とひとつひとつの文字に分解し
た一覧表で探し、さらに「情報、商品化……」と助詞な
どを省いた「凝縮文」で点検して、候補をしぼりこ
む。』 『日立の新開発の方式なら、記憶させる際に人手が少
なくてすみ、さらに検索も簡単にできる。』 『スピードも従来方式と同じか、それ以上の速さで検
索できる、と同社ではいっている。』 『日立では「入力する時にはキーワードとして不要な
単語と思っていた言葉が、五年後、十年後に重要な言葉
になることも考えられる。』 の4つの文章が特記事項として抽出された。In the article about the high-speed document retrieval system developed by Hitachi, Ltd., as a special note, for example, the Asahi Shimbun said, "In Hitachi, data is first checked by letters, then words, documents, and then three-step sifting to check the data. It adopted the method to find the sentence of, and shortened the time. For example, in the case of a sentence "information is being commercialized," this sentence is first searched for in a list that is decomposed into individual letters "information,""report,""no," and then "information, commercialization ..." Check the "condensed sentence" without the above and narrow down the candidates. "Hitachi's newly-developed method requires less man-hours for storage and can be easily searched. "The company says that you can search at the same speed as or faster than the conventional method. ”The four sentences of“ Hitachi's words that were thought to be unnecessary as keywords when inputting may become important after 5 years or 10 years. ”Were extracted as special notes.
上述の統合化本文中では重要語として、「長三田」「二
五」「日立製作所」「一年」「七千二百万」「一・五」
「五百」「超高速検索」「一千三百」「同義語」「て三
段」「一千」「第一段」「システム」「第二段」「第
三」「二万五千」「ば一次」「五千」「、二次」「十
万」「約10倍」「集合磁気ディスク装置」「今回」「二
十」「高速多重文字列照合方式」「秒十M」「一.」
「六」「秒百M」「一万」「を五秒」「同システム」
「約五秒」「二七」が抽出されている。As the important words in the above-mentioned integrated text, "Chosita", "25", "Hitachi", "1 year", "72 million", "1.5"
"500""Ultra-high-speedsearch""1300""Synonyms""Te3dan""1000""1ststage""System""2ndstage""3rd""25,000""Ba" primary "5,000"",secondary""100,000""about 10 times""aggregate magnetic disk device""thistime""20""high speed multiple character string collation method""second10M""one."
"Six", "One hundred M", "10,000", "Five seconds", "Same system"
"About 5 seconds" and "27" are extracted.
このため、朝日新聞の上述の特記事項文の重要語として
抽出される「日立」は、統合化本文の重要語としては切
り出されておらず、また「五年」「十年」も抽出されて
いないため、上述のの文章に係わる情報は統合化本文
にはないと判断される。For this reason, "Hitachi", which is extracted as an important word in the above-mentioned special mention sentence of the Asahi Shimbun, is not extracted as an important word in the integrated text, and "5 years" and "10 years" are also extracted. Since there is no such information, it is determined that the information related to the above sentence is not in the integrated text.
このようにして、統合化見出し、統合化本文、新聞紙別
特記事項からなる統合記事が作成されて読者に提供さ
れ、読者は情報もれのない記事が一つの統合化された記
事を読むことによって複数の新聞からの情報を居ながら
にして得ることができる。In this way, an integrated article consisting of the integrated headline, the integrated text, and the special notes for newspapers is created and provided to the reader, and the reader can read an information-free article by reading one integrated article. You can get information from multiple newspapers in your own room.
上述のように、本発明は、自動的に複数の新聞社の記事
をまとめて情報のもれがない統合化された記事として読
者に提供できるので、読者は複数の書き手による評論を
網羅的につかむことができ、正確な情報を知ることがで
きる。As described above, since the present invention can automatically provide articles to a reader by integrating articles of a plurality of newspaper publishers as an integrated article with no information leakage, the reader can comprehensively review a review by multiple writers. You can grab and know the exact information.
また、読者自身がすべての新聞などに当たることなく一
つのニュースソースに係わる情報を知ることが可能であ
るため、そのための労力および費用を低減化することが
できる。Further, since the reader himself can know the information related to one news source without hitting all newspapers, the labor and cost for that can be reduced.
別紙(作成された統合化記事の例) 統合化見出し 朝日 一年分の新聞から1.5秒で探したい記事 朝日 日立製作所 超高速検索のシステム開発 朝日 「見出し登録不要」好きな言葉で 日産 日立低コストシステム試作 日経 WS採用システム試作 日産 WSで素早く文書検索 読売 日立が新システム 朝日 二年後めど製品化 統合化文 日立製作所は(社長三田勝茂氏)二十五日,ワープロな
どで作成された電子化文書を、本文中に出ているどの言
葉でも検索することができる超高速文書検索システム
(写真)を開発したと発表した。一年文の新聞記事約七
千二百万文字を同システムで約一・五秒で検索できる。Attachment (Example of created integrated article) Integrated headline Asahi Articles that you want to find in 1.5 seconds from a year's newspaper Asahi Hitachi Ltd. System development for ultra-high speed search Asahi "No need to register headline" Nissan Hitachi Low cost system prototype Nikkei WS adopted system prototype in the quick document search Yomiuri Hitachi new system Asahi two years later prospect market integration-text Hitachi, Nissan WS (President Mr. Katsushige Mita) 25th, electronic written in, for example, a word processor It announced that it has developed an ultra-high-speed document retrieval system (photo) that can retrieve documents using any of the words in the text. You can search about 72 million characters in a yearly newspaper article with the same system in about 1.5 seconds.
今回のフルテキストサーチ法による超高速検索は同中央
研究所が開発した次の技術の組合せにより実現したもの
で、システムとしては統合的に約五百倍のスピードアッ
プとなった。The ultra-high-speed search by the full-text search method this time was realized by the combination of the following technologies developed by the Central Research Institute, which resulted in an integrated speedup of about 500 times as a system.
同義語、異表記語など記述語の中に表現の食い違いが存
在する場合に、一千三百の異表記変換ルールに基づき自
動的に検索する方式や、文章の助詞部分や繰り返し語を
切り落とした文章で検索する階層型プリサーチ方式など
を組合わさせ、全体的に検索の効率化を実現している。When there are discrepancies in expressions among synonyms, different notation words, etc., we automatically searched based on 1,300 different notation conversion rules, and cut off the particle part and repeated words of sentences. By combining the hierarchical pre-search method, which searches by text, etc., the overall search efficiency is improved.
あらかじめ文書の本文から自動的に作成・情報圧縮して
おいた文字成分表と本文の中から助詞や接続詞などの附
属語を削除するとともに、繰り返される単語を排除した
凝縮本文を用いて三段階の検索を行って検索速度を上げ
る階層型サーチ方式などの独自の方式を取り入れて、フ
ルテキストサーチ法の欠点を克服、実用化にこぎつけた
もの。Character components tables that have been created and compressed automatically from the text of the document in advance, and annexes such as particles and conjunctions are deleted from the text, and condensed text that eliminates repeated words The original method, such as the hierarchical search method, which performs the search to increase the search speed is adopted to overcome the shortcomings of the full-text search method and be put to practical use.
今回開発したシステムは端末からある言葉を入力すると
同義語、異表記語を最大一千種類まで自動的に作成し
て、第一段階の検索をする。The system developed this time automatically creates up to 1000 kinds of synonyms and different notation words when a certain word is input from the terminal and performs the first stage search.
その次に文章から助詞や接続詞を除いた圧縮文で第二段
階選抜に入る。こうして絞り込むことで最終的な選抜を
簡単にした。Then the second stage selection begins with a compressed sentence that removes particles and conjunctions from the sentence. This narrowing down made the final selection easier.
第三段階は本文サーチで直接検索。The third step is a direct search by text search.
元データが二万五千件あれば一次検索で五千件に、二次
検索で五百件に絞り込める。この後、最終的な検索をす
る。If the original data is 25,000, it can be narrowed down to 5,000 in the primary search and 500 in the secondary search. After this, make a final search.
集合磁気ディスク装置、N台の小型同装置を並列に並べ
文書データを並列かつ独立に読み出すことにより文書デ
ータの読み出し速度をN倍化。今回は十二台並べて約十
倍の高速化を図った。The read speed of the document data is doubled by arranging the collective magnetic disk device and N compact devices in parallel and reading the document data in parallel and independently. This time, 12 units were lined up to achieve about 10 times faster speed.
高速多重文字照合方式、最大一千語の同義語や異表記語
を一括して文書データの一回の走査で、探索、照会する
もので、専用プロセッサー化し、毎秒二十Mバイトの照
合速度を実現。High-speed multi-character collation method, which searches and inquires at the same time for a maximum of 1,000 synonyms and different notations in one scan of document data, and uses a dedicated processor to achieve a collation speed of 20 Mbytes per second. Realization.
同システムは最大読み出し速度が毎秒二十MバイトRAM
ディスク、毎秒十Mバイトの集合型磁気ディスク装置、
毎秒一・六Mビットのビットサーチプロセッサー、毎秒
二十Mバイトの文字列サーチプロセッサーで、構成、等
価的に毎秒百Mバイトのシステム検索速度を達成、約一
万字の一般的な技術文書の場合、二万五千件を五秒で検
索できる。特許情報・文献情報サービス、雑誌・新聞な
どの記事情報管理などに利用できる。The system has a maximum read speed of 20 Mbytes RAM per second
Disk, aggregate type magnetic disk device of 10 Mbytes per second,
With a bit search processor of 1/6 Mbits per second and a character string search processor of 20 Mbytes per second, the configuration, equivalently achieves a system search speed of 100 Mbytes per second, of the general technical documents of about 10,000 characters In that case, 25,000 items can be searched in 5 seconds. It can be used for patent information / literature information service, article information management for magazines, newspapers, etc.
なお、二十七日の情報処理学会でこの内容について発
表。In addition, this information was announced at the 27th Information Processing Society of Japan.
追加事項 『日刊工業』 それぞれの文書にインデックスを付ける作業が必要であ
った従来の検索方式とは異なり、文書の内容を直接参照
することでどんな言葉でも自由に指定して検索できるよ
うにした新方式。Additional items "Nikkan Kogyo" Unlike the conventional search method, which required indexing each document, a new method that allows you to freely specify and search any word by directly referring to the contents of the document method.
『日産』 二年以内に商品化する計画 『日産』 データを収納するのは五・二五インチサイズの固定ディ
スク装置(HDD)。これを複数台並列に接続する。"Nissan" Plan to commercialize within two years "Nissan" Data is stored in a fixed disk unit (HDD) of 5.25-inch size. Multiple units are connected in parallel.
『朝日』 日立では、最初に文字、次いで単語、文章と次々に三段
階のふるいにかけてデータをチェックし、目的の文章を
探し出す方式を採用、時間を短縮化した。たとえば「情
報の商品化が進む」という文章の場合、この文章をまず
「情」「報」「の」とひとつひとつの文字に分解した一
覧表で探し、さらに「情報、商品化……」と助詞などを
省いた「凝縮文」で点検して、候補をしぼりこむ。"Asahi" Hitachi adopted a method to search for the target sentence by first checking the data through a three-step sieving, first with letters, then with words, then with sentences, to shorten the time. For example, in the case of a sentence "information is being commercialized," this sentence is first searched for in a list that is decomposed into individual letters "information,""report,""no," and then "information, commercialization ..." Check the "condensed sentence" without the above and narrow down the candidates.
『朝日』 日立の新開発の方式なら、記憶させる際に人手が少なく
てすみ、さらに検索も簡単にできる。"Asahi"Hitachi's newly developed method requires less man-hours to store, and can be easily searched.
『朝日』 スピードも従来方式と同じか、それ以上の速さで検索で
きる、と同社ではいっている。"Asahi" The company says that you can search at the same speed as or faster than the conventional method.
『朝日』 日立では「入力する時にはキーワードとして不要な単語
と思っていた言葉が、五年後、十年後に重要な言葉にな
ることも考えられる。"Asahi" At Hitachi, "Words that were thought to be unnecessary as keywords when inputting may become important words in five or ten years.
『電気』 それぞれの文書にインデックスを付ける作業が必要であ
った従来の検索方式とは異なり、文書の内容を直接参照
することによって、どんな言葉でも自由に指定して検索
できる新しい方式を採用している。"Electrical" Unlike the conventional search method that required indexing each document, a new method that allows you to freely specify and search for any word by directly referring to the content of the document is adopted. There is.
『電気』 同社では今後二年ぐらいの間に商品化のメドをつけたい
としている。"Electricity" The company wants to put a product into commercialization within the next two years.
『日経』 二年以内に商品化し、発売する。"Nikkei" Commercialize and release within two years.
『日経』 データは固定ディスク装置(HDD)に収納する。"Nikkei" Data is stored in a fixed disk unit (HDD).
『読売』 これまでの方法では、それぞれの記事に付けた索引(イ
ンデックス語をもとに検索しなければならなかったが、
新方式は、索引を使わず、ユーザーが指定する任意のキ
ーワードを複数組み合わせることで、希望の記事部分を
素早く読み出せるしくみだという。"Yomiuri" In the previous methods, the index attached to each article (I had to search based on the index word,
The new method is a mechanism that allows you to quickly retrieve the desired article part by combining multiple arbitrary keywords specified by the user without using an index.
『読売』 日立は二年後の商品化を目指している。"Yomiuri" Hitachi is aiming for commercialization in two years.
『日本工業』 二年後の商品化をめざしており、価格は未定。"Nippon Kogyo" Aiming for commercialization two years later, the price has not been decided.
第1図は本発明一実施例全体構成図。 第2図は実施例統合化見出し処理手段の見出し同一性判
断手段を説明するフローチャート。 第3図は実施例統合化本文処理手段の基本記事決定手段
を説明するフローチャート。 第4図は実施例統合化本文処理手段の文入替手段を説明
するフローチャート。 第5図は実施例統合化本文処理手段の文整形手段を説明
するフローチャート。 第6図は実施例特記事項処理手段を説明するフローチャ
ート。 1…ファイル装置、2…統合化見出し処理手段、3…統
合化本文処理手段、4…特記事項処理手段。FIG. 1 is an overall configuration diagram of an embodiment of the present invention. FIG. 2 is a flowchart for explaining the headline identity determination means of the integrated heading processing means according to the embodiment. FIG. 3 is a flowchart for explaining the basic article determining means of the embodiment integrated text processing means. FIG. 4 is a flowchart for explaining the sentence replacement means of the embodiment integrated text processing means. FIG. 5 is a flowchart for explaining the sentence shaping means of the embodiment integrated text processing means. FIG. 6 is a flow chart for explaining the special note processing means of the embodiment. 1 ... File device, 2 ... Integrated headline processing means, 3 ... Integrated text processing means, 4 ... Special note processing means.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−112331(JP,A) 電気学会通信研究会資料VOL.CMN −89,No.18−23(1989−7−12)P. 51−60 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-1-112331 (JP, A) Communication Society of Japan Material VOL. CMN-89, No. 18-23 (1989-7-12) P. 51-60
Claims (5)
内容をファイルに記憶し、このファイルに記憶された原
記事内容から、一つの統合化された記事を作成する記事
統合化処理装置において、 上記ファイルから統合化しようとする記事の本文を抽出
する本文抽出手段と、 この抽出された複数の記事本文のうちから文字数が多く
しかも記事本文の主題に関連する語句である重要語数が
多い記事本文を統合化文の基本記事文として採択する基
本記事決定手段と、 この採択された基本記事文に含まれる各文の文字数を同
一内容について記述した基本記事以外の他の記事本文と
比較して文字数の多い文があった場合基本記事の文と入
れ替えて統合化本文を作成する文入替手段と、 この作成された統合化本文を読点単位で分割し、この分
割された文のそれぞれについて処理対象となる文より前
に位置する統合化本文中に既に現れた単語と同一の単語
が全て含まれるか否かを判断し、全て含まれる場合はこ
の処理対象となる文を削除して統合化本文を整形する文
整形手段と を備えた統合化本文処理手段を含み、 上記基本記事決定手段は、 最も文字数の多い記事から重み付けを行う手段と、 記事内に含まれる重要語を抽出してこの重要語数の最も
多い記事から重み付けを行う手段と、 文字数および重要語数による重み数を加算して重み数が
最も多い記事を基本記事として採択する手段と を備えることを特徴とする記事統合化処理装置。1. An article integration processing apparatus for storing a plurality of article contents describing the same object in a file and creating one integrated article from the original article contents stored in this file, A body text extraction means for extracting the body texts of articles to be integrated from the above files, and an article body body having a large number of characters from the extracted plurality of article body bodies and having a large number of important words that are words and phrases related to the subject of the article body body. The number of characters compared to the basic article determination means that adopts as the basic article sentence of the integrated sentence, and the number of characters of each sentence included in the adopted basic article sentence compared with the text of articles other than the basic article that describes the same content. If there is a sentence with a lot of sentences, the sentence replacement means that replaces the sentence of the basic article to create the integrated text, and the created integrated text is divided into reading points, and the divided text For each of the above, it is judged whether or not all the same words as the words that have already appeared in the integrated text located before the sentence to be processed are included. If all are included, this sentence to be processed is deleted. The basic article determining means includes means for weighting the article with the largest number of characters and important words included in the article. Articles characterized by having means for extracting and weighting the articles with the largest number of important words, and means for adding the number of weights by the number of characters and the number of important words and adopting the article with the largest number of weights as a basic article Integrated processing device.
の切り出された数詞または重要語が含まれる他の記事の
文と比較し、長い方の文を統合化本文として採択する手
段を備える請求項1記載の記事統合化処理装置。2. The sentence replacement means cuts out the numbers and important words in each sentence in the basic article, compares them with the sentences of other articles containing the cut out numbers or important words, and integrates the longer sentence. The article integration processing apparatus according to claim 1, further comprising means for adopting the article as a text.
の見出しを抽出する手段と、 この抽出された見出しの中から最も長い文字数の見出し
を順に選択する手段と、 この選択された見出しに含まれる文字とすでに採択され
た見出しに含まれる文字とを比較することによって同一
内容である見出しを不採択とする見出し同一性判断手段
と を備えた統合化見出し処理手段を含む請求項1または2
記載の記事統合化処理装置。3. A means for extracting headlines of articles to be integrated from the file, a means for sequentially selecting headlines having the longest number of characters from the extracted headlines, and a means included in the selected headlines. 3. The integrated headline processing means comprising: headline identity determination means for rejecting headlines having the same content by comparing the characters with the characters included in the headlines already adopted.
The article integrated processing device described.
切出し手段と、 数詞または独立の単語がある場合、同一の数詞または同
一の独立の単語がすでに採択された見出し中にあるとき
にはその数詞またはその独立の単語を含む見出しを不採
択とする手段と、 すでに採択された見出し中の文字と比較して所定数以上
の文字が一致している見出しおよび不一致の文字数が所
定数以下である見出しを不採択とする手段と を含む請求項3記載の記事統合化処理装置。4. The headline identity determination means cuts out a number or an independent word from a character in each headline, and, if there is a number or an independent word, the same number or the same independent word has already been adopted. Means to reject a heading containing the number or its independent word when it is in a headline that has been selected, and a headline that does not match the number of characters in the headline that has already been adopted 4. The article integration processing device according to claim 3, further comprising means for rejecting a headline in which the number of characters is less than or equal to a predetermined number.
詞を切り出す手段と、 切り出された重要語および数詞が全く存在しない文を原
記事文中から抽出して、上記統合化見出しおよび統合化
文に付加する手段と を備えた請求項1ないし4のいずれか記載の記事統合化
処理装置。5. A means for cutting out important words and numbers from the integrated article body, and a sentence in which the extracted important words and numbers do not exist at all are extracted from the original article sentence to obtain the integrated heading and integrated sentence. 5. The article integrated processing device according to claim 1, further comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2041513A JPH0782503B2 (en) | 1990-02-22 | 1990-02-22 | Article integrated processing device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2041513A JPH0782503B2 (en) | 1990-02-22 | 1990-02-22 | Article integrated processing device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03244080A JPH03244080A (en) | 1991-10-30 |
| JPH0782503B2 true JPH0782503B2 (en) | 1995-09-06 |
Family
ID=12610458
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2041513A Expired - Lifetime JPH0782503B2 (en) | 1990-02-22 | 1990-02-22 | Article integrated processing device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0782503B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3799080B2 (en) * | 1995-02-22 | 2006-07-19 | キヤノン株式会社 | Information collection method and apparatus |
| JP3810463B2 (en) * | 1995-07-31 | 2006-08-16 | 株式会社ニューズウオッチ | Information filtering device |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0740275B2 (en) * | 1987-10-26 | 1995-05-01 | 日本電信電話株式会社 | Keyword automatic evaluation system |
-
1990
- 1990-02-22 JP JP2041513A patent/JPH0782503B2/en not_active Expired - Lifetime
Non-Patent Citations (1)
| Title |
|---|
| 電気学会通信研究会資料VOL.CMN−89,No.18−23(1989−7−12)P.51−60 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH03244080A (en) | 1991-10-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6029167A (en) | Method and apparatus for retrieving text using document signatures | |
| JP3636941B2 (en) | Information retrieval method and information retrieval apparatus | |
| US5940624A (en) | Text management system | |
| JPH09259140A (en) | Information retrieval method and device therefor, and medium for storing information retrieval program | |
| JP2669601B2 (en) | Information retrieval method and system | |
| CN119336890A (en) | A multi-document retrieval method and system based on AI-agent | |
| Noaman et al. | Naive Bayes classifier based Arabic document categorization | |
| JPH0628403A (en) | Document retrieving device | |
| JPH0782504B2 (en) | Information retrieval processing method and retrieval file creation device | |
| JPH05120345A (en) | Keyword extracting device | |
| JP2000112949A (en) | Information discrimination supporting device and record medium recording similar information discrimination supporting program | |
| Koutropoulou et al. | TMG-BoBI: generating back-of-the-book indexes with the text-to-matrix-generator | |
| CN112949287A (en) | Hot word mining method, system, computer device and storage medium | |
| JPH0782503B2 (en) | Article integrated processing device | |
| Simmons et al. | Maximum‐depth indexing for computer retrieval of english language data | |
| Besançon et al. | Concept-based searching and merging for multilingual information retrieval: First experiments at clef 2003 | |
| JP2519129B2 (en) | Multi-word information retrieval processing method and retrieval file creation device | |
| JP2002183195A (en) | Concept search method | |
| JP2519130B2 (en) | Multi-word information retrieval processing method and retrieval file creation device | |
| JP2000231560A (en) | Automatic document classification method | |
| EP0592402B1 (en) | A text management system | |
| JPH04215181A (en) | Information retrieval processing system | |
| Benbrahim et al. | Neighbourhood exploitation in hypertext categorization | |
| JP2550022B2 (en) | Document information search method | |
| Bakar et al. | An evaluation of retrieval effectiveness using spelling‐correction and string‐similarity matching methods on Malay texts |