JP3328995B2 - Information retrieval system - Google Patents
Information retrieval systemInfo
- Publication number
- JP3328995B2 JP3328995B2 JP11188993A JP11188993A JP3328995B2 JP 3328995 B2 JP3328995 B2 JP 3328995B2 JP 11188993 A JP11188993 A JP 11188993A JP 11188993 A JP11188993 A JP 11188993A JP 3328995 B2 JP3328995 B2 JP 3328995B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- search
- original information
- generation time
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は、原情報ファイル以外に
検索用ファイルを生成して高速な検索を行うキーワード
検索等の高速検索方法と、原情報ファイルを直接アクセ
スして検索を行う通常検索方法とを有する情報検索シス
テムに関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a high-speed search method such as a keyword search for generating a search file in addition to an original information file and performing a high-speed search, and a normal search method for directly accessing and searching the original information file. And an information retrieval system having:
【0002】[0002]
【従来の技術】ファイルに格納されている情報の検索方
法には、大きく分けると、検索対象の原情報ファイルを
直接アクセスして検索する方法と、原情報ファイルから
キーワード検索のために検索用ファイルを予め生成して
おき、その検索用ファイルを検索する方法とがある。当
然、検索用ファイルを検索した方が、原情報を直接アク
セスする検索方法よりも検索速度が早い。しかし、検索
用ファイルを生成するには、原情報ファイルの内容にパ
ターン抽出処理等を施して、検索に使用されるキーワー
ドである言葉を抽出して、検索用ファイルを生成する
か、あるいは、キーワードの集合を格納したキーワード
辞書を予め用意しておき、このキーワード辞書に基づい
て、原情報のファイルとからキーワードの抽出を行っ
て、検索用ファイルを生成する方法があるが、いずれの
場合であっても、検索用ファイルの生成にはかなりの時
間を要する。一般に、この検索用ファイルの生成時間
は、原情報のファイルが大きくなるほど時間がかかり。
さらに、原情報ファイルやキーワード辞書を更新した場
合には、この検索用ファイルを作りなおす必要がある。2. Description of the Related Art A method of searching for information stored in a file can be roughly divided into a method of directly accessing an original information file to be searched and a method of searching for a keyword from the original information file. There is a method of generating the search file in advance and searching for the search file. Obviously, the search speed is faster when searching for a search file than when using a search method that directly accesses the original information. However, in order to generate a search file, the contents of the original information file are subjected to pattern extraction processing or the like to extract words that are keywords used in the search, and a search file is generated. There is a method in which a keyword dictionary storing a set of is prepared in advance, and a keyword is extracted from the file of the original information based on the keyword dictionary to generate a search file. However, it takes a considerable amount of time to generate a search file. Generally, the time required to generate the search file increases as the size of the original information file increases.
Further, when the original information file or the keyword dictionary is updated, it is necessary to recreate this search file.
【0003】[0003]
【発明が解決しようとする問題点】高速な検索方法であ
っても、検索用ファイルの生成時間に多大な時間を要す
るのでは、検索用ファイルを生成せずに、原情報を直接
アクセスして検索する方が、操作者に取って都合の良い
場合がある。[Problems to be Solved by the Invention] Even if a high-speed search method is used, it takes a lot of time to generate a search file. Therefore, the search is performed by directly accessing the original information without generating the search file. May be more convenient for the operator.
【0004】例えば、同じ原情報ファイルに対し何度も
検索をするのであれば、検索用ファイルを生成した方が
良いが、一回しか検索をしない場合には、検索用ファイ
ルを生成せずに、原情報ファイルを直接アクセスして検
索する方が良い。しかし、必ずしもこのように単純なケ
ースばかりではない。検索を2、3回する場合、どの検
索方法がよいかは、実際に検索してみなければわからな
かった。For example, if the same original information file is searched many times, it is better to generate a search file. However, if the search is performed only once, the search file is not generated. It is better to directly access and search the original information file. However, this is not always the case. When performing a search two or three times, it was impossible to know which search method was better without actually searching.
【0005】[0005]
【問題点を解決するための手段】図1は本発明の原理構
成図である。1は入力装置、2は表示装置、3はディス
ク装置、4は処理装置である。31は検索の対象となる
原情報ファイル、32は高速検索に使用する検索用ファ
イル、33は検索用ファイル生成時間の算出に使用され
る算出テーブルである。41は算出テーブル更新手段で
あり、検索用ファイルが生成される度に起動され、検索
用ファイル32の生成時間に関するデータを用いて、算
出テーブル33を更新する処理手段である。42は検索
方法制御手段、43は検索用ファイル32の生成時間を
算出する生成時間算出手段、44は検索用ファイル生成
手段、45は検索用ファイル32を用いて検索を行う高
速検索手段、46は原情報を直接アクセスして検索を行
う通常検索手段である。FIG. 1 is a block diagram showing the principle of the present invention. 1 is an input device, 2 is a display device, 3 is a disk device, and 4 is a processing device. 31 is an original information file to be searched, 32 is a search file used for high-speed search, and 33 is a calculation table used for calculating a search file generation time. Reference numeral 41 denotes a calculation table updating unit, which is activated every time a search file is generated, and updates the calculation table 33 using data on the generation time of the search file 32. 42 is a search method control unit, 43 is a generation time calculation unit that calculates the generation time of the search file 32, 44 is a search file generation unit, 45 is a high-speed search unit that searches using the search file 32, and 46 is It is a normal search means for performing a search by directly accessing the original information.
【0006】原情報ファイル31から検索用ファイル3
2の生成に要する時間を求める生成時間算出手段43
と、この生成時間算出手段43で得られる検索用ファイ
ル32の生成に要する時間を表示装置2に出力させ、入
力装置1から入力に従い、検索用ファイル32を生成し
その検索用ファイル32を用いた高速検索手段45か原
情報ファイル31に直接アクセスする通常検索手段46
かのいずれかを実行させる検索方法制御手段42とを備
えた。[0006] From the original information file 31 to the search file 3
Generation time calculation means 43 for calculating the time required for generation of
And the time required to generate the search file 32 obtained by the generation time calculation means 43 is output to the display device 2, and the search file 32 is generated according to the input from the input device 1, and the search file 32 is used. Normal search means 46 for directly accessing the high-speed search means 45 or the original information file 31
And a search method control unit 42 for executing any one of the above.
【0007】[0007]
【作用】操作者は、表示装置2に出力される検索用ファ
イル32の生成に要する時間と、操作者自身が以降行う
作業を考慮して、検索用ファイル32を用いた高速検索
手段45か原情報を直接アクセスする通常検索手段46
かのいずれかを選択し、情報検索システムはその操作者
が選択した検索方法で情報の検索を行うようにした。The operator considers the time required for generating the search file 32 to be output to the display device 2 and the work to be performed by the operator himself / herself. Normal search means 46 for directly accessing information
Then, the information search system searches for information by the search method selected by the operator.
【0008】[0008]
【実施例】図2は本発明における一実施例の構成図であ
る。図中、図1で示したものと同一のものは同一の記号
で示してある。34はキーワード辞書であり、検索に使
用するキーワードを格納しており、原情報ファイル31
より検索用ファイル32を生成する時に使用される。3
5は検索情報管理テーブルであり、原情報ファイル31
に対応する検索用ファイル32の名称と、その検索用フ
ァイル32がキーワード辞書34に基づいて生成された
ものであるか、全文検索のためにキーワード辞書34を
使用せずに原情報ファイル31よりキーワードを抽出し
て生成されたものであるかの情報とを格納している。図
3は、検索情報管理テーブル35の内容を示したもので
ある。FIG. 2 is a block diagram of one embodiment of the present invention. In the figure, the same components as those shown in FIG. 1 are denoted by the same symbols. Reference numeral 34 denotes a keyword dictionary, which stores keywords used for search, and is stored in the original information file 31.
It is used when generating the search file 32. 3
5 is a search information management table, and the original information file 31
, And whether the search file 32 is generated based on the keyword dictionary 34 or the keyword from the original information file 31 without using the keyword dictionary 34 for full-text search. Is extracted and stored as information on whether the data is generated. FIG. 3 shows the contents of the search information management table 35.
【0009】本発明においては、原情報ファイル31か
ら検索用ファイル生成手段44にて検索用ファイル32
を生成した時に、検索用ファイル32の生成時間に関す
る情報を生成時間算出テーブル33に格納する。具体的
には、原情報ファイル31のサイズ、原情報ファイル3
1と検索用ファイル32の大きさの比率、検索用ファイ
ル32の生成に要した時間とを格納する。In the present invention, the search file 32 is searched by the search file generation means 44 from the original information file 31.
Is generated, information on the generation time of the search file 32 is stored in the generation time calculation table 33. Specifically, the size of the original information file 31 and the original information file 3
1 and the size ratio of the search file 32, and the time required to generate the search file 32 are stored.
【0010】どのように、生成時間算出テーブル33を
更新するかについて、図4、図5、図6を用いて説明す
る。図4は、(1)〜(15)の原情報ファイル31の
各々について、原情報ファイル31のサイズ、検索用フ
ァイル32の大きさ、原情報ファイル31と検索用ファ
イル32の大きさの比率、検索用ファイル32の生成に
要した時間を実測した結果である。但し、これは、キー
ワード辞書34を用いずに生成した、全文検索用の検索
用ファイル32である。How the generation time calculation table 33 is updated will be described with reference to FIGS. 4, 5, and 6. FIG. FIG. 4 shows, for each of the original information files 31 of (1) to (15), the size of the original information file 31, the size of the search file 32, the ratio of the size of the original information file 31 to the size of the search file 32, It is the result of actually measuring the time required to generate the search file 32. However, this is a search file 32 for full-text search generated without using the keyword dictionary 34.
【0011】例えば、(1)のパソ通会議室(その1)
という原情報ファイル31は481KBであり、検索用
ファイル生成手段44を起動すると1164KBの検索
用ファイル32が10分で生成され、原情報ファイル3
1と検索用ファイル32の大きさの比率が2.4であっ
たことを示している。また、この図より、類似した内容
の原情報ファイル31については、原情報ファイル31
と検索用ファイル32の大きさの比率がほぼ等しくなる
ことを示している。[0011] For example, the Paso-tsu conference room (1)
The original information file 31 is 481 KB, and when the search file generating means 44 is activated, the 1164 KB search file 32 is generated in 10 minutes, and the original information file 3
This indicates that the ratio of the size of 1 to the size of the search file 32 was 2.4. Also, from this figure, the original information file 31 having similar contents
This indicates that the ratio of the size of the search file 32 to the size of the search file 32 is substantially equal.
【0012】図5は、図4で示した(1)〜(15)の
検索用ファイル生成に関する情報を格納した、生成時間
算出テーブル33である。上述したように、これは、キ
ーワード辞書34を用いずに生成した、全文検索用の検
索用ファイル32であり、図5で示されている生成時間
算出テーブル33は、全文検索用の検索用ファイル32
用のものである。キーワード辞書34を用いて検索用フ
ァイル32を生成する場合と、キーワード辞書34を使
用しない場合とでは、検索用ファイル32の生成時間が
異なることより、キーワード辞書を用いた検索用ファイ
ル32の生成時間を求めるためには、もう一つ別の生成
時間算出テーブル33を用意する必要がある。FIG. 5 shows a generation time calculation table 33 which stores information relating to the generation of the search files (1) to (15) shown in FIG. As described above, this is the full-text search file 32 generated without using the keyword dictionary 34. The generation time calculation table 33 shown in FIG. 32
It is for. When the search file 32 is generated using the keyword dictionary 34 and when the keyword dictionary 34 is not used, the generation time of the search file 32 is different, and the generation time of the search file 32 using the keyword dictionary is different. In order to obtain the value, it is necessary to prepare another generation time calculation table 33.
【0013】以下で、図5の生成時間算出テーブル33
の更新について、図4の例を用いて説明する。例えば、
図4の(1)の原情報ファイル31は、ファイルサイズ
が481KBで、原情報ファイル31と検索用ファイル
32の大きさの比率が2.4であったことより、縦軸が
481KB〜500KB、ファイルの大きさの比率が
2.3〜2.4の欄(d)に、検索用ファイル32の生
成に要した時間10分を格納している。この欄(d)に
は、要した時間の最大値と最小値を格納することになっ
ているが、この場合は、一つの例だけなので、最大値、
最小値ともに10分を格納している。図5の生成時間算
出テーブル33の(a)〜(j)の各欄の更新は、それ
ぞれ、欄(a)は図4の(4)、欄(b)は(11)、
欄(c)は(7)、欄(d)は(1)、欄(e)は
(2)と(12)と(14)、欄(f)は(6)、欄
(g)は(5)、欄(h)は(13)、欄(i)は(1
5)、欄(j)は(3)に基づいて行われたものであ
る。この検索用ファイル32の生成に要した時間の、生
成時間算出テーブル33への格納は、以下の規則に従っ
て行う。The generation time calculation table 33 shown in FIG.
Will be described using the example of FIG. For example,
The original information file 31 in FIG. 4A has a file size of 481 KB, and the ratio of the size of the original information file 31 to the size of the search file 32 is 2.4. The time (10 minutes) required for generating the search file 32 is stored in the column (d) where the ratio of the file size is 2.3 to 2.4. In this column (d), the maximum value and the minimum value of the time required are stored. In this case, since only one example is used, the maximum value,
The minimum value stores 10 minutes. Update of each column of (a) to (j) of the generation time calculation table 33 of FIG. 5 is performed by updating column (a) in FIG. 4 (4), column (b) in (11),
Column (c) is (7), column (d) is (1), column (e) is (2), (12) and (14), column (f) is (6), and column (g) is ( 5), column (h) is (13), column (i) is (1)
5), column (j) is based on (3). The time required to generate the search file 32 is stored in the generation time calculation table 33 according to the following rules.
【0014】得られた生成時間で生成時間算出テーブ
ル33を更新する際、更新すべき欄に全く値が格納され
ていない場合には、得られた生成時間を最小値および最
大値として格納する。 得られた生成時間がその欄における最小値ならば、最
小値を更新する。 得られた生成時間がその欄における最大値ならば、最
大値を更新する。When the generation time calculation table 33 is updated with the obtained generation time, if no value is stored in the column to be updated, the obtained generation time is stored as the minimum value and the maximum value. If the obtained generation time is the minimum value in the column, the minimum value is updated. If the obtained generation time is the maximum value in the column, the maximum value is updated.
【0015】得られた生成時間がその欄における最大
値と最小値の範囲にあるならば、更新の処理を行わな
い。If the obtained generation time is within the range between the maximum value and the minimum value in the column, no update process is performed.
【0016】図6は、本発明の一実施例における検索用
ファイル32の生成処理のフローである。検索用ファイ
ル生成手段44による検索用ファイル32の生成と同期
して、検索用ファイル32の生成時間に関するデータを
求める処理、そのデータに基づいて生成時間算出テーブ
ル33を更新する処理が行われる。FIG. 6 is a flowchart of a process of generating the search file 32 according to one embodiment of the present invention. In synchronization with the generation of the search file 32 by the search file generation unit 44, a process of obtaining data relating to the generation time of the search file 32 and a process of updating the generation time calculation table 33 based on the data are performed.
【0017】まず、検索用ファイル32を生成する直前
に生成処理の開始時間を求める処理が行われ、そして、
検索用ファイル32の生成処理の後に、検索用ファイル
32の生成処理の終了時間を求める処理が行われる。こ
の生成処理の開始時間と終了時間の差により、その検索
用ファイルの生成に要した時間が求められる。検索用フ
ァイル32の生成について、キーワード検索方式の場合
は、キーワード辞書に基づいて原情報ファイル31の検
索用ファイル32が生成される。全文検索方式の場合
は、原情報ファイル31に格納されているデータについ
てパターン抽出等を経てキーワードが抽出されて検索用
ファイル32が生成される。First, immediately before generating the search file 32, a process of obtaining a start time of the generation process is performed.
After the process of generating the search file 32, a process of obtaining the end time of the process of generating the search file 32 is performed. The time required to generate the search file is obtained from the difference between the start time and the end time of the generation processing. Regarding the generation of the search file 32, in the case of the keyword search method, the search file 32 of the original information file 31 is generated based on the keyword dictionary. In the case of the full-text search method, a keyword is extracted from the data stored in the original information file 31 through pattern extraction and the like, and a search file 32 is generated.
【0018】この実施例においては、検索用ファイル3
2の生成時間が3分に満たないものについては、この後
の処理である生成時間算出テーブル33の更新処理は行
わないようにしている。In this embodiment, the search file 3
If the generation time of No. 2 is less than 3 minutes, the subsequent process of updating the generation time calculation table 33 is not performed.
【0019】もし、生成時間が3分以上であれば、原情
報ファイル31、検索用ファイル32のサイズと、その
比率(検索用ファイルサイズ÷原情報ファイルサイズ)
を求める処理が行われる。そして、原情報ファイル31
のサイズと上記比率より、生成時間算出テーブル33の
該当する欄が特定される。この欄は、検索用ファイル3
2の生成時間の最小値と最大値のデータを格納する領域
を有している。上記で求めた欄に全くデータが格納され
ていない場合には、求めた生成時間が最小値および、最
大値の欄に格納される。また、求めた生成時間が既に格
納されている最小値よりも小さい場合は最小値が更新さ
れ、格納されている最大値よりも大きい場合は最大値が
更新される。If the generation time is 3 minutes or more, the sizes of the original information file 31 and the search file 32 and the ratio thereof (search file size / original information file size)
Is performed. Then, the original information file 31
The corresponding column of the generation time calculation table 33 is specified based on the size of the data and the above ratio. This column is for search file 3
2 has an area for storing data of the minimum value and the maximum value of the generation time. If no data is stored in the column obtained above, the generated generation time is stored in the minimum value and maximum value columns. If the calculated generation time is smaller than the already stored minimum value, the minimum value is updated, and if it is larger than the stored maximum value, the maximum value is updated.
【0020】図7は、検索用ファイル32の生成時間算
出処理のフローを示すものである。検索用ファイル32
の生成時間算出処理の前に、操作者が指定した検索対象
である原情報ファイル31が、検索情報管理テーブル3
5に登録されているかをのチェックが行われる。登録さ
れていないということは、原情報ファイル31に対応す
る検索用ファイル32は生成されていないことを意味す
る。検索用ファイル32が登録されている場合には、原
情報ファイル31と検索用ファイル32の作成日時の比
較が行われる。もし、原情報ファイル31の方が検索用
ファイル32の作成日時よりも新しければ、検索用ファ
イル32の生成後に原情報ファイル31が更新されてい
るため、検索用ファイル32を再生成しなければ、正し
い検索が行うことができないことになる。また、キーワ
ード辞書34に基づいて生成される検索用ファイル32
については、検索用ファイル32とキーワード辞書34
の作成日時の比較も行い、キーワード辞書34の方が検
索用ファイル32の作成日時よりも新しければ、検索用
ファイル32の生成後にキーワード辞書34が更新され
ているため、検索用ファイル32を再生成しなければな
らないことになる。FIG. 7 shows a flow of processing for calculating the generation time of the search file 32. Search file 32
Before the generation time calculation processing of the search information management table 3, the original information file 31 to be searched by the operator is specified.
A check is made to see if the information has been registered in 5. Not being registered means that the search file 32 corresponding to the original information file 31 has not been generated. When the search file 32 is registered, the original information file 31 and the creation date and time of the search file 32 are compared. If the original information file 31 is newer than the creation date of the search file 32, the original information file 31 has been updated after the search file 32 was generated. , You will not be able to do the right search. Also, a search file 32 generated based on the keyword dictionary 34
About the search file 32 and the keyword dictionary 34
Also, if the keyword dictionary 34 is newer than the creation date of the search file 32, the keyword dictionary 34 is updated after the search file 32 is generated. Must be done.
【0021】検索用ファイル32の生成が必要であると
判明すると、まず、生成時間算出テーブル33を読み込
む。そして、原情報ファイル31のファイルサイズを読
み取り、それが100KBより大きいかを調べる。10
0KBより小さい場合には、検索用ファイル32の生成
にそれほど時間を要しないため、生成時間の算出処理を
行わずに、操作者に検索用ファイル32の生成に時間が
かからないことを通知する。例えば、図4にあるよう
に、約100KBの原情報ファイル(9)「雑誌文献リ
スト(その3)」の場合には、検索用ファイル32の生
成時間は1分であり、いつ終わるのだろうという不安を
それほど操作者に与えない時間である。When it is determined that the search file 32 needs to be generated, first, the generation time calculation table 33 is read. Then, the file size of the original information file 31 is read, and it is checked whether it is larger than 100 KB. 10
If it is smaller than 0 KB, generation of the search file 32 does not take much time. Therefore, the generation time calculation process is not performed, and the operator is notified that generation of the search file 32 does not take much time. For example, as shown in FIG. 4, in the case of an original information file (9) “journal reference list (part 3)” of about 100 KB, the generation time of the search file 32 is one minute, and when will it end? It is a time when the operator is not so anxious.
【0022】原情報ファイル31のファイルサイズが1
00KBを越える場合には、原情報ファイル31のうち
先頭100KBだけをサンプリングデータとして、検索
用ファイル32の生成処理が行われる。そして、生成さ
れた検索用ファイル32のファイルサイズと100KB
(原情報ファイル31のサンプリングデータ)との比率
である比較用比率を求める処理が行われる。The file size of the original information file 31 is 1
If the data exceeds 00 KB, only the first 100 KB of the original information file 31 is used as sampling data to generate a search file 32. Then, the file size of the generated search file 32 and 100 KB
A process is performed to obtain a comparison ratio which is a ratio with respect to (the sampling data of the original information file 31).
【0023】上記で求めた比較用比率と原情報ファイル
31のファイルサイズに基づいて、生成時間算出テーブ
ル33の該当する欄が決定され、その欄に生成時間のデ
ータが格納されていれば、そのデータが、検索用ファイ
ル32の生成時間として操作者に通知される。もし、求
めた欄に生成時間に関するデータが格納されていない場
合には、生成時間算出テーブル33のうち、同じ比較用
比率で原情報ファイル31のファイルサイズと比較して
±100KBの範囲の欄で、生成時間に関するデータが
格納されているものがあるかがチェックされ、もしあれ
ば、その値が、検索用ファイル32の生成時間として操
作者に通知される。それでも該当するデータが無い場合
には、比較用比率を±0.5の範囲に広げて、生成時間
に関するデータが格納されている欄があるかがチェック
され、あればその値が生成時間として操作者に通知され
る。もしなければ、データ不足のための算出不可能であ
ることが操作者に通知される。Based on the comparison ratio obtained above and the file size of the original information file 31, a corresponding column of the generation time calculation table 33 is determined. If data of the generation time is stored in that column, The data is notified to the operator as the generation time of the search file 32. If the data regarding the generation time is not stored in the obtained field, the generation time calculation table 33 is compared with the file size of the original information file 31 at the same comparison ratio in the range of ± 100 KB. It is checked whether or not there is any data related to the generation time, and if so, the value is notified to the operator as the generation time of the search file 32. If there is still no corresponding data, the comparison ratio is expanded to a range of ± 0.5, and it is checked whether there is a column in which data relating to the generation time is stored. Is notified. If not, the operator is notified that calculation is impossible due to insufficient data.
【0024】上記では、検索対象の原情報ファイル31
の一部分をサンプリングして、生成される検索用ファイ
ル32と原情報ファイル31のファイルサイズの比率で
ある比較用比率を求めるようにしたが、類似した内容の
原情報ファイル31からはほぼ同じ比率の検索用ファイ
ル32が生成されることから、原情報ファイル31の種
別を予め定義しておくことで、サンプリングして比較用
比率を求める処理を省略することも可能である。In the above, the original information file 31 to be searched is
Are sampled to obtain a comparison ratio which is a ratio of the file size of the generated search file 32 to the original information file 31. However, from the original information file 31 having similar contents, Since the search file 32 is generated, by defining the type of the original information file 31 in advance, it is possible to omit the process of sampling and obtaining the comparison ratio.
【0025】以下で、図5を参照しながら具体的な例を
用いて上記のフローを説明する。 (1)生成時間算出テーブル33に該当する欄がある場
合 例1:原情報ファイル31のファイルサイズ=500K
B、比較用比率=2.4 (d)欄が該当する欄となり、最小値、最大値とも10
分であるので、通知するのは、『10分』となる。Hereinafter, the above flow will be described using a specific example with reference to FIG. (1) When there is a corresponding column in the generation time calculation table 33 Example 1: File size of original information file 31 = 500K
B, ratio for comparison = 2.4 (d) column is the corresponding column, and both the minimum value and the maximum value are 10
Minute, the notification is “10 minutes”.
【0026】(2)生成時間算出テーブル33に該当す
る欄がない場合 同じ比較用比率で原情報ファイル31のファイルサイ
ズの±100KBの範囲の欄がチェックされる。 例2:原情報ファイル31のファイルサイズ=700K
B、比較用比率=2.4 −100KBの範囲:17〜18分〔ファイルサイズ=
621〜640KB〕 +100KBの範囲:24〜24分〔ファイルサイズ=
741〜760KB〕 以上より、操作者に通知される情報は『18〜24分』
となる。 例3:原情報ファイル31のファイルサイズ=430K
B、比較用比率=2.3 −100KBの範囲:なし +100KBの範囲:10〜10分〔ファイルサイズ=
481〜500KB〕 以上より、操作者に通知される情報は『10分以下』と
なる。 例4:原情報ファイル31のファイルサイズ=350K
B、比較用比率=2.4 −100KBの範囲:5〜5分 〔ファイルサイズ=
301〜320KB〕 +100KBの範囲:なし 以上より、操作者に通知される情報は『5分以上』とな
る。(2) When there is no corresponding column in the generation time calculation table 33 A column in the range of ± 100 KB of the file size of the original information file 31 is checked at the same comparison ratio. Example 2: File size of original information file 31 = 700K
B, comparison ratio = 2.4-100 KB range: 17-18 minutes [file size =
621 to 640 KB] +100 KB range: 24 to 24 minutes [file size =
741 to 760 KB] As described above, the information notified to the operator is “18 to 24 minutes”.
Becomes Example 3: File size of original information file 31 = 430K
B, ratio for comparison = 2.3−100 KB range: none + 100 KB range: 10 to 10 minutes [file size =
481 to 500 KB] As described above, the information notified to the operator is “10 minutes or less”. Example 4: File size of original information file 31 = 350K
B, comparison ratio = 2.4-100 KB range: 5 to 5 minutes [File size =
301-320 KB] +100 KB range: none As described above, the information notified to the operator is “5 minutes or more”.
【0027】例3のように、−100KBの範囲には該
当するデータがなく、+100KBの範囲に該当するデ
ータがある場合は『10分』ではなく、『10分以下』
と言えるのは、ファイルのサイズが大きいほど検索用フ
ァイル32の生成に時間がかかるからである。As in Example 3, when there is no corresponding data in the range of -100 KB and there is data in the range of +100 KB, it is not "10 minutes" but "10 minutes or less".
This is because the larger the file size, the longer it takes to generate the search file 32.
【0028】 比較用比率を±0.5の範囲に広げて調べる 例5:原情報ファイル31のファイルサイズ=350K
B:比較用比率=3.0 −0.5の範囲:なし +0.5の範囲:9〜9分 〔比較用比率=3.
3〜3.4KB〕 以上より、操作者に通知される情報は『9分以下』とな
る。Example 5: File size of original information file 31 = 350K
B: Comparative ratio = 3.0 -0.5 range: none +0.5 range: 9 to 9 minutes [Comparative ratio = 3.
As described above, the information notified to the operator is “9 minutes or less”.
【0029】例5のように、−0.5の範囲には該当す
るデータはなく、+0.5の範囲に該当するデータがあ
る場合、『9分』ではなく、『9分以下』と言えるの
は、比較用比率が大きいということは、原情報ファイル
に含まれている単語数が多いことであり、それだけ検索
用ファイル32の生成に時間がかかるということであ
る。As in Example 5, if there is no data corresponding to the range of -0.5 and there is data corresponding to the range of +0.5, it can be said that "9 minutes or less" is used instead of "9 minutes". The fact that the comparison ratio is large means that the number of words included in the original information file is large, and that it takes time to generate the search file 32.
【0030】検索用ファイル32の生成時間の操作者へ
の通知処理の後は、検索用ファイル32を生成して高速
検索を行うか、それとも検索用ファイル32を生成せず
に原情報ファイル31に直接アクセスする通常検索を行
うかについて、操作者に問い合わせの処理が行われる。
そして、この問い合わせに対する操作者の入力に従っ
て、検索方法が選択される。After notifying the operator of the generation time of the search file 32, the search file 32 is generated and a high-speed search is performed. Alternatively, the search file 32 is not generated and the original information file 31 is generated. An inquiry is made to the operator as to whether to perform a normal search for direct access.
Then, a search method is selected according to the operator's input in response to the inquiry.
【0031】[0031]
【発明の効果】情報検索を行う操作者は、検索用ファイ
ルが生成されるまでの時間が通知されるので、操作者が
一度だけ検索を行おうとしているのか、それとも何度も
キーワードを変更したりして検索をするかにより、検索
用ファイルを生成すべきかを判断することができる。ま
た、検索用ファイルの生成が終了する時間が分かるの
で、それまでに別の作業を行うことができるという効果
がある。Since the operator performing the information search is notified of the time until the search file is generated, whether the operator intends to perform the search once or changes the keyword many times. It is possible to determine whether a search file should be generated depending on whether a search is to be performed. Further, since the time when the generation of the search file is completed can be known, another effect can be obtained by that time.
【0032】[0032]
【図1】本発明の原理構成図FIG. 1 is a block diagram of the principle of the present invention.
【図2】本発明における一実施例の構成図FIG. 2 is a configuration diagram of one embodiment of the present invention.
【図3】検索情報管理テーブルの構造FIG. 3 shows the structure of a search information management table.
【図4】検索用ファイルの生成時間の例FIG. 4 shows an example of generation time of a search file.
【図5】生成時間算出テーブルの構造FIG. 5 shows the structure of a generation time calculation table.
【図6】検索用ファイルの生成処理のフローFIG. 6 is a flowchart of a search file generation process.
【図7】検索用ファイルの生成時間の算出処理のフローFIG. 7 is a flowchart of a process of calculating a generation time of a search file.
1:入力装置 2:表示装置 3:ディスク装置 4:処理装置 31:原情報ファイル 32:検索用ファイル 33:生成時間算出テーブル 41:算出テーブル更新手段 42:検索方法制御手段 43:生成時間算出手段 44:検索用ファイル生成手段 45:高速検索手段 46:通常検索手段 1: input device 2: display device 3: disk device 4: processing device 31: original information file 32: search file 33: generation time calculation table 41: calculation table updating means 42: search method control means 43: generation time calculation means 44: Search file generation means 45: High-speed search means 46: Normal search means
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 ──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int.Cl. 7 , DB name) G06F 17/30
Claims (4)
索用ファイル生成手段(44)にて検索用ファイル(3
2)を生成しその検索用ファイル(32)を用いて原情
報ファイル(31)の検索を行う高速検索手段(45)
と、原情報ファイル(31)に直接アクセスして検索を
行う通常検索手段(46)とを備えた情報検索システム
において、 原情報ファイル(31)から検索用ファイル(32)の
生成する時間に関する情報を記憶した生成時間算出テー
ブル(33)と、 上記生成時間算出テーブル(33)に基づいて任意の原
情報ファイル(31)の検索用ファイル(32)の生成
に要する時間を算出する生成時間算出手段(43)と、 上記生成時間算出手段(43)で得られる検索用ファイ
ル(32)の生成に要する時間を表示装置(2)に出力
させ、入力装置(1)から入力に従い、通常検索手段
(46)を実行させるか、あるいは検索用ファイル生成
手段(44)にて検索用ファイル(32)を生成して高
速検索手段(45)を実行させるかの制御を行う検索方
法制御手段(42)とを備えたことを特徴とした情報検
索システム。A search file generating means (44) converts a search file (3) from an original information file (31) to be searched.
2) high-speed search means (45) for generating and searching the original information file (31) using the search file (32)
And an ordinary search means (46) for directly accessing and searching the original information file (31). In the information search system, information on the time when the search file (32) is generated from the original information file (31) is stored. A generation time calculation means (33) for calculating a time required to generate a search file (32) of an arbitrary original information file (31) based on the stored generation time calculation table (33) and the generation time calculation table (33); 43) and the time required to generate the search file (32) obtained by the generation time calculation means (43) is output to the display device (2), and the normal search means (46) is output in accordance with the input from the input device (1). ) Or the search file generation means (44) generates a search file (32) and executes the high-speed search means (45). Information retrieval system characterized by comprising a Cormorant search method control unit (42).
て、検索用ファイル生成手段(44)で検索用ファイル
(32)を生成する際に、その検索用ファイル(32)
の生成時間に関するデータを用いて、生成時間算出テー
ブル(33)を更新する算出テーブル更新手段(41)
を備えたことを特徴とする情報検索システム。2. The information search system according to claim 1, wherein when the search file generating means generates the search file, the search file is generated.
Calculation table updating means (41) for updating the generation time calculation table (33) using data on the generation time of
An information retrieval system comprising:
ステムにおいて、 生成時間算出テーブル(33)は、その原情報ファイル
(31)の大きさと、その検索用ファイル(32)の生
成に要した時間より構成され、 生成時間算出手段(43)は、任意の原情報ファイル
(31)の大きさと、生成時間算出テーブルに基づい
て、上記原情報ファイル(31)の検索用ファイル(3
2)の生成時間を算出することを特徴とする情報検索シ
ステム。3. The information retrieval system according to claim 1, wherein the generation time calculation table (33) is used for generating the search information file (32) and the size of the original information file (31). The generation time calculation means (43) generates a search file (3) of the original information file (31) based on the size of an arbitrary original information file (31) and a generation time calculation table.
An information retrieval system characterized by calculating the generation time of 2).
ステムにおいて、 生成時間算出テーブル(33)は、複数個の原情報ファ
イル(31)とその検索用ファイル(32)の大きさの
比率と、その原情報ファイル(31)の大きさと、その
検索用ファイル(32)の生成に要した時間より構成さ
れ、 生成時間算出手段(43)は、任意の原情報ファイル
(31)の一部について検索用ファイル(32)を生成
し、原情報ファイル(31)の一部と生成された検索用
ファイル(32)の大きさの比率を求め、上記求めた比
率と原情報ファイル(31)の大きさと生成時間算出テ
ーブルに基づいて、上記原情報ファイル(31)の検索
用ファイル(32)の生成時間を算出することを特徴と
する情報検索システム。4. The information retrieval system according to claim 1, wherein the generation time calculation table (33) is a ratio of a plurality of original information files (31) and a size of the retrieval file (32). And the size of the original information file (31) and the time required to generate the search file (32). The generation time calculating means (43) is a part of the arbitrary original information file (31). , A search file (32) is generated, a size ratio between a part of the original information file (31) and the generated search file (32) is calculated, and the calculated ratio and the original information file (31) are compared. An information retrieval system characterized by calculating a generation time of a search file (32) of the original information file (31) based on a size and a generation time calculation table.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11188993A JP3328995B2 (en) | 1993-05-13 | 1993-05-13 | Information retrieval system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11188993A JP3328995B2 (en) | 1993-05-13 | 1993-05-13 | Information retrieval system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH06325088A JPH06325088A (en) | 1994-11-25 |
| JP3328995B2 true JP3328995B2 (en) | 2002-09-30 |
Family
ID=14572690
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11188993A Expired - Fee Related JP3328995B2 (en) | 1993-05-13 | 1993-05-13 | Information retrieval system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3328995B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002108936A (en) * | 2000-10-03 | 2002-04-12 | Canon Inc | INFORMATION SEARCHING DEVICE, ITS CONTROL METHOD, AND COMPUTER-READABLE STORAGE MEDIUM |
| JP5145202B2 (en) * | 2008-12-04 | 2013-02-13 | 日本電信電話株式会社 | Document search apparatus and document search program |
| JP5193952B2 (en) * | 2009-06-01 | 2013-05-08 | 日本電信電話株式会社 | Document search apparatus and document search program |
-
1993
- 1993-05-13 JP JP11188993A patent/JP3328995B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| 宮原末治,文書情報の蓄積検索システムに関する検討,情報処理学会研究報告 90−HI−29,1990年 3月 9日,Vol.90 No.18,p.1−10 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH06325088A (en) | 1994-11-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3691844B2 (en) | Document processing method | |
| US20060106767A1 (en) | System and method for identifying query-relevant keywords in documents with latent semantic analysis | |
| CN112434537A (en) | Translation text consistency checking method, computing device and storage medium | |
| US8239400B2 (en) | Annotation of query components | |
| JP2006178599A (en) | Document retrieval device and method | |
| JP3328995B2 (en) | Information retrieval system | |
| JPH05324728A (en) | Information retrieving device | |
| JP3056704B2 (en) | Data management device | |
| JP2817103B2 (en) | Data search device and data search method | |
| US8180784B2 (en) | Method and system for improving performance of counting hits in a search | |
| JP2812357B2 (en) | Database search system | |
| JP3395232B2 (en) | Search item determination method | |
| CN115098365A (en) | SQL code debugging method and device, electronic equipment and readable storage medium | |
| JPH0644309A (en) | Data base managing system | |
| US20130091166A1 (en) | Method and apparatus for indexing information using an extended lexicon | |
| JP3359951B2 (en) | Database search device | |
| JPS6129936A (en) | Retrieval method | |
| JPS63150724A (en) | Data access processing system | |
| CN114722291A (en) | Target searching method and device | |
| JP2836093B2 (en) | Database search device | |
| US7475086B2 (en) | Method of automatically removing leading and trailing space characters from data being entered into a database system | |
| JP2616203B2 (en) | Management method of name table in translation system | |
| JPH03137772A (en) | Data base utilizing system | |
| JP3466669B2 (en) | Character processing method | |
| CN119988579A (en) | Data retrieval method, device, equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020618 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080719 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090719 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100719 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100719 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110719 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |