JP4980604B2 - Document search apparatus, document search method, document search program, and recording medium - Google Patents
Document search apparatus, document search method, document search program, and recording medium Download PDFInfo
- Publication number
- JP4980604B2 JP4980604B2 JP2005327804A JP2005327804A JP4980604B2 JP 4980604 B2 JP4980604 B2 JP 4980604B2 JP 2005327804 A JP2005327804 A JP 2005327804A JP 2005327804 A JP2005327804 A JP 2005327804A JP 4980604 B2 JP4980604 B2 JP 4980604B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- document information
- document
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書検索装置、文書検索方法、文書検索プログラム及び記録媒体に関し、特に検索語と関連語とに基づいて所定の文書情報の集合に対して検索を実行する文書検索装置、文書検索方法、文書検索プログラム及び記録媒体に関する。 The present invention relates to a document search device, a document search method, a document search program, and a recording medium, and more particularly to a document search device and a document search method for executing a search for a set of predetermined document information based on a search word and a related word. The present invention relates to a document search program and a recording medium.
文書検索の分野において、検索結果が利用者の検索要求に合致しているか否かは重要な評価基準の一つである。従来、利用者の意図に沿った検索結果を得るための技術として関連語展開が知られている。 In the field of document retrieval, whether or not the retrieval result matches the retrieval request of the user is one of important evaluation criteria. Conventionally, related word expansion is known as a technique for obtaining a search result in accordance with a user's intention.
関連語展開は、検索語に検索語と関連が深いと思われる語を追加する技術である。関連語展開によれば、与えられた検索語だけで検索する場合に比べ、漏れのない検索が可能となる。よく知られた関連語展開の方法として、類義語辞書を使って検索語の類義語を調べ、検索語に追加する方法がある(例えば、特許文献1及び特許文献2)。また別の方法として、与えられた検索語でまず検索し、得られた検索結果に含まれる単語を共起語として、元の検索語に追加する方法もある(例えば、特許文献3)。
しかしながら、前者の方法では、類義語辞書に載っている単語しか展開できないという制限がある。そのため、新語に対応するためには類義語辞書の保守といった煩雑な作業が必要とされるという問題がある。また、後者の方法では、検索対象のデータが書籍のタイトルのように短い場合等、本来であればほとんど共起しない単語であるにもかかわらず共起語と判定され得るという問題がある。これは、検索結果に含まれる単語自体が少なくなり、共起語の候補も少なくなることに起因する。 However, the former method has a limitation that only words in the synonym dictionary can be expanded. Therefore, there is a problem that complicated work such as maintenance of a synonym dictionary is required to deal with a new word. Further, the latter method has a problem that it can be determined as a co-occurrence word even though it is originally a word that hardly co-occurs when the search target data is as short as the title of a book. This is due to the fact that the search results contain fewer words and fewer co-occurrence words.
本発明は、上記の点に鑑みてなされたものであって、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラム及び記録媒体の提供を目的とする。 The present invention has been made in view of the above points, and it is an object of the present invention to provide a document search device, a document search method, a document search program, and a recording medium that can output an appropriate search result in response to a search request. And
そこで上記課題を解決するため、本発明は、検索語と関連語とに基づいて所定の文書情報の集合に対して検索を実行する文書検索装置であって、前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手段と、前記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手段と、前記関連文書情報より前記関連語を抽出する関連語抽出手段とを有し、前記関連文書検索手段は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる、属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする。
このような文書検索装置では、検索要求に対して適切な検索結果を出力することができる。
Accordingly, in order to solve the above-described problem, the present invention provides a document search apparatus that performs a search on a predetermined set of document information based on a search word and a related word, and inputs a plurality of search words, Input means for designating a second set of document information larger than the set of predetermined document information from the set of document information, and document information searched based on the search word from the set of second document information Related document search means for acquiring a set of related documents as related document information, and related word extraction means for extracting the related words from the related document information, the related document search means based on a predetermined attribute value, The number of document information for each attribute included in the set of document information searched based on the search word is calculated, and the document information searched based on the search word based on the calculated number of document information From the set of Select a set of document information belonging to the attribute, wherein the set of document information selected to the related document information.
Such a document search apparatus can output an appropriate search result in response to a search request.
また、上記課題を解決するため、本発明は、上記文書検索装置における文書検索方法、前記文書検索方法をコンピュータに実行させるための文書検索プログラム、又は前記文書検索プログラムを記録した記録媒体としてもよい。 In order to solve the above problems, the present invention may be a document search method in the document search apparatus, a document search program for causing a computer to execute the document search method, or a recording medium on which the document search program is recorded. .
本発明によれば、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラム及び記録媒体を提供することができる。 According to the present invention, it is possible to provide a document search apparatus, a document search method, a document search program, and a recording medium that can output an appropriate search result in response to a search request.
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における文書検索装置のハードウェア構成例を示す図である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram illustrating a hardware configuration example of a document search apparatus according to an embodiment of the present invention.
図1の文書検索装置10は、それぞれ相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、演算処理装置104と、表示装置105と、入力装置106と等を有するように構成される。
1 includes a
文書検索装置10での処理を実現するプログラムは、CD―ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。補助記憶装置102は、インストールされたプログラムを格納すると共に、プログラムの処理に必要な各種のデータを格納する。
A program for realizing processing in the
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。演算処理装置104は、メモリ装置103に格納されたプログラムに従って文書検索装置10に係る機能を実行する。表示装置105はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置106はキーボード及びマウス等で構成され、様々な操作指示を入力するために用いられる。
The
なお、文書検索装置10は、複数のコンピュータによって構成してもよい。例えば、文書検索装置10をクライアント・サーバシステムとして構成する場合、サーバ側には表示装置105及び入力装置106は、必ずしも必要ではない。
Note that the
図2は、第一の実施の形態における文書検索装置の機能構成例を示す図である。第一の実施の形態では、書籍のタイトルを類似検索する例を説明する。 FIG. 2 is a diagram illustrating a functional configuration example of the document search apparatus according to the first embodiment. In the first embodiment, an example in which similar searches are performed on the titles of books will be described.
図2において、文書検索装置10は、入力手段11、関連文書検索手段12、関連語選択手段13、検索手段14、出力手段15、関連語展開用データベース16、及びタイトル検索用データベース17等より構成される。
In FIG. 2, the
入力手段11は、検索語をシステムに与えるためのユーザインターフェースである。キーボードであったりディスプレイのタッチパネルであったりマイクと音声認識システムであったりする。すなわち、ユーザは、入力手段11を介して、求める書籍のタイトルと何らかの関連があると思われる文字列を検索語として入力する。この関連とは、タイトルに当該文字列がそのまま含まれることであったり、タイトルに当該文字列と類似の表現が含まれることであったり、当該文字列と同時に使われやすい文字列がタイトルに含まれることであったりする。 The input means 11 is a user interface for giving a search term to the system. It may be a keyboard, a display touch panel, a microphone and a voice recognition system. In other words, the user inputs, via the input means 11, a character string that seems to have some relationship with the title of the book to be searched for as a search term. This relationship means that the title contains the character string as it is, the title contains an expression similar to the character string, or the title contains a character string that can be used at the same time as the character string. It is to be.
関連文書検索手段12は、検索語を入力手段11から受け取り、当該検索語に基づいて関連語展開用データベース16より文書情報を検索する。検索は、検索語を単語に解析して単語単位の検索であったり、N-gramと呼ばれるその文字列に現れる連続する長さNの文字列を取得してその長さNの文字列単位での検索であったりする。関連文書検索手段12による検索結果(以下「関連文書情報」という。)は、これらの検索単位の一部を含むタイトルであったり、全てを含むタイトルであったり、各タイトルに検索語に対するスコアを付けてその上位M件に含まれるタイトルであったりする。
The related document search means 12 receives the search word from the input means 11 and searches the document information from the related
関連語展開用データベース16は、タイトル検索用データベース17とは異なる文書情報の集合である。関連語展開用データベース16は、少なくとも検索対象となる文書情報(ここでは、書籍のタイトル)の一覧を保持している。単語等の検索単位が、タイトルの一覧の何番目に含まれるかという索引情報を保持していてもよい。この索引情報により高速な検索が可能となる。
The related
関連語選択手段13は、関連文書情報を構成する単語の中から、ユーザが与えた検索語と関連する文字列を関連語として抽出し、その間連語を検索語に追加する。関連語を選択する基準は、例えば、得られた関連文書情報(例えば、タイトルの集合)における出現頻度が高いもの選択するといったものや、関連文書情報には含まれないタイトルの集合における出現頻度が低いものを選択するといったものでもよい。
The related
検索手段14は、関連語が追加された検索語に基づいてタイトル検索用データベース17より書籍のタイトルを検索する。
The search means 14 searches the title of the book from the
タイトル検索用データベース17は、検索対象とされる文書情報の集合が蓄積されているデータベースである。したがって、本実施の形態において、タイトル検索用データベース17は、少なくともタイトルの一覧を保持している。また、索引情報を保持していてもよい。格納されているタイトルの中身やタイトル以外に保持している情報の種類は関連語展開用データベース16と異なっていても良いが、関連語展開用データベース16のレコード数の方が多いことが望ましい(すなわち、関連語展開用データベース16に蓄積されている文書情報の集合の方が、タイトル検索用データベース17に蓄積されている文書情報の集合より大きいことが望ましい。)。
The
出力手段15は、検索手段14による検索結果を表示装置105に表示させたり、プリンタに出力したり、又は音声としてスピーカーに出力したりする。なお、最終的に得られる検索結果(検索手段14による検索結果)は、タイトルの一覧である。関連語展開をしているので、タイトルの中に必ずしもユーザによって入力された検索語が含まれていなくてもよい。
The output means 15 displays the search result by the search means 14 on the
以下、図2の文書検索装置10の処理手順について説明する。図3は、第一の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである。
Hereinafter, the processing procedure of the
ステップS101において、入力手段11は、ユーザから検索語の入力を受け付ける。ここでは、 ユーザが「特許」に関係する書籍を探しているとする。したがって、ユーザは入力手段11を用いて検索語「特許」を入力する。
In step S101, the
ステップS101に続いてステップS102に進み、関連文書検索手段12は、ユーザに入力された検索語に基づいて関連語展開用データベース16より関連語展開のための文書情報(関連文書情報)を検索する。具体的には、関連文書検索手段12は、入力手段11から検索語「特許」を受け取り、当該検索語を検索単位に解析する(この例では関連語展開用データベース16の索引は単語単位で構成されているとする。そのため検索単位は単語となる。)。その結果、関連文書検索手段12は、検索語「特許」に、単語「特許」が含まれているという解析結果を得る(この例では検索語を解析して得られた単語集合は「特許」の一単語のみだが、検索語が複数単語からなれば単語集合が得られる。)。続いて、関連文書検索手段12は、関連語展開用データベース16から単語「特許」が含まれるタイトルの集合を関連文書情報として取得する。図4は、関連文書検索手段による検索結果としての関連文書情報の例を示す図である。
In step S102 following step S101, the related
ステップS102に続いてステップS103に進み、関連語選択手段13は、関連文書情報より関連語を抽出する。具体的には、例えば、図4に示されるようなタイトルの集合から以下のような単語が抽出される。
標準、テキスト、財産、意匠、商標、工業、所有、・・・
関連語選択手段13は、抽出された関連語を、ユーザによって入力された検索語に追加する(S104)。
Progressing to step S103 following step S102, the related word selection means 13 extracts a related word from related document information. Specifically, for example, the following words are extracted from a set of titles as shown in FIG.
Standard, text, property, design, trademark, industry, possession, ...
The related
ステップS104に続いてステップS105に進み、検索手段14は、関連語の追加された検索語(すなわち、ユーザによって入力された検索語と、関連語との単語の集合)に基づいて、タイトル検索用データベース17より書籍のタイトルを検索する(この例ではタイトル検索用データベース17の索引も単語単位で構成されているとする。そのため、検索語を再解析する必要はない。)。
Following step S104, the process proceeds to step S105, where the
図5は、書籍のタイトルの検索結果の例を示す図である。図5の検索結果に示されるように、検索語(「特許」)のみならず、関連語も用いて検索が実行されるため、タイトルに「特許」を含まなくとも、「特許」との関連が強いと判定されるタイトルの集合が取得され得る。 FIG. 5 is a diagram illustrating an example of a search result of book titles. As shown in the search result of FIG. 5, the search is executed using not only the search term (“patent”) but also the related term. Therefore, even if the title does not include “patent”, the relationship with “patent” A set of titles determined to be strong can be obtained.
ステップS105に続いてステップS106に進み、出力手段15は、取得されたタイトルの一覧を表示装置105に表示させる。
Progressing to step S106 following step S105, the
上述したように、第一の実施の形態における文書検索装置10によれば、検索用のデータベース(タイトル検索用データベース17)とは異なるデータベースより関連語展開のための関連語を抽出する。したがって、例えば、関連語展開に用いるデータベースを検索用データベースより大規模なものとすれば、ユーザによって入力された検索語に対する共起語を増やすことができ、多くの共起語の中から関連語を選択することができる。よって、たまたま共起した単語が関連語として選択され、不要な関連語が検索語に追加される可能性を低く抑えることができる。
As described above, according to the
また、類義語辞書等を必要としないため、類義語辞書の保守のようなコストのかかる作業の発生を抑制することができる。 In addition, since a synonym dictionary or the like is not required, it is possible to suppress the occurrence of costly work such as maintenance of the synonym dictionary.
なお、第一の実施の形態において、関連語展開用のデータベースを複数用意しておき、文書検索装置10が関連語に適したデータベースを選択しても良い。例えば、入力された検索語がカタカナであればコンピュータ関連や化学関連の書籍データベースを選んだり、英字であれば洋書のデータベースを選んだりしてもよい。これによって、本来は共起しないような単語の出現確率自体を低く抑えることができる。
In the first embodiment, a plurality of related word expansion databases may be prepared, and the
次に、第二の実施の形態について説明する。第二の実施の形態においても、書籍のタイトルを類似検索する例を説明する。 Next, a second embodiment will be described. Also in the second embodiment, an example in which similar searches are performed on the titles of books will be described.
図6は、第二の実施の形態における文書検索装置の機能構成例を示す図である。図6中、図2と同一部分には同一符号を付し、その説明は省略する。 FIG. 6 is a diagram illustrating a functional configuration example of the document search apparatus according to the second embodiment. In FIG. 6, the same parts as those in FIG.
図6に示されるように、第二の実施の形態では、関連語展開用のデータベースとして複数のデータベース(関連語展開用データベース16a、16b及び16c等、以下、総称する場合、「関連語展開用データベース16」という。)が存在する。それぞれは、少なくとも書籍のタイトル情報を含んでいるものとする。また、第二の実施の形態における入力手段11は、検索語の他に、関連語の取得先とするデータベースの指定をユーザより受け付ける。
As shown in FIG. 6, in the second embodiment, a plurality of databases (related
以下、図6の文書検索装置10の処理手順について説明する。図7は、第二の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである。
Hereinafter, the processing procedure of the
ステップS201において、入力手段11は、検索語と、関連語の取得先のデータベースの識別情報との入力をユーザより受け付ける。すなわち、ユーザは、関連語展開用データベース16a、16b及び16c等のうち、いずれのデータベースを関連語の取得先とするかを指定する。
In step S201, the
ステップS201に続いてステップS202に進み、関連文書検索手段12は、検索語に基づいて、ユーザに指定された関連語展開用データベース16より関連文書情報を検索する。
Progressing to step S202 following step S201, the related document search means 12 searches related document information from the related
ステップS203以降は、第一の実施の形態におけるステップS103以降と同様の処理であるため、その説明は省略する。 Since step S203 and subsequent steps are the same processing as step S103 and subsequent steps in the first embodiment, the description thereof is omitted.
上述したように、第二の実施の形態における文書検索装置10によれば、ユーザの判断によって、関連語展開に適したデータベースの選択されるため、本来は共起しないような単語の出現確率自体をより低く抑えることができる。
As described above, according to the
なお、複数存在する各関連語展開用データベース16に蓄積されている情報は、文書情報に係る所定の属性(例えば書籍の分野等)によって分類されていてもよい。このような場合、予め書籍の分野とそれぞれのデータベースとを関連付けておき、ユーザには、データベースの識別情報ではなく、書籍の分野を指定させるようにしてもよい。
Note that information stored in a plurality of related
次に、第三の実施の形態について説明する。第三の実施の形態においても、書籍のタイトルを類似検索する例を説明する。 Next, a third embodiment will be described. Also in the third embodiment, an example in which similar searches are performed on the titles of books will be described.
第三の実施の形態における文書検索装置10の機能構成例は、第一の実施の形態(図2)又は第二の実施の形態(図6)におけるものと同様でよい。但し、関連語展開用データベース16には、各書籍のタイトルの他に、当該書籍の分野を示す情報(以下「分野情報」という。)も蓄積されているものとする。
The functional configuration example of the
また、第三の実施の形態における文書検索装置10の処理手順は、第一の実施の形態(図3)又は第二の実施の形態におけるものと基本的には同様である。但し、関連語展開用データベース16には、分野情報も含まれているため、ステップS102又はS202において関連文書検索手段12によって取得される関連文書情報には、タイトルの他に分野情報も含まれている。
The processing procedure of the
また、分野情報をも含む関連文書情報からの関連語の抽出処理(S103又はS203)は、以下のように行われる。 Further, the related word extraction processing (S103 or S203) from the related document information including the field information is performed as follows.
すなわち、関連語選択手段13は、関連語展開のための検索で得られた上位N件のタイトルから単純に関連語を取得するのではなく、以下の方法で関連語展開の対象データ(関連語の抽出対象とする関連文書情報)を選択する。 That is, the related word selection means 13 does not simply acquire related words from the top N titles obtained in the search for related word expansion, but uses the following method for target word expansion (related word Related document information to be extracted).
図8は、関連語展開の対象データの選択方法を説明するための図である。図8に示されるように、関連語展開の対象データは、以下の手順で選択される。
(1)上位N件のタイトルと分野を取得する。
(2)分野ごとに、当該分野に属する件数を算出する。図8の例では、「実用」が10件、「学習」が4件、「娯楽」が2件として算出されている。
(3)算出した件数が最も多い分野に属する書籍のタイトルの集合を関連語展開の対象データとする。図8の例では、「実用」に属する書籍のタイトルの集合が関連語展開の対象データとされる。
FIG. 8 is a diagram for explaining a method of selecting target data for related word expansion. As shown in FIG. 8, the target data for the related word expansion is selected by the following procedure.
(1) Acquire the top N titles and fields.
(2) For each field, calculate the number of cases belonging to the field. In the example of FIG. 8, “practical” is calculated as 10 cases, “learning” is calculated as 4 cases, and “entertainment” is calculated as 2 cases.
(3) A set of titles of books belonging to the field having the largest number of calculated cases is set as target data for related word expansion. In the example of FIG. 8, a set of titles of books belonging to “practical” is the target data for related word expansion.
また、最多件数の分野だけから取得するのではなく、各分野の件数に応じた重み付けを行い、関連語を取得しても良い。また、著者や出版社を含む検索結果を取得して、分野の代わりに著者や出版社に基づいて分類しても良い。また、出版日を含む検索結果を取得し、最近出版された書籍に大きな重みを付けても良い。また、これらを組み合わせて利用しても良い。 Further, instead of acquiring only from the largest number of fields, weighting according to the number of cases in each field may be performed to acquire related words. Alternatively, search results including authors and publishers may be acquired and classified based on authors and publishers instead of fields. In addition, a search result including a publication date may be acquired, and a recently published book may be given a high weight. Moreover, you may utilize combining these.
以降、このようにして選択されたタイトルの集合より関連語が抽出され、ステップS104(又はS204)以降と同様の処理が実行される。 Thereafter, related words are extracted from the set of titles selected in this way, and the same processing as that after step S104 (or S204) is executed.
上述したように、第三の実施の形態における文書検索装置10によれば、関連語展開で用いるデータベースに、関連語にはならない書籍の分野や著者等のタイトル以外のデータを入れ、それらを関連語の判定に用いる。したがって、本来は共起しないような単語が関連語として選択され、不要な関連語が検索語に追加される可能性を更に抑えることができる
次に、第四の実施の形態について説明する。第四の実施の形態においても、書籍のタイトルを類似検索する例を説明する。図9は、第四の実施の形態における文書検索装置の機能構成例を示す図である。図9中、図2と同一部分には同一符号を付し、その説明は省略する。
As described above, according to the
図9に示されるように、第四の実施の形態における入力手段11は、検索語の他に関連語展開用の書籍の分野の指定をユーザより受け付ける。また、第四の実施の形態における関連語展開用データベース16には、各書籍のタイトルの他に、当該書籍の分野を示す情報(分野情報)も蓄積されているものとする。
As shown in FIG. 9, the input means 11 in the fourth embodiment accepts designation of a field of a book for developing related words in addition to a search word from a user. In addition, in the related
以下、図9の文書検索装置10の処理手順について説明する。図10は、第四の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである。
Hereinafter, the processing procedure of the
ステップS401において、入力手段11は、検索語と、関連語展開用の分野との入力をユーザより受け付ける。ステップS401に続いてステップS402に進み、関連文書検索手段12は、検索語に基づいて、ユーザに指定された関連語展開用データベース16より関連文書情報を検索する。ここで取得される関連文書情報には、タイトルの他に分野情報も含まれている。
In step S401, the
ステップS402に続いてステップS403に進み、関連語選択手段13は、関連文書情報より関連語を抽出する。ここで、関連語選択手段13は、まず、書籍の分野をも含む関連文書情報からユーザによって指定された分野に係るタイトルの集合を抽出する。
Progressing to step S403 following step S402, the related word selection means 13 extracts a related word from the related document information. Here, the related
図11は、ユーザによって指定された分野に係るタイトルの集合の抽出例を示す図である。図11は、関連語展開用の分野として「実用」が指定された場合に抽出されたタイトルの集合(N件)が示されている。 FIG. 11 is a diagram illustrating an example of extracting a set of titles related to a field designated by the user. FIG. 11 shows a set (N) of titles extracted when “practical” is designated as the field for developing related words.
続いて、関連語選択手段13は、図11のように抽出されたタイトルの集合から、関連語を抽出する。 Subsequently, the related word selection means 13 extracts related words from the set of titles extracted as shown in FIG.
以降の処理(S404〜S406)は、第一の実施の形態(S104〜S106)と同様である。 The subsequent processes (S404 to S406) are the same as those in the first embodiment (S104 to S106).
なお、関連語展開用の判定条件は、第三の実施の形態において挙げたように書籍の分野以外を用いても良い。また、文書検索装置10は、関連語の取得時に関連語の判定条件をユーザにインタラクティブに指定させても良い。
In addition, as a determination condition for related word expansion, a field other than the field of books may be used as described in the third embodiment. Further, the
上述したように、第四の実施の形態における文書検索装置10によれば、ユーザの補助により、関連語展開に適した検索条件や関連語の判定に適した条件を設定できるので、本来は共起しないような単語の出現確率と選択確率を低く抑えることができ、不要な関連語が検索語に追加される可能性を更に低く抑えることができる。
As described above, according to the
なお、上記において、データベースが異なるとは、データベースシステムが別である場合の他、同一のデータベースシステム内においてテーブルが異なる場合も含まれる。したがって、ハードウェア的に別の記憶装置に構築されていることに限定する意味ではない。 In the above description, different databases include cases where tables are different within the same database system, as well as when the database systems are different. Therefore, it is not limited to being constructed in a separate storage device in terms of hardware.
なお、上記第一から第四の実施の形態における文書検索装置は、書籍検索システムのみならず、その他の検索システム一般に適用可能である。但し、検索対象が書籍のタイトルのように短い方が望ましい。また、例えば、特許に関する文献や、論文、ニュース等、検索対象のデータがある程度細かく分類されていて、かつ、各分類内で共通して用いられる語句が多いと、より望ましい。 The document search apparatus in the first to fourth embodiments can be applied not only to the book search system but also to other search systems in general. However, it is desirable that the search target is as short as the title of the book. Further, for example, it is more desirable that the search target data such as patent documents, papers, news, and the like are classified to some extent and that many words are commonly used in each classification.
以上、本発明の実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 As mentioned above, although the Example of this invention was explained in full detail, this invention is not limited to the specific embodiment which concerns, In the range of the summary of this invention described in the claim, various deformation | transformation * It can be changed.
10 文書検索装置
11 入力手段
12 関連文書検索手段
13 関連語選択手段
14 検索手段
15 出力手段
16、16a、16b、16c 関連語展開用データベース
17 タイトル検索用データベース
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 演算処理装置
105 表示装置
106 入力装置
DESCRIPTION OF
Claims (10)
前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手段と、
前記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手段と、
前記関連文書情報より前記関連語を抽出する関連語抽出手段とを有し、
前記関連文書検索手段は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする文書検索装置。 A document search device that performs a search on a predetermined set of document information based on a search word and a related word,
Input means for inputting the search term and designating a second set of document information larger than the set of predetermined document information from a set of a plurality of document information;
Related document search means for acquiring, as related document information, a set of document information searched based on the search term from the set of second document information;
Related word extracting means for extracting the related word from the related document information,
The related document search means calculates the number of document information for each attribute included in the set of document information searched based on the search word based on a predetermined attribute value, and sets the calculated number of document information. And selecting a set of document information belonging to a predetermined attribute from a set of document information searched based on the search term, and using the selected set of document information as the related document information. Document retrieval device.
前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手順と、
前記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手順と、
前記関連文書情報より前記関連語を抽出する関連語抽出手順とを有し、
前記関連文書検索手順は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする文書検索方法。 A document search method in a document search apparatus for executing a search for a predetermined set of document information based on a search word and a related word,
To enter the search word, the input procedure for specifying a set of second document information has greater than said set of predetermined document information from a set of a plurality of document information,
A related document search procedure for acquiring, as related document information, a set of document information searched based on the search term from the set of second document information;
A related word extraction procedure for extracting the related word from the related document information,
The related document search procedure calculates the number of document information for each attribute included in a set of document information searched based on the search word based on a predetermined attribute value, and sets the calculated number of document information. And selecting a set of document information belonging to a predetermined attribute from a set of document information searched based on the search term, and using the selected set of document information as the related document information. How to search for documents.
前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手順と、
前記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手順と、
前記関連文書情報より前記関連語を抽出する関連語抽出手順とを有し、
前記関連文書検索手順は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする文書検索プログラム。 A document search program for causing a computer to execute a search for a set of predetermined document information based on a search word and a related word,
To enter the search word, the input procedure for specifying a set of second document information has greater than said set of predetermined document information from a set of a plurality of document information,
A related document retrieval procedure to retrieve a set of document information is retrieved on the basis from the collection of pre-Symbol second document information to the search word as a related document information,
A related word extraction procedure for extracting the related word from the related document information,
The related document search procedure calculates the number of document information for each attribute included in a set of document information searched based on the search word based on a predetermined attribute value, and sets the calculated number of document information. And selecting a set of document information belonging to a predetermined attribute from a set of document information searched based on the search term, and using the selected set of document information as the related document information. Document search program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005327804A JP4980604B2 (en) | 2005-11-11 | 2005-11-11 | Document search apparatus, document search method, document search program, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005327804A JP4980604B2 (en) | 2005-11-11 | 2005-11-11 | Document search apparatus, document search method, document search program, and recording medium |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2007133769A JP2007133769A (en) | 2007-05-31 |
| JP2007133769A5 JP2007133769A5 (en) | 2008-12-11 |
| JP4980604B2 true JP4980604B2 (en) | 2012-07-18 |
Family
ID=38155357
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005327804A Expired - Fee Related JP4980604B2 (en) | 2005-11-11 | 2005-11-11 | Document search apparatus, document search method, document search program, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4980604B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010106642A1 (en) * | 2009-03-17 | 2010-09-23 | 富士通株式会社 | Search processing method and apparatus |
| KR102612210B1 (en) * | 2022-10-05 | 2023-12-08 | 전정욱 | System and method searching similar patents based on artificial intelligence |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3099756B2 (en) * | 1996-10-31 | 2000-10-16 | 富士ゼロックス株式会社 | Document processing device, word extraction device, and word extraction method |
| JP2001117930A (en) * | 1999-10-15 | 2001-04-27 | Ricoh Co Ltd | Document classification device, document classification method, and recording medium |
| JP4212347B2 (en) * | 2002-12-12 | 2009-01-21 | 株式会社リコー | Document search apparatus, program, and recording medium |
| JP2004361992A (en) * | 2003-05-30 | 2004-12-24 | Toshiba Corp | Related word extraction device, related word extraction method and program |
-
2005
- 2005-11-11 JP JP2005327804A patent/JP4980604B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007133769A (en) | 2007-05-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5241828B2 (en) | Dictionary word and idiom determination | |
| US20090083230A1 (en) | Apparatus and method for supporting information searches | |
| JP2005128873A (en) | Question/answer type document retrieval system and question/answer type document retrieval program | |
| WO2013101489A1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
| US8782049B2 (en) | Keyword presenting device | |
| WO2004001570A1 (en) | Method for describing existing data by a natural language and program for that | |
| JP2020140503A (en) | Document search device and document search method | |
| JP3983265B1 (en) | Dictionary creation support system, method and program | |
| JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
| JPH0844771A (en) | Information retrieval device | |
| KR101835994B1 (en) | Method and apparatus of providing searching service for electronic books | |
| JP4980604B2 (en) | Document search apparatus, document search method, document search program, and recording medium | |
| JP2009086903A (en) | Search service device | |
| JP2008276561A (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
| JP2005316590A (en) | Information retrieval device | |
| JP2012243129A (en) | Topic word acquisition device, method, and program | |
| JPH07134720A (en) | Method and device for presenting relative information in sentence preparing system | |
| JP4574186B2 (en) | Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device | |
| JP2004220226A (en) | Document classification method and device for retrieved document | |
| JP2007257369A (en) | Information retrieval device | |
| JP3655465B2 (en) | Processing related words | |
| JP2000339342A (en) | Document search method and document search device | |
| JPH10340271A (en) | Document abstract preparation device, and storage medium where document abstract generation program is recorded | |
| JP4138048B2 (en) | Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device | |
| JP4300056B2 (en) | CONCEPT EXPRESSION GENERATION METHOD, PROGRAM, STORAGE MEDIUM, AND CONCEPT EXPRESSION GENERATION DEVICE |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081024 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081024 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110126 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110408 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111020 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120321 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120419 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150427 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4980604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |