JP5282880B2 - Search system, search method, and program - Google Patents
Search system, search method, and program Download PDFInfo
- Publication number
- JP5282880B2 JP5282880B2 JP2008315158A JP2008315158A JP5282880B2 JP 5282880 B2 JP5282880 B2 JP 5282880B2 JP 2008315158 A JP2008315158 A JP 2008315158A JP 2008315158 A JP2008315158 A JP 2008315158A JP 5282880 B2 JP5282880 B2 JP 5282880B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- group
- similarity
- block
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 30
- 239000000470 constituent Substances 0.000 claims description 23
- 230000010365 information processing Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000007726 management method Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、入力された検索キーワードに基づき文書データを検索する検索システムに関し、詳しくは、文書間の引用関係に基づく文書の適合度を用いる検索システム、検索方法、およびプログラムに関する。 The present invention relates to a search system that searches document data based on an input search keyword, and more particularly, to a search system, a search method, and a program that use document fitness based on a citation relationship between documents.
昨今、情報処理装置を用いてユーザ等によって入力されたキーワードに基づいて、文書を検索する検索システムおよび検索エンジンの研究が多くの研究者によってなされている。 Recently, many researchers have been researching search systems and search engines that search for documents based on keywords input by a user or the like using an information processing apparatus.
検索システムで用いられる検索方法の一例としては、データベースに蓄積記憶された文書群の中から所望の文書を取り出すために、予め文書群をインデックス化して蓄積処理し、ユーザからの検索キーワードの入力を受け付け、キーワードを含む文書をリストアップすると共に、リストアップした文書をキーワード含有率に基づくスコア算出処理を行い、当該算出したスコア値に基づいて文書を順序付けて出力する方法がある。 As an example of a search method used in a search system, in order to retrieve a desired document from a document group stored and stored in a database, the document group is indexed and stored in advance, and a search keyword is input from a user. There is a method of accepting and listing documents including keywords, performing score calculation processing based on the keyword content for the listed documents, and outputting the documents in order based on the calculated score values.
また、関連する特許文献としては、特許文献1が挙げられる。
特許文献1には、情報源から情報を取得する情報取得手段と、情報源から取得された情報を記憶する情報記憶手段と、情報源の識別情報を取得する情報源取得手段と、文書に情報を追加する際に情報源の識別情報を付加して埋め込む情報源埋込手段と、情報源埋込手段によって埋め込まれた識別情報を取り出す情報源取出手段と、情報源の識別情報を基に文章を系統化した系統化情報を生成する系統化手段とを備えた文書管理装置が記載されている。
Moreover,
特許文献1に記載された文書管理装置は、文書自体とその情報源の識別情報との両方を管理し、文書を文書管理装置に追加する際にその文書の情報源の識別情報を埋め込むことによって、文書間の引用関係を基に文書を系統化して管理し、情報源の共有の程度を用いて関連文書の検索を可能とする。
The document management apparatus described in
しかしながら、上記の検索システムでは、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示することができない。 However, in the search system described above, a document overlooking the field of the input search keyword cannot be displayed at the top of the search results.
具体的には、特許文献1に記載された文書管理装置では、系統を遡ることしか出来ない。即ち、文書に記載されている分野毎に、良く使用される(インサーションされる:流用される:引用される:利用される)内容を端的に説明した図や表、段落などが記載された文書を求めて表示することができない。
Specifically, the document management apparatus described in
尚、分野を俯瞰した文書とは、分野に関して説明した複数の文書において多く流用されている文書ブロックを、多く含んだ文書のことを指す。また、文書ブロックとは、図・段落・各ページ等の文書を構成する構成要素を指す。文書ブロックの具体的な例としては、PowerPoint(登録商標)等のプレゼンテーションファイルにおいては、各スライドページや各スライドページ内の図などである。また、Word等のビジネス文書においては、各文章や、複数の文章から構成される段落である。これらの文書においては、当該分野の説明でよく使用される図や、よく使用されるスライドページが流用度の高い文書ブロックとなる。ここで流用度とは、ある文書ブロックが、その内容に類似した文書ブロックを含む文書に出現する頻度を指す。換言すれば、より多くの文書に、所定の文書ブロックに類似した内容の文書ブロックが出現するほど、その所定の文書ブロックの流用度が高いと定義される。 Note that a document that has an overview of a field refers to a document that includes many document blocks that are frequently used in a plurality of documents described in the field. A document block refers to a component constituting a document such as a figure, a paragraph, or each page. As a specific example of the document block, in a presentation file such as PowerPoint (registered trademark), there are each slide page and a figure in each slide page. A business document such as Word is a paragraph composed of each sentence or a plurality of sentences. In these documents, a figure often used in the description of the field and a frequently used slide page become a document block with high diversion. Here, the degree of diversion refers to the frequency at which a certain document block appears in a document including a document block similar to the content. In other words, it is defined that the degree of diversion of the predetermined document block is higher as the document block having the content similar to the predetermined document block appears in more documents.
本発明の目的は、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示する検索システムを提供することにある。 An object of the present invention is to provide a search system that displays a document overlooking the field of an input search keyword at the top of the search results.
本発明の他の目的は、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示する検索方法を提供することにある。 Another object of the present invention is to provide a search method for displaying a document overlooking the field of an input search keyword at the top of the search results.
更に、本発明の他の目的は、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示可能なプログラムを提供することにある。 Furthermore, another object of the present invention is to provide a program capable of displaying a document overlooking the field of the input search keyword at the top of the search results.
本発明の検索システムは、検索対象である文書群の各文書を、文書の構成要素毎に分割し、構成要素間の類似度を算出する類似度判定部と、前記類似度判定部の算出した類似度に基づいて、類似する構成要素をグループ化してグループ内の中心となる構成要素とグループ内の他の構成要素との偏差を算出すると共に、グループ化した全てのグループに対して前記偏差に基づくグループを構成する構成要素の類似度合いを数値化する構成要素グループ解析部と、検索対象の文書に含まれる構成要素について、前記偏差と前記類似度合いとの積に基づく前記構成要素のスコアを算出して、含まれる構成要素のスコア値を累積した文書のスコア値を集計する流用度算出部とを備えることを特徴とする。 In the search system of the present invention, each document of the document group to be searched is divided for each component of the document, and the similarity determination unit that calculates the similarity between the components and the similarity determination unit calculates Based on the similarity, group similar components together to calculate the deviation between the central component in the group and the other components in the group, and to the deviation for all grouped groups A component group analysis unit that quantifies the degree of similarity of the components constituting the group based on the component, and calculates the score of the component based on the product of the deviation and the similarity degree for the components included in the search target document And a diversion degree calculating unit for totalizing score values of documents in which score values of included components are accumulated.
本発明によれば、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示する検索システムを提供できる。 ADVANTAGE OF THE INVENTION According to this invention, the search system which displays the document which overlooked the field of the input search keyword on the upper rank of a search result can be provided.
また、本発明によれば、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示する検索方法を提供できる。 In addition, according to the present invention, it is possible to provide a search method for displaying a document overlooking the field of the input search keyword at the top of the search results.
更に、本発明によれば、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示可能なプログラムを提供できる。 Furthermore, according to the present invention, it is possible to provide a program capable of displaying a document overlooking the field of the input search keyword at the top of the search results.
本発明に係る検索システムは、検索対象である文書群の各文書を文書の構成要素毎に分割して、前記各文書から抽出された構成要素各々間の類似度を算出する類似度判定部と、前記類似度判定部の算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出すると共に、算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化するグループ解析部と、検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計する流用度算出部とを備え、検索要求に応じて、前記流用度算出部によって集計された文書毎のスコア値を参照して、検索対照である文書群を要求に応じた順序付けで出力することを特徴とする。A search system according to the present invention includes a similarity determination unit that divides each document of a document group to be searched for each component of the document and calculates a similarity between the components extracted from the documents. , Based on the similarity between the components calculated by the similarity determination unit, similar components are grouped, and each of the central component in each group and the other components in the group A group analysis unit that calculates a deviation and quantifies the similarity between constituent elements that constitute a group with reference to the calculated deviation between the constituent elements, and 1 to 1 included in each document to be searched For a plurality of components, a score based on the product of the corresponding deviation and the similarity is calculated, the score values of the included components are accumulated for each document, and the score value is aggregated. A document group as a search reference is output in order according to the request with reference to the score value for each document aggregated by the diversion degree calculation unit in response to the search request .
本発明に係る情報処理システムによる検索方法は、検索対象である文書群の各文書を文書の構成要素毎に分割して、前記各文書から抽出された構成要素各々間の類似度を算出処理し、前記算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出処理し、算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化処理し、検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出処理して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計処理して記憶部に記録し、入力部より受け付けた検索要求に応じて、前記集計した文書毎のスコア値を参照して、検索対照である文書群の中から該当する文書を要求に応じた順序付けで出力部から出力することを特徴とする。 The search method by the information processing system according to the present invention divides each document of a document group to be searched for each component of the document, and calculates a similarity between each component extracted from each document. Based on the calculated similarity between the constituent elements, similar constituent elements are grouped to calculate a deviation between the central constituent element in each group and the other constituent elements in the group. , The degree of similarity of the constituent element group constituting the group with reference to the calculated deviation between the constituent elements is quantified for each group, and one or more constituent elements included in each document to be searched are respectively applicable Calculating a score based on the product of the deviation and the degree of similarity, accumulating the score values of the included components for each document, summing the score values, and recording them in the storage unit, from the input unit In response to the search request, the score value for each of the aggregated documents is referred to, and the corresponding document is output from the output unit in the order according to the request from the document group that is the search target. To do.
本発明に係るプログラムは、制御部を、検索対象である文書群の各文書を文書の構成要素毎に分割して、前記各文書から抽出された構成要素各々間の類似度を算出する類似度判定手段と、前記類似度判定手段の算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出すると共に、算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化するグループ解析手段と、検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計する流用度算出手段として機能させ、前記流用度算出手段によって集計された文書毎のスコア値に基づいて、検索システムが検索対照である文書群を検索要求に応じて順序付けて出力可能とする。In the program according to the present invention, the control unit divides each document of the document group to be searched for each component of the document, and calculates a similarity between each component extracted from each document Based on the similarity between the components calculated by the determination unit, and the similarity determination unit, similar components are grouped to form a central component in each group and other components in the group Included in each document to be searched, and a group analysis means for calculating the respective deviations of each of them and quantifying the degree of similarity of the component group constituting the group by referring to the calculated deviation between the component elements For each of one or more constituent elements, a score is calculated based on the product of the corresponding deviation and the degree of similarity, and the score values of the included constituent elements are accumulated for each document to collect score values. To function as diverting calculating means for, based on the score value for each document that has been aggregated by the diverting calculating means, the search system can output to be ordered in response to the search request documents is a search control.
図1は、第1の実施の形態の検索システム10の構成を示す機能ブロック図である。
図1に示すように、検索システム10は、類似度判定部20とグループ解析部30と流用度算出部40を含み、検索対文書群を記憶保持するデータベース50と接続されて、図示しない文書検索部によって所望する文書を検索可能なように構成されている。
FIG. 1 is a functional block diagram illustrating a configuration of a
As shown in FIG. 1, the
類似度判定部20は、検索対象である文書群の各文書を、文書の構成要素毎に分割し、構成要素間の類似度を算出する。
The
グループ解析部30は、類似度判定部20の算出した類似度に基づいて、類似する構成要素を集めて1以上のグループを生成する。また、グループ解析部30は、グループ毎に、グループ内の中心となる構成要素とグループ内の他の構成要素との偏差を算出する。また、グループ解析部30は、グループ化した全てのグループに対して、偏差に基づき、グループを構成する構成要素の類似度合いを数値化する。
The
流用度算出部40は、検索対象の文書に含まれる構成要素について、上記偏差と上記類似度合いとの積に基づく構成要素のスコアを算出する。また、流用度算出部40は、検索対象の文書に含まれている構成要素のスコア値を累積加算して、検索対象の文書のスコア値とする。
The diversion
検索システム10は、流用度算出部40によって集計された文書のスコア値に基づいて、データベース50に記憶されている複数の検索対照である文書を順序付けて、スコア値の高い文書を検索結果として出力する。
The
検索システム10は、上記した文書ブロックの偏差の算出と類似度合いの算出を、検索対象の文書をデータベース50に登録するときに検索処理の前処理として予め行なっても良いし、検索時に行なっても良い。また、検索システム10は、文書ブロックの偏差や類似度合いの数値を、テーブル情報として記憶するようにしても良い。この場合は、算出した偏差と類似度合いを別々のテーブルとしても良いし、一つのテーブルとしても良い。
The
また、文書検索部は、データベース50に記憶された文書から、入力を受けたキーワードのキーワード含有率に基づく第1の検索処理を行い、その上で、前記第1の検索処理で抽出した文書を、流用度算出部40によって集計される文書のスコア値に基づく第2の検索処理を行うようにしてもよい。
In addition, the document search unit performs a first search process based on the keyword content rate of the input keyword from the documents stored in the
ここで、文書ブロックの一例を、図2を用いて説明する。図2は、文書ブロックを説明する図である。図2には、3ページで構成されるドキュメントファイルAが記載され、その1ページ目には、タイトル、段落A〜C、表およびグラフが記載されている。ドキュメントファイルAの文書ブロックは、ドキュメントファイルAの構成要素であるページ、タイトル、段落、図、表である。 Here, an example of the document block will be described with reference to FIG. FIG. 2 is a diagram for explaining a document block. In FIG. 2, a document file A composed of three pages is described. On the first page, a title, paragraphs A to C, a table, and a graph are described. The document block of the document file A is a page, a title, a paragraph, a figure, and a table that are components of the document file A.
図3は、第1の実施の形態の検索システム10の構成を詳細に示す機能ブロック図である。
図3を参照すると、ユーザなどが検索を実行する検索システム10と、検索対象文書群を記憶するデータベース50とから構成されている。
検索システム10は、検索インタフェース110と、検索部111と、文書インデックス作成部112と、文書インデックス113と、文書ブロック解析部120と、文書ブロック流用度算出部140と、文書ブロック類似度テーブル131と、グループ内文書ブロック偏差テーブル132と、文書ブロックグループ尖度テーブル133とを含んで成る。
FIG. 3 is a functional block diagram illustrating in detail the configuration of the
Referring to FIG. 3, the
The
文書ブロック解析部120は、文書ブロック類似度判定部121と、文書ブロックグループ解析部122と、文書ブロック類似度グラフ123と、文書ブロック類似度分布124とを含む。
The document
文書ブロック類似度判定部121は、検索対象文書群151から各文書の文書ブロックの類似度を演算処理し、文書ブロック類似度テーブル131に文書ブロック類似度情報を格納する。
The document block
文書ブロックグループ解析部122は、文書ブロック類似度テーブル131に格納された各文書ブロックの類似度情報を基に、文書ブロック類似度グラフ123と文書ブロック類似度分布124とを構築し、それらの情報を基に、文書ブロック偏差テーブル132に各文書ブロックの属する文書ブロックグループの中心文書ブロックとの類似度情報(偏差情報)を格納すると共に、文書ブロックグループ尖度テーブル133に各文書ブロックグループの類似度の尖度情報を格納する。
The document block
文書ブロック流用度算出部140は、ユーザが検索インタフェース110を介して文書検索要求を行った際に、検索結果文書の各文書の各文書ブロックの文書ブロック流用度(スコア)の算出処理を行う。
When the user makes a document search request via the search interface 110, the document block diversion
ここで、各テーブル及び各データモデルを、例示して説明する。
図4は、文書ブロック類似度テーブルを可視的に示す説明図である。
文書ブロック類似度テーブル131は、図4に示すように、文書ブロックIDフィールド301と、対象文書ブロックIDフィールド302と、類似度フィールド303とを含む、各文書ブロック間の類似度を示す文書ブロック類似度情報が記載された表である。
文書ブロックIDフィールド301と対象文書ブロックIDフィールド302には、データベース50に記録された検索対象文書群の各文書に含まれる文書ブロックがIDを割当てられて記録される。類似度フィールド303には、文書ブロックIDフィールド301に対して、対象文書ブロックIDフィールド302の類似度が記録される。当該類似度は、文書ブロック類似度判定部121で算出される。図示した例では、文書ブロックB2が文書ブロックA2に対して、類似している度合いが0.8であることを示している。即ち、文書ブロックB2は、文書ブロックA2に相当類似している。他方、文書ブロックB4は、文書ブロックA2との類似度が0.2であり、さほど類似していない。
Here, each table and each data model will be described by way of example.
FIG. 4 is an explanatory diagram visually showing the document block similarity table.
The document block similarity table 131 includes a document
In the document
図5は、文書ブロック類似度グラフを可視的に示す説明図である。
文書ブロック類似度グラフ123は、図5に示すように、各文書ブロックを、各文書ブロック間の類似度に基づいてグラフ化したモデルである。
FIG. 5 is an explanatory diagram visually showing a document block similarity graph.
As shown in FIG. 5, the document
図6は、文書ブロック類似度分布を可視的に示す説明図である。
文書ブロック類似度分布124は、図6に示すように、文書ブロックグループ内での中心文書ブロックからの内容距離と文書ブロックグループ内の文書ブロック数とを軸にした各文書ブロックグループの分布グラフである。各グループにおける文書ブロックの度分布は、文書ブロックグループ内での中心文書ブロックからの類似度の高い文書ブロックが多いほど、類似度合いが大きくなる。換言すれば、各グループにおける文書ブロックの度分布は、文書ブロックグループ内での中心文書ブロックからの内容距離の短い文書ブロックが多いほど尖度が高いと言える。尚、尖度とは、類似した内容の文書ブロックのグループにおいて、そのグループを構成する文書ブロックの各内容がどれくらい類似しているかの度合いである。そしてその中心文書ブロックからの類似度距離が短い(=類似した)文書が多いほど、当該グループの文書ブロックグループ尖度が高いと定義される。
FIG. 6 is an explanatory diagram visually showing the document block similarity distribution.
As shown in FIG. 6, the document
尚、文書ブロック類似度グラフ123と文書ブロック類似度分布124とは、データモデルを示したものであり、記憶するデータとしては数値化した値を保存すればよい。例えば、文書ブロック類似度分布124は、データモデルとしては、各文書ブロックグループにおいて、中心文書ブロックからの内容距離を横軸とし、その内容距離にある文書ブロック数を縦軸としてプロットすることによって生成でき、他方、実装上は、各メモリテーブル等に、文書ブロックグループID、中心文書ブロックからの内容距離、該当する文書ブロック数の対応表として記憶しても良い。尚、図5および図6に例示したモデルは、後に詳説する。
Note that the document
図7は、グループ内文書ブロック偏差テーブルを可視的に示す説明図である。
グループ内文書ブロック偏差テーブル132は、図7に示すように、文書ブロックIDフィールド601と、対象文書ブロックグループIDフィールド602と、中心文書ブロックからの内容距離フィールド603とを含む。グループ内文書ブロック偏差テーブル132には、文書ブロックIDフィールド601に記載された各文書ブロックの属する文書ブロックグループの中心文書ブロックとの内容距離が内容距離フィールド603に記載される。
FIG. 7 is an explanatory diagram visually showing the intra-group document block deviation table.
As shown in FIG. 7, the intra-group document block deviation table 132 includes a document
例示した表を説明すれば、文書ブロックグループの中心文書ブロックが文書ブロックA2である為、文書ブロックA2の中心文書ブロックとの類似度は1(同一)、同様に、文書ブロックB2の類似度は0.8、文書ブロックC5の類似度は0.7である。この場合に、内容距離フィールド603に記載される内容距離は、『類似度 = 1−内容距離』の式に基づいて、算出された値が記載される。尚、本実施形態では、類似度の算出は、『類似度 = 1−内容距離』としたが、内容距離の増加に応じて単調減少する別のアルゴリズムを用いても代替可能である。
Explaining the illustrated table, since the central document block of the document block group is the document block A2, the similarity of the document block A2 to the central document block is 1 (identical), and similarly, the similarity of the document block B2 is 0.8 and the similarity of the document block C5 is 0.7. In this case, as the content distance described in the
図8は、文書ブロックグループ尖度テーブルを可視的に示す説明図である。
文書ブロックグループ尖度テーブル133は、図8に示すように、文書ブロックグループIDフィールド701と、文書ブロックグループ尖度フィールド702とを含む。文書ブロックグループ尖度テーブル133は、各文書ブロックグループの尖度の表である。文書ブロックグループ尖度テーブル133には、グループを構成する各文書ブロックの内容の類似度を数値化して、算出された文書ブロックグループ尖度が記載される。文書ブロックグループ尖度は、グループの中心となる文書ブロックを特定し、当該中心文書ブロックからの類似度距離が小さい文書ブロックが多いほど、文書ブロックグループ尖度が高くなる。
各文書ブロックのグループ尖度の算出処理は、各文書ブロックグループにおいて、文書ブロックの中心文書ブロックからの内容距離の平均値を算出し、グループ尖度 = 1 −内容距離平均値として算出すれば良い。
FIG. 8 is an explanatory diagram visibly showing a document block group kurtosis table.
As shown in FIG. 8, the document block group kurtosis table 133 includes a document block
The group kurtosis calculation processing of each document block may be performed by calculating the average value of the content distance from the central document block of the document block in each document block group and calculating the group kurtosis = 1−content distance average value. .
次に、図3、図9ないし図11のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。 Next, the overall operation of the present embodiment will be described in detail with reference to the flowcharts of FIGS. 3 and 9 to 11.
まず、文書ブロック類似度判定部121が、検索対象文書群151から各文書の文書ブロックの類似度を演算処理し、文書ブロック類似度テーブル131に文書ブロック類似度情報を格納する、文書ブロック類似度判定処理の動作を、図3及び図9のフローチャートを参照して説明する。
First, the document block
図9は、文書ブロック類似度判定処理を示すフローチャートである。
文書ブロック類似度判定部121は、検索対象文書群151の各文書を文書ブロックに分割し、文書と文書ブロックに対してIDを付与する(S901)。
FIG. 9 is a flowchart showing document block similarity determination processing.
The document block
文書ブロック類似度判定部121は、付与したIDの順にその文書に含まれる各文書ブロックに関して、他の文書の各文書ブロックとの類似度を比較する(S902)。この際、比較対象とする文書は、まだ類似度を算出していない文書群とし、既に類似度を演算済みの文書との比較は行わない。
The document block
文書ブロック類似度判定部121は、演算した文書ブロック間の類似度の情報を、文書ブロック類似度テーブル131の類似度フィールド303に格納する(S903)。
The document block
文書ブロック類似度判定部121は、検索対象文書群151の全ての文書に対して文書ブロック類似度評価が完了したかどうかを判定し(S904)、検索対象文書群151の全ての文書に対して文書ブロック類似度評価が完了するまで上記802〜803の処理を繰り返す。
検索対象文書群151の全ての文書に対して文書ブロック類似度評価が完了したら、文書ブロック類似度判定処理を終了する。
The document block
When the document block similarity evaluation is completed for all the documents in the search target document group 151, the document block similarity determination process ends.
次に、文書ブロックグループ解析部122が、文書ブロック類似度テーブル131に格納された各文書ブロックの類似度情報を基に、文書ブロック類似度グラフ123と文書ブロック類似度分布124とを構築処理し、構築した情報を基に文書ブロック偏差テーブル132に各文書ブロックの属する文書ブロックグループの中心文書ブロックとの類似度情報を格納し、文書ブロックグループ尖度テーブル133に各文書ブロックグループの類似度の尖度情報を格納する、文書ブロックグループ解析処理の動作を、図3、図5、図6及び図10のフローチャートを参照して説明する。
Next, the document block
図10は、文書ブロックグループ解析処理を示すフローチャートである。
文書ブロックグループ解析部122は、文書ブロック類似度テーブル131に格納された各文書ブロック間の類似度情報を基に、文書ブロック類似度グラフ123を構築する(S1001)。
FIG. 10 is a flowchart showing document block group analysis processing.
The document block
文書ブロックグループ解析部122は、文書ブロック類似度グラフ123において、一定の閾値以上の類似度の文書ブロック群を、文書ブロックグループとしてグループ化する(S1002)。
In the document
ここで、文書ブロックのグループ化を、図5に例示した文書ブロック類似度グラフ123を用いて説明する。尚、グループ化の閾値は、0.5とする。
図5の例では、ドキュメントファイルAの第2ブロック(段落B)である文書ブロックA2(501)と文書Bの第2ブロックである文書ブロックB2(502)との類似度は0.8である。同様に、文書Aの第2ブロックである文書ブロックA2(501)と文書Cの第5ブロックである文書ブロックC5(503)との類似度は0.7である。同様に、文書Bの第2ブロックである文書ブロックB2(502)と文書Cの第5ブロックである文書ブロックC5(503)との類似度は0.6である。同様に、文書Aの第2ブロックである文書ブロックA2(501)と文書Bの第4ブロックである文書ブロックB4(504)との類似度は0.2である。
この場合、文書ブロックグループ化の閾値が0.5である為、文書ブロックA2(501)と文書ブロックB2(502)と文書ブロックC5(503)とが、文書ブロックグループG1(510)としてグループ化される。他方、文書ブロックB4は、グループ化されない。
Here, grouping of document blocks will be described using the document
In the example of FIG. 5, the similarity between the document block A2 (501) that is the second block (paragraph B) of the document file A and the document block B2 (502) that is the second block of the document B is 0.8. . Similarly, the similarity between the document block A2 (501) that is the second block of the document A and the document block C5 (503) that is the fifth block of the document C is 0.7. Similarly, the similarity between the document block B2 (502) that is the second block of the document B and the document block C5 (503) that is the fifth block of the document C is 0.6. Similarly, the similarity between the document block A2 (501) that is the second block of the document A and the document block B4 (504) that is the fourth block of the document B is 0.2.
In this case, since the document block grouping threshold is 0.5, the document block A2 (501), the document block B2 (502), and the document block C5 (503) are grouped as a document block group G1 (510). Is done. On the other hand, the document block B4 is not grouped.
文書ブロックグループ解析部122は、グループ化した全ての文書ブロックグループを、重心演算等の処理を用いて、各グループ内の中心文書ブロックを特定する(S1003)。図5に例示した文書ブロック類似度グラフ123では、文書ブロックグループG1(510)の重心を用いて、文書ブロックA2(501)を中心文書ブロックと特定し、必要に応じて、フラグ処理等を行う。
The document block
文書ブロックグループ解析部122は、各文書ブロックグループにおける中心文書ブロックに対するグループ内の他の文書ブロックの内容距離を算出処理し、グループ内文書ブロック偏差テーブル132の内容距離フィールド603に、内容距離を格納する(S1004)。
The document block
文書ブロックグループ解析部122は、各グループの中心文書ブロックと各文書ブロックとの類似度分布124を用いて、各文書ブロックグループの尖度を演算処理し、文書ブロックグループ尖度情報として、文書ブロックグループ尖度テーブル133の文書ブロックグループ尖度フィールド702に格納する(S1005)。図6に例示した文書ブロック類似度分布124では、文書ブロックグループG1(601)の尖度は0.8であり、文書ブロックグループG2(602)の尖度は、0.5である。また、文書ブロックグループG1(601)の方が、文書ブロックグループG2(602)よりも文書ブロックグループの尖度が高い。
S1005において、全ての文書ブロックグループに対する尖度の演算処理が完了したら、文書ブロックグループ解析処理を終了する。
The document block
When the kurtosis calculation processing for all the document block groups is completed in S1005, the document block group analysis processing is terminated.
次に、文書ブロック流用度算出部140が、ユーザなどから検索システム10に対して文書検索要求があった際に、検索結果文書の各文書の各文書ブロックの文書ブロック流用度の算出を行う文書ブロック流用度算出処理の動作を、図3、図5、図6及び図11のフローチャートを参照して説明する。
Next, the document block diversion
図11は、文書ブロック流用度算出処理を示すフローチャートである。
ユーザから検索システム10に対して文書検索を行われると、検索部111は、検索インタフェース110から入力された検索キーワードを用いて文書インデックス113を検索し、キーワード含有率に基づき、所定値以上のスコアの文書を抽出処理する(S1101)。
FIG. 11 is a flowchart showing document block diversion degree calculation processing.
When the user performs a document search on the
文書ブロック流用度算出部140は、検索部111によって抽出された検索結果の文書群に含まれる各文書ブロックに対して、グループ内文書ブロック偏差テーブル132と文書ブロックグループ尖度テーブル133を参照し、文書ブロックグループ尖度と中心文書ブロックとの類似度情報(偏差情報)の積を算出処理した値に基づき、検索結果の文書群に含まれる各文書ブロックのスコアを演算する(S1102)。
尚、文書ブロックのスコアは、文書ブロックグループ尖度と文書ブロック類似度のみでなく、当該文書ブロックが含まれる文書ブロックグループの文書ブロック数を加えて用いることにより、更に精度の高い文書ブロックのスコアを算出可能である。例えば、S1102において、各文書ブロックのスコアを、スコアを算出する文書ブロックを含む文書ブロックグループの総文書ブロック数の積に、属する文書ブロックグループの尖度と中心文書ブロックとの類似度情報の積を、両方の積に適切な係数をかけて乗算する。このようにスコアを算出することで、文書ブロックグループ尖度が低くでも、多数の文書ブロックを含む文書ブロックグループに含まれる文書ブロックのスコアが高くできる。即ち、文書ブロック数をスコア算出処理に用いることで、更に精度の高い文書ブロックのスコアを算出可能となる。
The document block diversion
Note that the score of the document block is not only the kurtosis of the document block group and the similarity of the document block, but by adding the number of document blocks of the document block group including the document block and using the score of the document block with higher accuracy. Can be calculated. For example, in S1102, the score of each document block is calculated by multiplying the product of the total number of document blocks of the document block group including the document block for which the score is calculated by the similarity information between the kurtosis of the document block group and the central document block. Multiply both products by an appropriate factor. By calculating the score in this manner, even if the kurtosis of the document block group is low, the score of the document block included in the document block group including a large number of document blocks can be increased. That is, by using the number of document blocks for the score calculation process, it is possible to calculate the score of the document block with higher accuracy.
また、文書ブロックのスコアは、算出対象である文書ブロックが、属するグループの中心文書ブロックであった場合に加算するようにしても良い。また、文書ブロックのスコアは、算出対象である文書ブロックが、属するグループの尖度が所定値以上であった場合に加算するようにしても良い。 The score of the document block may be added when the document block to be calculated is the central document block of the group to which it belongs. Further, the score of the document block may be added when the kurtosis of the group to which the document block to be calculated belongs is equal to or greater than a predetermined value.
文書ブロック流用度演算部140は、上記S1102で算出した各文書ブロックのスコアを、検索結果の文書毎に検索結果文書の文書スコアとして累積して算出処理する(S1103)。
The document block diversion
文書ブロック流用度演算部140は、検索結果文書群の全ての文書に対して、上記S1103での文書スコアの演算処理が完了したかどうかを判定し(S1104)、検索結果文書群の全ての文書に対して文書スコアの演算処理が完了するまで上記S1102〜S1103の処理を繰り返す。
The document block diversion
検索結果文書群の全ての文書に対して文書スコアの演算処理が完了したら、文書ブロック流用度算出処理を終了する。 When the document score calculation process is completed for all the documents in the search result document group, the document block diversion degree calculation process is terminated.
その後、検索システム10は、算出処理した文書スコアに基づいて、検索した文書を順序付けてユーザに提示する。
Thereafter, the
本実施の形態では、文書ブロックの類似度判定部121によって各文書に含まれる文書ブロック間の類似度を判定し、文書ブロックグループ解析部122によって類似する文書ブロックをグループ化してグループ内の中心となる文書ブロックとグループ内の他の文書ブロックとの偏差を算出すると共に、グループ化した全てのグループに対して偏差に基づくグループを構成する文書ブロックの類似度合いを数値化し、文書ブロック流用度算出部140によって検索対象の文書群に含まれる文書ブロックのスコアを算出し、当該スコアを用いて文書全体のスコアを算出する。このようにすることで、ユーザ等から入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示することができる。
In the present embodiment, the
また、本実施の形態では、文書ブロックグループ解析部122によって、文書ブロック類似度グラフ123より、各文書ブロックの類似度の重心演算などを行うことにより、類似した文書ブロックの各グループにおいて中心となる文書ブロックを特定することができる。
In the present embodiment, the document block
また、本実施の形態では、文書ブロックグループ解析部122によって、文書ブロック類似度分布124を用いて、類似した文書ブロックの集合体であるグループにおける中心文書ブロックと各文書ブロックとの類似度の偏差の尖度を演算することができる。
In the present embodiment, the document block
次に、本発明の第2の実施の形態について説明する。第2の実施の形態は第1の実施の形態と同様の部分を含む。同様の部分は同符号を付け、詳細な説明は省くものとする。 Next, a second embodiment of the present invention will be described. The second embodiment includes the same parts as in the first embodiment. Similar parts are denoted by the same reference numerals, and detailed description thereof is omitted.
第2の実施の形態の検索システムは、第1の実施の形態の検索システムの構成に加え、検索対象である文書群の各文書を、文書の構成要素毎に分割し、各構成要素の編集履歴に基づく構成要素間の類似度を算出する類似度判定部を含んで成る。以下差の部分を詳細に説明する。 In addition to the configuration of the search system of the first embodiment, the search system of the second embodiment divides each document of the document group to be searched for each component of the document, and edits each component It includes a similarity determination unit that calculates the similarity between components based on the history. The difference will be described in detail below.
図12は、第2の実施の形態の検索システム200の構成を詳細に示す機能ブロック図である。図12を参照すると、第2の実施の形態では、第1の実施の形態の構成に加え、データベース250に、文書操作履歴・改版履歴251を含む。
FIG. 12 is a functional block diagram illustrating in detail the configuration of the
文書操作履歴・改版履歴251は、データベース250に記憶される検索対象文書の作成者や操作者による操作履歴や改版履歴のような編集履歴(操作情報、操作に関する履歴情報、作成年月日情報、編集年月日情報、作成者情報、操作者情報など)である。
The document operation history /
本実施の形態における文書ブロック類似度判定部221は、文書システム250に含まれる文書操作履歴・改版履歴251に格納されている、編集履歴に基づき、検索対象文書群に含まれる各文書ブロックの類似性の判定を行い、類似度を算出する。即ち、文書ブロック類似度判定部121の検索対象文書群の文書ブロックの内容による類似度判定に代えて、検索対象である文書群の各文書を文書の文書ブロック毎に分割し、各文書ブロックの編集履歴に基づく文書ブロック間の類似度を算出する。
上記以外の検索システム200の構成及び動作は、第1の実施の形態である検索システム10と同様である。
The document block
The configuration and operation of the
本実施の形態では、文書ブロックの類似度判定部221によって、データベース250に含まれる文書操作履歴・改版履歴252に含まれる履歴情報を基に、検索対象文書群に含まれる各文書ブロックの類似性を判定し、文書ブロックグループ解析部122によって類似する文書ブロックをグループ化してグループ内の中心となる文書ブロックとグループ内の他の文書ブロックとの偏差を算出すると共に、グループ化した全てのグループに対して偏差に基づくグループを構成する文書ブロックの類似度合いを数値化し、文書ブロック流用度算出部140によって検索対象の文書群に含まれる文書ブロックのスコアを算出し、当該スコアを用いて文書全体のスコアを算出する。このようにすることで、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示することができる。
また、第1の実施の形態と同様に、本実施の形態では、文書ブロックグループ解析部122によって、文書ブロック類似度グラフ123より、各文書ブロックの類似度の重心演算などを行うことにより、類似した文書ブロックの各グループにおいて中心となる文書ブロックを特定することができる。同じく、本実施の形態では、文書ブロックグループ解析部122によって、文書ブロック類似度分布124を用いて、類似した文書ブロックの集合体であるグループにおける中心文書ブロックと各文書ブロックとの類似度の偏差の尖度を演算することができる。
In this embodiment, the
Similarly to the first embodiment, in this embodiment, the document block
本発明は、上記説明のように、検索対象である文書群の各文書に含まれる構成要素(文書ブロック)間の内容に基づく類似度を算出する類似度判定部121や、各構成要素の編集履歴に基づく類似度を算出する類似度判定部221のように、様々な検索対象文書に関する様々な情報やアルゴリズムによる構成要素(文書ブロック)類似度判定手段を、文書ブロック類似度判定部として組み入れることができる。
As described above, the present invention provides a
尚、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
一例としては、各検索システムの各部及び各種手段は、ハードウェア又は、ハードウェアとソフトウェアの組み合わせを用いて実現しても良い。ハードウェアとソフトウェアとを組み合わせた形態では、RAMにプログラムが展開され、プログラムに基づいて制御部等のハードウェアを動作させることによって、各部及び各種手段を実現する。また、上記プログラムは、記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、記憶部に読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。具体的な一例としては、図13に示すように、一般的なコンピュータを用いて検索システムを実現できる。図13に示された検索システムは、ネットワークを介して接続された検索対象群を格納するデータベースと接続し、補助記憶装置に記憶された各種プログラムがRAMに展開されて制御部に読込まれることによって、検索システムとして動作する。制御部は、RAMに読込まれた各種プログラムに基づいて、文書ブロック類似度判定手段、文書ブロックグループ解析手段、文書ブロック流用度算出手段、文書検索手段、文書インデックス作成手段などとして機能する。 検索システムとして動作するコンピュータは、入力部やネットワークインタフェースを介して入力された検索キーワードを用いて、データベースに記録されている検索対象群から、内在する各種手段を用いて算出した文書のスコア値に基づいて順序付けて出力し、検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示できる。
It should be noted that the specific configuration of the present invention is not limited to the above-described embodiment, and modifications within a range not departing from the gist of the present invention are included in the present invention.
As an example, each unit and various means of each search system may be realized using hardware or a combination of hardware and software. In a form in which hardware and software are combined, a program is developed in the RAM, and each unit and various means are realized by operating hardware such as a control unit based on the program. Further, the program may be recorded on a storage medium and distributed. The program recorded in the recording medium is read into the storage unit via the wired, wireless, or recording medium itself, and operates the control unit and the like. Examples of the recording medium include an optical disk, a magnetic disk, a semiconductor memory device, and a hard disk. As a specific example, as shown in FIG. 13, a search system can be realized using a general computer. The search system shown in FIG. 13 is connected to a database that stores search object groups connected via a network, and various programs stored in the auxiliary storage device are expanded in the RAM and read into the control unit. By operating as a search system. The control unit functions as a document block similarity determination unit, a document block group analysis unit, a document block diversion calculation unit, a document search unit, a document index creation unit, and the like based on various programs read into the RAM. A computer that operates as a search system uses a search keyword input via an input unit or a network interface to obtain a score value of a document calculated from various groups included in a search target group recorded in a database. Documents that are ordered and output based on the search keyword field can be displayed at the top of the search results.
換言すれば、検索システムは、制御部と、検索対象である文書群を蓄積記憶する記憶部と、検索結果を出力する出力部とを備え、前記制御部は、前記文書群の各文書を、文書の構成要素毎に分割し、構成要素間の類似度を算出し、算出した類似度に基づいて、類似する構成要素をグループ化してグループ内の中心となる構成要素とグループ内の他の構成要素との偏差を算出すると共に、グループ化した全てのグループに対して前記偏差に基づくグループを構成する構成要素の類似度合いを数値化し、検索対象の文書に含まれる構成要素について、前記偏差と前記類似度合いとの積に基づく前記構成要素のスコアを算出して、含まれる構成要素のスコア値を累積した文書のスコア値を集計し、集計された文書のスコア値に基づいて、複数の検索対照である文書を順序付けて前記出力部に出力するように、構築できる。また、第2の実施の形態も同様に構築できる。 In other words, the search system includes a control unit, a storage unit that stores and stores a document group that is a search target, and an output unit that outputs a search result, and the control unit stores each document in the document group. Divide each component of the document, calculate the similarity between the components, group similar components based on the calculated similarity, and the other components in the group While calculating the deviation from the element, the similarity degree of the constituent elements constituting the group based on the deviation is quantified for all the grouped groups, and for the constituent elements included in the search target document, the deviation and the The score of the component is calculated based on the product with the degree of similarity, the score value of the document obtained by accumulating the score value of the included component is aggregated, and a plurality of searches are performed based on the score value of the aggregated document. So as to output to the output unit order the document is irradiation, it can be constructed. Further, the second embodiment can be similarly constructed.
また、検索対象群は、ネットワークを介して接続されたデータベースを用いずに、補助記憶装置に記憶するようにしても良い。 Further, the search target group may be stored in the auxiliary storage device without using the database connected via the network.
以上説明したように、本発明によれば、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示する検索システムを提供できる。
また、本発明によれば、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示する検索方法を提供できる。
更に、本発明によれば、入力された検索キーワードの分野を俯瞰した文書を、検索結果の上位に表示可能なプログラムを提供できる。
As described above, according to the present invention, it is possible to provide a search system that displays a document overlooking the field of the input search keyword at the top of the search results.
In addition, according to the present invention, it is possible to provide a search method for displaying a document overlooking the field of the input search keyword at the top of the search results.
Furthermore, according to the present invention, it is possible to provide a program capable of displaying a document overlooking the field of the input search keyword at the top of the search results.
10 検索システム
20 類似度判定部
30 グループ解析部
40 流用度算出部
50 データベース
110 検索インタフェース
111 検索部
112 文書インデックス作成部
113 文書インデックス
120 文書ブロック解析部
121 文書ブロック類似度判定部
122 文書ブロックグループ解析部
123 文書ブロック類似度グラフ
124 文書ブロック類似度分布
131 文書ブロック類似度テーブル
132 グループ内文書ブロック偏差テーブル
133 文書ブロックグループ尖度テーブル
200 検索システム
220 文書ブロック解析部
221 文書ブロック類似度判定部
250 データベース(文書システム)
251 文書操作履歴・改版履歴(操作に関する履歴情報)
10 Search system
20
111 Search part
112 Document index creation unit
113 Document Index
120 Document block analyzer
121 Document block similarity determination unit
122 Document Block Group Analysis Unit
123 Document Block Similarity Graph
124 Document block similarity distribution
131 Document block similarity table
132 Group document block deviation table
133 Document block group kurtosis table
200
221 Document block similarity determination unit
250 database (document system)
251 Document operation history / revision history (history information related to operation)
Claims (18)
前記類似度判定部の算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出すると共に、算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化するグループ解析部と、
検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計する流用度算出部と
を備え、
検索要求に応じて、前記流用度算出部によって集計された文書毎のスコア値を参照して、検索対照である文書群を要求に応じた順序付けで出力することを特徴とする検索システム。 By dividing each document group of documents to be retrieved for each component of the document, and similarity determination unit for calculating the degree of similarity between elements of each said extracted from each document,
Based on the similarity between the calculated components of the similarity determination unit, each of the deviation between the other components of the group the similar components in the center and becomes component and said groups in each group A group analysis unit that quantifies the degree of similarity of the component group constituting the group with reference to the deviation between the calculated component elements for each group;
For one or more constituent elements included in each document to be searched, a score based on the product of the corresponding deviation and the similarity is calculated, and the score values of the included constituent elements are accumulated for each document. And a diversion degree calculation unit for counting score values,
In response to the search request, the search system above with reference to the score value for each document that has been aggregated by diverting calculator, and outputs in the ordering on demand document set is the search control.
前記類似度判定部の算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出すると共に、算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化するグループ解析部と、
検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計する流用度算出部と
を備え、
検索要求に応じて、前記流用度算出部によって集計された文書毎のスコア値を参照して、検索対照である文書群の中から該当する文書を要求に応じた順序付けで出力することを特徴とする検索システム。 By dividing each document group of documents to be retrieved for each component of the document, and similarity determination section that calculates the similarity between the components each based on the editing history for each component extracted from each document ,
Based on the similarity between the calculated components of the similarity determination unit, each of the deviation between the other components of the group the similar components in the center and becomes component and said groups in each group A group analysis unit that quantifies the degree of similarity of the component group constituting the group with reference to the deviation between the calculated component elements for each group;
For one or more constituent elements included in each document to be searched, a score based on the product of the corresponding deviation and the similarity is calculated, and the score values of the included constituent elements are accumulated for each document. And a diversion degree calculation unit for counting score values,
In response to the search request, by referring to the score value for each document that has been aggregated by the diverting calculator, to output the ordering on demand to the appropriate documentation from the document group is a search control Feature search system.
検索対照である文書を文書ブロックに分割すると共に、前記分割した文書の文書ブロックと同様に分割した他の文書の文書ブロックとを比較して文書ブロック間の類似度を算出する文書ブロック類似度判定部と、
前記文書ブロック類似度判定部によって算出処理した文書ブロック間の類似度を用いて、類似する文書ブロックを文書ブロックグループとしてグループ化処理し、前記グループ化した各々の文書ブロックグループにおける中心となる文書ブロックである中心文書ブロックを特定し、該中心文書ブロックと同一グループを成す他の文書ブロックとの間の類似度を文書ブロックグループ毎に偏差情報として算出すると共に、
前記偏差情報に含まれる中心文書ブロックとグループ内の他の文書ブロックとの間の類似度の分布を用いて、グループ化処理した全ての文書ブロックグループの尖度情報を演算する文書ブロックグループ解析部と、
前記検索対照である文書群から、入力を受けたキーワードのキーワード含有率に基づき複数の文書を抽出する文書検索部と、
前記文書検索部によって抽出された前記複数の文書の夫々について、内在する文書ブロックについてそれぞれ、文書ブロックグループの尖度情報と、前記偏差情報との積に基づく文書ブロックのスコア算出処理を実施すると共に、
前記算出処理した文書ブロック毎のスコア値を累積して個々の文書のスコア値を集計する文書ブロック流用度算出部と
を備え、
前記集計した文書毎のスコア値を参照して、前記抽出された複数の文書を順序付けて出力することを特徴とする検索システム。 A search system that receives an input of a keyword, executes a search with a score calculation process from a document group that is a search target, and outputs the result in order by document unit ,
Document block similarity determination that divides a document to be searched into document blocks and calculates the similarity between the document blocks by comparing the document blocks of the divided documents with the document blocks of other divided documents. And
Using similarities between document blocks calculated by the document block similarity determination unit, similar document blocks are grouped as a document block group, and a document block serving as a center in each of the grouped document block groups identify central document block is, and calculates the deviation information similarity for each document block group between the other documents blocks constituting the same group and the central document block,
Document block group analysis unit for calculating kurtosis information of all grouped document block groups using a similarity distribution between a central document block included in the deviation information and other document blocks in the group When,
From documents is the search control, the document retrieval unit for extracting a plurality of documents based on keywords content of keywords that received input,
For each of said plurality of documents extracted by the document retrieval unit, respectively, for the document blocks the underlying, and kurtosis information of the document block group, thereby performing the score calculation processing of the document block based on the product of said deviation information ,
A document block diversion calculating unit that accumulates score values for each of the calculated document blocks and totals the score values of individual documents,
A search system, wherein the plurality of extracted documents are output in order by referring to the score values for each of the collected documents.
前記算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出処理し、
算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化処理し、
検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出処理して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計処理して記憶部に記録し、
入力部より受け付けた検索要求に応じて、前記集計した文書毎のスコア値を参照して、検索対照である文書群の中から該当する文書を要求に応じた順序付けで出力部から出力する
ことを特徴とする情報処理システムによる検索方法。 By dividing each document group of documents to be retrieved for each component of the document, and calculation processing the similarity between the components respectively extracted from each document,
Based on the similarity between the components and the calculated, by grouping similar components calculated process each deviation between other components in the center become components and said groups in each group,
Referring to the deviation between the calculated components, the similarity degree of the component group constituting the group is quantified for each group ,
For one or a plurality of components included in each document to be searched, a score is calculated based on the product of the corresponding deviation and the degree of similarity, and the score values of the included components are accumulated for each document. The score values are tabulated and recorded in the storage unit ,
Depending on the input search request received from, with reference to the score value for each document that the aggregate is outputted from the output section in the ordering on demand to the appropriate documentation from the document group is a search control The search method by the information processing system characterized by this .
前記算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出処理し、
算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化処理し、
検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出処理して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計処理して記憶部に記録し、
入力部より受け付けた検索要求に応じて、前記集計した文書毎のスコア値を参照して、検索対照である文書群の中から該当する文書を要求に応じた順序付けで出力部から出力する
ことを特徴とする情報処理システムによる検索方法。 Dividing each document of the document group to be searched for each component of the document, calculating the similarity between each component based on the editing history of each component extracted from each document ,
Based on the similarity between the components and the calculated, by grouping similar components calculated process each deviation between other components in the center become components and said groups in each group,
Referring to the deviation between the calculated components, the similarity degree of the component group constituting the group is quantified for each group ,
For one or a plurality of components included in each document to be searched, a score is calculated based on the product of the corresponding deviation and the degree of similarity, and the score values of the included components are accumulated for each document. The score values are tabulated and recorded in the storage unit ,
Depending on the input search request received from, by referring to the score value for each document that the aggregate is outputted from the output section in the ordering on demand to the appropriate documentation from the document group is a search control The search method by the information processing system characterized by this .
前記検索処理で抽出した出力候補とする文書群を、前記集計された個々の文書のスコア値に基づき検索処理して絞り込み、当該結果を順序付けて出力する
ことを特徴とする請求項9又は10に記載の検索方法。 For the keyword to be retrieved received from the input unit, from the document group that is the search reference, a document group to be output candidates based on the keyword content rate is searched,
The document group as output candidates extracted by the search process is searched and narrowed down based on the score values of the individual documents, and the results are output in order. Search method described.
検索対照である文書を文書ブロックに分割すると共に、前記分割した文書の文書ブロックと同様に分割した他の文書の文書ブロックとを比較して文書ブロック間の類似度を算出処理し、
前記算出処理した文書ブロック間の類似度を参照して、類似する文書ブロックを文書ブロックグループとしてグループ化処理すると共に、前記グループ化した各々の文書ブロックグループにおける中心となる文書ブロックである中心文書ブロックを特定し、該中心文書ブロックと同一グループを成す他の文書ブロックとの間の類似度を文書ブロックグループ毎に偏差情報として算出処理し、
前記偏差情報に含まれる中心文書ブロックとグループ内の他の文書ブロックとの間の類似度の分布を参照して、グループ化処理した全ての文書ブロックグループの尖度情報を演算処理し、
前記検索対照である文書群から、前記入力部から入力を受けたキーワードのキーワード含有率に基づき複数の文書を抽出処理し、
前記抽出処理によって抽出された前記複数の文書の夫々について、内在する文書ブロックについてそれぞれ、文書ブロックグループの尖度情報と、前記偏差情報との積に基づく文書ブロックのスコア算出処理を実施し、
前記算出処理した文書ブロック毎のスコア値を累積して文書毎の文書全体としてのスコア値を集計して記憶部に記録し、
前記集計した文書毎の文書全体としてのスコア値を参照して、前記抽出された複数の文書を順序付けて前記出力部から出力する処理を実施する
ことを特徴とする情報処理システムによる検索方法。 A search method by an information processing system that receives an input of a keyword from an input unit, executes a search with a score calculation process from a document group that is a search target, orders the document unit, and outputs the result to an output unit ,
Dividing the document as a search reference into document blocks, comparing the document blocks of the divided documents with the document blocks of other documents divided in the same manner, and calculating the similarity between the document blocks;
With reference to the similarity between the calculated document blocks, similar document blocks are grouped as a document block group, and a central document block which is a central document block in each of the grouped document block groups identify, and calculation process as the deviation information similarity for each document block group between the other documents block constituting the central document block and the same group,
With reference to the similarity distribution between the central document block included in the deviation information and the other document blocks in the group, the kurtosis information of all the document block groups that have been grouped is calculated,
A plurality of documents are extracted from the search target document group based on the keyword content rate of the keyword received from the input unit ,
For each of said plurality of documents extracted by the extracting process, respectively, for the document blocks the underlying, and implementation and kurtosis information of the document block group, the score calculation processing of the document block based on the product of said deviation information,
Accumulating score values for each of the calculated document blocks and totaling the score values for the entire document for each document and recording them in the storage unit ,
A search method by an information processing system, wherein a process of ordering and outputting the plurality of extracted documents from the output unit with reference to a score value as a whole document for each aggregated document is performed.
検索対象である文書群の各文書を文書の構成要素毎に分割して、前記各文書から抽出された構成要素各々間の類似度を算出する類似度判定手段と、
前記類似度判定手段の算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出すると共に、算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化するグループ解析手段と、
検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計する流用度算出手段
として機能させ、
前記流用度算出手段によって集計された文書毎のスコア値に基づいて、検索システムが検索対照である文書群を検索要求に応じて順序付けて出力可能とするためのプログラム。 The control unit
By dividing each document group of documents to be retrieved for each component of the document, and similarity determination means for calculating a similarity between the components respectively extracted from each document,
On the basis of the similarity between the calculated components of the similarity determination means, each of the deviation between the other components of the group the similar components in the center and becomes component and said groups in each group And a group analysis means for quantifying the degree of similarity of the component group constituting the group for each group with reference to the deviation between the calculated component elements ,
For one or more constituent elements included in each document to be searched, a score based on the product of the corresponding deviation and the similarity is calculated, and the score values of the included constituent elements are accumulated for each document. It functions as a diversion degree calculation means for totalizing score values,
A program for enabling a search system to output a group of documents as search targets in order according to a search request based on score values for each document tabulated by the diversion degree calculating means.
検索対象である文書群の各文書を文書の構成要素毎に分割して、前記各文書から抽出された各構成要素の編集履歴に基づく構成要素各々間の類似度を算出する類似度判定手段と、
前記類似度判定手段の算出した構成要素間の類似度に基づいて、類似する構成要素をグループ化して個々のグループ内の中心となる構成要素と該グループ内の他の構成要素とのそれぞれの偏差を算出すると共に、算出した構成要素間の前記偏差を参照してグループを構成する構成要素群の類似度合いをグループ毎に数値化するグループ解析手段と、
検索対象の各文書に含まれる1ないし複数の構成要素について、それぞれ該当する前記偏差と前記類似度合いとの積に基づくスコアを算出して、含まれる構成要素のスコア値を文書毎に累積してスコア値を集計する流用度算出手段
として機能させ、
前記流用度算出手段によって集計された文書毎のスコア値に基づいて、検索システムが検索対照である文書群を検索要求に応じて順序付けて出力可能するためのプログラム。 The control unit
Each document in the document group to be retrieved by dividing each component of the document, and similarity determination means for calculating a similarity between the components, each based on the editing history for each component extracted from each document ,
On the basis of the similarity between the calculated components of the similarity determination means, each of the deviation between the other components of the group the similar components in the center and becomes component and said groups in each group And a group analysis means for quantifying the degree of similarity of the component group constituting the group for each group with reference to the deviation between the calculated component elements ,
For one or more constituent elements included in each document to be searched, a score based on the product of the corresponding deviation and the similarity is calculated, and the score values of the included constituent elements are accumulated for each document. It functions as a diversion degree calculation means for totalizing score values,
A program for enabling a search system to output a group of documents as search targets in order according to a search request based on score values for each document collected by the diversion degree calculating means.
前記制御部を更に、
前記検索対照である文書群から、入力部を介して入力されたキーワードのキーワード含有率に基づく第1の検索処理を行うと共に、前記第1の検索処理で抽出した文書群を、前記流用度算出手段によって集計された個々の文書のスコア値に基づく第2の検索処理を行い、当該結果を順序付けて出力する文書検索手段として機能させるためのプログラム。 The program according to claim 14 or 15,
The controller is further
From documents is the search control, performs a first search process based on the keyword content of keyword inputted via the input section, a document group extracted in the first search process, the diversion calculation A program for performing a second search process based on score values of individual documents tabulated by the means and functioning as a document search means for outputting the results in order.
制御部を、
検索対照である文書を文書ブロックに分割すると共に、前記分割した文書の文書ブロックと同様に分割した他の文書の文書ブロックとを比較して文書ブロック間の類似度を算出する文書ブロック類似度判定手段と、
前記文書ブロック類似度判定手段によって算出処理した文書ブロック間の類似度を用いて、類似する文書ブロックを文書ブロックグループとしてグループ化処理し、前記グループ化した各々の文書ブロックグループにおける中心となる文書ブロックである中心文書ブロックを特定し、該中心文書ブロックと同一グループを成す他の文書ブロックとの間の類似度を文書ブロックグループ毎に偏差情報として算出すると共に、
前記偏差情報に含まれる中心文書ブロックとグループ内の他の文書ブロックとの間の類似度の分布を用いて、グループ化処理した全ての文書ブロックグループの尖度情報を演算する文書ブロックグループ解析手段と、
前記検索対照である文書群から、入力を受けたキーワードのキーワード含有率に基づき複数の文書を抽出する文書検索手段と、
前記文書検索手段によって抽出された前記複数の文書の夫々について、内在する文書ブロックについてそれぞれ、文書ブロックグループの尖度情報と、前記偏差情報との積に基づく文書ブロックのスコア算出処理を実施すると共に、
前記算出処理した文書ブロック毎のスコア値を累積して個々の文書のスコア値を集計する文書ブロック流用度算出手段
として機能させ、
前記集計した文書毎のスコア値を参照して、前記検索システムが前記抽出された複数の文書を検索要求に応じた順序付けて出力可能とするためのプログラム。 A program used in a search system that receives input of a keyword, executes a search with a score calculation process from a document group that is a search reference, and outputs the results in order by document unit ,
The control unit
Document block similarity determination that divides a document to be searched into document blocks and calculates the similarity between the document blocks by comparing the document blocks of the divided documents with the document blocks of other divided documents. Means,
Using the similarity between the document blocks calculated by the document block similarity determination unit, similar document blocks are grouped as a document block group, and the document block serving as the center in each of the grouped document block groups identify central document block is, and calculates the deviation information similarity for each document block group between the other documents blocks constituting the same group and the central document block,
Document block group analysis means for calculating kurtosis information of all grouped document block groups using a similarity distribution between the central document block included in the deviation information and other document blocks in the group When,
Document search means for extracting a plurality of documents based on the keyword content rate of the input keyword from the document group that is the search reference,
For each of said plurality of document extracted by said document retrieving means, respectively, for the document blocks the underlying, and kurtosis information of the document block group, thereby performing the score calculation processing of the document block based on the product of said deviation information ,
Function as document block diversion calculating means for accumulating score values for each of the calculated document blocks and totaling score values of individual documents;
A program for enabling the search system to output the plurality of extracted documents in an order according to a search request with reference to the score value for each document.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008315158A JP5282880B2 (en) | 2008-12-11 | 2008-12-11 | Search system, search method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008315158A JP5282880B2 (en) | 2008-12-11 | 2008-12-11 | Search system, search method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010140209A JP2010140209A (en) | 2010-06-24 |
| JP5282880B2 true JP5282880B2 (en) | 2013-09-04 |
Family
ID=42350310
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008315158A Expired - Fee Related JP5282880B2 (en) | 2008-12-11 | 2008-12-11 | Search system, search method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5282880B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5804192B2 (en) | 2012-03-28 | 2015-11-04 | 富士通株式会社 | Information processing apparatus, information processing method, and information processing system |
| JP6312415B2 (en) * | 2013-12-11 | 2018-04-18 | トピー工業株式会社 | Vehicle wheel |
| JP7304220B2 (en) * | 2019-07-04 | 2023-07-06 | エヌ・ティ・ティ・コムウェア株式会社 | MATERIAL SEARCH SYSTEM, MATERIAL SEARCH METHOD, MATERIAL SEARCH DEVICE, AND PROGRAM |
| JP7304221B2 (en) * | 2019-07-04 | 2023-07-06 | エヌ・ティ・ティ・コムウェア株式会社 | Search query generation device, search query generation method, program, material search system, and material search method |
| WO2023067746A1 (en) * | 2021-10-21 | 2023-04-27 | データ・サイエンティスト株式会社 | Bodily-sensation distance information generation program, bodily-sensation distance information generation method, and bodily-sensation distance information generation device |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6240423B1 (en) * | 1998-04-22 | 2001-05-29 | Nec Usa Inc. | Method and system for image querying using region based and boundary based image matching |
| JP2000305950A (en) * | 1999-04-26 | 2000-11-02 | Ricoh Co Ltd | Document classification device and document classification method |
| JP2002140332A (en) * | 2000-11-02 | 2002-05-17 | Nippon Telegr & Teleph Corp <Ntt> | Feature value importance calculation method, creation of keyword image feature expression database and image database search using the method |
| JP2003330965A (en) * | 2002-05-16 | 2003-11-21 | Ricoh Co Ltd | Image retrieval device, program and recording medium |
| JP4510483B2 (en) * | 2004-02-23 | 2010-07-21 | 株式会社エヌ・ティ・ティ・データ | Information retrieval device |
| JP2006318219A (en) * | 2005-05-12 | 2006-11-24 | Fujitsu Ltd | Similar slide search program and search method |
| JP4859025B2 (en) * | 2005-12-16 | 2012-01-18 | 株式会社リコー | Similar image search device, similar image search processing method, program, and information recording medium |
| JP4904920B2 (en) * | 2006-05-23 | 2012-03-28 | 富士通株式会社 | Template document creation program, template document creation method, and template document creation device |
-
2008
- 2008-12-11 JP JP2008315158A patent/JP5282880B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010140209A (en) | 2010-06-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10445378B2 (en) | Storing structured and unstructured clinical information for information retrieval | |
| US9864741B2 (en) | Automated collective term and phrase index | |
| CN106383836B (en) | Attributing actionable attributes to data describing an identity of an individual | |
| US20130006976A1 (en) | Search tool that utilizes scientific metadata matched against user-entered parameters | |
| JP6056610B2 (en) | Text information processing apparatus, text information processing method, and text information processing program | |
| Murthy et al. | Big Data solutions on a small scale: Evaluating accessible high-performance computing for social research | |
| JPWO2005029379A1 (en) | Information processing apparatus and information processing method | |
| JP5282880B2 (en) | Search system, search method, and program | |
| CN118394896A (en) | Data query method, device, computer equipment and storage medium | |
| CN108628894A (en) | Data target querying method in data warehouse and device | |
| JP2014106665A (en) | Document retrieval device and document retrieval method | |
| WO2013116788A1 (en) | Systems and methods for data analysis | |
| JP7027419B2 (en) | Technological emergence scoring and analysis platform | |
| JP2016018286A (en) | Action type determination device, action type determination method, and action type determination program | |
| KR101753768B1 (en) | A knowledge management system of searching documents on categories by using weights | |
| US20130254225A1 (en) | Device, method, and non-transitory computer-readable medium for medical information search | |
| JP6260678B2 (en) | Information processing apparatus, information processing method, and information processing program | |
| JP7418781B2 (en) | Company similarity calculation server and company similarity calculation method | |
| CN110941952A (en) | Method and device for perfecting audit analysis model | |
| JP2007219929A (en) | Sensitivity evaluation system and method | |
| CN113505172A (en) | Data processing method and device, electronic equipment and readable storage medium | |
| CN110019665A (en) | Text searching method and device | |
| JP6245571B2 (en) | Data structure, data generation apparatus, method and program thereof | |
| JP7639730B2 (en) | How to search | |
| US11151653B1 (en) | Method and system for managing data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110902 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121220 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121226 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130225 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130501 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130514 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5282880 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |