JP4774016B2 - Information search method, information search program, and information search device - Google Patents
Information search method, information search program, and information search device Download PDFInfo
- Publication number
- JP4774016B2 JP4774016B2 JP2007140895A JP2007140895A JP4774016B2 JP 4774016 B2 JP4774016 B2 JP 4774016B2 JP 2007140895 A JP2007140895 A JP 2007140895A JP 2007140895 A JP2007140895 A JP 2007140895A JP 4774016 B2 JP4774016 B2 JP 4774016B2
- Authority
- JP
- Japan
- Prior art keywords
- elements
- information search
- network
- similarity
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報探索方法、情報探索プログラムおよび情報探索装置に関する。 The present invention relates to an information search method, an information search program, and an information search device.
情報である要素の間の関係が距離、非類似度または類似度により定義される集合を情報空間Ωとする。情報空間Ωの任意の2つの要素x,y∈Ωの距離を距離関数d(x,y)により定義する。情報空間Ωにおける距離関数は、次の式を充足する。
d(x,y)≧0・・・式(1)
d(x,y)=d(y,x)・・・式(2)
d(x,y)=0 if x=y・・・式(3)
式(1)を非負数条件、式(2)を対称性条件という。情報空間の部分集合でもある情報探索集合(被探索集合、探索対象集合とも呼ぶ。)X⊂Ωにおいて、当該情報空間の要素であるクエリq∈Ωと最も距離の小さい要素の集合R(q)⊂Xは、式(4)により表される。
A set in which the relationship between elements as information is defined by distance, dissimilarity or similarity is defined as information space Ω. The distance between any two elements x and yεΩ in the information space Ω is defined by a distance function d (x, y). The distance function in the information space Ω satisfies the following equation.
d (x, y) ≧ 0 (1)
d (x, y) = d (y, x) (2)
d (x, y) = 0 if x = y Expression (3)
Equation (1) is called a non-negative condition, and Equation (2) is called a symmetry condition. In an information search set (also called a searched set or a search target set) X⊂Ω that is also a subset of the information space, a set R (q) of elements having the smallest distance from the query qεΩ that is an element of the information space ⊂X is represented by Equation (4).
情報空間のうち要素間の距離が、非負数条件および対称条件に加えて、次の式(5)および式(6)を充足するものを距離空間Ωdとする。
d(x,y)=0 iff x=y・・・式(5)
d(x,y)+d(y,z)≧d(x,y)・・・式(6)
式(5)を反射条件とよび、式(6)を三角不等式とよぶ。
In the information space, the distance between the elements satisfies the following expressions (5) and (6) in addition to the non-negative number condition and the symmetry condition, and is defined as a distance space Ωd.
d (x, y) = 0 iff x = y Expression (5)
d (x, y) + d (y, z) ≧ d (x, y) (6)
Equation (5) is called a reflection condition, and equation (6) is called a triangle inequality.
従来、距離空間の要素(情報)であるクエリに類似する要素を情報探索集合から、入力されたクエリに類似する情報を探索する情報探索方法として、TLAESA(Tree Linear Approximating and Eliminating Search Algorithm)がある(例えば、非特許文献1)。TLAESAは、クエリが入力される前の事前処理と、クエリが入力された後の事後処理とを行うことで、情報の探索を行う。事前処理は、情報探索集合(被探索集合)における複数の要素(ベースプロトタイプと呼ぶ)を選択し、それらと他の全て要素との距離を算出する工程と、情報探索集合の全ての要素からなる二分木を構築する工程とから成る。事後処理は、クエリが入力された直後に、当該クエリと、選択されたベースプロトタイプとの距離を算出する工程、距離空間の性質の1つである3つの要素間の距離の大小関係を表す三角不等式と二分木とを利用し、探索空間を削減しながら探索する工程とから成る。TLAESAは、三角不等式を有効利用し探索空間を削減し、探索コストを低減している。ここで、探索コストとは、情報探索の効率を評価する際に用いられる値であり、クエリと探索対象集合の要素との類似度計算または距離計算の回数である。 Conventionally, TLAESA (Tree Linear Approximating and Eliminating Search Algorithm) is an information search method for searching information similar to an input query from an information search set for elements similar to a query that is an element (information) of a metric space. (For example, Non-Patent Document 1). TLAESA searches for information by performing pre-processing before a query is input and post-processing after the query is input. The pre-processing includes a step of selecting a plurality of elements (referred to as a base prototype) in the information search set (searched set), calculating the distance between them and all other elements, and all elements of the information search set. And constructing a binary tree. Post-processing is a process that calculates the distance between the query and the selected base prototype immediately after the query is input, and a triangle that indicates the magnitude relationship between the three elements that is one of the properties of the metric space. The process includes searching using the inequality and the binary tree while reducing the search space. TLAESA effectively uses triangular inequalities to reduce search space and reduce search costs. Here, the search cost is a value used when evaluating the efficiency of information search, and is the number of times of similarity calculation or distance calculation between a query and an element of a search target set.
このように、三角不等式を用いて、探索空間を削減する情報探索方法としては、TLAESAの他に、LAESA(Linear Approximationg and Eliminating Search Algorithm:例えば、非特許文献2参照)や、AESA(Approximating and Eliminating Search Algorithm:例えば、非特許文献3参照)などが提案されている。
ところで、例えば、入力された文書に類似の文書を文書ファイル群から探索する場合、すなわち、文書を被探索集合とした場合、文書間の関係性を規定する類似度や、距離を算出する際に用いられる文書から抽出される特徴量が高次元になる場合がある。これは、文書の特徴量として、文書中に出現する異なる単語から成る単語ベクトルを用い、その単語ベクトルの1要素を1次元とするため、情報探索集合(探索対象集合または被探索集合とも呼ぶ。)中の全文書ファイルに生じる単語の異なり数だけ次元が生じるためである。 By the way, for example, when searching for a document similar to the input document from the document file group, that is, when the document is a set to be searched, when calculating the similarity or the distance defining the relationship between documents. The feature quantity extracted from the used document may be high-dimensional. This is because a word vector composed of different words appearing in a document is used as a feature amount of the document, and one element of the word vector is one-dimensional, and therefore, an information search set (also called a search target set or a searched set). This is because there are as many dimensions as the number of different words that occur in all the document files.
次に、図17および図18に沿って、TLAESAにおける問題点を説明する。
なお、図17および図18における情報探索集合は、10年分の新聞記事の文書ファイルを要素とする集合である。
ここで、情報探索集合における要素間の距離は、以下の手順で算出される。まず、各文書ファイル中に記載されている文書を形態素解析し、不要なストップワードを削除した上で、単語を文書(文書ファイル)から抽出する。ここで、ストップワードとは、情報探索において、ありふれた単語であるため検索語としては不適切なため、検索語としては無視される語である。日本語では、ひらがなやカタカナの1文字の語などがストップワードとなる。そして、抽出された単語に対し、tf−idf(term frequency-inverted document frequency)法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。その上で、情報探索集合の文書ファイルを要素とし、特徴量に対するコサイン距離を用いて、要素間の距離を規定する。単語ベクトルを特徴量とした場合、前記コサイン類似度は、類似または非類似の尺度として広く用いられている。
この例で用いた要素数(文書ファイル数)は、64585個であり、特徴量である重み付け単語ベクトルは、51030次元となった。これは距離空間の次元が51030であるとも言える。
Next, problems in TLAESA will be described with reference to FIGS. 17 and 18.
Note that the information search set in FIGS. 17 and 18 is a set whose elements are document files of newspaper articles for 10 years.
Here, the distance between elements in the information search set is calculated by the following procedure. First, a document described in each document file is subjected to morphological analysis, unnecessary stop words are deleted, and words are extracted from the document (document file). Here, a stop word is a word that is ignored as a search word because it is a common word in information search and is inappropriate as a search word. In Japanese, hiragana and katakana single-letter words are stop words. Then, each extracted word is weighted by a tf-idf (term frequency-inverted document frequency) method. As a result, the resulting weighted word vector is used as the feature amount of the document file. Then, the document file of the information search set is used as an element, and the distance between elements is defined using the cosine distance with respect to the feature amount. When a word vector is used as a feature amount, the cosine similarity is widely used as a similar or dissimilar measure.
The number of elements (number of document files) used in this example is 64585, and the weighted word vector as the feature amount is 51030 dimensions. This can be said that the dimension of the metric space is 51030.
図17は、この情報探索空間から、無作為に1×106個のペア要素(2つの要素)を選択し、このペア要素間の距離の累積分布を示す図である。
図17において、横軸は、ペア要素間の距離を示し、縦軸は、対応する距離を有するペア要素の全体のペア要素に対する割合の累積値である。
なお、距離は、コサイン距離を用い、かつ情報探索集合内で最も遠い要素間の距離が1.0となるよう規格化されている。
図17では、距離が0.8以下である要素数は、非常に少なく、1.0付近にほとんどのペア要素が存在することが示されている。詳細には、距離が0.98以上のペア要素の割合は、全体の90%であることが示されている(図17の太線)。
すなわち、図17から、この10年分の新聞記事の文書ファイルを要素とする情報探索集合では、各要素間が疎になっていることがわかる。
FIG. 17 is a diagram showing a cumulative distribution of distances between the pair elements by randomly selecting 1 × 10 6 pair elements (two elements) from the information search space.
In FIG. 17, the horizontal axis indicates the distance between the pair elements, and the vertical axis indicates the cumulative value of the ratio of the pair elements having the corresponding distance to the entire pair elements.
Note that the distance is standardized so that the distance between the farthest elements in the information search set is 1.0 using a cosine distance.
FIG. 17 shows that the number of elements having a distance of 0.8 or less is very small, and most pair elements exist in the vicinity of 1.0. Specifically, it is shown that the proportion of pair elements having a distance of 0.98 or more is 90% of the total (thick line in FIG. 17).
That is, it can be seen from FIG. 17 that the elements are sparse in the information search set whose elements are the document files of newspaper articles for 10 years.
図18は、図17と同様の条件下における距離の下界の累積分布を示す図である。
距離の下界は、図17と同じペア要素と、ランダムに選択した200個の要素(TLAESAのベースプロトタイプに相当)とを用いて、距離の下界を算出した。
図18において、横軸は、このような方法で算出した距離の下界の値を示し、縦軸は、距離の下界の値が、算出したすべての距離の下界に対する割合の累積値である。
図18では、0.4以下に、距離の下界のほとんどが入っていることが示されている。特に、0.138以下の距離の下界が、全体の90%を占めている。探索空間の削減は、情報探索過程のある時点でのクエリとある要素との距離と比較して、距離の下界が大きい要素を探索対象集合、すなわち、クエリとの距離を計算する対象の要素の集合から除くことによりなされる。情報探索過程のある時点でのクエリとある要素との距離が0.98であったと仮定する。図18より、距離の下界が0.98よりも大きい要素はほとんど存在しないので、この時点で削減される要素はほとんどない。このように、要素における特徴量が高次元になる場合、情報探索集合におけるある要素とクエリとの距離を計算し、距離の下界が比較対象の距離より大きい要素を情報探索集合から除き、探索空間を削減する方法は有効に機能しない。
FIG. 18 is a diagram showing a cumulative distribution of lower bounds of distances under the same conditions as in FIG.
The lower bound of the distance was calculated using the same pair elements as in FIG. 17 and 200 elements selected at random (corresponding to the base prototype of TLAESA).
In FIG. 18, the horizontal axis represents the lower bound value of the distance calculated by such a method, and the vertical axis represents the cumulative value of the ratio of the lower bound value of the distance to the lower bound of all the calculated distances.
In FIG. 18, it is shown that most of the lower bound of the distance is below 0.4. In particular, the lower bound of a distance of 0.138 or less accounts for 90% of the total. The search space is reduced by comparing an element having a large lower bound with a search target set, that is, a target element for calculating a distance to the query, as compared with a distance between the query and a certain element at a certain point in the information search process. This is done by removing it from the set. Assume that the distance between a query and an element at a certain point in the information search process is 0.98. As shown in FIG. 18, since there is almost no element having a lower bound of distance greater than 0.98, there is almost no element to be reduced at this point. In this way, when the feature amount of an element is high-dimensional, the distance between a certain element in the information search set and the query is calculated, and the element whose lower bound of the distance is larger than the comparison target distance is removed from the information search set, and the search space The way to reduce does not work effectively.
このように、文書ファイルなど距離空間の次元数が大きくなる情報探索集合では、三角不等式から算出される距離の下界を用いた探索空間の削減が有効に機能しない。
すなわち、文書ファイルなど距離空間の次元数が大きくなる情報探索集合に対し、TLAESAや、LAESAや、AESAなどを適用しても、探索空間の削減がほとんどなされず、結果として、1つ1つの要素ごとにクエリとの距離を算出することになり、効率的な情報探索が行われないという問題が生じる。
さらに、TLAESAなどでは、前述の通り三角不等式を用いるが、これは距離空間が情報探索集合であることが前提となる。従って、距離空間ではない情報に関して、TLAESAなどの三角不等式を利用し探索空間を削減する枝刈り方法に基づくアルゴリズムを、直接適用することは困難である。
Thus, in an information search set such as a document file in which the number of dimensions of the metric space is large, the reduction of the search space using the lower bound of the distance calculated from the triangle inequality does not function effectively.
That is, even if TLAESA, LAESA, AESA, or the like is applied to an information search set in which the number of dimensions of the metric space is large, such as a document file, the search space is hardly reduced. Each time the distance to the query is calculated, there arises a problem that efficient information search is not performed.
Further, in TLAESA and the like, the triangle inequality is used as described above, and this assumes that the metric space is an information search set. Therefore, it is difficult to directly apply an algorithm based on a pruning method that uses a triangle inequality such as TLAESA to reduce search space for information that is not a metric space.
本発明は、情報探索集合が高次元距離空間である場合または情報空間である場合であっても、情報を探索できることを目的とする。 An object of the present invention is to be able to search for information even when the information search set is a high-dimensional metric space or an information space.
本発明は、前記課題を解決するために創案されたものであり、請求項1に記載の情報探索方法は、記憶部に保持されている情報探索集合からクエリと類似した情報を探索する情報探索装置における情報探索方法であって、前記情報探索方法は、ネットワーク生成処理と、情報探索処理とを含んでなり、前記ネットワーク生成処理は、前記情報探索装置のネットワーク生成部が、前記情報探索集合における任意の2つの要素間を、直接的、または、前記2つの要素以外の要素を介して間接的にリンク結合することにより、1コンポーネントのネットワークを生成し、前記記憶部に保持させ、前記情報探索処理は、前記情報探索装置の探索処理部が、(a1)前記ネットワークの所定の第1の要素に直接的にリンク結合された要素を、前記記憶部から取得し、当該要素のうち、前記クエリとの類似度が最も大きい要素を第2の要素として選択し、(a2)当該第2の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第2の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、(a3)前記第2の要素を第3の要素とし、当該第3の要素に直接的にリンク結合された要素を、前記記憶部から取得し、(a4)前記第3の要素に直接的にリンク結合された要素のうち、過去に前記第2の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第2の要素とし、当該新たな第2の要素に対して、前記(a2)の処理を行うことにより、前記クエリと類似した要素を探索する情報探索処理と、を実行する方法とした。
The present invention has been made to solve the above-described problem, and the information search method according to
このような方法によれば、要素間がリンクによって、結合した1コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。 According to such a method, a search is performed using a network of one component in which elements are linked by a link, and a trigonometric inequality that is a property of a metric space is not used. Even when the information search set is not a metric space, the information search can be performed.
さらに、請求項2に記載の情報探索方法は、請求項1に記載の情報探索方法において、前記ネットワーク生成処理は前記ネットワーク生成部が、前記情報探索集合における任意の要素である要素xと、前記要素x以外の要素それぞれとの類似度を算出し、前記要素x以外の要素のうち、前記要素xとの前記類似度が大きい順に、予め設定された所定数の要素を取得し、当該取得した要素と、前記要素xとの間をリンク結合することによって、前記要素xに対する最近傍要素ネットワークΓ(x)を生成する処理を、前記情報探索集合におけるすべての要素に対して行う方法とした。
Furthermore, the information search method according to
このような方法によれば、情報探索集合内の要素間のネットワークを、任意の要素xの近傍に存在する所定数の要素にリンクを張った最近傍要素ネットワークの集まりとすることができるため、平均最短パス長の小さいネットワークを生成することができる。このようなネットワークを情報探索に用いることにより、探索コストの削減が可能となる。 According to such a method, since the network between elements in the information search set can be a collection of nearest neighbor element networks linked to a predetermined number of elements existing in the vicinity of an arbitrary element x, A network having a small average shortest path length can be generated. By using such a network for information search, search costs can be reduced.
また、請求項3に記載の情報探索方法は、請求項2に記載の情報探索方法であって、前記情報探索処理は、前記探索処理部が、前記情報探索集合における任意の要素である要素x0に対する前記最近傍要素ネットワークΓ(x0)と、任意の要素であるxmaxとを前記記憶部から取得し、前記入力部を介して、前記クエリqが入力されると、(b1)A=Γ(x0)∪{x0},B={x0}である集合Aおよび集合Bを算出し、(b2)次の式(8)を満たす要素x1を、集合A−Bから取得し、
The information search method according to
(ただし、ρ(a,b)は、前記情報探索集合内の要素であるaと、bとの類似度、|A|は、集合Aにおける要素数、A―Bは、要素Aと要素Bとの差集合、Γ(a)は、要素aに対する最近傍要素ネットワーク(b3)ρ(x1,q)>ρ(xmax,q)であれば、要素x1を新たな要素xmaxとし、(b4)AにA∪Γ(x1)を代入し、BにB∪{x1}を代入し、(b5)前記(b2)〜(b4)の処理を繰り返し、|A|が所定の値βを超える、または、前記クエリと前記要素x1とが一致するとき、要素xmaxを最終出力要素として出力する方法とした。 (Where ρ (a, b) is the similarity between elements a and b in the information search set, | A | is the number of elements in the set A, and AB is elements A and B Γ (a) is the nearest element network (b3) ρ (x1, q)> ρ (xmax, q) for the element a, and the element x1 is set as a new element xmax, and (b4) A∪Γ (x1) is substituted for A, B 、 {x1} is substituted for B, (b5) The processing of (b2) to (b4) is repeated, and | A | exceeds a predetermined value β. Alternatively, when the query matches the element x1, the element xmax is output as the final output element.
このような方法によれば、1コンポーネントかつ平均最短パス長の小さいネットワークを使用して、情報探索を行うことができるため、探索コストの削減が可能となる。 According to such a method, information search can be performed using a network having one component and a small average shortest path length, so that search cost can be reduced.
また、請求項4に記載の情報探索プログラムは、請求項1から請求項3のいずれか一項に記載の情報探索方法をコンピュータに実行させるプログラムとした。
The information search program according to
このようなプログラムによれば、要素間がリンクによって、結合した1コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。また、情報探索集合内の要素間のネットワークを、任意の要素xの近傍に存在する所定数の要素にリンクを張った最近傍要素ネットワークの集まりとすることができるため、平均最短パス長の小さいネットワークを生成することができる。このようなネットワークを情報探索に用いることにより、探索コストの削減が可能となる。 According to such a program, a search is performed using a network of one component in which elements are linked by links, and a trigonometric inequality that is a property of metric space is not used. Even when the information search set is not a metric space, the information search can be performed. Further, since the network between elements in the information search set can be a set of nearest neighbor element networks linked to a predetermined number of elements existing in the vicinity of an arbitrary element x, the average shortest path length is small. A network can be created. By using such a network for information search, search costs can be reduced.
そして、請求項5に記載の情報探索装置は、記憶部に保持されている情報探索集合からクエリと類似した情報を探索する情報探索装置であって、前記情報探索装置は、ネットワーク生成部と、探索処理部とを有してなり、前記ネットワーク生成部は、前記情報探索集合における任意の2つの要素間を、直接的、または、前記2つの要素以外の要素を介すことにより、間接的にリンク結合することにより、1コンポーネントのネットワークを生成し、前記記憶部に保持させる機能を有し、前記探索処理部は、(a1)前記ネットワークの所定の第1の要素に直接的にリンク結合された要素を、前記記憶部から取得し、当該要素のうち、前記クエリとの類似度が最も大きい要素を第2の要素として選択し、(a2)当該第2の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第2の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、(a3)前記第2の要素を第3の要素とし、当該第3の要素に直接的にリンク結合された要素を、前記記憶部から取得し、(a4)前記第3の要素に直接的にリンク結合された要素のうち、過去に前記第2の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第2の要素とし、当該新たな第2の要素に対して、前記(a2)の処理を行うことにより、前記クエリと類似した要素を探索する機能を有する装置とした。
The information search device according to
このような情報探索装置によれば、要素間がリンクによって、結合した1コンポーネントのネットワークを用いて探索を行い、距離空間の性質である三角不等式を用いていないため、情報探索集合が、高次元距離空間である場合や、情報探索集合が、距離空間でない場合であっても、情報探索を行うことができる。 According to such an information search apparatus, since a search is performed using a network of one component in which elements are linked by links and the triangular inequality that is the property of the metric space is not used, the information search set has a high dimension. Information search can be performed even in a metric space or when the information search set is not a metric space.
本発明によれば、情報探索集合が高次元距離空間である場合または情報空間である場合であっても、情報を探索することが可能となる。 According to the present invention, it is possible to search for information even when the information search set is a high-dimensional metric space or an information space.
以下、図面を参照して、本発明を実施するための最良の形態(以下、「実施形態」という)について詳細に説明する。 The best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described in detail below with reference to the drawings.
(システム構成)
図1は、本実施形態に係る情報探索システムの構成例を示す図である。
情報探索システム12は、情報の探索を行う情報探索装置1と、情報探索装置1に対してクエリを送信する端末11とが、WAN(Wide Area Network)や、LAN(Local Area Network)などの物理的ネットワーク10を介して接続している。
(System configuration)
FIG. 1 is a diagram illustrating a configuration example of an information search system according to the present embodiment.
In the information search system 12, an
情報探索装置1は、情報の処理を行う処理部2と、探索対象の情報などが格納されている記憶部3と、情報が入力される入力部4と、情報探索の結果などを出力する出力部5とを含んでなる。記憶部3は、HD(Hard Disk)、不揮発性メモリ,RAM(Random Access Memory)等の種々の記憶媒体の少なくとも1つから構成され、プログラムが実装される計算機の構成形態に依存した前記記憶媒体の組合せで構なされる。
端末11から送信されたクエリは、物理的ネットワーク10および入力部4を介して、処理部2へと送られる。また、ユーザが、入力部4を介して直接処理部2へクエリを入力してもよい。
処理部2は、ネットワーク生成処理を行うネットワーク生成部21と、情報探索処理を行う探索処理部22とを含んでなる。ここで、ネットワークとは、情報探索集合内における要素が、リンクによって結合しているときの、要素間のネットワークを指す。
The
The query transmitted from the terminal 11 is sent to the
The
処理部2と、処理部2内のネットワーク生成部21および探索処理部22とは、図示しないHDやROM(Read Only Memory)などの記憶装置に格納されている情報探索プログラムが、図示しないRAMに展開され、図示しないCPU(Central Processing Unit)によって実行されることで具現化する。
The
(近傍要素ネットワークの生成処理)
まず、図1を参照しつつ、図2に沿って、ネットワーク生成処理の概要を説明する。
図2は、本実施形態に係るネットワーク生成処理の概要を示す図である。
図2において、符号100は、情報探索集合における要素、すなわち、記憶部3に格納され、探索対象となる情報である。ここで、要素とは、具体的には、例えば、新聞、特許公報等のテキストファイル、または、XML(Extensive Markup Language)による文書ファイル等である。
まず、ネットワーク生成部21は、各要素100間の類似度を算出する。本実施形態において、類似度は、コサイン類似度を指すものとするが、これに限らず、ミンコフスキー距離に代表される一般的な距離定義に基づく計算式や、コサイン類似度以外の類似度に基づく計算式を用いてもよい。
そして、図2(a)に示すように、ネットワーク生成部21は、要素100のうち、任意の要素100(符号x)を選択する。
そして、図2(b)に示すように、ネットワーク生成部21は、この要素xとの類似度が大きい要素100を、予め入力されている近傍要素数k個選択する。すなわち、ネットワーク生成部21は、要素x以外の要素100から、要素xとの類似度が大きい順に、k個の要素100を選択する。近傍要素数kとは、生成するネットワークにおける全要素100がリンクによって結合している1コンポーネントのネットワークとなるために必要なパラメータである。
(Neighboring element network generation processing)
First, the outline of the network generation process will be described with reference to FIG. 1 and along FIG.
FIG. 2 is a diagram showing an overview of network generation processing according to the present embodiment.
In FIG. 2,
First, the
Then, as illustrated in FIG. 2A, the
Then, as illustrated in FIG. 2B, the
ここで、コンポーネントとは、情報探索集合の部分集合であり、ある集合の任意の2つの要素100間が少なくとも1つのリンクまたはリンクの連結により接続されているものである。但し、リンクの連結とは、第1の要素100と第2の要素100との間のリンク、第2の要素100と第3の要素100との間のリンク、…、第(n−1)の要素100と第nの要素100との間のリンクのように、リンクの連なりのことをいう。このような場合、第1の要素100と第nの要素100とはリンクの連結により、間接的に接続されている。
例えば、「ネットワークが1コンポーネントである」とは、「任意の2つの要素100間がリンクまたはリンクの連結により互いに接続されているネットワーク」であることをいう。
Here, the component is a subset of the information search set, and any two
For example, “a network is one component” means “a network in which any two
近傍要素数kは、テストデータなどを用い、探索コストを評価関数とすることで、求められる(図7、図8、図12および図13で後記)。図2では、k=3としている。
図2(b)に示すように、ネットワーク生成部21は、選択されたk個の要素100と、要素xとの間にリンクを張ることにより、要素xに対する要素群Nk(x)を形成する。
The number k of neighboring elements can be obtained by using test data or the like and using the search cost as an evaluation function (described later in FIGS. 7, 8, 12 and 13). In FIG. 2, k = 3.
As shown in FIG. 2B, the
この処理を、各々の要素100に対して行った後、ネットワーク生成部21は、図2(c)に示すように、要素x以外の要素yに対する要素群Nk(y)を参照し、この要素群Nk(y)に要素xが含まれている要素yを抽出する。
そして、ネットワーク生成部21は、図2(b)および図2(c)に示す要素xと、要素yにリンクを張ることにより、要素群Nk(x)と、要素yとの和集合を算出する。この手順を無向化という。この和集合が、図2(d)に示す要素xに対する最近傍要素ネットワークΓ(x)となる。このような手順で生成された最近傍要素ネットワークΓ(x)は、請求項におけるネットワークであり、無向性を有するネットワークである。ここで、無向性を有するネットワークとは、始点および終点の規定のないリンクである無向リンクにより結合された要素からなるネットワークである。
After performing this process for each
Then, the
このよう手順によって、ネットワーク生成部21が、各要素100に対して最近傍要素ネットワークを算出すると、この最近傍要素ネットワークには以下のような性質が備わることとなる。
すなわち、任意の要素x0に対する最近傍要素ネットワークΓ(x0)を取得し、その最近傍要素ネットワークΓ(x0)内における要素x0以外の要素x1を取得する。そして、取得した要素x1に対する最近傍要素ネットワークΓ(x1)を取得し、その最近傍要素ネットワークΓ(x1)内における要素x1以外の要素x2を取得する。次に、取得した要素x2に対する最近傍要素ネットワークΓ(x2)を取得し、その最近傍要素ネットワークΓ(x2)内における要素x2以外の要素x3を取得する、といった手順を繰り返すことにより、情報探索集合内の全要素100をたどることができる。すなわち、図2(d)の破線で示すように、情報探索集合内の全要素100がリンクによって、直接的または間接的に連結した1コンポーネントのネットワークを生成することができる。ここで、要素xに対する最近傍要素ネットワークΓ(x)を構成する要素は、要素xに直接的にリンク結合している要素となる。例えば、図2(d)において、要素101と、要素102とは、直接的にリンク結合している。そして、要素101と、要素104とは、要素102および要素103を介することによって間接的に結合している。このように、生成されたネットワークの任意の2つの要素は、直接的または間接的にリンク結合している。このように、最近傍要素ネットワークを連結することによって、生なされる1コンポーネントのネットワークを近傍要素ネットワークΓ(図示せず)と記載することとする。
When the
That is, the nearest element network Γ (x0) for an arbitrary element x0 is acquired, and an element x1 other than the element x0 in the nearest element network Γ (x0) is acquired. Then, the nearest element network Γ (x1) for the obtained element x1 is obtained, and the element x2 other than the element x1 in the nearest element network Γ (x1) is obtained. Next, an information search is performed by repeating the procedure of obtaining the nearest element network Γ (x2) for the obtained element x2 and obtaining the element x3 other than the element x2 in the nearest element network Γ (x2). All
このように、近傍要素ネットワークΓでは、情報探索集合内のすべての前記要素100間をリンクによって結合させているため(1コンポーネント)、リンクに従って、任意の要素100よりクエリに近い要素100を順に取得することにより、情報探索を行う際に、情報探索が途絶することがない。
In this way, in the neighborhood element network Γ, all the
次に、図1および図2を参照しつつ、図3を参照してネットワーク生成処理の流れを説明する。
図3は、本実施形態に係るネットワーク生成処理の流れを示すフローチャートである。
なお、図3の処理は、例えば、新たな情報探索集合を探索対象とする場合、または、新しい情報(要素)が情報探索集合に加わった場合に行われる処理である。
まず、情報探索装置1の入力部4を介して、近傍要素数kと、要素100(図2参照)および要素100の特徴量のリストとが、情報探索装置1へ入力され(S101)、記憶部3に格納される。
ネットワーク生成部21は、記憶部3から、要素100の特徴量を取得し、探索対象集合Xの要素100である各要素x(x∈X)に対し、他の要素100との類似度を、取得した特徴量を使用することによって算出する(S102)。
そして、ネットワーク生成部21は、記憶部3から、近傍要素数kを取得すると、算出した類似度を基に、各要素xに対して、類似度の高いk個の要素群Nk(x)を生成し(S103:図2(b)参照)、記憶部3に記憶する。すなわち、要素xと、要素群Nk(x)を構成する各要素とをリンク結合する。要素群Nk(x)は、要素xに対し類似度の最も高い要素から降順にk個の要素の集合になる。
次に、ネットワーク生成部21は、探索対象集合X中のすべての要素xに対して、ステップS103の処理を行ったか否かを判定する(S104)。判定は、例えば、ステップS103の処理を行った要素xにフラグを付し、このフラグがすべての要素100に対し付されているか否かを、ネットワーク生成部21が判定することによって行われる。
ステップS104の結果、すべての要素xに対して、ステップS103の処理を行っていないと判定された場合(S104→No)、ネットワーク生成部21は、ステップS103の処理へ戻る。
ステップS104の結果、すべての要素xに対して、ステップS103の処理を行っていると判定された場合(S104→Yes)、ネットワーク生成部21は、ステップS105の処理へ進む。
Next, the flow of network generation processing will be described with reference to FIG. 3 while referring to FIG. 1 and FIG.
FIG. 3 is a flowchart showing a flow of network generation processing according to the present embodiment.
3 is a process performed when, for example, a new information search set is set as a search target or when new information (element) is added to the information search set.
First, the number k of neighboring elements, the element 100 (see FIG. 2), and the feature quantity list of the
The
Then, when the
Next, the
As a result of step S104, when it is determined that the process of step S103 is not performed for all the elements x (S104 → No), the
As a result of step S104, when it is determined that the process of step S103 is performed for all the elements x (S104 → Yes), the
次に、ネットワーク生成部21は、要素y(y∈X)に関して、記憶部3に記憶されている要素群Nk(y)を取得し、要素y自身は、Nk(x)に含まれないが、要素xは、Nk(y)に含まれている要素yを求める(図2(c)参照)。そして、ネットワーク生成部21は、このような要素yを、Nk(x)と対応付けて記憶部3に記憶させることによって、要素xと、要素yとをリンク結合し、要素xに対する無向リンクを設定する(S105:図2(d)参照)。
すなわち、式(7)に示す最近傍要素ネットワークΓ(x)を算出する。
Next, the
That is, the nearest neighbor element network Γ (x) shown in Expression (7) is calculated.
そして、ネットワーク生成部21は、探索対象集合X中のすべての要素yに対して、ステップS105の処理を行ったか否かを判定する(S106)。判定は、例えば、ステップS105の後に、要素yにフラグを付し、このフラグがすべての要素100に対し付されているか否かを、ネットワーク生成部21が判定することによって行われる。
ステップS106の結果、すべての要素yに対して、ステップS105の処理を行っていないと判定された場合(S106→No)、ネットワーク生成部21は、ステップS105の処理へ戻る。
ステップS106の結果、すべての要素yに対して、ステップS105の処理を行ったと判定された場合(S106→Yes)、ネットワーク生成部21は、処理を終了する。
Then, the
As a result of step S106, when it is determined that the process of step S105 is not performed for all elements y (S106 → No), the
As a result of step S106, when it is determined that the process of step S105 has been performed on all elements y (S106 → Yes), the
図4は、ネットワーク生成部によって算出された近傍要素ネットワークの記憶部での記憶状態を示す図である。
図4において、符号200は、最近傍要素ネットワークの中心となる要素(中心要素:図2(d)における要素x。ただし、中心要素自身は、最近傍要素ネットワークに含まれない)の要素番号であり、符号201は、この中心要素に対して最近傍要素ネットワークを構成している要素(図2(d)における符号Γ(x))の要素番号である。なお、ここでは、要素毎に一意の要素番号を予め付されているものとする。
例えば、要素番号「1」の要素に対して最近傍要素ネットワークを構成している要素は、要素番号「3」,「5」,「7」である。そして、要素番号「2」の要素に対して最近傍要素ネットワークを構成している要素は、要素番号「3」,「6」,「8」,「9」,「11」である。また、要素番号「3」の要素に対して最近傍要素ネットワークを形成している要素は、要素番号「1」,「2」,「9」,「10」である。
最近傍要素ネットワークを構成する要素の数が異なるのは、図2(c)における要素yの数がそれぞれの要素毎に異なるためである。
FIG. 4 is a diagram illustrating a storage state in the storage unit of the neighborhood element network calculated by the network generation unit.
In FIG. 4,
For example, the elements constituting the nearest element network with respect to the element with the element number “1” are the element numbers “3”, “5”, and “7”. The elements constituting the nearest element network with respect to the element with the element number “2” are the element numbers “3”, “6”, “8”, “9”, and “11”. In addition, the elements forming the nearest element network with respect to the element with the element number “3” are the element numbers “1”, “2”, “9”, and “10”.
The number of elements constituting the nearest neighbor element network is different because the number of elements y in FIG. 2C is different for each element.
このようなネットワーク生成処理によれば、所定数の近傍要素の集合である最近傍要素ネットワークの集合として、近傍要素ネットワークを生成するため、平均最短パス長の小さいネットワークの生成が可能となる。ここで、パス長とは、情報探索集合内における任意の2つのノード間のリンクの数である。また、このようなネットワーク生成処理によれば、情報探索集合内のすべての要素に対し、各要素を中心要素とした最近傍要素ネットワークが存在するため、任意の要素を中心要素とする最近傍ネットワークを取得していくことで、情報探索集合内のすべての要素がリンクによって結合している最近傍要素ネットワークを生成することができる。 According to such a network generation process, a neighborhood element network is generated as a set of nearest neighbor element networks, which is a set of a predetermined number of neighborhood elements, so that a network with a small average shortest path length can be generated. Here, the path length is the number of links between any two nodes in the information search set. Also, according to such a network generation process, for every element in the information search set, there is a nearest element network with each element as a central element, so the nearest neighbor network with any element as a central element By acquiring, it is possible to generate a nearest neighbor element network in which all elements in the information search set are connected by links.
また、情報探索集合内における要素xとは異なる任意の要素である要素yを取得し、要素yとは異なる要素のうち、要素yとの類似度が高い順に、所定数の要素を取得し、当該取得した要素の集合を最近傍要素ネットワークΓ(y)とし、最近傍要素ネットワークΓ(y)の要素に、要素xが含まれている場合、要素yと、最近傍要素ネットワークΓ(x)との和集合を、要素xに対する最近傍要素ネットワークとすることにより、無向リンクが設定される。この無向リンクが設定されることにより、要素xが、要素yに対する最近傍要素ネットワークに含まれるが、要素xに対する最近傍要素ネットワークに、要素yが含まれない状態となることを避けることができ、確実に情報探索集合内のすべての要素がリンクによって結合している近傍要素ネットワークを生成することができる。 Also, an element y that is an arbitrary element different from the element x in the information search set is acquired, and among elements different from the element y, a predetermined number of elements are acquired in descending order of similarity to the element y. When the set of the acquired elements is the nearest neighbor element network Γ (y), and the element x is included in the elements of the nearest neighbor element network Γ (y), the element y and the nearest neighbor element network Γ (x) The undirected link is set by using the union set of and the nearest neighbor element network for the element x. By setting the undirected link, the element x is included in the nearest element network for the element y, but it is avoided that the element y is not included in the nearest element network for the element x. It is possible to generate a neighborhood element network in which all elements in the information search set are connected by links.
(情報探索処理)
次に、図1を参照しつつ、図5に沿って、情報探索処理の概要について説明する。
図5は、本実施形態に係る情報探索処理の概要を示す図である。
図5において、符号は、図2と同様に、情報探索集合における要素(白丸または黒丸にて表現)、すなわち、記憶部3に格納され、探索対象となる情報である。
また、図5における破線で示すリンクによって全要素が連結した1コンポーネントの近傍要素ネットワークがネットワーク生成処理部2によって生成されているものとする。
探索処理部22は、予め定められている要素、または、任意の要素を起点要素x0とする。そして、当該起点要素x0に対する最近傍要素ネットワークΓ(x0)を記憶部3から取得する。
続いて、探索処理部22は、起点要素x0を展開要素集合Bの要素とし(B={x0})、取得した最近傍要素ネットワークΓ(x0)と展開要素集合Bとの和集合を類似度計算要素集合A(A=Γ(x0)∪{x0})として求める。ここで、展開要素集合とは、ある要素xに対する最近傍要素ネットワークΓ(x)の要素とクエリとの類似度計算を実行する場合の要素xから構なされる集合である。要素xから直接リンク結合されている要素を要素xの子要素と表現するときは、子要素とクエリとの類似度が計算される要素の集合である。一方、類似度計算要素集合とは、クエリとの類似度計算が実行される要素の集合である。以降、展開要素集合Aを集合Aと、類似度計算要素集合Bを集合Bと簡略し表現する。
そして、探索処理部22は、集合Aと集合Bとの差集合を構成する要素のうち、図示しないクエリとの類似度が最も大きい要素を抽出する。前記差集合は、既にクエリとの類似度計算を実行された要素であって、未だ展開されていない(子要素とクエリとの類似度計算が実行されていない)要素からなる集合である。
この場合、図5(b)に示すように、要素x1が、探索処理部22によって抽出されたとする。
(Information search process)
Next, the outline of the information search process will be described along FIG. 5 with reference to FIG.
FIG. 5 is a diagram showing an outline of the information search process according to the present embodiment.
In FIG. 5, as in FIG. 2, the code is an element in the information search set (expressed by a white circle or a black circle), that is, information stored in the
In addition, it is assumed that a one-component neighborhood element network in which all elements are connected by links shown by broken lines in FIG.
The
Subsequently, the
And the
In this case, it is assumed that the element x1 is extracted by the
次に、類似度ρ(x1,q)>類似度ρ(xmax,q)を満たしているとしたとき、探索処理部22は、図5(c)に示すように、要素x1を要素xmax(図示せず)とし、要素xmaxを更新し保持する。また、要素x1が前記条件を充足しない場合は、要素xmaxの更新は行われない。探索処理部22は、要素x1に対して最近傍要素ネットワークΓ(x1)(図5(c)において実線で示されるリンクで結合している要素)を記憶部3から取得する。ここで、類似度ρ(xmax,q)が、請求項における設定類似度であり、情報探索部が、要素xmaxを保持することにより、設定類似度も保持することになる。
そして、探索処理部22は、要素x1に対する最近傍要素ネットワークを構成する要素群Γ(x1)の要素からなる集合と集合Aとの和集合を新たな集合Aとする。さらに、探索処理部22は、要素x1を、図5(a)に示す集合Bの要素に加え、新たな集合Bとする。そして、探索処理部22は、新たな集合Aと、集合Bとの差集合を構成する要素の中で、クエリとの類似度が最も大きい要素を抽出し、当該要素を新たな要素x1とする(図5(c):Γ(x1→x1)。すなわち、図5(c)に示すように、探索処理部22は、新たな要素x1を抽出する。
Next, assuming that the similarity ρ (x1, q)> similarity ρ (xmax, q) is satisfied, the
Then, the
そして、そして、類似度ρ(x1,q)>類似度ρ(xmax,q)を満たしているとしたとき、探索処理部22は、この要素x1を新たな要素xmax(図示せず)として保持する。そして、探索処理部22は、要素x1に対する最近傍要素ネットワークΓ(x1)の要素(図5(d)中、実線で示されるリンクで結合している要素)からなる集合と集合Aとの和集合を新たな集合Aとし、要素x1を、図5(a)に示す集合Bの要素に加え、新たな集合Bとする。そして、新たな集合Aと、集合Bとの差集合を構成する要素の中で、クエリとの類似度が最も大きい要素を抽出する(図5(d))。
このような処理を繰り返し、集合Aの要素数が上限コストβを超えたとき(第1終了条件)、または、要素x1とクエリとの類似度が1となった(クエリと一致する要素を抽出した:第2終了条件)とき、要素xmaxを最終出力要素とする。ただし、第2終了条件の設定の有無は情報探索集合に依存する。
When the similarity ρ (x1, q)> similarity ρ (xmax, q) is satisfied, the
Such processing is repeated, and when the number of elements in the set A exceeds the upper limit cost β (first termination condition), or the similarity between the element x1 and the query becomes 1 (extracts elements that match the query) : Second end condition), the element xmax is set as the final output element. However, whether or not the second end condition is set depends on the information search set.
次に、図1および図5を参照しつつ、図6に沿って、情報探索処理の流れを説明する。
図6は、本実施形態に係る情報探索処理の流れを示すフローチャートである。
情報探索装置1の記憶部3には、予め入力部4を介して入力されたコスト上限βと、要素と特徴量のリストと、起点要素x0と、ネットワーク生成処理で算出された最近傍要素ネットワークΓ(x)が要素ごとに格納されている。
まず、探索処理部22は、起点要素x0(x0∈X)を記憶部から取得し、この起点要素x0に対する最近傍要素ネットワークΓ(x0)を記憶部3から取得する(S201)。すなわち、情報探索装置1は、最近傍要素ネットワークΓ(x0)をRAMなどのメモリ上に常駐させている。
次に、入力部4を介して、クエリqが情報探索装置1に入力される(S202)。クエリの入力は、端末11から物理的ネットワーク10を介することによって、入力されてもよいし、直接入力部4から入力されてもよい。また、本実施形態では、探索処理部22が、起点要素x0を対する最近傍要素ネットワークΓ(x0)を記憶部3から取得した後に、クエリqが入力されたが、これに限らず、クエリqが入力されてから、探索処理部22が、起点要素x0に対する最近傍要素ネットワークΓ(x0)を記憶部3から取得してもよい。
次に、探索処理部22は、起点要素x0とクエリqとの類似度ρ(x0,q)を算出し(S203)、記憶部3に格納する。なお、探索処理部22は、この時点で、起点要素x0に対する最近傍要素ネットワークΓ(x0)を記憶部3から取得してもよい。ここで、ρ(・)は、例えば、コサイン類似度関数などの類似度関数であり、ρ(a,b)=ρ(b,a)∈[0,1]、a,b∈Xの性質を有する。ただし、任意の要素aは、自分自身との類似度が最も大きくρ(a,a)=1である。
Next, the flow of the information search process will be described along FIG. 6 with reference to FIGS. 1 and 5.
FIG. 6 is a flowchart showing a flow of information search processing according to the present embodiment.
The
First, the
Next, the query q is input to the
Next, the
そして、探索処理部22は、集合A=Γ(x0)∪{x0}および集合B={x0}を算出する(S204:図5(a))。
次に、探索処理部22は、集合Aの要素の数|A|を算出し、|A|>上限コストβ、または、クエリqと要素xmaxとの類似度(設定類似度)が1であること、すなわちρ(xmax,q)=1(クエリと要素とが一致していること)を満たしているか否かを判定する(S205)。ここで、|・|は、該当する集合の要素の数である。なお、要素xmaxの初期要素は、特に限定しないが、要素x0などを代入しておいてもよい。ここで、算出されたρ(xmax,q)は、記憶部3に格納される。
ステップS205の結果、|A|>β、または、ρ(xmax,q)=1を満たしている場合(S205→Yes)、探索処理部22は、要素xmaxを最終出力要素x2として出力し(S206)、処理を終了する。なお、本実施形態では、ステップS204の処理において、|A|>上限コストβ、または、クエリqと要素xmaxとの類似度が1であることを判定しているが、これに加え、探索処理部22が、図示しないタイマなどを監視し、所定の計算時間を越えているか否かを判定してもよい。
Then, the
Next, the
When | A |> β or ρ (xmax, q) = 1 is satisfied as a result of step S205 (S205 → Yes), the
ステップS205の結果、条件を満たしていない場合(S204→No)、探索処理部22は、集合Aと集合Bとの差集合を算出し(S207)、当該差集合の要素yとクエリqとの類似度ρ(y,q)を算出する(S208)。
そして、探索処理部22は、集合Aと、集合Bとの差集合におけるすべての要素y(y∈X)に対して、ステップS208の処理を行ったか否かを判定する(S209)。判定は、例えば、ステップS208の後に、要素yにフラグを付し、このフラグがすべての要素に対し付されているか否かを、探索処理部22が判定することによって行われる。
When the condition is not satisfied as a result of step S205 (S204 → No), the
Then, the
ステップS209の結果、すべての要素yについて、ステップS208の処理を行っていないと判定された場合(S209→No)、探索処理部22は、ステップS208の処理へ戻る。
ステップS209の結果、すべての要素yについて、ステップS208の処理を行っていると判定された場合(S209→Yes)、探索処理部22は、ステップS210の処理へ進む。
As a result of step S209, when it is determined that the process of step S208 has not been performed for all elements y (S209 → No), the
As a result of step S209, when it is determined that the process of step S208 is performed for all elements y (S209 → Yes), the
次に、探索処理部22は、式(8)の要素x1を求める(S210:図5(b))。
Next, the
すなわち、探索処理部22は、最大の類似度ρ(w,q)を有する要素wを算出し、この要素wを要素x1(x1∈X)とする。同時に、探索処理部22は、ステップS210における式(8)で求めた要素x1に係る類似度ρ(x1,q)を記憶部3に格納する。
そして、探索処理部22は、記憶部3から類似度ρ(xmax,q)および類似度ρ(x1,q)を取得し、類似度ρ(x1,q)>類似度ρ(xmax,q)であるか否かを判定する(S211)。
ステップS211の結果、類似度ρ(x1,q)>類似度ρ(xmax,q)ではない場合(S211→No)、探索処理部22は、ステップS213の処理へ進む。
ステップS211の結果、類似度ρ(x1,q)>類似度ρ(xmax,q)である場合(S211→Yes)、探索処理部22は、探索処理部22は、要素x1を、新たな要素xmaxとして保持する(S212:図5(c))。前記したように、類似度ρ(xmax,q)が、請求項における設定類似度であり、情報探索部が、要素xmaxを保持することにより、設定類似度も保持することになる。
次に、探索処理部22は、要素x1に対する最近傍要素ネットワークΓ(x1)を記憶部3から取得すると、集合A’=A∪Γ(x1)および集合B’=B∪{x1}を算出し、集合A’を新たなAとし、B’を新たなBとする(A←A’、B←B’:S213:図5(c))。すなわち、集合Aに集合A’を代入し、集合Bに集合B’を代入する。
そして、探索処理部22は、ステップS205の処理へ戻る。
That is, the
Then, the
As a result of step S211, when the similarity ρ (x1, q)> similarity ρ (xmax, q) is not satisfied (S211 → No), the
As a result of step S211, when the similarity ρ (x1, q)> similarity ρ (xmax, q) (S211 → Yes), the
Next, when the
Then, the
なお、本実施形態において、情報探索集合の要素内に同一の情報が存在するようなクエリを入力してもよいし、情報探索集合の要素内に同一の情報が存在しないようなクエリを入力してもよい。 In this embodiment, a query in which the same information exists in the elements of the information search set may be input, or a query in which the same information does not exist in the elements of the information search set is input. May be.
本実施形態に係る情報探索処理は、要素間の平均最短パス長が小さいスモールワールドネットワークを使用して情報探索を行うため、情報探索集合に対して距離空間を定義すると、要素間の距離が大きい、すなわち要素同士が疎となり、三角不等式などによる探索空間の削減が不可能な情報探索集合に対しても、探索コストの小さい情報探索を行うことができる。すなわち、探索空間を小さくすることができる。
また、要素間における距離の定義を前提としていないため、距離空間を定義不可能な情報探索集合に対しても効率的な情報探索を行うことが可能となる。例えば、任意の2つの要素間の類似度を、コサイン類似度で定義した情報探索集合は、距離空間ではない。さらに、局所的な要素の集合である最近傍要素ネットワークを連結した近傍要素ネットワークを用いており、全体の情報探索を、処理の軽い最近傍要素ネットワークにおける探索の集まりとすることができ、全体的な処理の負担を軽減することができる。
そして、1度探索した要素は、次回以降の探索対象から外した情報探索を行うため、効率的な情報探索を行うことができる。
In the information search processing according to the present embodiment, information search is performed using a small world network having a small average shortest path length between elements. Therefore, when a metric space is defined for an information search set, a distance between elements is large. That is, an information search with a low search cost can be performed even for an information search set in which elements are sparse and the search space cannot be reduced by a triangle inequality. That is, the search space can be reduced.
In addition, since it is not premised on the definition of the distance between elements, an efficient information search can be performed even for an information search set in which a metric space cannot be defined. For example, an information search set in which the similarity between two arbitrary elements is defined by the cosine similarity is not a metric space. Furthermore, it uses a neighborhood element network that connects local element networks, which are local element collections, so that the entire information search can be a collection of searches in the lightest neighborhood element network. Can reduce the burden of unnecessary processing.
Since the element searched once is searched for information excluded from the search target after the next time, an efficient information search can be performed.
(ネットワークの特性)
ここで、本実施形態に好適なネットワークの性質について説明する。
まず、本実施形態におけるネットワークは、情報探索を効率よく行うため、近傍要素数kと強い相関を有する値である次数が、比較的小さいネットワークであることが望ましい。次数を比較的小さくすることで、情報探索集合内の全要素が結合した1コンポーネントのネットワークであり、次数が比較的小さいことが望ましい。本実施形態で用いた近傍要素ネットワークにおける平均次数は、式(9)で定義される。
(Network characteristics)
Here, the nature of the network suitable for the present embodiment will be described.
First, in order to perform information search efficiently, the network in the present embodiment is desirably a network having a relatively small order that is a value having a strong correlation with the number k of neighboring elements. It is a one-component network in which all elements in the information search set are combined by making the order relatively small, and it is desirable that the order be relatively small. The average order in the neighborhood element network used in this embodiment is defined by Expression (9).
さらに、本実施形態におけるネットワークは、任意の起点要素と、最終出力要素との間に、比較的短いリンクで連結されていることが必要である。探索コストの小さい情報探索を行うためである。
本実施形態で用いた近傍要素ネットワーク全体における平均値である平均最短パス長は、式(10)で定義される。
Furthermore, the network in the present embodiment needs to be connected by a relatively short link between an arbitrary origin element and a final output element. This is because information search with a low search cost is performed.
The average shortest path length, which is an average value in the entire neighborhood element network used in this embodiment, is defined by Expression (10).
ここで、dΓ(x,y)は、ネットワークにおける任意の要素における最短パス長である。 Here, dΓ (x, y) is the shortest path length in an arbitrary element in the network.
また、最終出力要素x2における近傍の要素群y∈Γ(x2)のそれぞれと、クエリqとの類似度が比較的低い場合、情報探索が困難になる。なぜならば、起点要素x0から最終出力要素x2へ到達するためには、最終出力要素x2における近傍の要素yを経由することが必須となるためである。すなわち、類似度ρ(x2,q)と類似度ρ(x2,y)が高い値を示すときには、類似度ρ(y,q)もまた高い値を示すことが望ましい。これを一般化すると、3つの要素x,y,zにおいて、y∈Γ(x)かつz∈Γ(y)において、類似度ρ(x,y)と類似度ρ(y,z)が高い値を示すとき、x∈Γ(z)となるような高い値の類似度ρ(z,x)(x∈Γ(z))が高い値を示すこと好ましい。すなわち、3つの要素x,y,zにおける任意のペア要素間にリンクが存在することが望ましい。
このような、3つの要素間の関係を定量的に評価する尺度であるネットワークのクラスタ係数は、式(11)で定義される。クラスタ係数が高い値であるほど、任意の3つの要素間における任意のペア要素間にリンクが存在する率が高い。
The network cluster coefficient, which is a measure for quantitatively evaluating the relationship between the three elements, is defined by Expression (11). The higher the cluster coefficient, the higher the rate at which links exist between any pair of elements between any three elements.
本実施形態に好適なネットワークの特性として、1.式(9)で示される平均次数が小さく、かつ1コンポーネントのネットワークであること、2.平均最短パス長が比較的小さいネットワークであること、3.クラスタ係数が比較的大きいネットワークであることが望ましい。
このような特性を備えるネットワークをスモールワールドネットワークと記載する。スモールワールドネットワークには、本実施形態で記載した近傍要素ネットワークが含まれる。本実施形態で使用する近傍要素ネットワークにおける平均最短パス長と、クラスタ係数とに関する考察は、図15および図16を参照して後記する。
The network characteristics suitable for this embodiment are: 1. The average order represented by equation (9) is small and the network is a one component. 2. the network has a relatively short average shortest path length; It is desirable that the network has a relatively large cluster coefficient.
A network having such characteristics is referred to as a small world network. The small world network includes the neighborhood element network described in the present embodiment. The consideration regarding the average shortest path length and the cluster coefficient in the neighborhood element network used in this embodiment will be described later with reference to FIGS. 15 and 16.
次に、図7から図14に沿って、本実施形態における実施形態例を示す。
なお、図7から図11は、クエリと同一の情報が情報探索集合の要素に含まれている探索問題に対する図であり、図12から図14は、クエリと同一の情報が情報探索集合の要素に含まれていない探索問題に対する図である。
Next, along with FIGS. 7 to 14, an example of the embodiment will be described.
7 to 11 are diagrams for a search problem in which the same information as the query is included in the elements of the information search set. FIGS. 12 to 14 show the same information as the query as the elements of the information search set. It is a figure with respect to the search problem which is not contained in.
図7は、近傍要素数kに対するコンポーネント数の変化を示す図である。
図7において、横軸は、近傍要素数kの値を示し、縦軸は、コンポーネント数に対し常用対数を適用した値である。
なお、図7における情報探索集合は、10年分の新聞の記事における文書ファイルを要素とする集合である。そして、要素間の類似度は、以下の手順によって算出した。すなわち、各文書ファイルを形態素解析し、不要なストップワードを削除した上で、単語を抽出する。そして、抽出された単語に対し、tf−idf法で各単語に対し、重み付けを行う。この結果、生じる重み付け単語ベクトルを、該文書ファイルの特徴量とする。
その上で、文書ファイルを要素とし、コサイン類似度関数を用いて、要素間の類似度を規定する。
この例で用いた要素数(文書ファイル数)は、64585個であり、距離空間の次元数は、51030となった。
図7において示されるようにk=6において、コンポーネント数は、1となる。すなわち、k=6で、1コンポーネントの近傍要素ネットワークの生成が可能となる。すなわち、k≧6以上であれば、1コンポーネントの近傍要素ネットワークを生成することができる。
FIG. 7 is a diagram illustrating a change in the number of components with respect to the number k of neighboring elements.
In FIG. 7, the horizontal axis indicates the value of the number k of neighboring elements, and the vertical axis indicates a value obtained by applying a common logarithm to the number of components.
Note that the information search set in FIG. 7 is a set having document files in newspaper articles for 10 years as elements. And the similarity between elements was computed with the following procedures. That is, each document file is subjected to morphological analysis, unnecessary words are deleted, and words are extracted. Then, the extracted words are weighted by the tf-idf method. As a result, the resulting weighted word vector is used as the feature amount of the document file.
Then, the document file is used as an element, and the similarity between elements is defined using a cosine similarity function.
The number of elements (number of document files) used in this example is 64585, and the number of dimensions in the metric space is 51030.
As shown in FIG. 7, the number of components is 1 at k = 6. That is, when k = 6, it is possible to generate a one-component neighborhood element network. That is, if k ≧ 6 or more, a one-component neighborhood element network can be generated.
図8は、近傍要素数kに対する平均探索コストの変化を示す図である。
図8において、横軸は、近傍要素数kの値を示し、縦軸は、平均探索コストである。
図8では、前記した10年分の新聞記事の文書ファイルの要素から、ランダムに100000個のペア要素(クエリと、起点要素のペア)を選択し、前記した情報探索集合に対して、本実施形態における情報探索処理を行った結果を示す。
コスト上限値は、無限大に設定されている。また、平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。
図8で示されるように近傍要素数k=20において、平均探索コストは、最小の365.38となった。この値は、全要素を探索した場合の探索コストの0.57%である。
FIG. 8 is a diagram showing a change in average search cost with respect to the number k of neighboring elements.
In FIG. 8, the horizontal axis indicates the value of the number of neighboring elements k, and the vertical axis indicates the average search cost.
In FIG. 8, 100,000 pairs of elements (query and starting element pairs) are randomly selected from the elements of the document file of the newspaper articles for the 10 years described above, and this implementation is performed on the information search set described above. The result of having performed the information search process in a form is shown.
The cost upper limit is set to infinity. The average search cost is an average value of search costs when an information search is performed by changing a query and a starting point element for the same information search set.
As shown in FIG. 8, when the number of neighboring elements k = 20, the average search cost is the minimum 365.38. This value is 0.57% of the search cost when all elements are searched.
平均コストが、最小値をもつ理由として、次の理由が考えられる。本実施形態における探索コストは、平均次数と平均ステップ数との積にほぼ近い値となる。ここで、ステップ数とは、最終出力要素を算出するまでにたどった起点要素x0と要素x1(図5)との数である。すなわち、図5における黒丸の数である。
一般に、近傍要素数kは、図7および図8の手順によって、決定される。
The reason why the average cost has the minimum value is considered as follows. The search cost in the present embodiment is a value that is substantially close to the product of the average order and the average step number. Here, the number of steps is the number of starting element x0 and element x1 (FIG. 5) traced until the final output element is calculated. That is, the number of black circles in FIG.
In general, the number k of neighboring elements is determined by the procedure shown in FIGS.
図9は、近傍要素数kに対する平均次数の変化を示す図であり、図10は、近傍要素数kに対するステップ数の変化を示す図である。
図9において、横軸は、近傍要素数kを示し、縦軸は、平均次数を示す。
また、図10において、横軸は、近傍要素数kを示し、縦軸は、ステップ数の平均値(Average)または中央値(Median)を示す。
図9および図10の各kにおいて、平均次数の値と、ステップ数の平均値または中央値を乗算すると、k=20において、平均探索コストが最小となることがわかる。
FIG. 9 is a diagram showing a change in the average order with respect to the number k of neighboring elements, and FIG. 10 is a diagram showing a change in the number of steps with respect to the number k of neighboring elements.
In FIG. 9, the horizontal axis indicates the number of neighboring elements k, and the vertical axis indicates the average order.
In FIG. 10, the horizontal axis indicates the number k of neighboring elements, and the vertical axis indicates the average value (Average) or median value (Median) of the number of steps.
9 and 10, when the average degree value is multiplied by the average value or the median value of the number of steps, it can be seen that the average search cost is minimized at k = 20.
図11は、各近傍要素数kにおける探索コストと、クエリへの到達率を示す図である。
図11において、横軸は、探索コストを示し、縦軸は、到達率を示す。
到達率とは、前記したようなペア要素(クエリと、起点要素のペア)を100000個選択したとき、そのうち、該当する探索コストでクエリに到達したペア要素の割合である。
グラフは、それぞれk=10,20,40,60の場合について記載する。図8において、最も平均探索コストが小さかったk=20に注目すると、探索コストが291で到達率50%であり、探索コストが633で90%の到達率となっている。すなわち、選択したペア要素のうち、探索コストが291でクエリへ到達したペア要素は、選択したペア要素のうちの50%であり、探索コストが633でクエリへ到達したペア要素は、選択したペア要素のうちの90%であることを示す。
FIG. 11 is a diagram showing the search cost and the arrival rate to the query for each number of neighboring elements k.
In FIG. 11, the horizontal axis indicates the search cost, and the vertical axis indicates the arrival rate.
The arrival rate is the ratio of the pair elements that have reached the query at the corresponding search cost when 100000 such pair elements (a pair of the query and the starting element) are selected.
The graph describes the cases where k = 10, 20, 40, and 60, respectively. In FIG. 8, paying attention to k = 20 having the lowest average search cost, the search cost is 291, the arrival rate is 50%, and the search cost is 633, the arrival rate is 90%. That is, among the selected pair elements, the pair element that has reached the query with a search cost of 291 is 50% of the selected pair elements, and the pair element that has reached the query with a search cost of 633 is the selected pair element. Indicates 90% of the elements.
本実施形態例における全要素数は、前記したように64585個であり、そのうちの1%がほぼ646個である。すなわち、本実施形態の情報探索処理に、本実施形態例の情報探索空間に、本実施形態の情報探索処理を適用すると、上限コストβを全要素数の1%程度の値に設定したとしても、90%の確率で探索が成功することがわかる。 The total number of elements in this embodiment is 64585 as described above, and 1% of them is approximately 646. That is, if the information search processing of this embodiment is applied to the information search space of this embodiment example in the information search processing of this embodiment, even if the upper limit cost β is set to a value of about 1% of the total number of elements. It can be seen that the search succeeds with a probability of 90%.
次に、図12から図14に沿って、本実施形態をクエリと同一の情報が情報探索集合の要素に含まれていない探索問題に適用した際の実施形態例を説明する。
なお、図12から図14における各用語の定義は、図7から図11における用語と同様である。
図12は、近傍要素数kに対するコンポーネント数の変化を示す図である。
図12における条件は、以下の通りである。
図7から図11において、用いた情報探索集合(要素数:64585個)の中から、一様ランダムに6458要素を選択し、これをクエリとした。そして、残りの58127個の要素を情報探索集合とした。
図12において、横軸は、近傍要素数kの値を示し、縦軸は、コンポーネント数に対し常用対数を適用した値である。
図12において示されるようにk=7において、コンポーネント数は、1となる。すなわち、k=7で、1コンポーネントの近傍要素ネットワークの生成が可能となる。すなわち、k≧7以上であれば、1コンポーネントの近傍要素ネットワークを生成することができる。
Next, along with FIG. 12 to FIG. 14, an embodiment example when the present embodiment is applied to a search problem in which the same information as the query is not included in the elements of the information search set will be described.
The definitions of the terms in FIGS. 12 to 14 are the same as the terms in FIGS. 7 to 11.
FIG. 12 is a diagram illustrating a change in the number of components with respect to the number k of neighboring elements.
The conditions in FIG. 12 are as follows.
In FIG. 7 to FIG. 11, 6458 elements were uniformly selected from the used information search set (number of elements: 64585) and used as a query. The remaining 58127 elements were used as an information search set.
In FIG. 12, the horizontal axis indicates the value of the number k of neighboring elements, and the vertical axis indicates the value obtained by applying the common logarithm to the number of components.
As shown in FIG. 12, the number of components is 1 at k = 7. That is, it is possible to generate a one-component neighborhood element network with k = 7. That is, if k ≧ 7 or more, a one-component neighborhood element network can be generated.
図13は、近傍要素数kに対する平均探索コストの変化を示す図である。
図13において、横軸は、近傍要素数kの値を示し、縦軸は、平均探索コストである。
なお、図13における条件は、図8における条件と同様である。
平均探索コストとは、同一の情報探索集合に対し、クエリと、起点要素とを変化させて、情報探索をおこなったときの探索コストの平均値である。
図8で示されるようにk=40において、平均探索コストは、最小の939.88となった。この値は、全要素を探索した場合の探索コストの1.62%である。
一般に、近傍要素数kは、図12および図13の手順によって、決定される。
FIG. 13 is a diagram showing a change in average search cost with respect to the number k of neighboring elements.
In FIG. 13, the horizontal axis indicates the value of the number k of neighboring elements, and the vertical axis indicates the average search cost.
The conditions in FIG. 13 are the same as the conditions in FIG.
The average search cost is an average value of search costs when an information search is performed by changing a query and a starting element for the same information search set.
As shown in FIG. 8, at k = 40, the average search cost is a minimum of 939.88. This value is 1.62% of the search cost when all elements are searched.
In general, the number k of neighboring elements is determined by the procedure shown in FIGS.
図14は、各近傍要素数kにおける探索コストと、クエリへの到達率を示す図である。
図14において、横軸は、探索コストを示し、縦軸は、到達率を示す。
到達率とは、現在探索中の要素とクエリとの距離を起点要素と、クエリとの距離で除算したものである。
グラフは、それぞれk=10,20,40,60の場合について記載する。図13において、最も平均探索コストが小さいk=40に注目すると、探索コストが494で到達率50%であり、探索コストが1540で90%の到達率となっている。
FIG. 14 is a diagram showing the search cost and the arrival rate to the query for each number of neighboring elements k.
In FIG. 14, the horizontal axis indicates the search cost, and the vertical axis indicates the arrival rate.
The arrival rate is obtained by dividing the distance between the currently searched element and the query by the distance between the starting element and the query.
The graph describes the cases where k = 10, 20, 40, and 60, respectively. In FIG. 13, focusing on k = 40 having the lowest average search cost, the search cost is 494, the reach is 50%, and the search cost is 1540, the reach is 90%.
本実施形態例における全要素数は、58127個であり、この3%がほぼ1744個である。すなわち、本実施形態の情報探索処理に、本実施形態例の情報探索空間に、本実施形態の情報探索処理を適用すると、上限コストβ(図6参照)を全要素数の3%程度の値に設定したとしても、90%の確率で探索が成功することがわかる。 The total number of elements in this embodiment is 58127, and 3% of this is approximately 1744. That is, when the information search process of the present embodiment is applied to the information search space of the present embodiment example to the information search process of the present embodiment, the upper limit cost β (see FIG. 6) is a value of about 3% of the total number of elements. Even if it is set to, the search succeeds with a probability of 90%.
次に、図15および図16に沿って、本実施形態で用いた近傍要素ネットワークの特性を説明する。
図15は、ランダムネットワーク、近傍要素ネットワークおよびレギュラーネットワークにおける近傍要素数kに対する平均最短パス長の変化を示す図である。
ここで、ランダムネットワークとは、情報探索集合中の任意の要素と、要素との結合をランダムに行ったネットワークである。レギュラーネットワークとは、情報探索集合中の要素間の結合を、所定の規則に従って結合したネットワークである。
図15の横軸は、近傍要素数kを示し、縦軸は、平均最短パス長を示す。
図15に示すように、各近傍要素数kにおける近傍要素ネットワーク(k−NN NW)の平均最短パス長は、レギュラーネットワーク(Regular NW)の平均最短パス長よりかなり小さく、ランダムネットワーク(Random NW)の平均最短パス長に近い値を有する。
一般に、スモールワールドネットワークにおける平均最短パス長は、式(12)を見たすオーダであることが望ましい。
log10(スモールワールドネットワークの平均最短パス長/ランダムネットワークの平均最短パス長)<1・・・式(12)
Next, the characteristics of the neighborhood element network used in this embodiment will be described with reference to FIGS. 15 and 16.
FIG. 15 is a diagram illustrating a change in average shortest path length with respect to the number k of neighboring elements in a random network, a neighboring element network, and a regular network.
Here, the random network is a network in which arbitrary elements in the information search set and elements are randomly combined. A regular network is a network in which connections between elements in an information search set are combined according to a predetermined rule.
The horizontal axis in FIG. 15 indicates the number of neighboring elements k, and the vertical axis indicates the average shortest path length.
As shown in FIG. 15, the average shortest path length of the neighboring element network (k-NN NW) at each neighboring element number k is considerably smaller than the average shortest path length of the regular network (Regular NW), and is a random network (Random NW). It has a value close to the average shortest path length.
In general, the average shortest path length in the small world network is preferably in the order of the expression (12).
log 10 (average shortest path length of small world network / average shortest path length of random network) <1 formula (12)
図16は、ランダムネットワーク、近傍要素ネットワークおよびレギュラーネットワークにおける近傍要素数kに対するクラスタ係数の変化を示す図である。
図16の横軸は、近傍要素数kを示し、縦軸は、クラスタ係数を示す。
図16に示すように、各kにおける近傍要素ネットワーク(k−NN NW)のクラスタ係数は、ランダムネットワーク(Random NW)のクラスタ係数より大きく、レギュラーネットワーク(Regular NW)のクラスタ係数に近い値を有する。
FIG. 16 is a diagram illustrating changes in cluster coefficients with respect to the number k of neighboring elements in a random network, a neighboring element network, and a regular network.
The horizontal axis in FIG. 16 indicates the number k of neighboring elements, and the vertical axis indicates the cluster coefficient.
As shown in FIG. 16, the cluster coefficient of the neighborhood element network (k-NN NW) at each k is larger than the cluster coefficient of the random network (Random NW) and has a value close to the cluster coefficient of the regular network (Regular NW). .
1 情報探索装置
2 処理部
2 ネットワーク生成処理部
3 記憶部
4 入力部
5 出力部
10 ネットワーク
11 端末
12 情報探索システム
21 ネットワーク生成部
22 探索処理部
DESCRIPTION OF
Claims (5)
前記情報探索方法は、ネットワーク生成処理と、情報探索処理とを含んでなり、
前記ネットワーク生成処理は、
前記情報探索装置のネットワーク生成部が、
前記情報探索集合における任意の2つの要素間を、直接的、または、前記2つの要素以外の要素を介して間接的にリンク結合することにより、1コンポーネントのネットワークを生成し、前記記憶部に保持させ、
前記情報探索処理は、
前記情報探索装置の探索処理部が、
(a1)前記ネットワークの所定の第1の要素に直接的にリンク結合された要素を、前記記憶部から取得し、当該要素のうち、前記クエリとの類似度が最も大きい要素を第2の要素として選択し、
(a2)当該第2の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第2の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、
(a3)前記第2の要素を第3の要素とし、当該第3の要素に直接的にリンク結合された要素を、前記記憶部から取得し、
(a4)前記第3の要素に直接的にリンク結合された要素のうち、過去に前記第2の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第2の要素とし、当該新たな第2の要素に対して、前記(a2)の処理を行うことにより、前記クエリと類似した要素を探索する情報探索処理と、
を実行することを特徴とする情報探索方法。 An information search method in an information search apparatus for searching for information similar to a query from an information search set held in a storage unit,
The information search method includes a network generation process and an information search process,
The network generation process includes:
A network generation unit of the information search device;
A two-component network is created by directly linking between any two elements in the information search set, or indirectly through elements other than the two elements, and stored in the storage unit Let
The information search process includes:
The search processing unit of the information search device,
(A1) An element directly linked to the predetermined first element of the network is acquired from the storage unit, and the element having the highest similarity to the query among the elements is the second element Select as
(A2) If the similarity between the second element and the query is greater than a predetermined set similarity held in the storage unit, the similarity between the second element and the query is updated Is stored in the storage unit as a set similarity,
(A3) The second element is set as a third element, and an element that is directly linked to the third element is acquired from the storage unit,
(A4) Of the elements that are directly linked to the third element, elements that have never become the second element in the past and that have the largest similarity to the query An information search process for searching for an element similar to the query by performing the process (a2) on the new second element, and selecting the new second element;
The information search method characterized by performing.
前記ネットワーク生成部が、
前記情報探索集合における任意の要素である要素xと、前記要素x以外の要素それぞれとの類似度を算出し、
前記要素x以外の要素のうち、前記要素xとの前記類似度が大きい順に、予め設定された所定数の要素を取得し、当該取得した要素と、前記要素xとの間をリンク結合することによって、前記要素xに対する最近傍要素ネットワークΓ(x)を生成する処理を、前記情報探索集合におけるすべての要素に対して行うことを特徴とする請求項1に記載の情報探索方法。 The network generation process is performed by the network generation unit.
Calculating the similarity between an element x that is an arbitrary element in the information search set and each element other than the element x;
Obtaining a predetermined number of elements set in advance in descending order of similarity to the element x among elements other than the element x, and linking the acquired element with the element x 2. The information search method according to claim 1, wherein the process of generating a nearest neighbor element network Γ (x) for the element x is performed for all elements in the information search set.
前記探索処理部が、
前記情報探索集合における任意の要素である要素x0に対する前記最近傍要素ネットワークΓ(x0)と、任意の要素であるxmaxとを前記記憶部から取得し、
前記入力部を介して、前記クエリqが入力されると、
(b1)A=Γ(x0)∪{x0},B={x0}である集合Aおよび集合Bを算出し、
(b2)次の式(8)を満たす要素x1を、集合A−Bから取得し、
ただし、ρ(a,b)は、前記情報探索集合内の要素であるaと、bとの類似度、|A|は、集合Aにおける要素数、A―Bは、要素Aと要素Bとの差集合、Γ(a)は、要素aに対する最近傍要素ネットワーク
(b3)ρ(x1,q)>ρ(xmax,q)であれば、要素x1を新たな要素xmaxとし、
(b4)AにA∪Γ(x1)を代入し、BにB∪{x1}を代入し、
(b5)前記(b2)〜(b4)の処理を繰り返し、
|A|が所定の値βを超える、または、前記クエリと前記要素x1とが一致するとき、要素xmaxを最終出力要素として出力する
ことを特徴とする請求項2に記載の情報探索方法。 The information search process includes:
The search processing unit
Obtaining the nearest element network Γ (x0) for an element x0, which is an arbitrary element in the information search set, and xmax, which is an arbitrary element, from the storage unit;
When the query q is input via the input unit,
(B1) A set A and a set B in which A = Γ (x0) ∪ {x0}, B = {x0} are calculated,
(B2) An element x1 satisfying the following expression (8) is acquired from the set AB,
Where ρ (a, b) is the similarity between elements a and b in the information search set, | A | is the number of elements in set A, and AB is elements A and B. Is the nearest element network (b3) ρ (x1, q)> ρ (xmax, q) for the element a, the element x1 is set as a new element xmax,
(B4) Substitute A∪Γ (x1) for A, Substitute B∪ {x1} for B,
(B5) The processes (b2) to (b4) are repeated,
3. The information search method according to claim 2, wherein when | A | exceeds a predetermined value β, or when the query matches the element x 1, the element xmax is output as a final output element.
前記情報探索装置は、ネットワーク生成部と、探索処理部とを有してなり、
前記ネットワーク生成部は、
前記情報探索集合における任意の2つの要素間を、直接的、または、前記2つの要素以外の要素を介して間接的にリンク結合することにより、1コンポーネントのネットワークを生成し、前記記憶部に保持させる機能を有し、
前記探索処理部は、
(a1)前記ネットワークの所定の第1の要素に直接的にリンク結合された要素を、前記記憶部から取得し、当該要素のうち、前記クエリとの類似度が最も大きい要素を第2の要素として選択し、
(a2)当該第2の要素と前記クエリとの類似度が、前記記憶部に保持されている所定の設定類似度よりも大きいならば、前記第2の要素と前記クエリとの類似度を新たな設定類似度として、前記記憶部に保持し、
(a3)前記第2の要素を第3の要素とし、当該第3の要素に直接的にリンク結合された要素を、前記記憶部から取得し、
(a4)前記第3の要素に直接的にリンク結合された要素のうち、過去に前記第2の要素になったことのない要素であり、かつ、前記クエリとの類似度が最も大きい要素を選択し、新たな第2の要素とし、当該新たな第2の要素に対して、前記(a2)の処理を行うことにより、前記クエリと類似した要素を探索する機能を有することを特徴とする情報探索装置。 An information search device for searching for information similar to a query from an information search set held in a storage unit,
The information search apparatus includes a network generation unit and a search processing unit,
The network generation unit
A two-component network is created by directly linking between any two elements in the information search set, or indirectly through elements other than the two elements, and stored in the storage unit Has a function to
The search processing unit
(A1) An element directly linked to the predetermined first element of the network is acquired from the storage unit, and the element having the highest similarity to the query among the elements is the second element Select as
(A2) If the similarity between the second element and the query is greater than a predetermined set similarity held in the storage unit, the similarity between the second element and the query is updated Is stored in the storage unit as a set similarity,
(A3) The second element is set as a third element, and an element that is directly linked to the third element is acquired from the storage unit,
(A4) Of the elements that are directly linked to the third element, elements that have never become the second element in the past and that have the largest similarity to the query It has a function of selecting a new second element and searching for an element similar to the query by performing the process (a2) on the new second element. Information search device.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007140895A JP4774016B2 (en) | 2007-05-28 | 2007-05-28 | Information search method, information search program, and information search device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007140895A JP4774016B2 (en) | 2007-05-28 | 2007-05-28 | Information search method, information search program, and information search device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008293444A JP2008293444A (en) | 2008-12-04 |
| JP4774016B2 true JP4774016B2 (en) | 2011-09-14 |
Family
ID=40168070
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007140895A Active JP4774016B2 (en) | 2007-05-28 | 2007-05-28 | Information search method, information search program, and information search device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4774016B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11416552B2 (en) | 2018-05-10 | 2022-08-16 | Nippon Telegraph And Telephone Corporation | Graph updating apparatus, graph updating method and program |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5014398B2 (en) * | 2009-10-20 | 2012-08-29 | ヤフー株式会社 | Search data management device |
| JP5014399B2 (en) * | 2009-10-20 | 2012-08-29 | ヤフー株式会社 | Search data management device |
| JP5851378B2 (en) * | 2012-10-17 | 2016-02-03 | 日本電信電話株式会社 | Time-series data search method, apparatus, and program |
-
2007
- 2007-05-28 JP JP2007140895A patent/JP4774016B2/en active Active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11416552B2 (en) | 2018-05-10 | 2022-08-16 | Nippon Telegraph And Telephone Corporation | Graph updating apparatus, graph updating method and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2008293444A (en) | 2008-12-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110287328B (en) | Text classification method, device and equipment and computer readable storage medium | |
| US8700548B2 (en) | Optimization technique using evolutionary algorithms | |
| EP2945071B1 (en) | Index generating device and method, and search device and search method | |
| EP3333770A1 (en) | Matching graph entities in graph data | |
| US11416552B2 (en) | Graph updating apparatus, graph updating method and program | |
| WO2014118980A1 (en) | Information conversion method, information conversion device, and information conversion program | |
| JP4591794B2 (en) | Information processing apparatus and method, and program | |
| CN118193778B (en) | A remote sensing image retrieval method integrating multiple features | |
| JP4774016B2 (en) | Information search method, information search program, and information search device | |
| CN108665293A (en) | Feature importance acquisition methods and device | |
| Jeong et al. | Task-adaptive neural network search with meta-contrastive learning | |
| Silva et al. | An instance selection method for large datasets based on markov geometric diffusion | |
| CN115168326A (en) | Hadoop big data platform distributed energy data cleaning method and system | |
| Jindal et al. | Density Independent Algorithms for Sparsifying $ k $-Step Random Walks | |
| JP4774019B2 (en) | Network generation method, information search method, program, network generation device, and information search device | |
| WO2017072717A1 (en) | Learning of the structure of bayesian networks from a complete data set | |
| JP5851378B2 (en) | Time-series data search method, apparatus, and program | |
| Carvalho et al. | The impact of sequence length and number of sequences on promoter prediction performance | |
| JP2009265729A (en) | Estimating device and method, and program | |
| CN113781156A (en) | Malicious order identification method, model training method, equipment and storage medium | |
| JP6004014B2 (en) | Learning method, information conversion apparatus, and learning program | |
| Duangsoithong et al. | Correlation-based and causal feature selection analysis for ensemble classifiers | |
| Aldahmani et al. | Unbiased estimation for linear regression when n< v | |
| JP7121706B2 (en) | Information processing device, information processing method, and information processing program | |
| JP2019061300A (en) | Graph generation apparatus, graph generation method, data structure and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090715 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110616 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110621 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110624 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4774016 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |