JP4769151B2 - Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program - Google Patents
Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program Download PDFInfo
- Publication number
- JP4769151B2 JP4769151B2 JP2006237663A JP2006237663A JP4769151B2 JP 4769151 B2 JP4769151 B2 JP 4769151B2 JP 2006237663 A JP2006237663 A JP 2006237663A JP 2006237663 A JP2006237663 A JP 2006237663A JP 4769151 B2 JP4769151 B2 JP 4769151B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- node
- document set
- documents
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、データマイニング技術に関するものである。 The present invention relates to data mining technology.
現在、Webページやブログ記事等、ニュース記事等のテキストを含む文書集合(文書データ集合とも言う)に対して検索やデータマイニングを行う技術が広く知られている。 Currently, techniques for performing search and data mining on a document set (also referred to as a document data set) including text such as a news article such as a web page or a blog article are widely known.
その技術において、ユーザが大量の文書を取り扱う場合に、ユーザが「文書集合中に存在する主要な話題が知りたい」や「文書集合中の特定の話題に関連する情報群にアクセスしたい」という文書に関連した情報を取得する要求を持つことが多い。 In this technology, when a user handles a large amount of documents, a document that the user wants to know the main topics existing in the document collection or wants to access a group of information related to a specific topic in the document collection. Often has a request to get information related to.
これらの要求を実現する実現方法としては、次のようなものが知られている。 The following methods are known as implementation methods for realizing these requirements.
一つは、クラスタリングアルゴリズムを利用する方法(例えば、非特許文献1参照)である。この方法では、それぞれの文書を単語ベクトルで表現し、ベクトル間の類似度(コサイン類似度等)を利用して、類似したベクトルを統合することによって、類似した話題(あるいは話題語)に関する文書をクラスタとして特定する。そして、この個々のクラスタを特定の話題に関連する情報の集合と見做す事によって、上述の要求を実現するものである。 One is a method using a clustering algorithm (see, for example, Non-Patent Document 1). In this method, documents related to similar topics (or topic words) are expressed by expressing each document as a word vector and using similarities between vectors (such as cosine similarity) to integrate similar vectors. Identify as a cluster. The above-described request is realized by regarding each individual cluster as a set of information related to a specific topic.
他の実現方法としては、話題語抽出を利用する方法(例えば、特許文献1参照)が知られている。この方法は、文書集合の中から、キーワードの出現頻度や出現分布に基づいて、文書集合中の特定の話題に関連するキーワードを抽出する技術を利用する。その技術で抽出した特定のキーワードを含む文書を特定の話題に関連する文書の集合と見なすことによって、上述の要求を実現するものである。 As another realization method, a method using topic word extraction (for example, see Patent Document 1) is known. This method uses a technique for extracting a keyword related to a specific topic in the document set from the document set based on the appearance frequency and distribution of the keywords. The above request is realized by regarding a document including a specific keyword extracted by the technique as a set of documents related to a specific topic.
なお、関連技術として、文書をノードと見做して、各ノード(文書)の中心性を算出方法(例えば、PageRank(例えば、非特許文献2参照))が知られている。文書の集合を特定するために、web上に存在する検索エンジン(例えば、非特許文献3参照)も広く知られている。文書を単語ベクトルに表す技術(例えば、非特許文献4参照)も広く知られている。
上述の文書に関連した情報を取得する要求を実現する技術には、以下のような問題点が知られている。 The following problems are known in the technology for realizing a request for acquiring information related to the above-described document.
上述のクラスタリングアルゴリズムを用いる手法では、全ての文書が何れかのクラスタに属することを前提としている。一方、現実のデータでは、他の文書と関係ない、いわゆる「その他」に属する文書が存在するため、必ずしも適切なクラスタリングが行えず、結果的に上記の要求に対して取得した情報にも、多くのノイズを含む等の問題を有する。 In the method using the clustering algorithm described above, it is assumed that all documents belong to any cluster. On the other hand, in real data, there are documents that belong to the so-called “others” that are not related to other documents. Therefore, appropriate clustering cannot always be performed, and as a result, much information is acquired for the above request. There are problems such as including noise.
上述の話題語抽出を用いた手法では、文書を一つの集合にするときのルールが、キーワードを含むか否かと言う非常に単純なものであるため、必ずしも有益な文書の集合が作られているとは限らない。例えば、この手法で出力される一つのキーワードが複数の話題に関連していたり、逆に一つの話題が複数のキーワードに関連することもしばしばある。 In the method using topic word extraction described above, the rules for making documents into one set are very simple whether or not they contain keywords, so a set of useful documents is always created. Not necessarily. For example, one keyword output by this method is often related to a plurality of topics, and conversely, one topic is often related to a plurality of keywords.
本発明は、前記課題に基づいてなされたものであって、強い繋がりが存在する文書集合のみを特定し、その文書集合をクラスタに分類し、そのクラスタ中の各文書の役割を明確に分析する文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体を提供することにある。 The present invention has been made on the basis of the above-described problems, and identifies only a document set having a strong connection, classifies the document set into a cluster, and clearly analyzes the role of each document in the cluster. An object of the present invention is to provide a document set analysis apparatus, a document set analysis method, a program in which the method is implemented, and a recording medium storing the program.
前記課題の解決を図るために、請求項1記載の発明は、文書データ管理手段によって管理される文書集合内の文書間の関連性に基づいて、文書の役割を特定する文書集合分析装置であって、入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定手段と、前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価手段と、前記類似性評価手段によって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出手段と、前記関係抽出手段によって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定手段と、前記関係抽出手段によって得られた文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築手段と、前記得られたグラフ構造において前記文書集合のうち中心性のスコアが極大となっている文書ノードを頂点ノードとして抽出する頂点ノード抽出手段と、前記抽出された頂点ノードと、当該頂点ノードと連結されていると共に中心性のスコアが当該頂点ノードの中心性のスコアよりも低く且つ極小でない一つ以上の文書ノードとで構成される文書ノード群を山状ノード群と特定する山状ノード群特定手段と、前記抽出された頂点ノードに対して当該ノードは前記文書集合の話題語の役割をなすものであることを示すラベルを付与すると共に、前記特定された山状ノード群に対して当該ノード群は前記話題語と関連性を有する文書集合の役割をなすものであることであることを示すラベルを付与するラベル付け手段と、前記話題語の役割をなすものとしてラベル付けされた頂点ノードを示す文書ノード、前記話題語と関連性を有する文書集合の役割をなすものとしてラベル付けされた山状ノード群を示す文書ノード群を可視化して出力する情報出力手段と、を備えることを特徴とする。 In order to solve the above-described problem, the invention described in claim 1 is a document set analysis apparatus that specifies the role of a document based on the relationship between documents in the document set managed by the document data management means. The document set specifying unit that specifies the document set based on the document set specifying condition input from the input unit, and the similarity that evaluates the similarity regarding the topic word between the documents included in the specified document set An evaluation unit; a relationship extraction unit that extracts a relationship between documents based on the degree of similarity evaluated by the similarity evaluation unit; and a document based on the relationship between documents extracted by the relationship extraction unit As an index indicating the degree of relevance between documents other than the document, a centrality determination unit that calculates the centrality of the document, a relevance between documents obtained by the relationship extraction unit, and a center of each document To sex Therefore, a graph structure construction means for expressing the relationship between documents by two-dimensional coordinates, expressing the centrality by the coordinates of the third dimension with respect to the two-dimensional coordinates, and expressing the document set by a three-dimensional graph structure; A vertex node extracting means for extracting, as a vertex node, a document node having a maximal centrality score in the document set in the obtained graph structure; and the extracted vertex node and the vertex node connected thereto And a node node group specifying a document node group composed of one or more document nodes whose centrality score is lower than the centrality score of the vertex node and is not minimal means, together with the nodes to impart a label that indicates that those forming the role of topical words of the document set to the extracted top node, the identified peaks And labeling means the node group to the node group that imparts a label indicating that it is intended to form a part of a set of documents having a relevance to the topic words, as forming a part of the topic word A document node indicating a labeled vertex node, an information output means for visualizing and outputting a document node group indicating a group of mountain nodes labeled as a document set having a relationship with the topic word ; It is characterized by providing.
請求項2記載の発明は、文書データ管理手段によって管理される文書集合内の文書間の関連性に基づいて、文書の役割を特定する、コンピュータが実行する文書集合分析方法であって、入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定ステップと、前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価ステップと、前記類似性評価手段によって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出ステップと、前記関係抽出手段によって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定ステップと、前記関係抽出手段によって得られた文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築ステップと、前記得られたグラフ構造において前記文書集合のうち中心性のスコアが極大となっている文書ノードを頂点ノードとして抽出する頂点ノード抽出ステップと、前記抽出された頂点ノードと、当該頂点ノードと連結されていると共に中心性のスコアが当該頂点ノードの中心性のスコアよりも低く且つ極小でない一つ以上の文書ノードとで構成される文書ノード群を山状ノード群と特定する山状ノード群特定ステップと、前記抽出された頂点ノードに対して当該ノードは前記文書集合の話題語の役割をなすものであることを示すラベルを付与すると共に、前記特定された山状ノード群に対して当該ノード群は前記話題語と関連性を有する文書集合の役割をなすものであることであることを示すラベルを付与するラベル付けステップと、前記話題語の役割をなすものとしてラベル付けされた頂点ノードを示す文書ノード、前記話題語と関連性を有する文書集合の役割をなすものとしてラベル付けされた山状ノード群を示す文書ノード群を可視化して出力する情報出力ステップと、を有する。 The invention described in claim 2 is a computer-executed document set analysis method for specifying a role of a document based on a relationship between documents in a document set managed by the document data management means, the input means A document set specifying step for specifying the document set based on a document set specifying condition input from the above, a similarity evaluation step for evaluating a similarity level related to a topic word between the documents included in the specified document set, A relationship extracting step for extracting a relationship between documents based on the similarity evaluated by the similarity evaluating unit; and a document and a document other than the document based on the relationship between documents extracted by the relationship extracting unit. as an indicator of relevance in height between the document and the center judgment step of calculating the center of the document, and the association between the document obtained by the relation extracting means, each sentence Based on the centrality of the document, the relationship between documents is expressed in two-dimensional coordinates, the centrality is expressed in the third dimension of the two-dimensional coordinates, and the document set is expressed in a three-dimensional graph structure. A structure construction step, a vertex node extraction step for extracting, as a vertex node, a document node having a maximum centrality score in the document set in the obtained graph structure, the extracted vertex node, A mountain that identifies a group of document nodes that is connected to a vertex node and has one or more document nodes that have a centrality score lower than the centrality score of the vertex node and that is not minimal. and Jo nodes specifying step, the node with respect to the extracted vertices node confers a label that indicates that those forming the role of topical words of the document set Both labeled step of applying a label which indicates that said corresponding node group versus specified mountain-like nodes is that those forming the role of a set of documents having a relevance to the topic words, the Visualizing a document node indicating a vertex node labeled as a topic word, and a document node indicating a mountain node labeled as a document set having a relationship with the topic word And an information output step for outputting.
請求項3記載の発明は、文書集合分析プログラムであって、請求項2に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする。 The invention described in claim 3 is a document set analysis program, wherein the document set analysis method according to claim 2 is described as a computer program executable by a computer.
請求項4記載の発明は、記録媒体であって、請求項2に記載の文書集合分析方法を、コンピュータで実行可能なコンピュータプログラムとして記述し、そのコンピュータプログラムを記録したことを特徴とする。 The invention described in claim 4 is a recording medium, wherein the document set analysis method described in claim 2 is described as a computer program executable by a computer, and the computer program is recorded.
前記請求項1,2の発明によれば、中心性に基づく文書間の関連性を取得できる。 According to the first and second aspects of the present invention, the relationship between documents based on centrality can be acquired.
また、前記請求項1,2の発明によれば、文書間の関係に基づくグラフ構造を取得できる。 Further, according to claim 1, 2 of the invention, can obtain a graph structure based on the relationship between documents.
前記請求項3の発明によれば、請求項2に記載の文書集合分析方法をコンピュータプログラムとして記載できる。 According to the invention of claim 3 , the document set analysis method of claim 2 can be described as a computer program.
前記請求項4の発明によれば、請求項2に記載の文書集合分析方法を実装したコンピュータプログラムを記録媒体に記録できる。 According to the fourth aspect of the present invention, a computer program that implements the document set analysis method according to the second aspect can be recorded on a recording medium.
以上示したように請求項1,2の発明によれば、文書の関連性に基づいて、その文書の役割を明確に分析できる。 As described above, according to the inventions of claims 1 and 2 , the role of the document can be clearly analyzed based on the relevance of the document.
また、請求項1,2の発明によれば、強い繋がりを有する文書集合のみを特定できる。 Further, according to the first and second aspects of the invention, only a document set having a strong connection can be specified.
請求項3の発明によれば、請求項2に記載の文書集合分析方法を実装したコンピュータプログラムを提供できる。 According to the invention of claim 3 , it is possible to provide a computer program in which the document set analysis method according to claim 2 is implemented.
請求項4の発明によれば、請求項2に記載の文書集合分析方法を実装したコンピュータプログラムを記録した記録媒体を提供できる。 According to invention of Claim 4 , the recording medium which recorded the computer program which mounted the document set analysis method of Claim 2 can be provided.
これを以ってデータマイニング技術分野に貢献できる。 This can contribute to the data mining technology field.
以下、本発明の実施形態を図面等に基づいて詳細に説明する。本実施形態における文書集合分析装置は、検索したニュース記事の中に存在する話題(即ち、話題語)を特定し、その特定した話題に関連する文書をクラスタ化し、さらに、そのクラスタ中の文書に対してそれぞれの文書の位置付けを明らかにする文書分析を行う装置である。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The document set analysis apparatus according to the present embodiment identifies topics (that is, topic words) existing in the searched news articles, clusters the documents related to the identified topics, and further converts the documents in the clusters into It is a device that performs document analysis to clarify the position of each document.
本実施形態における文書集合分析装置の構成を図1に基づいて説明する。 The configuration of the document set analysis apparatus in this embodiment will be described with reference to FIG.
文書集合分析装置は、文書集合特定部10,類似性評価部20,関係抽出部30,中心性判定部40,情報分析部50,情報出力部60,文書データ管理手段(例えば、文書DB(Database))70から構成される。さらに、情報分析部50は、グラフ構造構築部51,頂点ノード抽出部52,山状ノード群特定部53,ラベル付け部54から構成される。
The document set analysis apparatus includes a document
文書集合特定部10は、文書集合を特定する文書集合特定条件を含む指定や要求(例えば、ユーザからの指定や要求)、もしくは、あらかじめ決められた文書集合特定条件に基づいて文書データ管理手段70にアクセスし、複数文書で構成される文書集合を特定する。なお、文書集合特定条件は、予め備えられた入力手段(例えば、キーボード装置)によって、入力されても良い。
The document set specifying
類似性評価部20は、話題(あるいは、話題語)に関して文書集合内の各文書間の類似度を評価する。例えば、文書間の類似度は、各文書を単語ベクトルで評価しコサイン類似度を利用する方法(例えば、非特許文献1参照)や、一方の文書に基づいて言語モデルを構築し、他方の文書がその言語モデルからどの程度の確率で生成されるかという言語モデルに基づく評価を行う方法が考えられる。
The
関係抽出部30は、前記類似性評価部20で評価した文書間の類似度に基づいて、文書間に関係があるか否かの関係性を特定する。例えば、文書間の関係を行列Aと表現した場合、以下の式のように定義することが考えられる。
The
ここで、TopSimp(i)は文書iとの類似度が高い文書p件に含まれる文書の集合を示す。一般に全ての類似度を利用した場合には、低い類似度がノイズとなる傾向があるため、類似度が高い文書間に対してのみリンクを設定している。sim(i,j)は、文書をlog tf−idf重み(例えば、非特許文献4)による単語ベクトルとして表現した場合の文書iと文書jのコサイン類似度を示している。なお、log tf−idf重みは、個々の文書をベクトルで表現するときの個々の要素の重みである。 Here, TopSim p (i) indicates a set of documents included in p documents having high similarity to the document i. In general, when all the similarities are used, since a low similarity tends to be noise, a link is set only between documents having a high similarity. Sim (i, j) indicates the cosine similarity between the document i and the document j when the document is expressed as a word vector with log tf-idf weight (for example, Non-Patent Document 4). The log tf-idf weight is a weight of each element when each document is expressed by a vector.
さらに、上記のように全ての類似度を利用した場合には、他のリンクと比較して明らかに重みが小さいリンクが存在している。そこで、アウトリンクのうちごく少ない確率でしか遷移しないリンクを除去する事が考えられる。この操作は以下の式で示される。 Furthermore, when all the similarities are used as described above, there is a link having a clearly smaller weight than other links. Therefore, it is conceivable to remove a link that transitions with a very low probability among outlinks. This operation is shown by the following equation.
ここで、li,qはノードiからのアウトリンクを遷移確率の降順に並べ、閾値qを越えるまで加算した遷移確率の合計値を示す。TopLinkq(i)は、加算対象になったリンクのリンク先ノードの集合を示す。 Here, l i, q represents the total value of the transition probabilities obtained by arranging the outlinks from the node i in descending order of the transition probabilities and adding until the threshold q is exceeded. TopLink q (i) indicates a set of link destination nodes of links to be added.
中心性判定部40は、関係抽出部30で得られた文書間の関係を、文書をノードと見做して文書間の関係を重み(即ち、文書間の類似度)つきのエッジとするグラフ構造と見做し、各ノード(文書)の中心性を算出する。なお、前述の中心性は、単純なリンク本数を計算する方法やPageRank(非特許文献2参照)等を利用することが考えられる。
The
グラフ構造構築部51は、中心性判定部40で得られる、各文書間の関係と、各文書の中心性のスコアに基づいて、文書間の関係を示すグラフ構造を二次元平面(例えば、xy平面)上に配置し、個々の文書の中心性のスコアを三次元目(例えば、z軸)に割り当てた三次元のグラフ構造を構築する。図2は、この三次元のグラフ構造の概念図である。なお、この図2に関しては、後で説明する。
The graph
頂点ノード抽出部52は、グラフ構造構築部51で構築されたグラフ構造から、ノードとノードを繋ぐ辺(即ち、エッジ)で連結している自身以外のノード(文書と一対一で対応)より高い中心性を持つノードを頂点として抽出する。
The vertex
山状ノード群特定部53は、頂点ノード抽出部52で抽出された頂点ノードから、中心性が低くなる方向にグラフ構造をたどり、ノードで構成される山を特定する。即ち、山状ノード群特定部53までの処理によって、文書がクラスタ化されることになる。
The mountain-shaped node
ラベル付け部54は、頂点ノード抽出部52で抽出した頂点ノード,山状ノード群特定部53で特定した頂点を中心とする山状のノード群,それらの間の関係に対して、ラベル付けを行う。
The
ここで、グラフ構造と中心性について説明する。中心性スコアの定義によれば、多くのエッジが存在するエリアのノードは高いスコアを有する。グラフ構造に基づき、ある人がノードを渡り歩くモデル(ユーザがグラフに沿ってノードを閲覧するモデル)を考えた場合、そのような中心性の高いエリアでは、エリア内での遷移が多く、ノード間の関連性も高い。つまり、そのエリアは同じ話題に関連するノードで構成される。したがって、図2のそれぞれの山は、それぞれ異なる話題に対応すると考えられる。 Here, the graph structure and centrality will be described. According to the definition of centrality score, nodes in areas where there are many edges have a high score. Based on the graph structure, when a model in which a person walks across nodes (a model in which a user browses nodes along a graph) is considered, in such an area with high centrality, there are many transitions within the area, and between nodes Is also highly relevant. That is, the area is composed of nodes related to the same topic. Therefore, each mountain in FIG. 2 is considered to correspond to a different topic.
また、図2中の山に含まれるノードの位置に応じて、文書にはそれぞれ特徴があると考えられる。以下では、それぞれのノードに該当する文書の特徴を説明する。さらに、それぞれの特徴を持つノード毎に、文書集合における役割の特定方法を説明する。 Further, it is considered that each document has a characteristic depending on the position of the node included in the mountain in FIG. In the following, the characteristics of a document corresponding to each node will be described. Further, a method for identifying a role in a document set will be described for each node having each characteristic.
図2における最初の段階のノードは、山の頂上にあるノード(例えば、符号a1やb1で示されるノードに該当)であり、1つの山には1つのノードが存在するのみである。これらのノードは、周囲のノードから最も高い状態遷移があるノードであり、周囲のノードと最もよく関係するノードであるため、話題を最もよく表現する文書であると言える。つまり、頂点ノードが示す文書は、そのエリアの話題を特定する。以後、このエリアの話題を特定する文書(ノード)のラベルをコア文書(または、コアノード)とする。 The node in the first stage in FIG. 2 is a node at the top of the mountain (for example, corresponding to a node indicated by reference signs a1 and b1), and only one node exists in one mountain. Since these nodes are nodes having the highest state transition from the surrounding nodes and are the nodes most closely related to the surrounding nodes, it can be said that these nodes are documents that best express the topic. That is, the document indicated by the vertex node specifies the topic of the area. Hereinafter, the label of the document (node) that identifies the topic in this area is set as the core document (or core node).
第2段階目のノードは、頂点と近接したノード(例えば、図2中の符号a2,a3,a4やb2,b3で示されるノード)である。これらのノードはコアノードから直接もしくは間接的に双方向リンクのみをたどって到達できるノードである。双方向リンクは、相互にリンクが張られており、高い関連性を示す。これらのノードはコアノードとの間で多くの状態遷移があり、文書の内容もコア文書との高い関連性を有する。以後、このコア文書との高い関連性を有する文書(ノード)のラベルをサプリメンタル文書(または、サプリメンタルノード)とする。 Nodes in the second stage are nodes close to the vertex (for example, nodes indicated by symbols a2, a3, a4 and b2, b3 in FIG. 2). These nodes are nodes that can be reached from a core node directly or indirectly by following only a bidirectional link. Bidirectional links are linked to each other and show high relevance. These nodes have many state transitions with the core node, and the content of the document is also highly related to the core document. Hereinafter, a label of a document (node) having a high relationship with the core document is referred to as a supplemental document (or supplemental node).
第3段階目のノードは、例えば、図2中の符号a5,a6,a7,b4で示されるノードのように、コアノードもしくはサプリメンタルノードにリンクしているノードである。外部のノードへの状態遷移や自己遷移と比べて、特定の話題のコアノードやサプリメンタルノードへの遷移確率が高いノードである。これらのノード必ずしも話題の中心ではないが話題に関連する情報を含んでおり、話題の周辺の情報等ノベルティの高い情報を含む事が多いノードである。以後、この話題の周辺の情報等ノベルティの高い情報を含む事が多い文書(ノード)のラベルをサブトピック文書(またはサブトピックノード)とする。 The node at the third stage is a node linked to a core node or a supplemental node, such as nodes indicated by reference symbols a5, a6, a7, and b4 in FIG. It is a node that has a higher probability of transition to a core node or supplemental node of a specific topic than state transition to an external node or self-transition. These nodes are not necessarily the center of the topic, but include information related to the topic, and are often nodes that contain highly novel information such as information around the topic. Hereinafter, a label of a document (node) that often includes highly novel information such as information around the topic is referred to as a subtopic document (or subtopic node).
最終段階目のノードは、どの話題のノードに対しても強い関連性がないノードである。例えば、図2中の符号c1で示されるノードである。このノードは、他に似ているノードが少なく、自己遷移確率が高い。以後、この他に似ているノードが少なく、自己遷移確率が高い文書(ノード)のラベルをアウトライヤー文書(アウトライヤーノード)とする。このアウトライヤー文書の存在を許容することによって、その他文書が無理にいづれかのクラスタに属しノイズの原因となることを防ぐことになる。 The node at the final stage is a node that does not have a strong relationship with any topic node. For example, it is a node indicated by reference numeral c1 in FIG. This node has few similar nodes and high self-transition probability. Hereinafter, a label of a document (node) having few similar nodes and a high self-transition probability is referred to as an outlier document (outlier node). By allowing the outlier document to exist, it is possible to prevent other documents from forcibly belonging to any cluster and causing noise.
以上のような方法に基づいて、それぞれのノードに対し以下のようにラベル付けを行う。 Based on the above method, each node is labeled as follows.
まず、各ノードに対しては、各ノードがどのような話題に関連する文書なのか、その話題を表現する場合にどの程度の役割を持つ文書であるのか、という情報をラベル(即ち、コアノード)として付与する。 First, for each node, information indicating what topic each node is related to and the role of the document when expressing the topic is labeled (ie, core node). As given.
次に、山状のノード群に対しては、頂点ノードが表現する話題に関連する文書のクラスタとしてのラベル(即ち、サプリメンタルノード)を付与する。 Next, a label (that is, a supplemental node) as a cluster of documents related to the topic expressed by the vertex node is assigned to the mountain-shaped node group.
そして、山状ノード群の組合せについては、それらの連結状態から、二つの山が表現する話題の関連性の高さに付いてラベル付け(即ち、サブトピックノードまたはアウトライヤーノード)を行う。 Then, the combinations of mountain nodes are labeled (ie, subtopic nodes or outlier nodes) based on their connected state, with high relevance of topics expressed by the two mountains.
情報出力部60は、情報分析部50によって得られた、ノード間の関係,個々のノードの中心性及び文書集合中での役割を利用して、ユーザに対して文書集合の内容を表示(可視化)する。可視化は、例えば、ディスプレイ装置で行う。
The
三次元イメージを利用した可視化(例えば、3D(Dimension)マップ)の一例として、図3が挙げられる。図3は、新聞記事に対して、「地震」という検索キーワード(即ち、話題語)を利用して得られた検索結果の文書集合を可視化したものである。図3中の符号CNで示されるノードがコアノードである。 FIG. 3 is an example of visualization using a three-dimensional image (for example, a 3D (Dimension) map). FIG. 3 is a visualization of a document set of search results obtained using a search keyword (ie, topic word) “earthquake” for newspaper articles. A node indicated by a symbol CN in FIG. 3 is a core node.
この図3では、山状の部分が見られるが、個々の山が個々の話題を示しており、個々の山に属するノードに該当する文書がそれぞれの話題に関する文書群である。 In FIG. 3, mountain-shaped portions are seen, but each mountain indicates an individual topic, and documents corresponding to nodes belonging to each mountain are a document group related to each topic.
また、図4には図3の一部を拡大したイメージを示す。この拡大イメージ上では、二つの山がサプリメンタルノード(例えば、符号SNで示されるノード)によって連結している事がわかる。これは、二つの山の関連性が高いことを示している。実際に、この二つの山は、日本で発生した地震について触れており、提案手法により、話題間の関連性を発見する事が可能であることも示している。 FIG. 4 shows an enlarged image of a part of FIG. On this enlarged image, it can be seen that the two peaks are connected by a supplemental node (for example, a node indicated by the symbol SN). This indicates that the two mountains are highly related. In fact, these two mountains touch on earthquakes that occurred in Japan, and show that it is possible to discover the relationship between topics using the proposed method.
例えば、図4中の一つの山状の構造は、一つの話題「阪神大震災」や「関東大震災」を表している。その山の中で中心的な部分は、実際に発生したイベントの主要な内容(例えば、地震が発生したこと)、それ以外では、主要な話題に付随する情報(例えば、地震後の火事、復興支援のニュースなど)に該当するノードである。 For example, one mountain-shaped structure in FIG. 4 represents one topic “the Great Hanshin Earthquake” or “the Great Kanto Earthquake”. The central part of the mountain is the main content of the event that actually occurred (for example, the occurrence of an earthquake), otherwise the information that accompanies the main topic (for example, post-earthquake fires, reconstruction) Node corresponding to support news).
文書データ管理手段70は、ユーザが指定した検索キーワードや文書の最終更新日等の条件に応じて文書集合を特定できる検索機能を持った文書データ格納装置(例えば、ハードディスク装置やメモリを含む装置)である。この文書データ管理手段70は、web等からあらかじめ情報を収集してきて構築する事が考えられる。また、web上に存在する検索エンジン(非特許文献3参照)をそのまま文書データ管理手段70として利用することも考えられる。 The document data management means 70 is a document data storage device (for example, a device including a hard disk device or a memory) having a search function that can specify a document set in accordance with conditions such as a search keyword designated by a user and a document last update date. It is. The document data management means 70 may be constructed by collecting information in advance from a web or the like. It is also conceivable to use a search engine (see Non-Patent Document 3) existing on the web as the document data management means 70 as it is.
本実施形態における文書集合分析方法を図5に基づいて説明する。 A document set analysis method according to this embodiment will be described with reference to FIG.
まず、ユーザから指定、もしくは、予め決められた文書集合特定条件を入力手段から読み込む(S101)。なお、入力手段は、例えば、キーボード装置などが想定できる。 First, a document set specifying condition designated by the user or predetermined is read from the input means (S101). The input means can be assumed to be a keyboard device, for example.
次に、文書集合特定部10が、前記文書集合特定条件に合致した文書の集合を特定する(S102)。
Next, the document set specifying
次に、類似性評価部20が、文書集合特定部10で特定した文書群中の各文書ペア間の類似度を算出する(S103)。
Next, the
次に、関係抽出部30は、算出された類似度に基づいて関連性の強いペアを抽出し、重み付きで関連性を特定する(S104)。
Next, the
次に、中心性判定部40は、類似性評価部20及び関係抽出部30によって特定された情報に基づいて、指標(例えば、PageRankなど)を作成し、各ノードの中心性を特定する(S105)。
Next, the
次に、グラフ構造構築部51は、類似性評価部20,関係抽出部30,中心性判定部40から得られた情報に基づいて、三次元空間状にノード(文書と一対一対応)を配置したグラフ構造を構築する(S106)。
Next, the graph
次に、頂点ノード抽出部52は、グラフ構造構築部51で得られたグラフ構造に基づいて、頂点ノードを抽出する(S107)。
Next, the vertex
次に、山状ノード群特定部53は、グラフ構造構築部51で得られたグラフ構造と頂点ノード抽出部52で得られた頂点から山状のノード群を抽出する(S108)。
Next, the mountain-shaped node
次に、ラベル付け部54は、グラフ構造構築部51,頂点ノード抽出部52,山状ノード群特定部53で得られた情報に基づいてノード,山状のノード群,ノード群の関係に対してラベル付けを行う(S109)。
Next, the
そして、ラベル付けされたノード,山状のノード群,ノード群の関係をリストや3Dマップとして可視化する(S110)。 Then, the node labeled, mountain-like nodes, to visualize the relationship between the nodes as a list or a 3D map (S110).
以上のように、本実施形態によれば、文書集合特定条件によって与えられる文書集合から、各文書間の類似度を特定し、その類似度に基づいて文書間に強い繋がりを有する部分を重み付きで特定し、この情報に基づいて文書間の繋がりをグラフ構造に見立てて各文書の中心性を算出し、以上で得た文書間の関係と各文書の中心性の値から文書群を三次元に配置されるグラフ構造と見立てて、その位置関係から各文書の位置付けを特定することによって、文書集合中に含まれる「主要な話題の特定」、「話題に関連する文書の特定」、「各話題に関連する文書のうち、各文書の役割」、「話題間の関係」等を取得できる。 As described above, according to the present embodiment, the degree of similarity between documents is specified from the document set given by the document set specifying condition, and a portion having strong connection between documents is weighted based on the degree of similarity. Based on this information, the centrality of each document is calculated based on the relationship between the documents in the form of a graph structure, and the document group is three-dimensionally calculated from the relationship between the documents obtained above and the centrality value of each document. By identifying the position of each document from its positional relationship, the “main topic” specification, “topic related document specification”, “ Among the documents related to the topic, the “role of each document”, “relation between topics”, and the like can be acquired.
さらに詳述すると、本実施形態では、ユーザからの要求に基づき特定した文書集合を元に、各文書間の相互の類似度を評価し、類似度に基づき文書間の関連性を特定する。この関連性に基づき、各文書の中心性を評価する。この文書間の関連性と、個々の文書の中心性をともに用いる事で、文書集合中の特定の話題の検出や、特定の話題に属する文書のクラスタ化、クラスタ内の各文書の位置付けの明確化を実現する。 More specifically, in this embodiment, the mutual similarity between documents is evaluated based on a document set specified based on a request from a user, and the relationship between documents is specified based on the similarity. Based on this relationship, the centrality of each document is evaluated. By using both the relationship between documents and the centrality of individual documents, it is possible to detect specific topics in a document set, cluster documents belonging to a specific topic, and clarify the positioning of each document in the cluster. Realize.
また、文書間の関連性と各文書の中心性の値に基づき、文書集合を三次元のグラフ構造と見做し、その中の頂点や、山状のノード群を特定することで、文書集合中の特定の話題の検出や、特定の話題に属する文書のクラスタ化、クラスタ内の各文書の位置付けの明確化を実現する。 Also, based on the relationship between documents and the centrality value of each document, the document set is regarded as a three-dimensional graph structure, and by specifying the vertex and mountain-shaped node group, the document set It is possible to detect a specific topic, cluster a document belonging to a specific topic, and clarify the position of each document in the cluster.
なお、本実施形態の文書集合分析装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文書集合分析方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)、DVD(Digital Versatile Disk)、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。 Note that the present invention can be realized by configuring some or all of the functions of each means in the document set analysis apparatus of the present embodiment with a computer program and executing the program using the computer. It is needless to say that the procedure in the document set analysis method of the above can be configured by a computer program and the program can be executed by the computer. For example, FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk), DVD (Digital Versatile D) sk), and recorded in a removable disk, or stored, it is possible or distribute. It is also possible to provide the above program through a network such as the Internet or electronic mail.
さらに、上述の文書集合分析装置に関する方法を記述したコンピュータプログラムを、文書集合分析装置に関する方法に必要とされる入出力データを格納したメモリや外部記憶装置等にアクセスするように実装してもよい。 Further, a computer program describing a method related to the document set analysis apparatus described above may be implemented to access a memory or an external storage device that stores input / output data required for the method related to the document set analysis apparatus. .
以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限定されるものでなく、各請求項に記載した範囲において各種の変形を行うことが可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the described embodiments, and various modifications can be made within the scope described in each claim.
例えば、本実施形態における情報分析部は、グラフ構造構築部からラベル付け部のような手段で構成されているが、これらの手段に限らず、文書群と文書間の関連をグラフ構造と見做す他の処理手段も考えられる。より具体的には、ラベル付け部において、ラベル付けを更に細かく(例えば、5段階以上)して役割の特定を行っても良い。 For example, the information analysis unit in the present embodiment is configured by means such as a graph structure construction unit to a labeling unit. However, the information analysis unit is not limited to these units, and a relation between a document group and a document is regarded as a graph structure. Other processing means are also conceivable. More specifically, the labeling unit may specify the role by further finely labeling (for example, five or more levels).
10…文書集合特定部
20…類似性評価部
30…関係抽出部
40…中心性判定部
50…情報分析部
51…グラフ構造構築部
52…頂点ノード抽出部
53…山状ノード群特定部
54…ラベル付け部
60…情報出力部
70…文書データ管理手段
a1,a2,a3,a4,a5,a6,a7,a8,b1,b2,b3,b4,c1…ノード
CN,CN1,CN2…コアノード
SN…サプリメンタルノード
DESCRIPTION OF
Claims (4)
入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定手段と、
前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価手段と、
前記類似性評価手段によって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出手段と、
前記関係抽出手段によって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定手段と、
前記関係抽出手段によって得られた文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築手段と、
前記得られたグラフ構造において前記文書集合のうち中心性のスコアが極大となっている文書ノードを頂点ノードとして抽出する頂点ノード抽出手段と、
前記抽出された頂点ノードと、当該頂点ノードと連結されていると共に中心性のスコアが当該頂点ノードの中心性のスコアよりも低く且つ極小でない一つ以上の文書ノードとで構成される文書ノード群を山状ノード群と特定する山状ノード群特定手段と、
前記抽出された頂点ノードに対して当該ノードは前記文書集合の話題語の役割をなすものであることを示すラベルを付与すると共に、前記特定された山状ノード群に対して当該ノード群は前記話題語と関連性を有する文書集合の役割をなすものであることであることを示すラベルを付与するラベル付け手段と、
前記話題語の役割をなすものとしてラベル付けされた頂点ノードを示す文書ノード、前記話題語と関連性を有する文書集合の役割をなすものとしてラベル付けされた山状ノード群を示す文書ノード群を可視化して出力する情報出力手段と、
を備えることを特徴とする文書集合分析装置。 A document set analysis device that identifies a role of a document based on a relationship between documents in a document set managed by a document data management means,
Document set specifying means for specifying the document set based on the document set specifying condition input from the input means;
Similarity evaluation means for evaluating the degree of similarity related to topic words between the documents included in the specified document set;
A relationship extracting unit that extracts a relationship between documents based on the similarity evaluated by the similarity evaluating unit;
Based on the relationship between the documents extracted by the relationship extraction unit, the centrality determination unit that calculates the centrality of the document as an index indicating the high degree of relationship between the document and a document other than the document;
Based on the relation between documents obtained by the relation extracting means and the centrality of each document, the relation between documents is expressed by two-dimensional coordinates, and the centrality is expressed by the third-dimensional coordinates relative to the two-dimensional coordinates. And a graph structure construction means for representing the document set with a three-dimensional graph structure;
Vertex node extracting means for extracting, as a vertex node, a document node having a maximal centrality score in the document set in the obtained graph structure;
A document node group composed of the extracted vertex node and one or more document nodes connected to the vertex node and having a centrality score lower than the centrality score of the vertex node and not minimal and mountain-like nodes specifying means for specifying a mountain-shaped nodes a,
A label indicating that the node serves as a topic word of the document set is given to the extracted vertex node , and the node group is added to the identified mountain node group. Labeling means for assigning a label indicating that the document is a set of documents having relevance to a topic word ;
A document node indicating a vertex node labeled as the topic word, and a document node group indicating a mountain node group labeled as a document set having a relationship with the topic word Information output means for visualizing and outputting;
A document set analyzing apparatus comprising:
入力手段から入力された文書集合特定条件に基づいて前記文書集合を特定する文書集合特定ステップと、
前記特定された文書集合に含まれる各文書間で話題語に関する類似度を評価する類似性評価ステップと、
前記類似性評価手段によって評価された類似度に基づいて、文書間の関係性を抽出する関係抽出ステップと、
前記関係抽出手段によって抽出された文書間の関係性に基づき、文書と該文書以外の文書間の関連性の高さを示す指標として、該文書の中心性を算出する中心性判定ステップと、
前記関係抽出手段によって得られた文書間の関連性と、各文書の中心性に基づいて、文書間の関連性を二次元座標で表現し、その二次元座標に対する三次元目の座標で中心性を表現し、前記文書集合を三次元のグラフ構造で表現するグラフ構造構築ステップと、
前記得られたグラフ構造において前記文書集合のうち中心性のスコアが極大となっている文書ノードを頂点ノードとして抽出する頂点ノード抽出ステップと、
前記抽出された頂点ノードと、当該頂点ノードと連結されていると共に中心性のスコアが当該頂点ノードの中心性のスコアよりも低く且つ極小でない一つ以上の文書ノードとで構成される文書ノード群を山状ノード群と特定する山状ノード群特定ステップと、
前記抽出された頂点ノードに対して当該ノードは前記文書集合の話題語の役割をなすものであることを示すラベルを付与すると共に、前記特定された山状ノード群に対して当該ノード群は前記話題語と関連性を有する文書集合の役割をなすものであることであることを示すラベルを付与するラベル付けステップと、
前記話題語の役割をなすものとしてラベル付けされた頂点ノードを示す文書ノード、前記話題語と関連性を有する文書集合の役割をなすものとしてラベル付けされた山状ノード群を示す文書ノード群を可視化して出力する情報出力ステップと、
を有することを特徴とする文書集合分析方法。 A computer-executed document set analysis method for identifying a role of a document based on a relationship between documents in a document set managed by a document data management means,
A document set specifying step for specifying the document set based on the document set specifying condition input from the input means;
A similarity evaluation step for evaluating a similarity level related to a topic word between the documents included in the specified document set;
A relationship extracting step of extracting a relationship between documents based on the similarity evaluated by the similarity evaluation means;
A centrality determination step of calculating the centrality of the document as an index indicating the high degree of relationship between the document and a document other than the document based on the relationship between the documents extracted by the relationship extraction unit;
Based on the relation between documents obtained by the relation extracting means and the centrality of each document, the relation between documents is expressed by two-dimensional coordinates, and the centrality is expressed by the third-dimensional coordinates relative to the two-dimensional coordinates. And a graph structure construction step for expressing the document set with a three-dimensional graph structure;
A vertex node extracting step of extracting, as a vertex node, a document node having a maximum centrality score in the document set in the obtained graph structure;
A document node group composed of the extracted vertex node and one or more document nodes connected to the vertex node and having a centrality score lower than the centrality score of the vertex node and not minimal and mountain-like nodes specifying step of specifying a mountain-shaped nodes a,
A label indicating that the node serves as a topic word of the document set is given to the extracted vertex node , and the node group is added to the identified mountain node group. A labeling step for providing a label indicating that the document is a set of documents having relevance to a topic word ;
A document node indicating a vertex node labeled as the topic word, and a document node group indicating a mountain node group labeled as a document set having a relationship with the topic word An information output step for visualizing and outputting;
A document set analysis method characterized by comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006237663A JP4769151B2 (en) | 2006-09-01 | 2006-09-01 | Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006237663A JP4769151B2 (en) | 2006-09-01 | 2006-09-01 | Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008059442A JP2008059442A (en) | 2008-03-13 |
| JP4769151B2 true JP4769151B2 (en) | 2011-09-07 |
Family
ID=39242070
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006237663A Expired - Fee Related JP4769151B2 (en) | 2006-09-01 | 2006-09-01 | Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4769151B2 (en) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5099842B2 (en) * | 2008-05-28 | 2012-12-19 | 日本電信電話株式会社 | Network visualization device, network visualization method, program, and recording medium |
| JP5309780B2 (en) * | 2008-08-13 | 2013-10-09 | 富士ゼロックス株式会社 | Display information generating apparatus and program |
| US8560485B2 (en) * | 2009-02-26 | 2013-10-15 | Fujitsu Limited | Generating a domain corpus and a dictionary for an automated ontology |
| JP2011003156A (en) * | 2009-06-22 | 2011-01-06 | Nec Corp | Data classification device, data classification method, and data classification program |
| US9529935B2 (en) * | 2014-02-26 | 2016-12-27 | Palo Alto Research Center Incorporated | Efficient link management for graph clustering |
| JP6145064B2 (en) * | 2014-03-06 | 2017-06-07 | 日本電信電話株式会社 | Document set analysis device, document set analysis method, document set analysis program |
| JP2018055310A (en) * | 2016-09-28 | 2018-04-05 | トヨタテクニカルディベロップメント株式会社 | Information processing apparatus, document classification method, and document classification program |
| EP3882786A4 (en) * | 2019-05-17 | 2022-03-23 | Aixs, Inc. | Cluster analysis method, cluster analysis system, and cluster analysis program |
| JP7656921B2 (en) * | 2019-05-17 | 2025-04-04 | 株式会社アイエクセス | Cluster analysis method, cluster analysis system, and cluster analysis program |
| US11663274B2 (en) * | 2020-02-11 | 2023-05-30 | Copyright Clearance Center, Inc. | Reference-based document ranking system |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1153387A (en) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | Document association method and system |
| JP2002230012A (en) * | 2000-12-01 | 2002-08-16 | Sumitomo Electric Ind Ltd | Document clustering device |
| JP4116329B2 (en) * | 2002-05-27 | 2008-07-09 | 株式会社日立製作所 | Document information display system, document information display method, and document search method |
-
2006
- 2006-09-01 JP JP2006237663A patent/JP4769151B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2008059442A (en) | 2008-03-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Nunez‐Mir et al. | Automated content analysis: addressing the big literature challenge in ecology and evolution | |
| US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
| Chakrabarti et al. | A graph-theoretic approach to webpage segmentation | |
| Di Giacomo et al. | Graph visualization techniques for web clustering engines | |
| Sanoja et al. | Block-o-matic: A web page segmentation framework | |
| Bisandu et al. | Clustering news articles using efficient similarity measure and N-grams | |
| US20070098266A1 (en) | Cascading cluster collages: visualization of image search results on small displays | |
| KR100859918B1 (en) | Method and apparatus for evaluating searched contents using user feedback and providing search results using evaluation results | |
| JP2008210024A (en) | Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program | |
| US20140229476A1 (en) | System for Information Discovery & Organization | |
| Fujimura et al. | Topigraphy: visualization for large-scale tag clouds | |
| JP2005526317A (en) | Method and system for automatically searching a concept hierarchy from a document corpus | |
| WO2014120851A2 (en) | Method and system for visualizing documents | |
| US20090327259A1 (en) | Automatic concept clustering | |
| Joshi et al. | Web document text and images extraction using DOM analysis and natural language processing | |
| JP4769151B2 (en) | Document set analysis apparatus, document set analysis method, program implementing the method, and recording medium storing the program | |
| CN106489142A (en) | The visualization of publication scope and analysis | |
| KR101543680B1 (en) | Entity searching and opinion mining system of hybrid-based using internet and method thereof | |
| Chuang et al. | Automatic query taxonomy generation for information retrieval applications | |
| JP2004240887A (en) | Search information display system, search keyword information display method, and search keyword information display program | |
| Feng et al. | Web page segmentation and its application for web information crawling | |
| Cheng et al. | Context-based page unit recommendation for web-based sensemaking tasks | |
| JP4134975B2 (en) | Topic document presentation method, apparatus, and program | |
| Tohalino et al. | Using citation networks to evaluate the impact of text length on keyword extraction | |
| Rana et al. | Analysis of web mining technology and their impact on semantic web |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080908 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090609 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100520 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110117 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110617 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4769151 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |