JP4592566B2 - Topic extraction method and apparatus, program, and computer-readable recording medium - Google Patents
Topic extraction method and apparatus, program, and computer-readable recording medium Download PDFInfo
- Publication number
- JP4592566B2 JP4592566B2 JP2005329268A JP2005329268A JP4592566B2 JP 4592566 B2 JP4592566 B2 JP 4592566B2 JP 2005329268 A JP2005329268 A JP 2005329268A JP 2005329268 A JP2005329268 A JP 2005329268A JP 4592566 B2 JP4592566 B2 JP 4592566B2
- Authority
- JP
- Japan
- Prior art keywords
- relevance
- phrase
- topic
- source
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、話題抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、一つまたは複数の情報発信源から新しい情報を含む文書を次々と入手し得る状況において、各文書において話題として扱われている特徴的な語句を抽出するための話題抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to a topic extraction method and apparatus, a program, and a computer-readable recording medium, and in particular, in a situation where documents containing new information can be obtained one after another from one or a plurality of information sources. The present invention relates to a topic extraction method and apparatus, a program, and a computer-readable recording medium for extracting a characteristic word that is treated as a phrase.
インターネットをはじめとした情報メディアの発達により、誰であっても容易に情報発信を行えるようになり、様々な発信者から日々文書が発信されるようになってきている。そのような中、現在までに作成された文書情報を分析することによって、各文書において話題となっている事項を抽出することが可能になると考えられる。 With the development of information media such as the Internet, anyone can easily send information, and documents are being sent from various senders every day. Under such circumstances, it is considered that it is possible to extract the topic that is a topic in each document by analyzing the document information created so far.
インターネット上にアップロードされている文書集合等の大量かつ多様な文書集合に対し、文書中の語句の分野的及び時間的な出現頻度を考慮して、文書中で話題として扱われている特徴語句を抽出する技術は複数提案されている。 For large and diverse document collections such as document collections uploaded on the Internet, feature words / phrases treated as topics in the document are considered in consideration of the field and temporal frequency of words / phrases in the document. Several techniques for extraction have been proposed.
従来技術として、ネットワークシステム上にアップロードされている文書をその作成時刻情報と共に取得し、当該文書の内容に応じて予め設定された複数の分野に自動的に分類し、各分野毎に時間に沿って出現頻度が特徴的に増加しており、なおかつ他分野で出現していないような語句に対して、話題を表す特徴語句として話題度合いを示す話題度の値を高く算出する技術がある(例えば、特許文献1参照)。
しかしながら、上記の従来の技術においては、予め人手で分類する分野の項目を設定するため、時間と共にネットワークにアップロードされる文書の傾向が変化し、新たな分野が発生する度に分野の項目を再度設定しなおす必要があった。 However, in the above-described conventional technique, since the field items to be manually classified are set in advance, the tendency of documents uploaded to the network changes with time, and the field items are re-read every time a new field is generated. It was necessary to set again.
また、設定された分野の項目に含まれない内容の文書については、正確な分野の分類がされず他分野の文書と共に処理されてしまうため、当該文書中で扱われている話題を表す語句が当該文書が分類された分野内で特徴的な出現頻度を示さず、高い話題度が算出されないという問題があった。 In addition, since documents with contents that are not included in the set field items are not accurately classified, they are processed together with documents in other fields. There is a problem that a high topic level is not calculated because the document does not show a characteristic appearance frequency in the field in which the document is classified.
本発明は、上記の点に鑑みなされたもので、処理対象となる文書で扱われている内容の分野の候補を人手で設定することなしに、文書の扱っている分野において話題となっている事柄を表す語句に対して高い話題度を算出することが可能な話題抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。 The present invention has been made in view of the above points, and has become a hot topic in the field handled by a document without manually setting candidates for the field of contents handled by the document to be processed. It is an object of the present invention to provide a topic extraction method and apparatus, a program, and a computer-readable recording medium capable of calculating a high topic level for a word representing a matter.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項1)は、多数の情報発信源によって作成された文書の集合を解析し、処理対象文書中に含まれる語句に対して話題性の強度を算出する話題度算出方法であって、
語句抽出手段が、文書を作成した発信源の情報を有する文書の集合が入力されると、該文書の集合を解析して、話題性評価の対象となる語句を当該文書中から切り出し、発信源情報を付与して語句データベースに記録する語句抽出ステップ(ステップ1)と、
発信源関連度算出手段が、発信源を単位として、発信源の文書から切り出した語句の出現回数を特徴量とする発信源特徴量リストを発信源特徴量バッファに蓄積し、1組の発信源iと発信源jとの類似度合いを示す関連度Rijを当該発信源の発信源特徴リストから算出し、関連度データベースに記録する発信源関連度算出ステップ(ステップ2)と、
話題度算出手段が、処理対象文書を入力として受け付け、当該処理対象文書の発信源iに基づく基準関連度分布と、処理対象文書に含まれる語句kそれぞれに対して得られる語句関連度分布とから、当該語句kの話題となっている度合いを算出する話題度算出ステップと、
を行い、
話題度算出ステップにおいて、
処理対象文書の発信源iとそれ以外の発信源jとの関連度Rijを関連度データベースから取得し、決められた数N個に分割された関連度の刻みごとに当該関連度の刻みに該当する関連度Rijを有する発信源jの数を集計した情報である基準関連度分布を求め、
語句データベースを参照して語句kを持つ発信源lを取得し、発信源iと当該発信源lとの関連度Rilを関連度データベースから取得し、関連度の刻みごとに当該関連度の刻みに該当する関連度Rilを有する発信源lの数を集計した情報である語句関連度分布を求め、
基準関連度分布と語句関連度分布とから、基準関連度分布と語句関連度分布を比較して、当該語句kの語句関連度分布が基準関連度分布よりも関連度の高い範囲に偏っている場合に、当該処理対象文書の発信源iに関連の高い文書で多く扱われる話題語であるとみなし、決められた関連度の刻みそれぞれにおいて、当該刻みにおける関連度nから基準関連度分布の重心における関連度の値n0を引いた値と、当該刻みにおける語句関連度分布の値から基準関連度分布の値を引いた値とを掛け合わせた値を求め、それらを足し合わせた値を当該語句kの話題となっている度合いとする。
The present invention (Claim 1) is a topic degree calculation method for analyzing a set of documents created by a large number of information transmission sources and calculating the strength of topicality for a word or phrase included in a processing target document. ,
When a set of documents having information on a transmission source that has created the document is input to the phrase extraction unit, the set of documents is analyzed, and a phrase that is subject to topicality evaluation is cut out from the document, and the transmission source A phrase extraction step (step 1) for adding information and recording it in the phrase database;
The transmission source relevance calculating means accumulates in the transmission source feature amount buffer a transmission source feature amount list having the number of appearances of a word and phrase extracted from the transmission source document in units of the transmission source as one set of transmission sources. a source source relevance calculating step (step 2) of calculating a relevance Rij indicating the degree of similarity between i and the source j from the source feature list of the source and recording it in the relevance database;
The topic level calculation means accepts the processing target document as an input, based on the reference relevance distribution based on the transmission source i of the processing target document and the phrase relevance distribution obtained for each of the phrases k included in the processing target document. , A topic degree calculating step for calculating the degree of topic of the word k,
And
In the topic level calculation step,
The degree of association Rij between the transmission source i of the document to be processed and the other transmission source j is obtained from the degree-of-association database and corresponds to the degree of the degree of relevance for each degree of relevance divided into a predetermined number N. A reference relevance distribution which is information obtained by aggregating the number of transmission sources j having relevance Rij
The transmission source l having the phrase k is obtained by referring to the phrase database, the relevance level Ril between the transmission source i and the transmission source l is acquired from the relevance degree database, and the relevance degree is incremented for each relevance degree step. The phrase relevance distribution, which is information obtained by counting the number of transmission sources 1 having the corresponding relevance Ril, is obtained.
Comparing the reference relevance distribution and the phrase relevance distribution from the reference relevance distribution and the phrase relevance distribution, the phrase relevance distribution of the word k is biased to a range having a higher relevance than the reference relevance distribution. In this case, it is regarded as a topic word that is often handled in a document highly related to the transmission source i of the processing target document, and the center of gravity of the reference relevance distribution is determined from the relevance n in the step for each determined relevance step. The value obtained by subtracting the relevance value n0 from the value obtained by multiplying the value of the word relevance distribution in the step by the value obtained by subtracting the value of the standard relevance distribution is obtained, and the sum of these values is added to the word. k is the degree of the topic.
また、本発明(請求項2)は、語句関連度分布の関連度の刻みごとの数を、当該刻みに該当する発信源lでの前記語句kの使用回数の合計とする。 According to the present invention (claim 2), the number of relevance steps in the word relevance distribution is set to the total number of times the word k is used at the transmission source l corresponding to the step .
また、本発明(請求項3)は、基準関連度分布と語句関連度分布とをそれぞれに正規化し、正規化された基準関連度分布と語句関連度分布とを用いて、語句kの話題となっている度合いを求める。 Further, the present invention (Claim 3) normalizes the reference relevance distribution and the phrase relevance distribution respectively, and uses the normalized reference relevance distribution and the phrase relevance distribution to Find the degree of being .
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項4)は、多数の情報発信源によって作成された文書の集合を解析し、処理対象文書中に含まれる語句に対して話題性の強度を算出する話題度算出装置であって、
語句抽出手段が、文書を作成した発信源の情報を有する文書の集合が入力されると、該文書の集合を解析して、話題性評価の対象となる語句を当該文書中から切り出し、発信源情報を付与して語句データベース220に記録する語句抽出手段210と、
発信源を単位として、発信源の文書から切り出した語句の出現回数を特徴量とする発信源特徴量リストを発信源特徴量バッファに蓄積し、1組の発信源iと発信源jとの類似度合いを示す関連度Rijを当該発信源の発信源特徴リストから算出し、関連度データベース240に記録する発信源関連度算出手段と、
処理対象文書を入力として受け付け、当該処理対象文書の発信源iに基づく基準関連度分布と、処理対象文書に含まれる語句kそれぞれに対して得られる語句関連度分布とから、当該語句kの話題となっている度合いを算出する話題度算出手段250と、を有し、
話題度算出手段250は、
処理対象文書の発信源iとそれ以外の発信源jとの関連度Rijを関連度データベース240から取得し、決められた数N個に分割された関連度の刻みごとに当該関連度の刻みに該当する関連度Rijを有する発信源jの数を集計した情報である基準関連度分布を求め、
語句データベース220を参照して語句kを持つ発信源lを取得し、発信源iと当該発信源lとの関連度Rilを関連度データベース240から取得し、関連度の刻みごとに当該関連度の刻みに該当する関連度Rilを有する発信源lの数を集計した情報である語句関連度分布を求め、
基準関連度分布と語句関連度分布とから、基準関連度分布と語句関連度分布を比較して、当該語句kの語句関連度分布が基準関連度分布よりも関連度の高い範囲に偏っている場合に、当該処理対象文書の発信源iに関連の高い文書で多く扱われる話題語であるとみなし、決められた関連度の刻みそれぞれにおいて、当該刻みにおける関連度nから基準関連度分布の重心における関連度の値n0を引いた値と、当該刻みにおける語句関連度分布の値から基準関連度分布の値を引いた値とを掛け合わせた値を求め、それらを足し合わせた値を当該語句kの話題となっている度合いとする手段を含む。
The present invention (Claim 4) is a topic degree calculation device that analyzes a set of documents created by a large number of information transmission sources and calculates the strength of topicality for words included in a processing target document. ,
When a set of documents having information on a transmission source that has created the document is input to the phrase extraction unit, the set of documents is analyzed, and a phrase that is subject to topicality evaluation is cut out from the document, and the transmission source A
A source feature quantity list having the number of occurrences of a word extracted from the source document as a feature quantity is stored in the source feature quantity buffer in units of the source, and the similarity between one set of source i and source j A source relevance calculating means for calculating the relevance Rij indicating the degree from the transmission source feature list of the transmission source and recording it in the
From the reference relevance distribution based on the source i of the processing target document as an input and the word relevance distribution obtained for each of the words k included in the processing target document, the topic of the word k Topic level calculation means 250 for calculating the degree of
The topic level calculation means 250
The degree of association Rij between the transmission source i of the document to be processed and the other transmission source j is acquired from the degree-of-
The transmission source l having the phrase k is acquired with reference to the
Comparing the reference relevance distribution and the phrase relevance distribution from the reference relevance distribution and the phrase relevance distribution, the phrase relevance distribution of the word k is biased to a range having a higher relevance than the reference relevance distribution. In this case, it is regarded as a topic word that is often handled in a document highly related to the transmission source i of the processing target document, and the center of gravity of the reference relevance distribution is determined from the relevance n in the step for each determined relevance step. The value obtained by subtracting the relevance value n0 in the value and the value obtained by subtracting the value of the reference relevance distribution from the value of the word relevance distribution at the step is obtained, and the sum of these values is added to the word. It includes means for determining the degree of topic of k.
また、本発明(請求項5)は、話題度算出手段250において、
語句関連度分布の関連度の刻みごとの数を、当該刻みに該当する発信源lでの前記語句kの使用回数の合計とする手段を含む。
Further, according to the present invention (claim 5), in the topic level calculation means 250,
The number of relevance steps of the word relevance distribution is included as a sum of the number of times the word k is used at the transmission source l corresponding to the step .
また、本発明(請求項6)は、話題度算出手段250において、
基準関連度分布と語句関連度分布とをそれぞれに正規化し、正規化された基準関連度分布と語句関連度分布とを用いて、語句kの話題となっている度合いを求める手段を含む。
Further, according to the present invention (claim 6 ), the topic level calculation means 250
Means for normalizing the reference relevance distribution and the phrase relevance distribution, respectively, and using the normalized reference relevance distribution and the phrase relevance distribution to determine the degree of the topic k being the topic.
本発明(請求項7)は、請求項4乃至6のいずれか1項に記載の話題度算出装置を構成する各手段としてコンピュータを機能させるための話題度算出プログラムである。 The present invention (Claim 7 ) is a topic degree calculation program for causing a computer to function as each means constituting the topic degree calculation apparatus according to any one of Claims 4 to 6 .
本発明(請求項8)は、請求項7に記載のプログラムを格納したことを特徴とする話題度算出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
The present invention (Claim 8 ) is a computer-readable recording medium storing a topic degree calculation program characterized by storing the program according to Claim 7 .
上記のように本発明によれば、Web上での日記などの様々な発信源が作成した多種多様な分野について扱っている文書群に対し、各発信源と処理対象文書の発信源の関連度を求め、当該関連度の分布と処理対象文書中に含まれる各語句を扱ったことのある発信源のみに絞った場合の関連度の分布と比較し、関連の強い発信源でより多く使われている語句に高い重みを設定することにより、分野の項目を予め設定することなしに処理対象文書の所属する分野で特徴的な語句に対して高い話題の度合いを求めることができる。 As described above, according to the present invention, with respect to a document group dealing with various fields created by various transmission sources such as a diary on the Web, the degree of association between each transmission source and the transmission source of the processing target document. Compared to the distribution of relevance and the distribution of relevance when focusing only on sources that have dealt with each word or phrase contained in the document to be processed, By setting a high weight to a certain word / phrase, it is possible to obtain a high degree of topic with respect to a word / phrase characteristic in the field to which the document to be processed belongs without setting the field item in advance.
また、本発明によれば、処理対象文書の作成時刻と同じ時期において特徴的に多く取り扱われている語句に時間重みを付け、話題度と時間重みとの両方を考慮した話題度を新しく算出することにより、処理対象文書の作成された時期においてある分野で特徴的に用いられた語句にのみ高い話題度を設定することができる。 Further, according to the present invention, a time weight is given to words that are characteristically handled at the same time as the creation time of the document to be processed, and a new topic degree that considers both the topic degree and the time weight is calculated. Thus, it is possible to set a high topic level only for words that are characteristically used in a certain field at the time when the processing target document is created.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題度算出装置の構成を示す。
[First Embodiment]
FIG. 3 shows the configuration of the topic level calculation device according to the first embodiment of the present invention.
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と本装置が出力する語句の話題度を記録する語句話題度記録装置290とが接続されている。
The topic level calculation apparatus shown in FIG. 2 is connected to a
本実施の形態における話題度算出装置は、文書内語句抽出部210、種話題情報データベース220、発信源関連度算出部230、関連度データベース240、話題度算出部250、及び話題度出力部260から構成される。
The topic level calculation device according to the present embodiment includes a word /
図4は、本発明の第1の実施の形態における概要動作のフローチャートである。 FIG. 4 is a flowchart of an outline operation in the first embodiment of the present invention.
ステップ101) 文書内語句抽出部210において、予め収集され文書データベース200に格納されている文書群を読み出して、形態素解析等の既存の技術を用いて解析することにより、当該文書中に含まれる全ての語句を抽出し、抽出された語句それぞれについて当該語句が含まれていた文書の発信源と作成時刻とを組み合わせて、種話題情報データベース(特許請求の範囲の「語句データベース」に相当)220に格納する。
Step 101) In the in-document
ステップ102) 次に、発信源関連度算出部230において、ステップ101で作成された種話題情報データベース220を参照して、各発信源毎に当該発信源が過去に作成した文書中に含まれる語句群と当該語句群の各語句の使用回数とを取得し、当該発信源の使用語句群ベクトルを作成し、2つの発信源の使用語句群ベクトルについてコサイン類似度等の既存のベクトル比較技術を用いて、当該使用語句ベクトル間の類似度を発信源間の関連度として算出する処理を、あり得る全ての発信源の組み合わせについて行い、得られた関連度を関連度データベース240に出力する。
Step 102) Next, referring to the seed
ステップ103) 話題度算出部250において、外部から処理対象とする文書(以下、処理対象文書と呼ぶ)に含まれる各語句について、当該語句と同一の語句を発信したことのある発信源群と処理対象文書の発信源との関連度の分布を、全発信源もしくは、処理対象文書を作成した発信源以外の発信源と処理対象文書を作成した発信源との関連度の分布を比較して、当該語句を発信したことのある発信源群の関連度の分布が、より関連度の高い範囲に偏っている場合に、当該語句を処理対象文書と関連する分野で高頻度に出現する特徴語句として高い話題度を設定する。
Step 103) In the topic
ステップ104) ステップ103で求められた話題度を話題度出力部260から語句話題度記録装置290に出力する。
Step 104) The topic level obtained in Step 103 is output from the topic
次に、話題度算出装置の詳細な動作を図3の構成図に基づいて説明する。 Next, the detailed operation of the topic level calculation device will be described based on the configuration diagram of FIG.
文書データベース200には、文書毎に作成時刻と発信源情報が付加された複数の文書が蓄積されている。例えば、Web上に公開されている文書に「2004 4/25 13:55」といったような作成時刻と、公開されているWebサイトのドメイン名や執筆者の名称といったような発信源情報とを付加し、次々と入力として記録することにより、文書データベース200を構築することができる。特にインターネット上の日記サイトなど、新しい文書が逐次作成され、発信者が判別可能な情報源からの文書を入力するのが望ましい。また、サイト内の文書が更新された場合にも、新たな文書が作成されたと見做して収集してもよい。
The
文書内語句抽出部210は、文書データベース200に蓄積されている文書を1文書ずつ取得し、形態素解析を行い、品詞毎に分解する。例えば、「おいしいチョコドーナツ」という文章を、「おいしい」「チョコ」「ドーナツ」と分解する。分解された品詞群から名詞のみを選んで抽出する。このとき、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を1個の名詞として扱ってもよい。
The in-document
また、「秋の新番組」というような名詞的に扱われるフレーズについても名詞として抽出してもよい。以下の説明では、抽出して得られた名詞と複合名詞と名詞的に扱われるフレーズとを総称して語句と呼ぶ。このようにして得られた語句それぞれについて、解析前に当該語句が含まれていた文書の作成時刻と発信源情報とを付加し、例えば、「チョコドーナツ 2005/01/06 11:36 blog.temporary.ex.xx」といった形式の情報として、種話題情報データベース220に蓄積する。以下の説明では、上記の語句と作成時刻と発信源情報との組の情報を種話題情報と表記することとする。
Also, a phrase treated as a noun such as “new program in autumn” may be extracted as a noun. In the following description, the extracted nouns, compound nouns, and phrases treated as nouns are collectively referred to as words. For each word obtained in this way, the creation time and source information of the document containing the word before the analysis is added, for example, “Choco Donut 2005/01/06 11:36 blog.temporary .ex.xx "is stored in the seed
種話題情報データベース220に蓄積される種話題情報の例を図5に示す。同じ語句が処理文書中で複数回使用されている場合には、内容が同一の種話題情報が複数蓄積されてしまうため、処理の効率化のため、そのうちの一つの種話題情報を蓄積することとしてもよい。
An example of seed topic information stored in the seed
発信源関連度算出部230は、一定の処理時間毎に、種話題情報データベース220に蓄積されている種話題情報を参照して各発信源の使用している語句を抽出する。また、それらの語句の使用回数を計算する。抽出した語句と計算した語句の使用回数とを発信源特徴量とする。得られた発信源特徴量を異なる発信源の対毎に比較することにより、各発信源間の関連度を算出し、関連度データベース240に関連度をテーブルの形で出力する。
The transmission source
関連度データベース240に蓄積される関連度情報の例を図6に示す。
An example of the relevance level information stored in the
ここで、当該発信源関連度算出部230の動作を詳細に説明する。
Here, the operation of the transmission source
図7は、本発明の第1の実施の形態における発信源関連度算出部の処理のフローチャートである。 FIG. 7 is a flowchart of processing of the transmission source association degree calculation unit in the first embodiment of the present invention.
ステップ510) 発信源関連度算出部230は、処理が開始されると、種話題情報データベース220に蓄積されている全発信源情報を取得し、重複部分を取り除くことにより、文書データバッファ(図示せず)に入力元となっている発信源のリストを作成する。
Step 510) When the process is started, the transmission source
ステップ520) 次に、ステップ510で得られた発信源のリストから一つの発信源情報を取り出し、当該発信源情報を含む種話題情報内の語句を種話題情報データベース220から取得して語句情報バッファ(図示せず)に蓄積する。この際、処理の軽減のため、例えば、語句を取得する対象を作成時刻が処理時刻から2ヶ月前までの種話題情報とするといったように、ある一定時刻範囲の作成時刻を持つ種話題情報だけに絞ってもよい。
Step 520) Next, one transmission source information is extracted from the transmission source list obtained in Step 510, a word / phrase in the seed topic information including the transmission source information is acquired from the seed
ステップ530) 語句情報バッファ(図示せず)中の各語句について語句毎の出現回数を求め、語句wkと当該語句の出現回数Vi(wk)とからなる、処理対象の発信源Siの語句特徴量Ciを作成する。例えば、ステップ520で蓄積された語句情報バッファ(図示せず)中の語句が「野球」「W杯」「野球」「野球」「決勝」「W杯」「野球」の場合には、発信源iの語句特徴量Ciは、「野球 4,W杯 2,決勝 1」といった語句wkと当該語句の出現回数Vi(Wk)との組の集合となる。得られた語句特徴量Ciは、発信源特徴量リストとして発信源特徴量バッファ(図示せず)に蓄積される。
Step 530) For each word in the word information buffer (not shown), the number of appearances for each word is obtained, and the processing source S i composed of the word w k and the number of appearances V i (w k ) of the word. creating a word feature quantity C i. For example, if the word / phrase in the word / phrase information buffer (not shown) accumulated in step 520 is “baseball”, “world cup”, “baseball”, “baseball”, “final”, “world cup”, “baseball”, The phrase feature amount C i of i is a set of a set of a phrase w k such as “baseball 4,
ステップ540) 上記のステップ510で作成した発信源のリストの中で全ての発信源に対して、ステップ520、ステップ530の処理を行ったかを判定し、未処理の発信源情報が存在する場合には、ステップ520に戻る。存在しない場合には、ステップ550に移行する。
Step 540) It is determined whether or not the processing of Step 520 and
ステップ550) 発信源特徴量バッファ(図示せず)の発信源特徴量リストから1組の発信源Si,Siの語句特徴量Ci,Cjを取り出し、そのCiとCjの関連度を発信源iと発信源jの関連度Rijとして算出する。 Step 550) The phrase feature amounts C i and C j of the set of source sources S i and S i are extracted from the source feature list of the source feature buffer (not shown), and the relationship between the C i and C j is extracted. The degree is calculated as the degree of association R ij between the transmission source i and the transmission source j.
例えば、発信源iと発信源jとの関連度Rijを下記の式(1)を用いて算出する。 For example, the degree of association R ij between the transmission source i and the transmission source j is calculated using the following equation (1).
得られた関連度Rij(j≠i)は関連度データベース240のi行j列とj行i列の2箇所に蓄積される。
The obtained relevance R ij (j ≠ i) is stored in two locations, i row j column and j row i column, in the
ステップ560) 全ての発信源の組み合わせについて、ステップ550の処理を行ったかどうかを判定する。未処理の発信源の組み合わせが存在する場合には、ステップ550に移行する。全ての発信源の組み合わせに対してステップ550を処理済の場合は、発信源関連度算出部230の処理を終了する。
Step 560) It is determined whether or not the processing of Step 550 has been performed for all combinations of transmission sources. If there is an unprocessed source combination, the process proceeds to step 550. When step 550 has been processed for all combinations of the transmission sources, the processing of the transmission source
話題度算出部250は、処理対象文書を入力として受け付け、当該文書中の語句それぞれに対して、処理対象文書の発信源と過去にその語句を扱ったことのある発信源との関連度の値の分布と、処理対象文書の発信源と他の全ての発信源との関連度の分布を比較することにより、当該処理対象文書の発信源と関連度の高い発信源で多く用いられている語句に対し、話題の度合いが高いと見做し、値の大きい話題度を算出する。
The topic
当該話題度算出部250の動作を詳細に説明する。
The operation of the topic
図8は、本発明の第1の実施の形態における話題度算出部の動作のフローチャートである。 FIG. 8 is a flowchart of the operation of the topic level calculation unit in the first embodiment of the present invention.
ステップ610) 話題度算出部250は処理が始まると、外部から処理対象文書を入力として受け付ける。処理対象文書には発信源が付与されているとする。また、処理対象文書は、文書データベース200に含まれる文書であることが望ましい。
Step 610) When the processing starts, the topic
ステップ620) 関連度データベース240から処理対象文書の発信源Siと当該発信源以外の全ての発信源Sj(j≠i)との関連度Rijの集まりを取得し、その値の分布を集計する。図6を用いて説明すると、処理対象文書の発信源が発信源「8」であった場合、発信源「8」とその他全ての発信源(発信源1〜7,9〜N)との関連度として、0.282,0.166,0.217,0.327,0.313,0.275…を取得する。このようにして得られた関連度の集合R8j(j≠8)に対して、その値の分布を基準関連度分布Rs(n)として求める。例えば、0.01刻みで集計する場合、
0.01*n≦R8j<0.01*(n+1)
の式に当てはまる発信源の個数をn=0〜100までの範囲で集計し、基準関連度分布
Rs(n)(n=0・・・99)
を求める。
Step 620) A collection of association degrees R ij between the transmission source S i of the document to be processed and all transmission sources S j (j ≠ i) other than the transmission source is obtained from the
0.01 * n ≦ R 8j <0.01 * (n + 1)
The number of transmission sources that apply to the above formula is aggregated in the range of n = 0 to 100, and the reference relevance distribution R s (n) (n = 0... 99)
Ask for.
ステップ630) 処理対象文書Diに含まれる語句を、文書内語句抽出部210と同様の処理により取得し、得られた語句を話題度算出部250内の処理対象語句バッファ(図示せず)に蓄積する。
The words contained in the step 630) the target document D i, obtained by the same processing as the document within the
ステップ640) 処理対象語句バッファ(図示せず)から語句wkを一つ取り出し、種話題情報データベース220を参照して当該語句を持つ種話題情報内の発信源情報を取得し、集計することにより、語句wkを使用したことのある発信源Sjとその語句を使用した回数X(Sj,wk)の組からなる語句使用発信源情報を作成する。
Step 640) By taking one phrase wk from the processing target phrase buffer (not shown), referring to the seed
例えば、「野球」という語句について種話題情報データベース220から取得された発信源情報が、「発信源j」「発信源j」「発信源j」「発信源k」「発信源n」「発信源n」といった場合には、「発信源j 3回,発信源k 1回,発信源n 2回」という語句使用発信源情報を作成する。但し、ステップ650で語句使用回数を用いない場合は、語句使用発信源情報に語句使用回数を含める必要はない。
For example, the source information acquired from the seed
ステップ650) 関連度データベース240から、指定された文書情報の発信源Siと語句使用発信源情報に含まれる各発信源Sjとの関連度Rijの集合を取得し、その値をステップ620と同様に集計し、語句関連度分布Rwk(n)を求める。例えば、0.01刻みで集計する場合、
0.01*n≦Rij<0.01+(n+1)
の式を満たす発信源の個数をn=0〜100まで集計し、その語句関連度分布Rwk(n)(n=0…100)を求める。この際、ある範囲内の関連度を持つ発信源の個数を集計する代わりに、ある範囲内の関連度を持つ発信源の語句使用回数の合計を集計してもよい。例えば、処理対象文書の発信源がS8で語句wkについて語句関連度分布Rwk(n)を求める処理を行い、
0.01*5≦R8j<0.01*(5+1)
を満たす発信源がS6,S10,S21の3つである場合に、範囲に含まれる発信源の数である“3”をRwk(5)に設定するのではなく、S6,S10,S21の語句使用回数の和である
X(S6,wk)+X(S10,wk)+X(S21,wk)
をRwk(5)に設定してもよい。
Step 650) A set of relevance R ij between the source Si of the specified document information and each source S j included in the phrase use source information is obtained from the
0.01 * n ≦ R ij <0.01+ (n + 1)
The number of transmission sources satisfying the above formula is tabulated from n = 0 to 100, and the phrase relevance distribution R wk (n) (n = 0... 100) is obtained. At this time, instead of counting the number of transmission sources having a degree of relevance within a certain range, the total number of times of use of phrases of the transmission sources having a degree of relevance within a certain range may be totaled. For example, a process for obtaining a phrase relevance distribution R wk (n) for the phrase w k at the source of the processing target document is S 8 ,
0.01 * 5 ≦ R 8j <0.01 * (5 + 1)
When there are three sources S 6 , S 10 , and S 21 that satisfy the condition, “3” that is the number of sources included in the range is not set in R wk (5), but S 6 , X (S 6 , w k ) + X (S 10 , w k ) + X (S 21 , w k ), which is the sum of the number of times the phrases S 10 and S 21 are used
May be set to R wk (5).
ステップ660) 語句wkが処理対象文書Diの発信源Siとの関連度の高い発信源において多く使われている際に、分野の特徴的な語として高い値を設定するため、語句関連度分布と基準関連度分布とを全範囲における分布の値を足し合わせた値を用いて正規化し、高い関連度の範囲において上記正規化された語句関連度分布が上記正規化された基準関連度分布よりも大きくなっている場合に、話題度Scorer(wk)を高い値に算出する。 Step 660) When word w k is often used at the originating source associated high degree of source of S i of the target document D i, to set a high value as a characteristic word in the field, the phrase related Normalization of the degree distribution and the reference relevance distribution using the sum of the distribution values in the entire range, and the normalized phrase relevance distribution in the high relevance range is the normalized reference relevance When the distribution is larger than the distribution, the topic score Score r (w k ) is calculated to a high value.
例えば、上記のステップ620とステップ650とのように、0.01刻みの関連度の範囲で集計した場合には、式(4)によってScorer(wk)が求められる。 For example, when the calculation is performed within the range of the degree of relevance in increments of 0.01 as in step 620 and step 650 described above, Score r (w k ) is obtained by equation (4).
ステップ680) 処理対象語句バッファ(図示せず)中の全ての語句について、ステップ640からステップ670までの処理を行ったかを判定し、未処理の語句が存在する場合はステップ640に移行する。全ての語句について処理済みの場合は話題度算出部250の処理を終了する。
Step 680) It is determined whether or not the processing from Step 640 to Step 670 has been performed for all the words / phrases in the processing target word / phrase buffer (not shown). If there are unprocessed words / phrases, the process proceeds to Step 640. If all words have been processed, the topic
話題度出力部260は、話題度算出部250から受け取った語句と当該語句の話題度の組み合わせを語句話題度記録装置290に出力する。この際、出力量の軽減のため、予め設定された値以上の話題度を持つ語句のみに限って出力してもよい。語句話題度記録装置290に出力される語句とその話題度の例を図9に示す。
The topic
[第2の実施の形態]
図10は、本発明の第2の実施の形態における話題度算出装置の構成を示す。
[Second Embodiment]
FIG. 10 shows the configuration of the topic level calculation apparatus according to the second embodiment of the present invention.
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と本装置が出力する語句の話題度を記録する語句話題度記録装置290とが接続されている。
The topic level calculation apparatus shown in FIG. 2 is connected to a
本実施の形態における話題度算出装置は、文書内語句抽出部210、種話題情報データベース220、発信源関連度算出部230、関連度データベース240、話題度算出部250、時間重み算出部860及び話題度出力部870から構成される。
The topic level calculation device according to the present embodiment includes an in-document word /
このうち、文書内語句抽出部210、種話題情報データベース220、発信源関連度算出部230、関連度データベース240、話題度算出部250は、前述の第1の実施の形態と同様の動作をする。
Among them, the in-document
本実施の形態では、作成時刻と発信源の情報が含まれた文書を処理対象とする。 In the present embodiment, a document including creation time and transmission source information is a processing target.
第1の実施の形態で示した処理文書の所属する分野でよく扱われる語に対し高い話題度を算出する方法では、当該分野での専門用語のような使用される分野が特定されるが、その分野の中では一般的に用いられているような語句も高い話題度が算出されてしまう。 In the method of calculating a high topic level for a word that is often handled in the field to which the processed document belongs as shown in the first embodiment, a field to be used such as a technical term in the field is specified. A high degree of topic is also calculated for words that are commonly used in the field.
それに対し、処理対象文書の作成時刻と同じ時期において特徴的に多く取り扱われている語句に重みをつける時間重み算出部860を設け、話題度算出部250において話題度算出部250で得られた話題度と時間重み算出部860で得られた時間重みとの両方を考慮した話題度を新たに算出することにより、処理対象文書の作成された時期においてある分野で特徴的に用いられた語句のみに高い話題度を設定することを可能とする。
On the other hand, a time
図11は、本発明の第2の実施の形態における概要動作のフローチャートである。 FIG. 11 is a flowchart of an outline operation in the second exemplary embodiment of the present invention.
前述の第1の実施の形態における図4に示すステップ101〜ステップ103については同様の動作であるので、その説明は省略する。
Since
ステップ201) 時間重み算出部860において、処理対象文書に含まれる各語句に対して、処理対象文書の作成時期に多く使用されている度合いを、当該語句の時間重み値とする。
Step 201) In the time
ステップ202) 話題度出力部870において、処理対象文書に含まれる各語句に対して、話題度算出部250で得られた当該語句の話題度と、時間重み算出部860で得られた当該語句の時間重みとを掛け合わせて得られた値を、時間による注目度の変化を考慮した当該語句の話題度とする。
Step 202) In the topic
ステップ203) 話題度出力部870は、上記のステップ202で得られた話題度を語句話題度記録装置290に出力する。
Step 203) The topic
次に、本実施の形態における、話題度算出装置の詳細な動作を図10の構成図に基づいて説明する。 Next, the detailed operation of the topic level calculation device in the present embodiment will be described based on the configuration diagram of FIG.
以下では、第1の実施の形態にはない時間重み算出部860と第1の実施の形態とは異なる話題度算出部870の動作について説明する。
Hereinafter, the operations of the time
時間重み算出部860は、話題度算出部250と同様に、話題語句抽出処理の対象となる処理対象文書の指定を入力として受け付け、文書内語句抽出部210と同様の処理を行うことにより得られた処理対象文書中の全ての語句について、例えば、特開2005−276115号公報に示されるような処理対象文書の作成時刻において、当該語句の出現頻度が増加している語句に対して高い重みを付ける手法を、種話題情報データベース220を参照して適用することにより、時間重みScoret(wk)を算出する。
Similar to the topic
話題度出力部870は、処理対象文書に含まれる語句wkそれぞれに対し、処理対象文書の含まれる分野で特徴的に出現し、なおかつ処理対象文書の作成時刻において使用頻度が増加している語句に、文書の話題を表す語として高い話題度を算出し出力する。
The topic
話題度出力部870は、語句wkについて話題度算出部250からwkの話題度Scorer(wk)を、時間重み算出部860からwkの時間重みScoret(wk)をそれぞれ受け取り、Scorer(wk)とScoret(wk)を掛け合わせることにより、分野的な特徴度と時間的な特徴度との両方を評価した語句の話題度Score(wk)を算出し、語句話題度記録装置290に出力する。この際、出力量の軽減のため、予め設定された値以上の話題度を持つ語句のみに限って出力してもよい。
Topic of the
本発明は、上記の第1・第2の実施の形態で示した話題度算出装置の動作をプログラムとして構築し、話題度算出装置として動作する種話題情報データベース220、関連度データベース240にアクセス可能なコンピュータにインストールする、または、ネットワークを介して流通させることも可能である。
In the present invention, the operation of the topic level calculation device shown in the first and second embodiments is constructed as a program, and the seed
また、構築されたプログラムをハードディスク装置や、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールして実行させる、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk device or a flexible disk / CD-ROM, installed in a computer to be executed, or distributed.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、文書中の語句の話題度を算出する技術に適用可能である。 The present invention is applicable to a technique for calculating the topic level of words in a document.
200 文書データベース
210 語句抽出手段、文書内語句抽出部
220 語句データベース、種話題情報データベース
230 発信源関連度算出手段、発信源関連度算出部
240 関連度データベース
250 話題度算出手段、話題度算出部
260 話題度出力手段、話題度出力部
290 語句話題度記録装置
860 時間重み算出部
870 話題出力部
200
Claims (8)
語句抽出手段が、文書を作成した発信源の情報を有する文書の集合が入力されると、該文書の集合を解析して、話題性評価の対象となる語句を当該文書中から切り出し、発信源情報を付与して語句データベースに記録する語句抽出ステップと、
発信源関連度算出手段が、発信源を単位として、発信源の文書から切り出した前記語句の出現回数を特徴量とする発信源特徴量リストを発信源特徴量バッファに蓄積し、1組の発信源iと発信源jとの類似度合いを示す関連度Rijを当該発信源の前記発信源特徴リストから算出し、関連度データベースに記録する発信源関連度算出ステップと、
話題度算出手段が、処理対象文書を入力として受け付け、当該処理対象文書の発信源iに基づく基準関連度分布と、前記処理対象文書に含まれる語句kそれぞれに対して得られる語句関連度分布とから、当該語句kの話題となっている度合いを算出する話題度算出ステップと、
を行い、
前記話題度算出ステップにおいて、
前記処理対象文書の発信源iとそれ以外の発信源jとの関連度Rijを前記関連度データベースから取得し、決められた数N個に分割された関連度の刻みごとに当該関連度の刻みに該当する関連度Rijを有する発信源jの数を集計した情報である前記基準関連度分布を求め、
前記語句データベースを参照して前記語句kを持つ発信源lを取得し、前記発信源iと当該発信源lとの関連度Rilを前記関連度データベースから取得し、前記関連度の刻みごとに当該関連度の刻みに該当する関連度Rilを有する発信源lの数を集計した情報である前記語句関連度分布を求め、
前記基準関連度分布と前記語句関連度分布とから、基準関連度分布と語句関連度分布を比較して、当該語句kの語句関連度分布が基準関連度分布よりも関連度の高い範囲に偏っている場合に、当該処理対象文書の発信源iに関連の高い文書で多く扱われる話題語であるとみなし、決められた関連度の刻みそれぞれにおいて、当該刻みにおける関連度nから基準関連度分布の重心における関連度の値n0を引いた値と、当該刻みにおける語句関連度分布の値から基準関連度分布の値を引いた値とを掛け合わせた値を求め、それらを足し合わせた値を当該語句kの話題となっている度合いとする、
ことを特徴とする話題度算出方法。 A topic degree calculation method for analyzing a set of documents created by a large number of information transmission sources and calculating the strength of topicality with respect to a word or phrase included in a processing target document,
When a set of documents having information on a transmission source that has created the document is input to the phrase extraction unit, the set of documents is analyzed, and a phrase that is subject to topicality evaluation is cut out from the document, and the transmission source A phrase extraction step of adding information and recording it in a phrase database;
The transmission source relevance calculating means accumulates in the transmission source feature quantity buffer a transmission source feature quantity list whose feature quantity is the number of appearances of the phrase extracted from the transmission source document in units of transmission sources, and sets a set of transmissions. A source source relevance calculating step of calculating a relevance Rij indicating the degree of similarity between the source i and the source j from the source feature list of the source and recording it in the relevance database;
The topic level calculation means accepts a processing target document as an input, a standard relevance distribution based on the transmission source i of the processing target document, and a phrase relevance distribution obtained for each of the phrases k included in the processing target document From the topic level calculation step of calculating the degree of the topic k is a topic,
And
In the topic level calculation step,
The degree of association Rij between the source i of the document to be processed and the other source j is obtained from the degree-of-association database, and the degree of the degree of association is obtained for each degree of association divided into a predetermined number N. Obtaining the reference relevance distribution, which is information obtained by aggregating the number of transmission sources j having the relevance Rij corresponding to
A source l having the phrase k is obtained by referring to the phrase database, and a relevance level Ril between the source i and the source l is obtained from the relevance level database , Obtaining the phrase relevance distribution which is information obtained by tabulating the number of transmission sources l having relevance Ril corresponding to the relevance step ;
By comparing the reference relevance distribution and the phrase relevance distribution from the reference relevance distribution and the phrase relevance distribution, the phrase relevance distribution of the word k is biased to a range having a higher relevance than the reference relevance distribution. In the case where the processing target document is highly related to the transmission source i of the document to be processed, it is regarded as a topic word that is often handled. The value obtained by multiplying the value obtained by subtracting the relevance value n0 at the center of gravity and the value obtained by subtracting the value of the reference relevance distribution from the value of the word relevance distribution at the step is obtained, and the sum of these values is obtained. The degree of the topic k is a topic,
The topic degree calculation method characterized by this.
請求項1記載の話題度算出方法。 The topic degree calculation method according to claim 1 , wherein the number of relevance levels in the phrase relevance distribution is a sum of the number of times the phrase k is used at the transmission source l corresponding to the step .
請求項1または2記載の話題度算出方法。 The reference relevance distribution and the phrase relevance distribution are respectively normalized, and the normalized degree of topic k is obtained using the normalized reference relevance distribution and the phrase relevance distribution. The topic degree calculation method according to 1 or 2.
語句抽出手段が、文書を作成した発信源の情報を有する文書の集合が入力されると、該文書の集合を解析して、話題性評価の対象となる語句を当該文書中から切り出し、発信源情報を付与して語句データベースに記録する語句抽出手段と、
発信源を単位として、発信源の文書から切り出した前記語句の出現回数を特徴量とする発信源特徴量リストを発信源特徴量バッファに蓄積し、1組の発信源iと発信源jとの類似度合いを示す関連度Rijを当該発信源の前記発信源特徴リストから算出し、関連度データベースに記録する発信源関連度算出手段と、
処理対象文書を入力として受け付け、当該処理対象文書の発信源iに基づく基準関連度分布と、前記処理対象文書に含まれる語句kそれぞれに対して得られる語句関連度分布とから、当該語句kの話題となっている度合いを算出する話題度算出手段と、を有し、
前記話題度算出手段は、
前記処理対象文書の発信源iとそれ以外の発信源jとの関連度Rijを前記関連度データベースから取得し、決められた数N個に分割された関連度の刻みごとに当該関連度の刻みに該当する関連度Rijを有する発信源jの数を集計した情報である前記基準関連度分布を求め、
前記語句データベースを参照して前記語句kを持つ発信源lを取得し、前記発信源iと当該発信源lとの関連度Rilを前記関連度データベースから取得し、前記関連度の刻みごとに当該関連度の刻みに該当する関連度Rilを有する発信源lの数を集計した情報である前記語句関連度分布を求め、
前記基準関連度分布と前記語句関連度分布とから、基準関連度分布と語句関連度分布を比較して、当該語句kの語句関連度分布が基準関連度分布よりも関連度の高い範囲に偏っている場合に、当該処理対象文書の発信源iに関連の高い文書で多く扱われる話題語であるとみなし、決められた関連度の刻みそれぞれにおいて、当該刻みにおける関連度nから基準関連度分布の重心における関連度の値n0を引いた値と、当該刻みにおける語句関連度分布の値から基準関連度分布の値を引いた値とを掛け合わせた値を求め、それらを足し合わせた値を当該語句kの話題となっている度合いとする手段を含む、
ことを特徴とする話題度算出装置。 A topic degree calculation device that analyzes a set of documents created by a large number of information transmission sources and calculates the strength of topicality with respect to a phrase included in a processing target document,
When a set of documents having information on a transmission source that has created the document is input to the phrase extraction unit, the set of documents is analyzed, and a phrase that is subject to topicality evaluation is cut out from the document, and the transmission source A phrase extraction means for adding information and recording the phrase database;
A transmission source feature amount list having the number of appearances of the phrase extracted from the transmission source document as a feature amount in the transmission source unit is accumulated in the transmission source feature amount buffer, and a set of the transmission source i and the transmission source j A source relevance calculating means for calculating a relevance Rij indicating the degree of similarity from the source characteristic list of the source and recording it in a relevance database;
The processing target document is received as an input, and the reference relevance distribution based on the transmission source i of the processing target document and the phrase relevance distribution obtained for each of the phrases k included in the processing target document are used. A topic degree calculating means for calculating the degree of topic,
The topic level calculation means includes:
The degree of association Rij between the source i of the document to be processed and the other source j is obtained from the degree-of-association database, and the degree of the degree of association is obtained for each degree of association divided into a predetermined number N. Obtaining the reference relevance distribution, which is information obtained by aggregating the number of transmission sources j having the relevance Rij corresponding to
A source l having the phrase k is obtained by referring to the phrase database, and a relevance level Ril between the source i and the source l is obtained from the relevance level database , Obtaining the phrase relevance distribution which is information obtained by tabulating the number of transmission sources l having relevance Ril corresponding to the relevance step ;
By comparing the reference relevance distribution and the phrase relevance distribution from the reference relevance distribution and the phrase relevance distribution, the phrase relevance distribution of the word k is biased to a range having a higher relevance than the reference relevance distribution. In the case where the processing target document is highly related to the transmission source i of the document to be processed, it is regarded as a topic word that is often handled. The value obtained by subtracting the relevance value n0 at the center of gravity and the value obtained by subtracting the reference relevance distribution value from the value of the word relevance distribution at the step is obtained, and the sum of these values is obtained. Including means for determining the degree of topic of the phrase k,
A topic degree calculation device characterized by that.
前記語句関連度分布の関連度の刻みごとの数を、当該刻みに該当する発信源lでの前記語句kの使用回数の合計とする手段を含む
請求項4記載の話題度算出装置。 The topic level calculation means includes:
The topic degree calculation device according to claim 4, further comprising means for setting the number of relevance steps of the word relevance distribution for each step of the word k at the transmission source l corresponding to the step .
前記基準関連度分布と前記語句関連度分布とをそれぞれに正規化し、正規化された基準関連度分布と語句関連度分布とを用いて、前記語句kの話題となっている度合いを求める手段を含む
請求項4または5記載の話題度算出装置。 The topic level calculation means includes:
Means for normalizing the reference relevance distribution and the phrase relevance distribution respectively, and using the normalized reference relevance distribution and the phrase relevance distribution to determine the degree of topic of the word k The topic degree calculation device according to claim 4 or 5.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005329268A JP4592566B2 (en) | 2005-11-14 | 2005-11-14 | Topic extraction method and apparatus, program, and computer-readable recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005329268A JP4592566B2 (en) | 2005-11-14 | 2005-11-14 | Topic extraction method and apparatus, program, and computer-readable recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007140602A JP2007140602A (en) | 2007-06-07 |
| JP4592566B2 true JP4592566B2 (en) | 2010-12-01 |
Family
ID=38203423
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005329268A Expired - Fee Related JP4592566B2 (en) | 2005-11-14 | 2005-11-14 | Topic extraction method and apparatus, program, and computer-readable recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4592566B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109726383B (en) * | 2017-10-27 | 2023-06-23 | 普天信息技术有限公司 | An article semantic vector representation method and system |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4206961B2 (en) * | 2004-04-30 | 2009-01-14 | 日本電信電話株式会社 | Topic extraction method, apparatus and program |
-
2005
- 2005-11-14 JP JP2005329268A patent/JP4592566B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007140602A (en) | 2007-06-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7895205B2 (en) | Using core words to extract key phrases from documents | |
| US7783629B2 (en) | Training a ranking component | |
| JP5116775B2 (en) | Information retrieval method and apparatus, program, and computer-readable recording medium | |
| KR101681109B1 (en) | An automatic method for classifying documents by using presentative words and similarity | |
| US9256649B2 (en) | Method and system of filtering and recommending documents | |
| WO2006115260A1 (en) | Device for automatically creating information analysis report, program for automatically creating information analysis report, and method for automatically creating information analysis report | |
| JP2009122807A (en) | Associative search system | |
| CN109815499B (en) | Information association method and system | |
| CN112632396A (en) | Article recommendation method and device, electronic equipment and readable storage medium | |
| JP2010198142A (en) | Device, method and program for preparing database in which phrase included in document classified by category | |
| JP4479745B2 (en) | Document similarity correction method, program, and computer | |
| JP4795856B2 (en) | Clustering method and apparatus, program, and computer-readable recording medium | |
| JP4592566B2 (en) | Topic extraction method and apparatus, program, and computer-readable recording medium | |
| JP2006331245A (en) | Information search apparatus, information search method and program | |
| JP4977004B2 (en) | Related keyword extraction method and apparatus, program, and computer-readable recording medium | |
| JP2006318398A (en) | Vector generation method and apparatus, information classification method and apparatus, program, and computer-readable storage medium storing program | |
| CN118094019A (en) | A method, device and electronic device for recommending text-related content | |
| JP5295818B2 (en) | Database creation apparatus, database creation method, and database creation program in which words included in document are assigned by category | |
| JP2009104296A (en) | Related keyword extraction method and apparatus, program, and computer-readable recording medium | |
| CN111831796B (en) | A method, device, electronic device and storage medium for processing user requests | |
| JP4539616B2 (en) | Opinion collection and analysis apparatus, opinion collection and analysis method used therefor, and program thereof | |
| Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
| KR101096431B1 (en) | Book classification method and book classification system | |
| JP5269481B2 (en) | Related keyword extraction device, program, and computer-readable recording medium | |
| JP2010244341A (en) | Attribute expression acquisition method, apparatus and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080201 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100421 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100630 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100824 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100914 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100914 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |