JP4800846B2 - Topic degree calculation method and apparatus, program, and computer-readable recording medium - Google Patents
Topic degree calculation method and apparatus, program, and computer-readable recording medium Download PDFInfo
- Publication number
- JP4800846B2 JP4800846B2 JP2006153846A JP2006153846A JP4800846B2 JP 4800846 B2 JP4800846 B2 JP 4800846B2 JP 2006153846 A JP2006153846 A JP 2006153846A JP 2006153846 A JP2006153846 A JP 2006153846A JP 4800846 B2 JP4800846 B2 JP 4800846B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- frequency
- topic
- time
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、新しい情報を含む文書を次々と入手しうる状況において、文書群から話題となっている語句を自動的に抽出するための話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to a topic level calculation method and apparatus, a program, and a computer-readable recording medium. In particular, in a situation where documents including new information can be obtained one after another, a phrase that is a topic from a document group is automatically detected. The present invention relates to a topic level calculation method and apparatus, a program, and a computer-readable recording medium.
インターネットをはじめとした情報メディアの発達により、誰であっても容易に情報発信を行えるようになり、様々な発信者によって文書が作成され、ネットワーク上に発信されるようになってきている。そのような中、現在までに作成された文書情報を分析することによって、任意の時点において話題となっていた事柄を抽出することが可能になると考えられる。 With the development of the Internet and other information media, anyone can easily send information, and documents are created by various senders and sent on the network. Under such circumstances, it is considered that it becomes possible to extract matters that have become a topic at an arbitrary point in time by analyzing document information created so far.
インターネットに代表されるネットワークシステム上にアップロードされている文書群から、文書群中に含まれる語句の出現回数の時間変動を考慮して、文書群中で話題となっている特徴語句を抽出する技術は複数提案されている。 A technology that extracts feature words that are a topic in a document group from a document group uploaded on a network system typified by the Internet, taking into account the temporal variation of the number of occurrences of the phrase contained in the document group. Several have been proposed.
従来の技術として、ネットワークシステム上にアップロードされている文書をその作成時刻情報と共に取得し、当該文書の内容に応じて予め設定された複数の分野に自動的に分類し、各分野毎に時間に沿って出現頻度が特徴的に増加しており、なおかつ他分野で出現していないような語句に対して話題を表す特徴語句として高い話題度合いを示す話題度の値を算出する技術がある(例えば、特許文献1参照)。 As a conventional technique, a document uploaded on a network system is acquired together with its creation time information, and automatically classified into a plurality of fields set in advance according to the contents of the document. There is a technique for calculating a topic level value indicating a high topic level as a characteristic word representing a topic with respect to a word that has a characteristic increase along the line and that does not appear in other fields (for example, , See Patent Document 1).
しかし、上記の技術においては、一定期間中にある語句の使用回数が増加した場合に話題を表す特徴語句として抽出するため、全体の文書量が短期的に増加した場合や、全体の文書量が定期的に変動している場合に、その影響により精度が低下する問題があった。そのため、文書量の変化を元とした変動をキャンセルする補正関数を設定する手法が存在する(例えば、非特許文献1参照)。
しかしながら、上記従来の方法は、文書量の変化のパターンを使用者が把握して補正関数を設計しなければならないため手間がかかるものであった。 However, the above-described conventional method is troublesome because the user must grasp the pattern of change in the document amount and design the correction function.
本発明は、上記の点に鑑みなされたもので、どのような文書数の母数の変動が生じても、自動的にその影響を補正して精度高く話題となる語句を抽出することが可能な話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。 The present invention has been made in view of the above points, and it is possible to automatically correct the influence and extract a topic word / phrase with high accuracy regardless of the variation of the parameter of the number of documents. An object of the present invention is to provide a topic level calculation method, apparatus, program, and computer-readable recording medium.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項1)は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する装置における話題度算出方法であって、
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書内語句と共に語句データベースに格納する文書解析ステップ(ステップ110)と、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句wと記す)と、どの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得する入力受付ステップ(ステップ120)と、
語句頻度算出手段が、処理対象語句に基づいて語句データベースを検索し、該処理対象語句wに対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数G w (T)を算出する語句頻度算出ステップ(ステップ130)と、
話題度算出手段が、入力受付ステップ(ステップ120)で入力された入力時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出ステップ(ステップ130)で算出された語句頻度関数G w (T)に対して算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップ(ステップ140)と、
を行い、
語句頻度算出ステップ(ステップ130)において、
語句頻度算出手段は、処理対象語句wの入力文書中での語句頻度の時間変動D w (T)と入力文書数の時間変動D all (T)とを求め、D w (T)とD all (T)の類似性を評価して相関度合いR(w)を求め、該D all (T)に該R(w)を掛け合わせた値に比例した値を、該D w (T)から減算した値を語句頻度関数G w (T)とする。
The present invention (Claim 1) is a topic level calculation method in an apparatus that analyzes a large number of documents and determines the strength of topicality at a desired time with respect to a phrase included in the document,
When an input document group having creation time information is input, the document analysis unit analyzes the input document group and extracts a word / phrase (hereinafter referred to as an in-document word / phrase) to be evaluated. input document number, counts the word frequency is the number of times of use of the document in terms, the document analysis storing the word database (step 110) with their aggregations and aggregation time and the document in the phrase,
The phrase frequency calculation means is a phrase (hereinafter referred to as a processing target phrase w ) that is subject to topic level calculation processing input from the outside, and time information (hereinafter, calculation designation) that indicates the topic at which the topic is calculated. An input receiving step (step 120) for acquiring time)
Phrase frequency calculation means searches a phrase database based on a processing target phrase, and a phrase frequency function representing a temporal variation of the phrase frequency based on a phrase frequency and a total time of a phrase in the document corresponding to the processing target phrase w A phrase frequency calculating step (step 130) for calculating G w (T) ;
The phrase calculated by the topic frequency calculation step (step 130) is the topic level indicating the level of topicality of the processing target phrase at the time of the input time input at the input reception step (step 120). A topic level calculation step (step 140) to be obtained by multiplying the frequency function G w (T) by a topic weight function that calculates a high topic level when the phrase frequency is increased near the calculation specified time;
And
In the phrase frequency calculation step (step 130),
The phrase frequency calculation means obtains a time variation D w (T) of the phrase frequency in the input document of the processing target phrase w and a time variation D all (T) of the number of input documents, and D w (T) and D all The degree of correlation R (w) is obtained by evaluating the similarity of (T), and a value proportional to the value obtained by multiplying the D all (T) by the R (w) is subtracted from the D w (T). The obtained value is set as a phrase frequency function G w (T) .
また、本発明(請求項2)は、語句頻度算出ステップ(ステップ130)において、
処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
Further, the present invention (Claim 2 ) provides a phrase frequency calculating step (Step 130).
The correlation degree R (w) between the time fluctuation D w (T) of the word frequency in the input document group of the processing target word w and the time fluctuation D all (T) of the number of input documents
また、本発明(請求項3)は、語句頻度算出ステップ(ステップ130)において、
処理対象語句wの入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
Further, the present invention (Claim 3 ), in the phrase frequency calculation step (Step 130),
The number of input documents fluctuated using the degree of correlation R (w) between the time fluctuation D w (T) of the word frequency in the input document of the processing target word w and the time fluctuation D all (T) of the number of input documents. The phrase frequency function G w (T) considering the increase or decrease of the phrase frequency of the phrase due to the influence,
また、本発明(請求項4)は、入力受付ステップ(ステップ120)において、
話題度算出処理の対象となる処理対象語句wと、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、
語句頻度算出ステップ(ステップ130)において、
入力文書群中に含まれる全ての処理対象語句について語句頻度関数G w (T)を求め、
話題度算出ステップ(ステップ140)において、
入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める。
Further, the present invention (Claim 4 ) is provided in the input receiving step (Step 120).
Instead of accepting the processing target phrase w that is the subject of the topic level calculation process and the calculation designated time indicating the topic level at which to calculate,
In the phrase frequency calculation step (step 130),
The phrase frequency function G w (T) is obtained for all the processing target phrases included in the input document group,
In the topic level calculation step (step 140),
The topic level at the processing time is obtained for all the processing target words included in the input document group.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項5)は、多数の文書を解析して、該文書中に含まれる語句に対して所望の時刻における話題性の強度を判定する話題度算出装置であって、
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベース230に格納する文書解析手段210と、
外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句wと記す)を取得し、該処理対象語句に基づいて語句データベース230を検索し、取得した該処理対象語句wに対応する文書内語句の語句頻度と集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数G w (T)を算出する語句頻度算出手段240と、
外部からどの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得し、該算出指定時刻の時点において、処理対象語句の話題性の高低を表す話題度を、語句頻度算出手段240で算出された語句頻度関数G w (T)に対して入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段250と、
を有し、
語句頻度算出手段240は、
処理対象語句wの入力文書中での語句頻度の時間変動D w (T)と入力文書数の時間変動D all (T)とを求め、D w (T)とD all (T)の類似性を評価して相関度合いR(w)を求め、該D all (T)に該R(w)を掛け合わせた値に比例した値を、該D w (T)から減算した値を語句頻度関数G w (T)とする手段を含む。
The present invention (Claim 5) is a topic degree calculation device that analyzes a large number of documents and determines the strength of topicality at a desired time for a word or phrase included in the documents,
When an input document group having creation time information is input, the input document group is analyzed to extract a word / phrase (hereinafter referred to as an in-document word / phrase) for topicality evaluation, and the number of input documents input, A
A word / phrase (hereinafter referred to as a processing target word / w ) input from the topic level calculation process inputted from the outside is acquired, the word /
Obtaining time information (hereinafter referred to as calculation designated time) indicating the topic at which the topic is calculated from the outside, and at the time of the calculation designated time, the topic degree representing the level of topicality of the processing target phrase, The topic obtained by multiplying the phrase frequency function G w (T) calculated by the phrase
Have
The phrase frequency calculation means 240
The time fluctuation D w (T) of the word frequency in the input document of the processing target word w and the time fluctuation D all (T) of the number of input documents are obtained, and the similarity between D w (T) and D all (T) The degree of correlation R (w) is evaluated, and a value proportional to the value obtained by multiplying the D all (T) by the R (w) is subtracted from the D w (T). Including means for G w (T) .
また、本発明(請求項6)は、語句頻度算出手段240において、
処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
Further, the present invention (claim 6 ) provides the phrase frequency calculation means 240,
The correlation degree R (w) between the time fluctuation D w (T) of the word frequency in the input document group of the processing target word w and the time fluctuation D all (T) of the number of input documents
また、本発明(請求項7)は、語句頻度算出手段240において、
処理対象語句wの入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
Further, the present invention (claim 7 ) provides the phrase frequency calculating means 240,
The number of input documents fluctuated using the degree of correlation R (w) between the time fluctuation D w (T) of the word frequency in the input document of the processing target word w and the time fluctuation D all (T) of the number of input documents. The phrase frequency function G w (T) considering the increase or decrease of the phrase frequency of the phrase due to the influence,
また、本発明(請求項8)は、語句頻度算出手段240において、話題度算出処理の対象となる処理対象語句と、どの時点での話題度を算出するかを表す算出指定時刻を受け付ける代わりに、入力文書群中に含まれる全ての処理対象語句について語句頻度関数を求める手段を含み、
話題度算出手段250において、入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む。
Further, according to the present invention (claim 8 ), the phrase
The topic level calculation means 250 includes means for determining the topic level at the processing time for all the processing target words included in the input document group.
本発明(請求項9)は、コンピュータに、請求項5乃至8記載の話題度算出装置の各手段を実行させる話題度算出プログラムである。 The present invention (Claim 9 ) is a topic level calculation program for causing a computer to execute each means of the topic level calculation apparatus according to claims 5 to 8 .
本発明(請求項10)は、コンピュータに、請求項5乃至8記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
The present invention (Claim 10) is a computer-readable recording medium storing a topic degree calculation program for causing a computer to execute each means of the topic degree calculation apparatus according to claims 5 to 8 .
上記のように本発明によれば、ウェブ上で公開されているニュース記事や日記記事などの次々と発信されている文書情報を取得し、文書中の語句の話題性の高低を自動的に抽出する際に、全文書数の時間変動の影響を除去することが可能となる。それにより、従来の技術にあった全文書数が変動した際に誤った話題語を抽出してしまうことがなくなり、最近の流行や話題を精度高く抽出することが可能となる。 As described above, according to the present invention, document information that is sent one after another such as news articles and diary articles published on the web is acquired, and the topical level of words in the document is automatically extracted. In this case, it is possible to remove the influence of the time variation of the total number of documents. Thereby, when the total number of documents according to the prior art fluctuates, an erroneous topic word is not extracted, and it is possible to extract recent trends and topics with high accuracy.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題度算出装置の構成を示す。
[First Embodiment]
FIG. 3 shows the configuration of the topic level calculation device according to the first embodiment of the present invention.
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と、本装置が出力する話題語情報を表示する話題表示装置260とが接続されている。
The topic level calculation apparatus shown in FIG. 2 is connected to a
話題度算出装置は、文書解析部210、語句集計部220、語句データベース230、語句頻度算出部240、話題度算出部250から構成される。
The topic level calculation device includes a
文書データベース200には、作成時刻が付加された文書群が蓄積されている。例えば、Web上に公開されている文書に「2006 4/25 13:55」といったような作成時刻と文書を一意に表す文書IDとを付加し、次々と入力して記録することにより、文書データベース200を構築することができる。インターネット上の日記サイトなど、新しい文書が逐次更新される情報源の場合には、サイト内の文書が更新された場合にも、新たな文書が作成されたとみなして収集してもよい。
The
文書解析部210は、文書データベース200に蓄積されている文書を1文書ずつ取得し、形態素解析を行い、品詞毎に分解する。例えば、「おいしいチョコドーナツ」という文章を、「おいしい」「チョコ」「ドーナツ」と分解する。分解された品詞群から名詞のみを選んで抽出する。このとき、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を1個の名詞として扱ってもよい。以下の説明では、名詞と複合名詞とを総称して語句と呼ぶ。このようにして得られた語句それぞれについて、解析前に当該語句が含まれていた文書の作成時刻と文書IDとを付加し、
「チョコドーナツ 2006/01/06 11:36 ID1035, バナナ 2006/01/06 11:36 ID1035, 新製品 2006/01/06 12:06 ID1036, …」
といった形式の情報として、語句集計部220の語句バッファ(図示せず)に蓄積する。
The
"Choco Donut 2006/01/06 11:36 ID1035, Banana 2006/01/06 11:36 ID1035, New Product 2006/01/06 12:06 ID1036,…"
Is stored in a phrase buffer (not shown) of the
語句集計部220は、予め設定された一定期間毎に起動し、語句バッファに蓄積された情報を読み込み、語句バッファ中の情報に含まれる文書IDを重複なく取り出してその数を文書数Dallとして集計し、また、語句バッファ中に含まれる全ての語句について語句wkの使用回数を語句頻度Dwkとして集計する。集計の結果得られた文書数Dallと、全ての語句wkと語句wkの語句頻度Dwkとの組とを、集計した時刻の情報とともに語句データベース230に記録する。語句データベース230に蓄積される情報の例を図4に示す。
The
語句集計部220において、データ量の削減のため、語句wkの使用回数を集計する代わりに、同一文書IDで複数回語句wkが使われている場合には合わせて1回と集計することにより、語句wkの語句頻度Dwkを集計してもよい。
In
語句頻度算出部240は、外部から話題度算出対象となる語句情報が入力されると、当該入力語句に基づいて語句データベース230を検索し、当該処理対象語句に対応する語句頻度と文書数を取得して、その時間変化を比較することにより、全文書数の時間による変動の影響を除いた話題度算出対象語句の集計期間毎の使用頻度を話題度算出部250のバッファ(図示せず)に出力する。
When the phrase information that is subject to topic level calculation is input from the outside, the phrase
図5は、本発明の第1の実施の形態における語句頻度算出部の処理のフローチャートである。 FIG. 5 is a flowchart of processing of the phrase frequency calculation unit in the first embodiment of the present invention.
ステップ500) 語句頻度算出部240は、処理が開始されると外部から処理対象となる語句情報wの入力を受け付ける。
Step 500) The phrase
ステップ510) 受け付けた処理対象語句wに基づいて語句データベース230を検索し、当該語句wに対応する各集計期間毎の使用頻度情報を読み込み、集計期間毎の語句wの使用頻度の変動を表す関数Dw(T)を得る。ここで、Tは離散値である。例として、3つの語句w1とw2とw3とにおける使用頻度変動を表すDw1(T),Dw2(T),Dw3(T)を図6に示す。なお、図6に示す曲線は実際には離散点の集合である。この際、処理を軽減するため最近N期間の使用文書数のみに限ってDw(T)を算出してもよい。
Step 510) A function that searches the
ステップ520) 次に、各集計期間毎の文書数を語句蓄積データベース230から取得し、文書数の集計期間毎の変動Dall(T)を算出する。Dall(T)の例を図7に示す。なお、図7に示す曲線は、実際には離散点の集合である。この際に、処理を軽減するための最近N期間の文書数のみに限ってDall(T)を算出してもよい。
Step 520) Next, the number of documents for each counting period is acquired from the
ステップ530) 処理対象語句wの入力文書群中での使用頻度と入力文書数との相関度合いを相関度R(w)として算出する。具体的には、語句wの時間変化関数Dw(T)と文書数の時間変化関数Dall(T)の類似性を評価して相関度R(w)を得る。類似性の算出には一般的な波形の相関関数である次式を用いる。 Step 530) The degree of correlation between the frequency of use of the processing target phrase w in the input document group and the number of input documents is calculated as the correlation degree R (w). Specifically, the degree of correlation R (w) is obtained by evaluating the similarity between the time variation function D w (T) of the phrase w and the time variation function D all (T) of the number of documents. The similarity is calculated using the following equation which is a general waveform correlation function.
このようにして全文書数の時間変動の影響を除いた語句の使用頻度の変更を算出することにより、図6に示した各語句の全文書数の影響が補正された語句頻度関数Gw1(T),Gw2(T),Gw3(T)は、それぞれ、図8に示すようになる。図8に示す曲線や直線は実際には離散点の集合である。 In this way, by calculating the change in the phrase usage frequency excluding the influence of the time variation of the total number of documents, the phrase frequency function G w1 (in which the influence of the total number of documents of each phrase shown in FIG. T), G w2 (T), and G w3 (T) are as shown in FIG. The curves and straight lines shown in FIG. 8 are actually a set of discrete points.
ステップ550) 上記で得られた語句wの語句頻度関数Gw(T)を話題度算出部250の語句頻度バッファ(図示せず)に記録する。
Step 550) The phrase frequency function G w (T) of the phrase w obtained above is recorded in a phrase frequency buffer (not shown) of the topic
次に、話題度算出部260の処理について説明する。
Next, processing of the topic
図9は、本発明の第1の実施の形態における話題度算出部の処理のフローチャートである。 FIG. 9 is a flowchart of the process of the topic level calculation unit in the first embodiment of the present invention.
ステップ910) 話題度算出部260は、語句頻度バッファ(図示せず)に語句頻度関数Gw(T)が書き込まれると、処理を開始し、外部から処理対象時刻tpの入力を受け付ける。
Step 910)
ステップ920) 次に、処理対象時刻を元に、予め与えられた正の値tqを用いて得られるtpからtp−tqまでの処理範囲に対応する、最近多く使われた単語に大きな重みを置くような、話題重み付け関数Itp(t)を作成する。この際、前述の特許文献1に示されるインパクト曲線のような重み付け関数を作成するとよい。 Step 920) Next, based on the processing target time corresponds to the process range up to t p -t q from t p obtained using the positive value t q previously given, the recently much used words A topic weighting function It p (t) that creates a large weight is created. At this time, it is preferable to create a weighting function such as the impact curve shown in Patent Document 1 described above.
ステップ930) 次に、話題重み付け関数Itp(t)と語句wの使用頻度の時間変化Gw(T)を次式に代入することによって、語句wの話題度TS(w)を求める。 Step 930) Next, the topic degree TS (w) of the phrase w is obtained by substituting the topic weighting function It p (t) and the temporal change G w (T) of the usage frequency of the phrase w into the following equation.
なお、上記の語句頻度算出部240におけるステップ500、話題度算出部260のステップ910において、それぞれ、処理対象となる語句情報と処理対象時刻を外部から入力しているが、この例に限定されることなく、語句頻度算出部240において、両方を入力してもよい。
Note that, in
[第2の実施の形態]
図10は、本発明の第2の実施の形態における話題度算出装置の構成を示す。
[Second Embodiment]
FIG. 10 shows the configuration of the topic level calculation apparatus according to the second embodiment of the present invention.
同図に示す話題度算出装置には、本装置の入力となる文書データを蓄積する文書データベース200と、本装置が出力する話題語句情報を記録する話題語句記録装置1060とが接続されている。
The topic level calculation apparatus shown in FIG. 2 is connected to a
話題度算出装置は、文書解析部210、語句集計部220、語句データベース230、語句頻度算出部1040、話題度算出部1050から構成される。
The topic level calculation device includes a
上記の構成のうち、文書データベース200、文書解析部210、語句集計部220、語句データベース230は、前述の第1の実施の形態と同様であり、その説明は省略する。
Of the above configuration, the
第1の実施の形態で示した語句の話題度算出方法においては、利用者から話題度算出対象とする語句の入力を受け付けてから、話題度の算出処理を行っていた。これは、ある言葉が話題となっているかを知ることはできるが、未知の言葉が話題になっている場合にそれを知ることができない。 In the phrase topic level calculation method shown in the first embodiment, the topic level calculation process is performed after receiving an input of a phrase that is a topic level calculation target from the user. This allows you to know if a word is a topic, but not when an unknown word is a topic.
これに対し、本実施の形態では、予め定めた一定期間毎に語句データベース230に含まれる全語句に対して話題度を算出することにより、その時々でどのような語句が話題になっているかを抽出可能とする。
On the other hand, in this embodiment, by calculating the topic level for all the words and phrases included in the
以下では、第1の実施の形態にはない全語句の語句頻度を算出する語句頻度算出部1040と、全語句の話題度を算出する話題度算出部1050との動作について説明する。
Hereinafter, operations of the phrase
図11は、本発明の第2の実施の形態における語句頻度算出部の処理のフローチャートである。 FIG. 11 is a flowchart of processing of the phrase frequency calculation unit in the second embodiment of the present invention.
ステップ1100) 語句頻度算出部1040は、予め定められた一定期間毎に起動し、語句データベース230にアクセスし、蓄積されている語句を重複なく取り出し語句リストを作成し、当該語句頻度算出部1040内のバッファ(図示せず)に格納する。
Step 1100) The phrase
ステップ1110) 次に、各集計期間毎の文書数を語句蓄積データベース230から取得し、文書数の時間変動Dall(T)を算出する。この際に、処理を軽減するために最近N期間の文書数のみに限ってDall(T)を算出してもよい。
Step 1110) Next, the number of documents for each counting period is acquired from the
ステップ1120) ステップ1100で作成され、バッファに格納された語句リストから未処理語句wを選び、語句データベース230から当該語句の各集計期間毎の使用数を読み込み、集計期間毎の語句wの使用頻度の変動を表す関数Dw(T)を得る。この際、処理を軽減するため最近N期間の使用文書数のみに限ってDw(T)を算出してもよい。
Step 1120) An unprocessed word / phrase w is selected from the word / phrase list created in Step 1100 and stored in the buffer, the number of uses of the word / phrase for each counting period is read from the word /
ステップ1130) 語句wの使用頻度の変動を表す関数Dw(T)と文書数の時間変動を表す関数Dall(T)の類似性を評価して相関度R(w)を得る。類似性の算出には、一般的な波形の相関関数である次式を用いる。 Step 1130) The similarity R (w) is obtained by evaluating the similarity between the function D w (T) representing the variation in the usage frequency of the word w and the function D all (T) representing the temporal variation in the number of documents. The similarity is calculated using the following equation which is a general waveform correlation function.
ステップ1150) 得られた語句wの補正された使用頻度の時間変化Gw(T)を話題度算出部1050の語句頻度バッファ(図示せず)に記録する。
Step 1150) The time change G w (T) of the corrected usage frequency of the obtained phrase w is recorded in a phrase frequency buffer (not shown) of the topic
ステップ1160) 未処理の語句が語句リスト中に存在するかを確認し、存在するならばステップ1120に戻って処理を続ける。未処理の語句が存在しなければ処理を終了する。 Step 1160) It is confirmed whether or not an unprocessed word / phrase exists in the word / phrase list, and if it exists, the process returns to Step 1120 to continue the processing. If there is no unprocessed word, the process ends.
次に、話題度算出部260の処理の流れを示す。
Next, a processing flow of the topic
図12は、本発明の第2の実施の形態における話題度算出部の処理のフローチャートである。 FIG. 12 is a flowchart of processing of the topic level calculation unit in the second embodiment of the present invention.
ステップ1210)話題度算出部1050は、語句頻度算出部1040と同様に予め定められた期間毎に処理を開始し、処理開始時の時刻tpを取得する。
Step 1210)
ステップ1220) 次に、処理対象時刻を元に、予め与えられた正の値tqを用いて得られるtpからtp−tqまでの時間範囲に対応する、話題重み付け関数Itp(t)を作成する。この際、前述の特許文献1に示されるインパクト曲線のような重み付け関数を作成するとよい。 Step 1220) Next, based on the processing target time corresponds to the time range from t p obtained using the positive value t q previously given to t p -t q, topic weighting function It p (t ). At this time, it is preferable to create a weighting function such as the impact curve shown in Patent Document 1 described above.
ステップ1230) 語句バッファ(図示せず)からある語句wの使用頻度の時間変化を表すGw(T)を一つ取り出し、話題重み付け関数Itp(t)と掛け合わせることによって、語句wの話題度TS(w)を求める。 Step 1230) Take out one G w (T) representing a temporal change in the frequency of use of a certain word w from a word buffer (not shown) and multiply it by the topic weighting function It p (t) to obtain the topic of the word w Determine the degree TS (w).
「決勝戦 32.8 2006/016 13:30」
といった結果が出力される。一連の処理で出力される話題度情報は全て同じ時刻情報を持つため、記憶量の軽減のためそれらをまとめて記録してもよい。話題度記録装置1060に出力される話題度情報の例を図13に示す。
"Final 32.8 2006/016 13:30"
Will be output. Since all topic level information output in a series of processes has the same time information, they may be recorded together to reduce the storage amount. An example of topic level information output to the topic
ステップ1250) 語句頻度バッファ(図示せず)に未処理の語句頻度情報が含まれるかを確認し、含まれる場合にはステップ1130に戻り処理を続ける。含まれない場合には処理を終了する。 Step 1250) It is confirmed whether or not the unprocessed phrase frequency information is included in the phrase frequency buffer (not shown). If included, the process returns to Step 1130 to continue the processing. If not included, the process ends.
また、上記の話題度算出装置の各構成要素の動作をプログラムとして構築し、話題度算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 Further, the operation of each component of the topic level calculation device described above can be constructed as a program, installed on a computer used as the topic level calculation device and executed, or distributed via a network.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、話題度算出装置として利用されるコンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed on a computer used as a topic level calculation device.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、文書群から話題となっている語句を抽出するための技術に適用可能である。 The present invention can be applied to a technique for extracting a topic / phrase from a document group.
200 文書データベース
210 文書解析手段、文書解析部
220 語句集計部
230 語句データベース
240 語句頻度算出手段、語句頻度算出部
250 話題度算出手段、話題度算出部
260 話題表示装置
1040 語句頻度算出部
1050 話題度算出部
1060 話題度記録装置
200
Claims (10)
文書解析手段が、作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻および該文書内語句と共に語句データベースに格納する文書解析ステップと、
語句頻度算出手段が、外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句wと記す)と、どの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得する入力受付ステップと、
前記語句頻度算出手段が、前記処理対象語句に基づいて前記語句データベースを検索し、該処理対象語句wに対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数G w (T)を算出する語句頻度算出ステップと、
話題度算出手段が、前記入力受付ステップで入力された前記入力時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出ステップで算出された前記語句頻度関数G w (T)に対して前記算出指定時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出ステップと、
を行い、
前記語句頻度算出ステップにおいて、
前記語句頻度算出手段は、前記処理対象語句wの前記入力文書中での前記語句頻度の時間変動D w (T)と前記入力文書数の時間変動D all (T)とを求め、D w (T)とD all (T)の類似性を評価して相関度合いR(w)を求め、該D all (T)に該R(w)を掛け合わせた値に比例した値を、該D w (T)から減算した値を語句頻度関数G w (T)とする
ことを特徴とする話題度算出方法。 A topic level calculation method in an apparatus that analyzes a large number of documents and determines the strength of topicality at a desired time with respect to a phrase included in the document,
When an input document group having creation time information is input, the document analysis unit analyzes the input document group and extracts a word / phrase (hereinafter referred to as an in-document word / phrase) to be evaluated. input document number, the document analyzing step of aggregating the word frequency, stored in the word database along with them aggregated aggregation time and the documents in the word is the number of times of use of the document the phrase,
The phrase frequency calculation means is a phrase (hereinafter referred to as a processing target phrase w ) that is subject to topic level calculation processing input from the outside, and time information (hereinafter, calculation designation) that indicates the topic at which the topic is calculated. An input reception step for acquiring the time)
The phrase frequency calculation means searches the phrase database based on the processing target phrase, and the time variation of the phrase frequency based on the phrase frequency of the phrase in the document corresponding to the processing target phrase w and the aggregation time A phrase frequency calculating step for calculating a phrase frequency function G w (T) representing
The topic frequency calculation means calculates the topic frequency indicating the level of topicality of the processing target phrase at the time of the input time input in the input reception step, the phrase frequency function G calculated in the phrase frequency calculation step a topic degree calculation step to obtain by multiplying w (T) by a topic weight function for calculating a high topic degree when the phrase frequency is increasing near the calculation designated time;
And
In the phrase frequency calculating step,
The word frequency calculation means obtains a time fluctuation D w (T) of the word frequency in the input document of the processing target word w and a time fluctuation D all (T) of the number of input documents, and D w ( T) and by evaluating the similarity of D all (T) obtaining a correlation degree R (w), a value proportional to a value obtained by multiplying the R (w) to the D all (T), said D w A topic degree calculation method characterized in that a value subtracted from (T) is a phrase frequency function G w (T) .
前記処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
請求項1記載の話題度算出方法。 In the phrase frequency calculating step,
The correlation degree R (w) between the time fluctuation D w (T) of the word frequency in the input document group of the processing target word w and the time fluctuation D all (T) of the number of input documents
The topic level calculation method according to claim 1 .
前記処理対象語句wの前記入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
請求項1記載の話題度算出方法。 In the phrase frequency calculating step,
Using the degree of correlation R (w) between the time variation D w (T) of the word frequency in the input document of the processing target word w and the time variation D all (T) of the number of input documents, the number of input documents The phrase frequency function G w (T) considering the increase or decrease of the phrase frequency due to the fluctuation of
The topic level calculation method according to claim 1 .
前記話題度算出処理の対象となる前記処理対象語句wと、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、
前記語句頻度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数G w (T)を求め、
前記話題度算出ステップにおいて、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める、
請求項1乃至3記載の話題度算出方法。 In the input receiving step,
Instead of accepting the processing target phrase w that is the subject of the topic level calculation process and the calculation designated time indicating the topic level at which the topic level is calculated,
In the phrase frequency calculating step,
Obtaining a phrase frequency function G w (T) for all the processing target phrases included in the input document group;
In the topic level calculation step,
Obtain the topic level at the processing time for all the processing target words included in the input document group,
Topical calculation method of claims 1 to 3, wherein.
作成時刻情報を有する入力文書群が入力されると、該入力文書群を解析して話題性評価の対象となる語句(以下、文書内語句と記す)を抽出し、入力された入力文書数、該文書内語句の使用回数である語句頻度を集計し、それらを集計した集計時刻及び該文書内語句と共に語句データベースに格納する文書解析手段と、
外部から入力された話題度算出処理の対象となる語句(以下、処理対象語句wと記す)を取得し、該処理対象語句に基づいて前記語句データベースを検索し、取得した該処理対象語句wに対応する文書内語句の前記語句頻度と前記集計時刻に基づいて、該語句頻度の時間変動を表す語句頻度関数G w (T)を算出する語句頻度算出手段と、
外部からどの時点での話題を算出するのかを表す時刻情報(以下、算出指定時刻と記す)を取得し、該算出指定時刻の時点において、前記処理対象語句の話題性の高低を表す話題度を、前記語句頻度算出手段で算出された前記語句頻度関数G w (T)に対して前記入力時刻の付近で語句頻度が増えている場合に、高い話題度を算出する話題重み関数を掛け合わせることにより求める話題度算出手段と、
を有し、
前記語句頻度算出手段は、
前記処理対象語句wの前記入力文書中での前記語句頻度の時間変動D w (T)と前記入力文書数の時間変動D all (T)とを求め、D w (T)とD all (T)の類似性を評価して相関度合いR(w)を求め、該D all (T)に該R(w)を掛け合わせた値に比例した値を、該D w (T)から減算した値を語句頻度関数G w (T)とする手段を含む、
ことを特徴とする話題度算出装置。 A topic degree calculation device that analyzes a large number of documents and determines the strength of topicality at a desired time with respect to a phrase included in the document,
When an input document group having creation time information is input, the input document group is analyzed to extract a word / phrase (hereinafter referred to as an in-document word / phrase) for topicality evaluation, and the number of input documents input, Document analysis means for totalizing phrase frequencies, which are the number of times the phrase is used in the document, and storing the total frequency in the phrase database together with the total time and the phrase in the document
A word / phrase (hereinafter, referred to as a processing target phrase / w ) input from an externally inputted topic degree calculation process is acquired, the word / phrase database is searched based on the processing target phrase / phrase, and the acquired processing target phrase / w A phrase frequency calculating means for calculating a phrase frequency function G w (T) representing a temporal variation of the phrase frequency based on the phrase frequency of the corresponding phrase in the document and the counting time;
Obtain time information (hereinafter referred to as a calculation designated time) indicating the time at which the topic is calculated from the outside, and at the time of the calculation designated time, obtain a topic level representing the level of topicality of the processing target phrase. , Multiplying the phrase frequency function G w (T) calculated by the phrase frequency calculation means by a topic weight function for calculating a high topic level when the phrase frequency increases near the input time. The topic level calculation means obtained by
Have
The phrase frequency calculating means includes:
A time variation D w (T) of the phrase frequency in the input document of the processing target phrase w and a time variation D all (T) of the number of input documents are obtained, and D w (T) and D all (T ) To obtain a correlation degree R (w), and a value obtained by subtracting a value proportional to a value obtained by multiplying the D all (T) by the R (w ) from the D w (T) Including means for the phrase frequency function G w (T) ,
A topic degree calculation device characterized by that.
前記処理対象語句wの入力文書群中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を、
請求項5記載の話題度算出装置。 The phrase frequency calculating means includes:
The correlation degree R (w) between the time fluctuation D w (T) of the word frequency in the input document group of the processing target word w and the time fluctuation D all (T) of the number of input documents
The topic level calculation device according to claim 5 .
前記処理対象語句wの前記入力文書中での語句頻度の時間変動Dw(T)と入力文書数の時間変動Dall(T)との相関度合いR(w)を用いて、前記入力文書数が変動した影響による語句の語句頻度の増減を考慮した語句頻度関数Gw(T)を、
請求項5記載の話題度算出装置。 The phrase frequency calculating means includes:
Using the degree of correlation R (w) between the time variation D w (T) of the word frequency in the input document of the processing target word w and the time variation D all (T) of the number of input documents, the number of input documents The phrase frequency function G w (T) considering the increase or decrease of the phrase frequency due to the fluctuation of
The topic level calculation device according to claim 5 .
前記話題度算出処理の対象となる前記処理対象語句wと、どの時点での話題度を算出するかを表す前記算出指定時刻を受け付ける代わりに、前記入力文書群中に含まれる全ての処理対象語句について語句頻度関数G w (T)を求める手段を含み、
前記話題度算出手段は、
前記入力文書群中に含まれる全ての処理対象語句について処理時刻での話題度を求める手段を含む、
請求項5乃至7記載の話題度算出装置。 The phrase frequency calculating means includes:
Instead of accepting the processing target phrase w that is the subject of the topic level calculation processing and the calculation designated time that indicates when the topic level is calculated, all the processing target phrases included in the input document group Means for determining a phrase frequency function G w (T) for
The topic level calculation means includes:
Including means for determining a topic level at a processing time for all processing target words included in the input document group,
The topic degree calculation device according to claim 5 .
請求項5乃至8記載の話題度算出装置の各手段を実行させることを特徴とする話題度算出プログラム。 On the computer,
9. A topic level calculation program that causes each means of the topic level calculation device according to claim 5 to be executed.
請求項5乃至8記載の話題度算出装置の各手段を実行させる話題度算出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。 On the computer,
9. A computer-readable recording medium storing a topic level calculation program for executing each means of the topic level calculation device according to claim 5 .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006153846A JP4800846B2 (en) | 2006-06-01 | 2006-06-01 | Topic degree calculation method and apparatus, program, and computer-readable recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006153846A JP4800846B2 (en) | 2006-06-01 | 2006-06-01 | Topic degree calculation method and apparatus, program, and computer-readable recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007323434A JP2007323434A (en) | 2007-12-13 |
| JP4800846B2 true JP4800846B2 (en) | 2011-10-26 |
Family
ID=38856175
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006153846A Expired - Fee Related JP4800846B2 (en) | 2006-06-01 | 2006-06-01 | Topic degree calculation method and apparatus, program, and computer-readable recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4800846B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5952241B2 (en) * | 2013-09-03 | 2016-07-13 | 日本電信電話株式会社 | Information grant apparatus, information grant method, and information grant program |
| CN112307278B (en) * | 2020-10-26 | 2024-02-23 | 中国科学院计算技术研究所 | A method and system for real-time generation of topic context at any scale |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3186380B2 (en) * | 1993-11-26 | 2001-07-11 | 株式会社日立製作所 | Control device |
| JP2729356B2 (en) * | 1994-09-01 | 1998-03-18 | 日本アイ・ビー・エム株式会社 | Information retrieval system and method |
| JP4165426B2 (en) * | 2004-03-26 | 2008-10-15 | 日本電信電話株式会社 | Topic extraction method, apparatus and program |
| JP2006120067A (en) * | 2004-10-25 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | Distribution amount corresponding information display method, system, apparatus, program, and storage medium storing program |
| JP4134975B2 (en) * | 2004-10-25 | 2008-08-20 | 日本電信電話株式会社 | Topic document presentation method, apparatus, and program |
-
2006
- 2006-06-01 JP JP2006153846A patent/JP4800846B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007323434A (en) | 2007-12-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11755841B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
| KR101541306B1 (en) | Computer enabled method of important keyword extraction, server performing the same and storage media storing the same | |
| JP5136910B2 (en) | Information analysis apparatus, information analysis method, information analysis program, and search system | |
| JP2016218512A (en) | Information processing device and information processing program | |
| CN102227737A (en) | Web page search system and method using access time and frequency | |
| CN105405051B (en) | Financial event prediction method and device | |
| JP5387577B2 (en) | Information analysis apparatus, information analysis method, and program | |
| US9483447B2 (en) | Method, device, and computer storage media for adding hyperlink to text | |
| JP4165426B2 (en) | Topic extraction method, apparatus and program | |
| JP4800846B2 (en) | Topic degree calculation method and apparatus, program, and computer-readable recording medium | |
| CN108153728A (en) | A kind of keyword determines method and device | |
| JP2013109635A (en) | Word importance calculation device and method and program thereof | |
| JP2007219929A (en) | Sensitivity evaluation system and method | |
| JP5055202B2 (en) | Keyword comparison system, keyword comparison method, and keyword comparison program | |
| CN119415771A (en) | Multi-channel vocabulary filtering method and device | |
| KR101614551B1 (en) | System and method for extracting keyword using category matching | |
| CN111046169A (en) | Method, device and equipment for extracting subject term and storage medium | |
| JP5180894B2 (en) | Attribute expression acquisition method, apparatus and program | |
| JP2002175240A (en) | Website evaluation system, website evaluation method and recording medium | |
| JP4206961B2 (en) | Topic extraction method, apparatus and program | |
| CN120163151B (en) | Method for extracting entity in text, electronic equipment and storage medium | |
| JP5123057B2 (en) | Spam determination method, apparatus and program | |
| JP2009163399A (en) | Related keyword extraction method and apparatus, program, and computer-readable recording medium | |
| JP4424125B2 (en) | Predictive topicality evaluation apparatus and program | |
| JP4592566B2 (en) | Topic extraction method and apparatus, program, and computer-readable recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080806 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101112 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110113 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110804 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |