Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5548243B2 - Event occurrence point extraction apparatus, method, and program - Google Patents
[go: Go Back, main page]

JP5548243B2 - Event occurrence point extraction apparatus, method, and program - Google Patents

Event occurrence point extraction apparatus, method, and program Download PDF

Info

Publication number
JP5548243B2
JP5548243B2 JP2012174859A JP2012174859A JP5548243B2 JP 5548243 B2 JP5548243 B2 JP 5548243B2 JP 2012174859 A JP2012174859 A JP 2012174859A JP 2012174859 A JP2012174859 A JP 2012174859A JP 5548243 B2 JP5548243 B2 JP 5548243B2
Authority
JP
Japan
Prior art keywords
information
point
time
word
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012174859A
Other languages
Japanese (ja)
Other versions
JP2014035570A (en
Inventor
大祐 佐藤
良彦 数原
恭太 堤田
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012174859A priority Critical patent/JP5548243B2/en
Publication of JP2014035570A publication Critical patent/JP2014035570A/en
Application granted granted Critical
Publication of JP5548243B2 publication Critical patent/JP5548243B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、イベント発生地点抽出装置、方法、及びプログラムに係り、特に、突発的イベントが発生している地点を抽出するイベント発生地点抽出装置、方法、及びプログラムに関する。   The present invention relates to an event occurrence point extraction device, method, and program, and more particularly, to an event occurrence point extraction device, method, and program for extracting a point where a sudden event occurs.

Web検索やブログなどのWebサービスを通じて集まった、人々の行動に関するデータを統計的に処理することで、今現在世の中で注目を集めている事がらを抽出する技術がある。例えば、マイクロブログ記事中に出現するキーワードの頻度から、現在注目を集めているキーワードを抽出して提示する、といったことが行われている。   There is a technology to extract the things that are currently attracting attention in the world by statistically processing the data on people's behavior gathered through web services such as web search and blog. For example, keywords currently attracting attention are extracted and presented from the frequency of keywords appearing in microblog articles.

キーワードに対する注目度ではなく、イベントに対する注目度を出すという技術がある(特許文献1)。あらかじめイベントを表すキーワードリストを作成しておき、キーワードリストに含まれるキーワードのうち、イベントに関するキーワードの注目度を求めることによって実現される。このような技術では、あらかじめ起きるイベントに関するキーワードリストが作成できなくてはならないため、事件や事故、ゲリラライブなどの突発的に発生したイベントの注目度を抽出することができない。   There is a technique of giving attention to events instead of attention to keywords (Patent Document 1). This is realized by creating a keyword list representing an event in advance and obtaining the attention level of the keyword related to the event among the keywords included in the keyword list. In such a technique, since it is necessary to create a keyword list regarding events that occur in advance, it is not possible to extract the attention level of events that occur suddenly, such as incidents, accidents, and guerrilla live events.

当業者において突発的なイベントの抽出を行うシステムを実現する方法として、上記のような技術を利用した素朴な方法が考えられる。素朴な方法の手順を説明する。まず、注目を集めている地点を抽出する。これは、上記の方法で用いられたイベントリストを、地点リストに置き換えることによって実現可能である。次に、注目を集めている地点から、イベントが起きている地点を除く。これは、イベントとその発生地点が対となったリストを用いることで可能である。このように、注目を集めた地点のうち、あらかじめイベントが発生していることがわかっている地点を除いたもの地点で、突発的なイベントが発生していることがわかる。   As a method for realizing a system for suddenly extracting events in a person skilled in the art, a simple method using the above-described technique can be considered. Explain the procedure of the simple method. First, the points that are attracting attention are extracted. This can be realized by replacing the event list used in the above method with a point list. Next, the point where the event is occurring is excluded from the points attracting attention. This is possible by using a list in which an event and its occurrence point are paired. In this way, it can be seen that a sudden event has occurred at points that have attracted attention, excluding those where it is known that an event has occurred in advance.

特許第4496900号公報Japanese Patent No. 4496900

しかし、上述した素朴な方法で実現した場合、2つの問題点が生じる。1点目は、全てのイベント情報を網羅したイベントリストを作成することが困難であることである。これにより、あらかじめ予定されていたイベントであるにもかかわらず、イベントリストにないという理由で突発的なイベントとして誤って抽出してしまうという問題が生じる。2点目は、あらかじめ予測されていたイベントが起きている地点で発生している突発的なイベントは抽出できないということである。   However, when implemented by the simple method described above, two problems arise. The first point is that it is difficult to create an event list that covers all event information. As a result, there is a problem that the event is accidentally extracted as a sudden event because it is not in the event list even though the event is scheduled in advance. The second point is that a sudden event occurring at a point where a previously predicted event is occurring cannot be extracted.

本発明は、上記の事実を鑑みてなされたもので、全てのイベント情報を網羅したイベントリストを作成することなく、突発的なイベントが発生している地点を精度よく抽出することができるイベント発生地点抽出装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above facts, and it is possible to accurately extract a point where a sudden event occurs without creating an event list that covers all event information. An object is to provide a point extraction apparatus, method, and program.

上記の目的を達成するために本発明に係るイベント発生地点抽出装置は、突発的イベントが発生している地点を抽出するイベント発生地点抽出装置であって、各々発信時刻を示す時刻情報が付与されたテキスト集合の各テキストから、地名及び前記地名が示す位置情報を蓄積した地点情報データベースから得られる各地名を検索し、前記地名が検索されたテキストの各々について、前記テキストの単語情報、前記テキストの時刻情報、及び前記地名が示す位置情報を含むレコードを生成して、リアルタイム地点情報データベースに登録する前処理手段と、突発的イベントの抽出条件として入力された地理範囲及び時刻情報に基づいて、前記リアルタイム地点情報データベースから、位置情報が前記入力された地理範囲に含まれ、かつ、時刻情報が前記入力された時刻情報に対応するレコードを取得するレコード取得手段と、前記入力された地理範囲に含まれる各位置情報に対して、前記レコード取得手段によって取得したレコード中の前記位置情報を含むレコード数を、前記リアルタイム地点情報データベースに蓄積された、前記位置情報が前記入力された地理範囲に含まれ、かつ、前記時刻情報が他の日付において前記入力された時刻情報に対応するレコード中に含まれる、前記位置情報を含むレコード数と比較することにより、注目地点であるか否かを判定し、注目地点であると判定された位置情報を抽出する注目地点抽出手段と、前記レコード取得手段によって取得したレコードであって、かつ、前記注目地点抽出手段によって抽出された注目地点である位置情報を含むレコード中に含まれる単語情報の各単語に対して、前記レコード中の前記単語情報に前記単語が含まれるレコード数と、前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と所定日数の他の日付において前記入力された時刻情報に対応する時間情報とを含む全てのレコードに基づいて求められる、前記単語情報に前記単語を含むレコードが存在する前記他の日付の日数と、前記所定日数とに基づいて、前記単語の注目要因度を算出し、注目要因度が最も大きい単語を、注目要因ワードとして抽出する注目要因ワード抽出手段と、前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と前記入力された時刻情報が示す時刻から所定時間だけ遡った時刻までの時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数に基づいて、前記注目地点が、突発的イベントが発生している地点であるか否かを判定することにより、突発的イベントが発生している地点を抽出するイベント発生地点抽出手段と、を含んで構成されている。 In order to achieve the above object, an event occurrence point extraction apparatus according to the present invention is an event occurrence point extraction apparatus that extracts a point where a sudden event has occurred, and time information indicating each transmission time is given. From each text in the text set, a place name database that stores a place name and location information indicated by the place name is searched for each place name, and the word information of the text and the text for each of the place names searched for the text Based on the pre-processing means for generating the time information and the location information indicated by the place name and registering it in the real-time point information database, and the geographical range and time information input as the extraction condition of the sudden event, From the real-time location information database, location information is included in the input geographic range, and time information Includes record acquisition means for acquiring a record corresponding to the input time information, and for each position information included in the input geographic range, the position information in the record acquired by the record acquisition means is included. The number of records is stored in the real-time point information database, the position information is included in the input geographic range, and the time information is in a record corresponding to the input time information on another date. The point-of-interest extraction means for determining whether or not the point of interest is included by comparing with the number of records including the position information included, and extracting the position information determined to be the point of interest; and the record acquisition unit And a record including position information that is a point of interest extracted by the point of interest extraction means. For each word in the word information contained in de, and the number of records that contain the words in the word information in the record, the real-time location information stored in the database, the position information and the predetermined is the point of interest Calculated on the basis of all records including time information corresponding to the input time information on the other date of the number of days, the number of days of the other date on which the record including the word exists in the word information, and Based on a predetermined number of days, the attention factor degree of the word is calculated, the attention factor word extracting means for extracting the word having the largest attention factor degree as the attention factor word, and the stored in the real-time location information database, the position information is the point of interest, and the time information in the time zone from the time indicated by the input time information to the time traced back a predetermined time including The number of records in which the attention factor word is included in the word information in all records, the position information that is the attention point stored in the real-time point information database, and the time within the time zone at another date The number of records in which the attention factor word is included in the word information in all records including information , the position information of the attention point stored in the real-time point information database, and the time zone at another date Based on the number of records in which the attention factor word is included in the word information in all the records including the time information within, it is determined whether the attention point is a point where a sudden event has occurred And event occurrence point extraction means for extracting a point where a sudden event has occurred.

本発明に係るイベント発生地点抽出方法は、突発的イベントが発生している地点を抽出するイベント発生地点抽出方法であって、前処理手段によって、各々発信時刻を示す時刻情報が付与されたテキスト集合の各テキストから、地名及び前記地名が示す位置情報を蓄積した地点情報データベースから得られる各地名を検索し、前記地名が検索されたテキストの各々について、前記テキストの単語情報、前記テキストの時刻情報、及び前記地名が示す位置情報を含むレコードを生成して、リアルタイム地点情報データベースに登録し、レコード取得手段によって、突発的イベントの抽出条件として入力された地理範囲及び時刻情報に基づいて、前記リアルタイム地点情報データベースから、位置情報が前記入力された地理範囲に含まれ、かつ、時刻情報が前記入力された時刻情報に対応するレコードを取得し、注目地点抽出手段によって、前記入力された地理範囲に含まれる各位置情報に対して、前記レコード取得手段によって取得したレコード中の前記位置情報を含むレコード数を、前記リアルタイム地点情報データベースに蓄積された、前記位置情報が前記入力された地理範囲に含まれ、かつ、前記時刻情報が他の日付において前記入力された時刻情報に対応するレコード中に含まれる、前記位置情報を含むレコード数と比較することにより、注目地点であるか否かを判定し、注目地点であると判定された位置情報を抽出し、注目要因ワード抽出手段によって、前記レコード取得手段によって取得したレコードであって、かつ、前記注目地点抽出手段によって抽出された注目地点である位置情報を含むレコード中に含まれる単語情報の各単語に対して、前記レコード中の前記単語情報に前記単語が含まれるレコード数と、前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と所定日数の他の日付において前記入力された時刻情報に対応する時間情報とを含む全てのレコードに基づいて求められる、前記単語情報に前記単語を含むレコードが存在する前記他の日付の日数と、前記所定日数とに基づいて、前記単語の注目要因度を算出し、注目要因度が最も大きい単語を、注目要因ワードとして抽出し、イベント発生地点抽出手段によって、前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と前記入力された時刻情報が示す時刻から所定時間だけ遡った時刻までの時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数に基づいて、前記注目地点が、突発的イベントが発生している地点であるか否かを判定することにより、突発的イベントが発生している地点を抽出する。 The event occurrence point extraction method according to the present invention is an event occurrence point extraction method for extracting a point where a sudden event has occurred, and is a text set to which time information indicating each transmission time is given by a preprocessing means. Each place name obtained from the location information database storing the place name and the position information indicated by the place name is searched from each text, and the word information of the text and the time information of the text are retrieved for each of the texts searched for the place name. And a record including location information indicated by the place name, registered in the real-time point information database, and based on the geographical range and time information input as a sudden event extraction condition by the record acquisition means, the real-time From the point information database, location information is included in the input geographic range, and The record corresponding to the input time information is acquired by the time information, and the position in the record acquired by the record acquisition unit is acquired for each position information included in the input geographic range by the point of interest extraction unit. The number of records including position information is stored in the real-time point information database, the position information is included in the input geographic range, and the time information corresponds to the input time information on another date. By comparing with the number of records including the position information included in the record to be determined, whether or not it is a point of interest, extracting the position information determined to be the point of interest, and attention factor word extraction means The point of interest is a record acquired by the record acquisition unit and extracted by the point of interest extraction unit For each word in the word information included in the record including a location information, and the number of records that contain the words in the word information in the records, stored in the real-time location information database, with the point of interest The other date on which there is a record including the word in the word information, which is obtained based on all records including certain position information and time information corresponding to the input time information on another date of a predetermined number of days Based on the number of days and the predetermined number of days, the attention factor degree of the word is calculated, the word having the largest attention factor degree is extracted as the attention factor word, and the real-time point information database is extracted by the event occurrence point extraction unit stored in, when the a point of interest at a location, going back a predetermined time from the input time information indicating a time The number of records in which the attention factor word is included in the word information in all records including the time information in the time zone until the time, and the position information that is the attention point stored in the real-time point information database; , The number of records in which the attention factor word is included in the word information in all records including the time information in the time zone on other dates , and the attention point accumulated in the real-time point information database Based on the number of records in which the attention factor word is included in the word information in all the records including the position information and the time information in the time zone on another date , a sudden event occurs at the attention point. By determining whether or not the point is a spot, a point where a sudden event occurs is extracted.

本発明に係るプログラムは、コンピュータを、上記のイベント発生地点抽出装置の各手段として機能させるためのプログラムである。   The program which concerns on this invention is a program for functioning a computer as each means of said event occurrence point extraction apparatus.

以上説明したように、本発明のイベント発生地点抽出装置、方法、及びプログラムによれば、入力された地理範囲に含まれる各位置情報に対する、位置情報を含むレコード数に基づいて、注目地点である位置情報を抽出し、注目地点である位置情報を含むレコード中に含まれる単語情報の各単語に対して、注目要因度を算出して、注目要因ワードを抽出し、注目地点である位置情報と入力された時刻情報以前の過去の所定期間内の時刻情報とを含む全てのレコードの単語情報から求められる、注目要因ワードを含むレコード数の時間変化に基づいて、注目地点が、突発的イベントが発生している地点であるか否かを判定することにより、全てのイベント情報を網羅したイベントリストを作成することなく、突発的なイベントが発生している地点を精度よく抽出することができる、という効果が得られる。   As described above, according to the event occurrence point extraction apparatus, method, and program of the present invention, the point of interest is based on the number of records including position information for each position information included in the input geographic range. The position information is extracted, the attention factor is calculated for each word of the word information included in the record including the position information that is the attention point, the attention factor word is extracted, and the position information that is the attention point Based on the time change of the number of records including the attention factor word obtained from the word information of all records including the time information in the past predetermined period before the input time information, the point of interest is the sudden event. A place where a sudden event has occurred without creating an event list that covers all event information by determining whether or not it is an occurrence point It is possible to accurately extract an advantage of being.

本発明の実施の形態に係るイベント発生地点抽出装置の構成を示す概略図である。It is the schematic which shows the structure of the event occurrence point extraction apparatus which concerns on embodiment of this invention. テキスト情報の例を示す図である。It is a figure which shows the example of text information. 地点情報データベースに記憶されている地名表現及び緯度経度のペアの例を示す図である。It is a figure which shows the example of the place name expression and the latitude / longitude pair memorize | stored in the point information database. リアルタイム地点情報データベースに記憶されているレコードの例を示す図である。It is a figure which shows the example of the record memorize | stored in the real-time point information database. 注目地点を抽出する方法を説明するための図である。It is a figure for demonstrating the method of extracting an attention point. 本発明の実施の形態に係るイベント発生地点抽出装置におけるイベント発生地点処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the event occurrence point process routine in the event occurrence point extraction apparatus which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、マイクロブログのような発信された大量のテキスト情報から、突発的イベントが発生した地点を抽出するイベント発生地点抽出装置に本発明を適用した場合を例に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. An example in which the present invention is applied to an event occurrence point extraction apparatus that extracts a point where a sudden event has occurred from a large amount of text information transmitted like a microblog will be described.

<イベント発生地点抽出装置の構成>
図1に示すように、本発明の実施の形態に係るイベント発生地点抽出装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述するイベント発生地点抽出処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。イベント発生地点抽出装置100は、入力部10、リアルタイムデータデータベース12、地点情報データベース14、前処理部16、リアルタイム地点情報データベース18、突発的イベント情報抽出部20、及び出力部22を備えている。なお、突発的イベント情報抽出部20は、レコード取得手段、注目地点抽出手段、注目要因ワード抽出手段、及びイベント発生地点抽出手段の一例である。
<Configuration of event occurrence point extraction device>
As shown in FIG. 1, an event occurrence point extraction device 100 according to an embodiment of the present invention executes a CPU (Central Processing Unit), a RAM (Random Access Memory), and an event occurrence point extraction processing routine described later. The computer is provided with a ROM (Read Only Memory) storing a program for the purpose, and is functionally configured as follows. The event occurrence point extraction device 100 includes an input unit 10, a real-time data database 12, a point information database 14, a preprocessing unit 16, a real-time point information database 18, a sudden event information extraction unit 20, and an output unit 22. The sudden event information extraction unit 20 is an example of a record acquisition unit, a point of interest extraction unit, a point of interest word extraction unit, and an event occurrence point extraction unit.

入力部10は、マイクロブログのような、発信されたテキスト情報を蓄積したテキスト情報データベースから入力された、テキスト情報の集合を受け付ける。入力されたテキスト情報は、マイクロブログのような、発信された情報の内容が、発信時刻と近しいようなサービスのデータを保持する。テキスト情報の例を図2に示す。テキスト情報は、発信された情報と、情報が発信された時刻とを保持する。   The input unit 10 accepts a set of text information input from a text information database that accumulates transmitted text information such as a microblog. The input text information holds data of a service such as a microblog where the content of the transmitted information is close to the transmission time. An example of text information is shown in FIG. The text information holds the transmitted information and the time when the information was transmitted.

また、入力部10は、既知のキーボード、マウスなどの入力器により入力された、突発的イベントを抽出する抽出条件としての地理範囲及び時刻を受け付ける。   In addition, the input unit 10 receives a geographic range and time as an extraction condition for extracting a sudden event, which is input by an input device such as a known keyboard or mouse.

リアルタイムデータデータベース12は、入力部10により受け付けたテキスト情報の集合を、各テキスト情報の発信時刻と共に記憶する。図2の例では、発信されたテキスト情報をBODYカラムに、情報が発信された発信時刻をLAST_MODカラムに保持している。   The real-time data database 12 stores a set of text information received by the input unit 10 together with a transmission time of each text information. In the example of FIG. 2, the transmitted text information is stored in the BODY column, and the transmission time at which the information is transmitted is stored in the LAST_MOD column.

地点情報データベース14は、地名表現及び地名にひもづく緯度経度のペアを複数記憶している。例を図3に示す。あらかじめ収集しておいたWeb文書中に含まれる、地名表現と住所情報の組を抽出し、住所情報から緯度経度に変換する必要のあるものは変換したものを地点情報データベース14に格納しておく。   The point information database 14 stores a plurality of pairs of latitude / longitude associated with place name expressions and place names. An example is shown in FIG. A combination of place name expression and address information included in a Web document collected in advance is extracted, and if it is necessary to convert from address information to latitude and longitude, the converted version is stored in the point information database 14. .

前処理部16は、リアルタイムデータデータベース12が保持するテキスト情報に対し、形態素解析をかけ、形態素解析結果が地点情報データベース14に含まれる地名表現を含む場合、当該テキスト情報の発信時刻、形態素解析結果から得られる、発信されたテキスト情報に含まれる名詞を表わす単語情報、及び地名表現に紐づいた緯度経度からなるレコードを、リアルタイム地点情報データベース18に格納する。   The pre-processing unit 16 performs morphological analysis on the text information held in the real-time data database 12, and when the morphological analysis result includes the place name expression included in the point information database 14, the transmission time of the text information, the morphological analysis result Is stored in the real-time location information database 18 with the word information representing the noun included in the transmitted text information and the latitude and longitude associated with the place name expression.

リアルタイム地点情報データベース18は、発信時刻、緯度経度、及び単語情報からなるレコードを複数保持する。例を図4に示す。各レコードは、リアルタイムデータデータベース12及び地点情報データベース14から、前処理部16を経て作成される。   The real-time location information database 18 holds a plurality of records including transmission time, latitude / longitude, and word information. An example is shown in FIG. Each record is created from the real-time data database 12 and the point information database 14 via the preprocessing unit 16.

突発的イベント情報抽出部20は、入力部10により受け付けた、地理範囲及び時刻を受け取り、抽出した突発的イベントの発生地点を出力部22に渡す。突発的イベント情報抽出部20は、注目地点抽出、注目要因ワード抽出、及び注目パターン判定という大きく3つの処理から成る。以下で、各処理の詳細を述べる。   The sudden event information extraction unit 20 receives the geographic range and time received by the input unit 10 and passes the extracted occurrence point of the sudden event to the output unit 22. The sudden event information extraction unit 20 is mainly composed of three processes: attention point extraction, attention factor word extraction, and attention pattern determination. Details of each process will be described below.

<注目地点抽出>
まず、入力部10より受け取った地理範囲及び時刻において、注目されている地点を抽出するための処理を行う。注目地点は、リアルタイム地点情報データベース18が保持している、ある地点に関する発言(テキスト情報)を利用することで抽出する。抽出方法はいくつか考えることができ、例えば、地点表現を含む発言の頻度が急激に増えた地点を注目地点として抽出する方法や、地点表現を含む発言の間隔が急激に短くなった地点を注目地点として抽出する方法が考えられる。
<Point of interest extraction>
First, a process for extracting a point of interest in the geographic range and time received from the input unit 10 is performed. The point of interest is extracted by using a statement (text information) relating to a certain point held in the real-time point information database 18. Several extraction methods can be considered, for example, a method of extracting a point where the frequency of utterances including point expressions rapidly increases as a point of interest, or a point where the interval between utterances including point expressions is rapidly shortened. A method of extracting as a point can be considered.

ここでは発言頻度に基づいて注目地点を抽出する実施例を記載する。まず、抽出方法の基本的な考え方を説明するために具体例を挙げる。例えば、入力部10より、時刻2012年5月31日19時40分と、東京23区を表す地理範囲とを受け取ったとする。5月31日19時40分における東京23区内の注目地点を抽出するために、リアルタイム地点情報データベース18から、5月31日の19時20分から19時40分までの範囲内を発信時刻とし、かつ、東京23区内での各地点の経度緯度を含む発言(レコード)を取得し、経度緯度毎に発言頻度(レコード数)を求め、経度緯度ごとに、ここ数週間の発言頻度(レコード数)と比較する。具体的には、2012年5月10日、17日、24日、及び31日それぞれの日において、19時20分から19時40分の間に含まれる発信時刻を持ち、かつ入力で受け取った東京23区内を表す地理範囲に含まれる緯度経度を持つレコードを、リアルタイム地点情報データベース18から取得する。発言数(レコード数)の集計を各経度緯度、各日にちで行い、各経度緯度について、抽出条件である5月31日の発言数(レコード数)と、10日、17日、24日の発言数の平均値とを比較する。ある地点(経度緯度)に関する5月31日の発言数が、他の日にちの発言数の平均の二倍を超えていた場合、その地点(経度緯度)を注目地点として抽出する。   Here, an embodiment in which a point of interest is extracted based on the utterance frequency will be described. First, a specific example is given to explain the basic concept of the extraction method. For example, it is assumed that the time of May 31, 2012, 19:40 and the geographical range representing Tokyo 23 wards are received from the input unit 10. In order to extract the points of interest in Tokyo's 23 wards at 19:40 on May 31, the real-time location information database 18 uses the range from 19:20 to 19:40 on May 31 as the transmission time. And, the utterance (record) including the longitude and latitude of each point in Tokyo 23 wards is obtained, the utterance frequency (number of records) is obtained for each longitude and latitude, and the utterance frequency (records) of the past few weeks for each longitude and latitude Number). Specifically, on May 10, 2012, May 24, 2012, and May 31, 2012, Tokyo that had an outgoing time included between 19:20 and 19:40 and was received as input A record having the latitude and longitude included in the geographical range representing the 23 wards is acquired from the real-time point information database 18. The total number of utterances (number of records) is calculated for each longitude / latitude and each day. Compare the average number. If the number of utterances on May 31 regarding a certain point (longitude and latitude) exceeds twice the average number of utterances on other days, that point (longitude and latitude) is extracted as a point of interest.

これを一般化して記述する。抽出条件として受け取った時刻をt0,0とし、t0,0からある時間s(例えば20分間)だけさかのぼった時刻をt1,0とする。また、t0,0からある周期c(例えば1週間)さかのぼった時刻をt0,1、同様にt1,0からある周期cさかのぼった時刻をt1,1とする。さらに、t0,0〜t1,0までの期間をs0,0とし、同様にt0,1〜t1,1までの期間をs0,1とする。抽出条件として指定された地理範囲、及び抽出条件として指定された時刻に基づく各期間s0,i(i=0,1,2,…,n)をキーとして、リアルタイム地点情報データベース18よりレコードを取得する。期間s0,iにおける地点pに関するレコード数をp(s0,i)としたとき、以下の(1)式が示す判別式を満たす地点(経度緯度)pを注目地点として抽出する。 This is generalized and described. The time received as the extraction condition is set to t 0,0, and the time going back from t 0,0 by a certain time s (for example, 20 minutes) is set to t 1,0 . Also, a time that goes back a certain period c (for example, one week) from t 0,0 is t 0,1 , and similarly a time that goes back a period c from t 1,0 is t 1,1 . Furthermore, a period from t 0,0 to t 1,0 is s 0,0, and similarly a period from t 0,1 to t 1,1 is s 0,1 . Records from the real-time location information database 18 using the geographical range specified as the extraction condition and the periods s 0, i (i = 0,1,2, ..., n) based on the time specified as the extraction condition as keys. get. When the number of records related to the point p in the period s 0, i is p (s 0, i ), a point (longitude / latitude) p that satisfies the discriminant expressed by the following equation (1) is extracted as a point of interest.

Figure 0005548243
Figure 0005548243

ここで、θはあらかじめ設定した閾値であり、抽出精度を高めたい場合は大きな値、被覆率を高めたい場合は小さな値を設定する。また、時間s及び周期cは、p(s0,i)がなるべく一定となるようなものを選択することが好ましい。 Here, θ is a preset threshold value, and a large value is set to increase the extraction accuracy, and a small value is set to increase the coverage. Further, it is preferable to select the time s and the period c so that p (s 0, i ) is as constant as possible.

上記実施例で用いた時間変数を整理したものを図5に示す。   FIG. 5 shows an arrangement of the time variables used in the above embodiment.

<注目要因ワード抽出>
次に、注目地点抽出処理によって抽出された注目地点pに関する発言の中から、注目されている要因となっている注目要因ワードを抽出する。注目地点pの経度緯度を有し、かつ、期間s0,0中の発信時刻を有するレコードの単語情報中の各単語について、注目要因度を算出し、スコアの最も大きい単語を注目要因ワードとして抽出する。単語whの注目要因度a(wh)は以下の(2)式に従って算出される。
<Retrieving attention factor word>
Next, an attention factor word that is a factor attracting attention is extracted from the remarks about the attention point p extracted by the attention point extraction process. The degree of attention factor is calculated for each word in the word information of the record having the longitude and latitude of the point of interest p and the transmission time in the period s 0,0 , and the word with the highest score is used as the attention factor word Extract. Word w h of the attention factor degree a (w h) is calculated according to the following equation (2).

Figure 0005548243
Figure 0005548243

ここで、wfh(s0,0)は、期間s0,0の間の発信時刻を有し、かつ、地点pの経度緯度を有するレコードの単語情報に含まれる単語whの頻度(レコード数)、nは、上記(1)式において期間s0,iのレコードを取得した他の日にちの日数、dfhは、上記(1)式において他の日にちの期間s0,iについて取得したレコードの単語情報に単語whが含まれる期間s0,i(i=1,2,…,n)の頻度(他の日にちの日数)を表す。 Here, wf h (s 0,0) has a transmission time between the period s 0,0, and frequency of the word w h included in the word information record having the longitude and latitude of the point p (record number), n is the (1) period s 0, i other day of days obtained records in formula, df h was in the formula (1) obtained for the period s 0, i of other dates period s 0, i (i = 1,2 , ..., n) that contains the word w h to record the words information indicating the frequency of (the number of days the other day).

上記(2)式で算出される注目要因度を用いて、他の日の同じ時間帯に比べ、特に出現頻度(レコード数)が高い単語を、注目要因ワードとして抽出することができる。   Using the attention factor degree calculated by the above equation (2), a word having a particularly high appearance frequency (number of records) can be extracted as the attention factor word as compared with the same time zone on another day.

<注目パターン判定>
最後に、注目地点が注目を集めたことが、事前に予測されていたものかどうかという注目パターン判定を行う。判定は、注目要因ワードの出現分布を見ることによって行う。マイクロブログなどのデータでは、事前に予測されていた出来事が起きた場合、その地点が顕著に注目を集める前から、関連する発言が見られる。一方、予測が困難な出来事が起きた場合、その地点が顕著に注目を集める以前には、関連する発言はほぼみられない。このような特性を利用して、注目地点が抽出された時間帯以前に注目要因ワードがほぼ出現していなければ、予測できなかった出来事が発生していると判定する。すわなち、注目地点における、注目を集め始める以前の時間帯での注目単語の出現頻度が、他の日の同じ時間帯と比較して多いか少ないかで、事前に予測されていたか否かを判別する。
<Attention pattern judgment>
Finally, attention pattern determination is performed to determine whether or not the attention point attracted attention has been predicted in advance. The determination is made by looking at the appearance distribution of the attention factor word. In data such as microblogs, when an event that has been predicted in advance occurs, relevant remarks can be seen before the spot gets noticeable. On the other hand, when an event that is difficult to predict occurs, there is almost no relevant remark before the spot gets noticeable. By using such characteristics, it is determined that an event that could not be predicted has occurred if the attention factor word has not substantially appeared before the time zone in which the attention point is extracted. In other words, whether or not the occurrence frequency of the attention word at the attention point in the time zone before the start of attracting attention was more or less compared with the same time zone on other days, was predicted in advance Is determined.

指定時刻t0,0からある時間x(例えば12時間)だけさかのぼった時刻をta,0(a=x/s)、期間t0,i 〜ta,iをx0,iとし、さらに期間x0,iにおいて、注目地点p及び注目要因ワードwhを含むリアルタイム地点情報データベース18のレコード数をwfh(x0,i)とする。以下の(3)式が示す判別式を満たす注目地点pを、突発的イベントの発生地点として抽出する。 Let t a, 0 (a = x / s) be a time dating from a specified time t 0,0 by a certain time x (for example, 12 hours), a period t 0, i to t a, i be x 0, i , and in the period x 0, i, and the point of interest p and attention factor word w h wf the number of records in real-time location information database 18 containing h (x 0, i). A point of interest p that satisfies the discriminant represented by the following equation (3) is extracted as a point of occurrence of a sudden event.

Figure 0005548243
Figure 0005548243

ここで、θはあらかじめ設定した閾値であり、突発的イベントの抽出精度を高めたい場合は大きな値、突発的イベントの被覆率を高めたい場合は小さな値を設定する。なお、時間帯x0,i(i=0,・・・,n)が、入力された時刻情報以前の過去の所定期間の一例である。 Here, θ is a preset threshold value, and is set to a large value when it is desired to increase the extraction accuracy of sudden events, and a small value when it is desired to increase the coverage of sudden events. The time zone x 0, i (i = 0,..., N) is an example of a past predetermined period before the input time information.

上記(3)式の判別式に従って、時間帯x0,iでの注目要因ワードの出現頻度(レコード数)の時間変化に基づいて、注目を集め始める以前の時間帯x0,0について、他の日のその時間帯x0,kでの注目要因ワードの出現頻度(レコード数)に比べ、出現頻度が高い場合は、事前に予測されていたイベントと判別し、いつも通りの出現頻度であれば突発的イベントが発生していると判別する。 In accordance with the discriminant of the above equation (3), the time zone x 0,0 before starting to attract attention based on the temporal change of the appearance frequency (number of records) of the attention factor word in the time zone x 0, i If the appearance frequency is higher than the appearance frequency (number of records) of the attention factor word in that time zone x 0, k on the day of the day, it is determined that the event has been predicted in advance, and the occurrence frequency may be as usual. It is determined that a sudden event has occurred.

出力部22は、突発的イベント情報抽出部より受け取った、突発的イベントが発生している地点の緯度経度を出力し、ユーザに提示する。   The output unit 22 outputs the latitude and longitude of the point where the sudden event occurs, received from the sudden event information extraction unit, and presents it to the user.

<イベント発生地点抽出装置の作用>
次に、本実施の形態に係るイベント発生地点抽出装置100の作用について説明する。まず、イベント発生地点抽出装置100に、発信時刻が付与されたテキスト情報の集合が入力されると、リアルタイムデータデータベース12に記憶される。そして、イベント発生地点抽出装置100において、前処理部16により、リアルタイムデータデータベース12及び地点情報データベース14に基づいて、リアルタイム地点情報データベース18にレコードが記憶される。そして、抽出条件としての地理範囲及び時刻が、イベント発生地点抽出装置100に入力されると、イベント発生地点抽出装置100において、図6に示すイベント発生地点抽出処理ルーチンが実行される。
<Operation of event occurrence point extraction device>
Next, the operation of the event occurrence point extraction apparatus 100 according to the present embodiment will be described. First, when a set of text information to which a transmission time is given is input to the event occurrence point extraction device 100, it is stored in the real-time data database 12. In the event occurrence point extraction apparatus 100, the preprocessing unit 16 stores a record in the real-time point information database 18 based on the real-time data database 12 and the point information database 14. Then, when the geographic range and time as the extraction condition are input to the event occurrence point extraction device 100, the event occurrence point extraction device 100 executes an event occurrence point extraction processing routine shown in FIG.

まず、ステップS101において、入力部10により入力された地理範囲及び時刻を受け取る。そして、ステップS102において、上記ステップS101で受け取った地理範囲、及び上記ステップS101で受け取った時刻に基づく各期間s0,i(i=0,1,2,…,n)をキーとして、リアルタイム地点情報データベース18から該当するレコードを取得する。 First, in step S101, the geographic range and time input by the input unit 10 are received. Then, in step S102, the real-time point is set by using each period s 0, i (i = 0,1,2,..., N) based on the geographical range received in step S101 and the time received in step S101 as a key. A corresponding record is acquired from the information database 18.

次のステップS103では、上記ステップS102で取得した上記地理範囲及び期間s0,0に該当するレコードの経度緯度の各地点について、上記(1)式が示す判別式に基づいて、注目地点かどうかを判別する。 In the next step S103, whether or not each point of the longitude and latitude of the record corresponding to the geographical range and the period s 0,0 acquired in step S102 is a point of interest based on the discriminant expressed by the equation (1). Is determined.

そして、上記ステップS102で取得した上記地理範囲及び期間s0,0に該当するレコードの経度緯度の各地点について、後述するステップS104以降の処理を行う。 And the process after step S104 mentioned later is performed about each point of the longitude latitude of the record corresponding to the said geographical range and period s0,0 acquired by said step S102.

ステップS104では、処理対象の地点が、注目地点であるか否かを判定し、処理対象の地点が、上記(1)式が示す判別式を満たさなかった場合には、当該処理対象の地点については、何もしない。一方、処理対象の地点が、上記(1)式が示す判別式を満たす場合には、ステップS105へ進む。   In step S104, it is determined whether or not the point to be processed is a point of interest. If the point to be processed does not satisfy the discriminant expressed by the above equation (1), the point to be processed is determined. Does nothing. On the other hand, when the point to be processed satisfies the discriminant represented by the above equation (1), the process proceeds to step S105.

ステップS105では、処理対象の注目地点pの経度緯度及び期間s0,0に該当するレコードの単語情報の各単語whについて、上記(2)式に従って、注目要因度a(wh)を算出する。具体的には、各単語whについて、期間s0,0の間の発信時刻を有し、かつ、地点pの経度緯度を有するレコードの単語情報に含まれる単語whの頻度(レコード数)をwfh(s0,0)として求める。また、各単語whについて、対象の注目地点p及び各期間s0,i(i=1,2,…,n)をキーとしてリアルタイム地点情報データベース18から取得したレコードの単語情報に単語whが含まれる期間s0,i(i=1,2,…,n)の頻度dfh(他の日にちの日数)を求める。そして、各単語whについて、上記(2)式に従って、注目要因度a(wh)を算出する。 In step S105, calculated for each word w h word information record corresponding to the latitude and longitude and time s 0,0 of the point of interest p to be processed, according to the above (2), attention factor degree a a (w h) To do. Specifically, for each word w h, having a transmission time between the period s 0,0, and the frequency (number of records) of a word w h included in the word information record having the longitude and latitude of the point p Is determined as wf h (s 0,0 ). For each word w h , the word w h is added to the word information of the record acquired from the real-time point information database 18 using the target point of interest p and each period s 0, i (i = 1, 2,..., N) as keys. The frequency df h (the number of days on another day) of the period s 0, i (i = 1, 2,..., N) in which is included is obtained. Then, for each word w h, according to the above (2), thereby calculating the target factor of a (w h).

次のステップS106では、上記ステップS105で算出した各単語whの注目要因度a(wh)に基づいて、注目要因度a(wh)が最も高い単語を、注目要因ワードとして抽出する。そして、上記(3)式が示す判別式に基づいて、注目要因ワードの出現頻度の時系列変化(注目要因ワードの盛り上がり)が突発的か否かを判別する。具体的には、期間x0,0内の発信時刻、注目地点pの経度緯度、及び注目要因ワードwhを含むレコードをリアルタイム地点情報データベース18から取得し、取得したレコード数wfh(x0,0)を求める。また、期間x0, k(k =1,2,…,n)について、期間x0, k内の発信時刻、処理対象の注目地点pの経度緯度、及び注目要因ワードwhを含むレコードを、リアルタイム地点情報データベース18から取得し、取得したレコード数wfh(x0,k)を求める。そして、上記(3)式が示す判別式を満たすか否かを判別する。 In the next step S106, based on the attention factor degree a (w h) of each word w h calculated in step S105, attention factor degree a (w h) is the highest word is extracted as a target factor words. Then, based on the discriminant represented by the above formula (3), it is determined whether or not the time-series change in the appearance frequency of the attention factor word (swell of the attention factor word) is sudden. Specifically, the period x transmission time in the 0,0, obtains latitude and longitude of the point of interest p, and a record including the target factor word w h from the real-time location information database 18, the acquired record number wf h (x 0 , 0 ). A period x 0, k (k = 1,2 , ..., n) for the period x 0, transmission time in k, latitude and longitude of the point of interest p to be processed, and the record including the target factor word w h The number of records wf h (x 0, k ) acquired from the real-time location information database 18 is obtained. And it is discriminate | determined whether the discriminant shown by said Formula (3) is satisfy | filled.

ステップS107において、処理対象の注目地点pについて、注目パターン判定に関する判別式を満たすか否かを判定し、上記(3)式が示す判別式を満たさなかった場合には、当該処理対象の注目地点pについては、何もしない。一方、処理対象の注目地点pについて、上記(3)式が示す判別式を満たす場合には、ステップS108へ進む。ステップS108では、処理対象の注目地点pを、突発的イベントが発生している地点として、出力部22により出力し、イベント発生地点抽出処理ルーチンを終了する。   In step S107, it is determined whether or not the target point p to be processed satisfies the discriminant relating to the target pattern determination. If the discriminant represented by the above equation (3) is not satisfied, the target point to be processed is determined. Do nothing for p. On the other hand, when the point of interest p to be processed satisfies the discriminant represented by the above equation (3), the process proceeds to step S108. In step S108, the point of interest p to be processed is output by the output unit 22 as a point where a sudden event has occurred, and the event occurrence point extraction processing routine ends.

以上説明したように、本実施の形態に係るイベント発生地点抽出装置によれば、抽出条件として入力された地理範囲に含まれる各緯度経度に対する、リアルタイム地点情報データベースにおける当該緯度経度を含むレコード数に基づいて、注目地点を抽出し、注目地点の緯度経度を含むレコード中に含まれる単語情報の各単語に対して、注目要因度を算出して、注目要因ワードを抽出し、注目地点である緯度経度と、抽出条件として入力された時刻情報以前の過去の所定期間内の時刻情報とを含む全てのレコードの単語情報から求められる、注目要因ワードを含むレコード数の時間変化に基づいて、注目地点が、突発的イベントが発生している地点であるか否かを判定することにより、全てのイベント情報を網羅したイベントリストを作成することなく、突発的なイベントが発生している地点を精度よく抽出することができる。   As described above, according to the event occurrence point extraction device according to the present embodiment, the number of records including the latitude and longitude in the real-time point information database for each latitude and longitude included in the geographic range input as the extraction condition. The attention point is extracted, the attention factor degree is calculated for each word of the word information included in the record including the latitude and longitude of the attention point, the attention factor word is extracted, and the latitude that is the attention point The point of interest based on the time change of the number of records including the attention factor word, which is obtained from the word information of all records including the longitude and time information in the past predetermined period before the time information input as the extraction condition Create an event list that covers all event information by determining whether or not a point where a sudden event has occurred It without a point where unexpected event has occurred can be accurately extracted.

従来手法では、注目を集めている地点からイベントリストに含まれる地点を除くことによって突発的なインベントを抽出していたが、網羅的なイベントリストを作成することは困難であり、またイベントが起きている地点では突発的なイベントを抽出することができないという問題があった。本実施の形態では、注目を集めている地点において、注目が集まっている原因が突発的なイベントによるものかどうかを判別することにより、網羅的なイベントリストを作成することなく、さらにあらかじめ予定されていたイベントが起きる地点においても突発的なイベントを抽出することができる。   In the conventional method, sudden events were extracted by removing points included in the event list from points that attracted attention, but it was difficult to create a comprehensive event list and an event occurred. There was a problem that sudden events could not be extracted at certain locations. In this embodiment, it is further scheduled in advance without creating an exhaustive event list by determining whether or not the cause of the attention is due to a sudden event at a spot that attracts attention. A sudden event can be extracted even at a point where the event has occurred.

また、事件や事故、ゲリラライブなどの、事前には知ることができないイベントであって、かつ人々の注目を集めている突発的なイベントが、今現在発生している地点を提示することができる。   In addition, it is possible to present the point where an unexpected event that is not known in advance, such as an incident, accident, or guerrilla live, and that attracts people's attention, is currently occurring. .

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。   For example, the present invention can be realized by installing a program on a known computer via a medium or a communication line.

また、上述のイベント発生地点抽出装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   In addition, the event occurrence point extraction apparatus described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. Shall be.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 入力部
12 リアルタイムデータデータベース
14 地点情報データベース
16 前処理部
18 リアルタイム地点情報データベース
20 突発的イベント情報抽出部
22 出力部
100 イベント発生地点抽出装置
DESCRIPTION OF SYMBOLS 10 Input part 12 Real time data database 14 Point information database 16 Pre-processing part 18 Real time point information database 20 Sudden event information extraction part 22 Output part 100 Event occurrence point extraction apparatus

Claims (3)

突発的イベントが発生している地点を抽出するイベント発生地点抽出装置であって、
各々発信時刻を示す時刻情報が付与されたテキスト集合の各テキストから、地名及び前記地名が示す位置情報を蓄積した地点情報データベースから得られる各地名を検索し、前記地名が検索されたテキストの各々について、前記テキストの単語情報、前記テキストの時刻情報、及び前記地名が示す位置情報を含むレコードを生成して、リアルタイム地点情報データベースに登録する前処理手段と、
突発的イベントの抽出条件として入力された地理範囲及び時刻情報に基づいて、前記リアルタイム地点情報データベースから、位置情報が前記入力された地理範囲に含まれ、かつ、時刻情報が前記入力された時刻情報に対応するレコードを取得するレコード取得手段と、
前記入力された地理範囲に含まれる各位置情報に対して、前記レコード取得手段によって取得したレコード中の前記位置情報を含むレコード数を、前記リアルタイム地点情報データベースに蓄積された、前記位置情報が前記入力された地理範囲に含まれ、かつ、前記時刻情報が他の日付において前記入力された時刻情報に対応するレコード中に含まれる、前記位置情報を含むレコード数と比較することにより、注目地点であるか否かを判定し、注目地点であると判定された位置情報を抽出する注目地点抽出手段と、
前記レコード取得手段によって取得したレコードであって、かつ、前記注目地点抽出手段によって抽出された注目地点である位置情報を含むレコード中に含まれる単語情報の各単語に対して、前記レコード中の前記単語情報に前記単語が含まれるレコード数と、前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と所定日数の他の日付において前記入力された時刻情報に対応する時間情報とを含む全てのレコードに基づいて求められる、前記単語情報に前記単語を含むレコードが存在する前記他の日付の日数と、前記所定日数とに基づいて、前記単語の注目要因度を算出し、注目要因度が最も大きい単語を、注目要因ワードとして抽出する注目要因ワード抽出手段と、
前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と前記入力された時刻情報が示す時刻から所定時間だけ遡った時刻までの時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数に基づいて、前記注目地点が、突発的イベントが発生している地点であるか否かを判定することにより、突発的イベントが発生している地点を抽出するイベント発生地点抽出手段と、
を含むイベント発生地点抽出装置。
An event occurrence point extraction device that extracts points where sudden events occur,
Each location name obtained from the location information database storing the location name and the location information indicated by the location name is searched from each text of the text set to which the time information indicating the transmission time is given, and each text from which the location name is searched A pre-processing means for generating a record including word information of the text, time information of the text, and position information indicated by the place name, and registering it in a real-time location information database;
Based on the geographic range and time information input as an extraction condition for sudden events, the time information from the real-time point information database includes location information in the input geographic range and the time information is input. Record acquisition means for acquiring records corresponding to
For each position information included in the input geographic range, the number of records including the position information in the records acquired by the record acquisition means is stored in the real-time point information database, and the position information is the By comparing with the number of records including the position information included in the record corresponding to the input time information on another date and included in the input geographical range , A point-of-interest extracting means for determining whether or not there is, and extracting position information determined to be the point of interest;
For each word of the word information included in the record that is the record acquired by the record acquisition unit and includes the position information that is the point of interest extracted by the point of interest extraction unit, the word in the record The number of records in which the word is included in the word information, the position information that is the point of interest, and the time information corresponding to the time information input on another date of a predetermined number of days, stored in the real-time point information database. The attention factor of the word is calculated based on the number of days of the other date on which the record including the word exists in the word information and the predetermined number of days, which is obtained based on all the records including An attention factor word extracting means for extracting a word having the highest degree as an attention factor word;
The real-time location information stored in the database, the and the point of interest at a location, in all records containing the time information in the time zone from the input time information indicating time to time going back a predetermined time All including the number of records in which the attention factor word is included in the word information, and the position information that is the point of interest, and the time information in the time zone at other dates, stored in the real-time point information database The number of records in which the attention factor word is included in the word information in the record of the record , the position information that is the point of interest accumulated in the real-time point information database, and time information in the time zone at another date, based on the number of records that contain the attention factor word to the word information in all records, including, the attention area But by determining whether a point a sudden event has occurred, an event occurrence point extracting means for extracting a point where sudden event has occurred,
An event occurrence point extraction device including
突発的イベントが発生している地点を抽出するイベント発生地点抽出方法であって、
前処理手段によって、各々発信時刻を示す時刻情報が付与されたテキスト集合の各テキストから、地名及び前記地名が示す位置情報を蓄積した地点情報データベースから得られる各地名を検索し、前記地名が検索されたテキストの各々について、前記テキストの単語情報、前記テキストの時刻情報、及び前記地名が示す位置情報を含むレコードを生成して、リアルタイム地点情報データベースに登録し、
レコード取得手段によって、突発的イベントの抽出条件として入力された地理範囲及び時刻情報に基づいて、前記リアルタイム地点情報データベースから、位置情報が前記入力された地理範囲に含まれ、かつ、時刻情報が前記入力された時刻情報に対応するレコードを取得し、
注目地点抽出手段によって、前記入力された地理範囲に含まれる各位置情報に対して、前記レコード取得手段によって取得したレコード中の前記位置情報を含むレコード数を、前記リアルタイム地点情報データベースに蓄積された、前記位置情報が前記入力された地理範囲に含まれ、かつ、前記時刻情報が他の日付において前記入力された時刻情報に対応するレコード中に含まれる、前記位置情報を含むレコード数と比較することにより、注目地点であるか否かを判定し、注目地点であると判定された位置情報を抽出し、
注目要因ワード抽出手段によって、前記レコード取得手段によって取得したレコードであって、かつ、前記注目地点抽出手段によって抽出された注目地点である位置情報を含むレコード中に含まれる単語情報の各単語に対して、前記レコード中の前記単語情報に前記単語が含まれるレコード数と、前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と所定日数の他の日付において前記入力された時刻情報に対応する時間情報とを含む全てのレコードに基づいて求められる、前記単語情報に前記単語を含むレコードが存在する前記他の日付の日数と、前記所定日数とに基づいて、前記単語の注目要因度を算出し、注目要因度が最も大きい単語を、注目要因ワードとして抽出し、
イベント発生地点抽出手段によって、前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と前記入力された時刻情報が示す時刻から所定時間だけ遡った時刻までの時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数、及び前記リアルタイム地点情報データベースに蓄積された、前記注目地点である位置情報と、他の日付における前記時間帯内の時刻情報とを含む全てのレコード中の前記単語情報に前記注目要因ワードが含まれるレコード数に基づいて、前記注目地点が、突発的イベントが発生している地点であるか否かを判定することにより、突発的イベントが発生している地点を抽出する
イベント発生地点抽出方法。
An event occurrence point extraction method for extracting a point where a sudden event has occurred,
The pre-processing means searches each place name obtained from the location information database storing the place name and the position information indicated by the place name from each text of the text set to which the time information indicating the sending time is given, and the place name is searched. For each of the texts generated, generate a record including the word information of the text, the time information of the text, and the position information indicated by the place name, and registered in the real-time point information database,
Based on the geographical range and time information input as a sudden event extraction condition by the record acquisition means, location information is included in the input geographical range from the real-time location information database, and time information is Get the record corresponding to the input time information,
The number of records including the position information in the records acquired by the record acquisition means is stored in the real-time point information database for each position information included in the input geographic range by the point of interest extraction means . The position information is included in the input geographic range, and the time information is included in records corresponding to the input time information on another date, and compared with the number of records including the position information. Thus, it is determined whether or not it is a point of interest, the position information determined to be a point of interest is extracted,
For each word of the word information included in the record that is the record acquired by the record acquisition unit by the attention factor word extraction unit and that includes the position information that is the attention point extracted by the attention point extraction unit The number of records in which the word is included in the word information in the record, the position information that is the point of interest, and the time information that is input in another date of a predetermined number of days, stored in the real-time point information database The word attention factor based on the number of days of the other date when the record containing the word exists in the word information and the predetermined number of days, which are obtained based on all records including time information corresponding to The degree of attention factor is extracted as the attention factor word,
By the event occurrence point extracting means, the real-time location information stored in the database, and the point of interest at which the position information, the time information in the time zone from the time indicated by the input time information to the time traced back a predetermined time The number of records in which the attention factor word is included in the word information in all the records including the position information of the attention point accumulated in the real-time point information database, and the time zone at another date The number of records in which the attention factor word is included in the word information in all records including the time information , and the position information that is the attention point stored in the real-time point information database, and the date at another date The attention factor word is included in the word information in all records including time information within a time zone. Based on the number of records, the point of interest is by determining whether a point a sudden event has occurred, an event occurrence point extracting method for extracting a point where sudden event has occurred.
コンピュータを、請求項記載のイベント発生地点抽出装置の各手段として機能させるためのプログラム。 A program for causing a computer to function as each means of the event occurrence point extraction device according to claim 1 .
JP2012174859A 2012-08-07 2012-08-07 Event occurrence point extraction apparatus, method, and program Active JP5548243B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012174859A JP5548243B2 (en) 2012-08-07 2012-08-07 Event occurrence point extraction apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012174859A JP5548243B2 (en) 2012-08-07 2012-08-07 Event occurrence point extraction apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2014035570A JP2014035570A (en) 2014-02-24
JP5548243B2 true JP5548243B2 (en) 2014-07-16

Family

ID=50284554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012174859A Active JP5548243B2 (en) 2012-08-07 2012-08-07 Event occurrence point extraction apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5548243B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6528532B2 (en) * 2015-05-12 2019-06-12 富士通株式会社 Disaster detection program, disaster detection device and disaster detection method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4764864B2 (en) * 2007-11-02 2011-09-07 ヤフー株式会社 Information propagation extracting apparatus and information propagation extracting method

Also Published As

Publication number Publication date
JP2014035570A (en) 2014-02-24

Similar Documents

Publication Publication Date Title
US10216724B2 (en) Performing semantic analyses of user-generated textual and voice content
JP4772378B2 (en) Method and apparatus for generating time-series data from a web page
KR20080068825A (en) Select high quality reviews for your display
US20150142780A1 (en) Apparatus and method for analyzing event time-space correlation in social web media
KR101429397B1 (en) Method and system for extracting core events based on message analysis in social network service
JP2013077045A (en) Text position determination apparatus and text position determination method
Barbaresi Collection and indexing of tweets with a geographical focus
JP5639549B2 (en) Information retrieval apparatus, method, and program
KR102124935B1 (en) Disaster Monitoring System, Method Using Crowd Sourcing, and Computer Program therefor
JP5890385B2 (en) Data processing apparatus and data processing method
CN109558531A (en) News information method for pushing, device and computer equipment
JP5548243B2 (en) Event occurrence point extraction apparatus, method, and program
JP7670117B2 (en) QA data evaluation device
JP2017167829A (en) Detection apparatus, detection method, and detection program
JP2017191357A (en) Word determination device
KR100840019B1 (en) Method and system for providing advertisement using schedule information of user
JP2013225244A (en) Topic extraction device and topic extraction method
KR101944692B1 (en) Apparatus for providing details number information of content
KR20110062896A (en) Local information search device and method
JP5841108B2 (en) Information processing apparatus, article information generation method and program
Cherichi et al. Big data analysis for event detection in microblogs
JP2005190384A (en) Method and apparatus for extracting event periodicity
JP2009163399A (en) Related keyword extraction method and apparatus, program, and computer-readable recording medium
JP6718288B2 (en) Related word extraction support device
JPWO2015182559A1 (en) Information analysis system, information analysis method, and information analysis program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140516

R150 Certificate of patent or registration of utility model

Ref document number: 5548243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350