Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6961987B2 - Date and time information extraction method, date and time information extraction device and date and time information extraction program - Google Patents
[go: Go Back, main page]

JP6961987B2 - Date and time information extraction method, date and time information extraction device and date and time information extraction program - Google Patents

Date and time information extraction method, date and time information extraction device and date and time information extraction program Download PDF

Info

Publication number
JP6961987B2
JP6961987B2 JP2017078835A JP2017078835A JP6961987B2 JP 6961987 B2 JP6961987 B2 JP 6961987B2 JP 2017078835 A JP2017078835 A JP 2017078835A JP 2017078835 A JP2017078835 A JP 2017078835A JP 6961987 B2 JP6961987 B2 JP 6961987B2
Authority
JP
Japan
Prior art keywords
date
time information
data
time
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017078835A
Other languages
Japanese (ja)
Other versions
JP2018180874A (en
Inventor
佑介 小▲柳▼
伸之 井形
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017078835A priority Critical patent/JP6961987B2/en
Publication of JP2018180874A publication Critical patent/JP2018180874A/en
Application granted granted Critical
Publication of JP6961987B2 publication Critical patent/JP6961987B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、日時情報の抽出技術に関する。 The present invention relates to a technique for extracting date and time information.

様々な情報源(例えば、ウェブページやデータベース等)から収集された情報が、企業分析、研究戦略の立案あるいはデータ統合等に利用されている。収集される情報の中には、時間の経過によって値が変化する情報(例えば、従業員数および売上等)が含まれることがあり、このような情報を利用する場合には、どの時点の情報であるかを特定しておくことが重要である。 Information collected from various sources (eg, web pages, databases, etc.) is used for corporate analysis, research strategy planning, data integration, and so on. The information collected may include information whose values change over time (eg, number of employees, sales, etc.), and when using such information, at what point in time. It is important to identify if there is one.

例えば或る文献は、ウェブニュースからトピックの時刻を抽出する技術を開示する。 For example, one document discloses a technique for extracting the time of a topic from web news.

但し、ウェブページのデータには表の形式で記述されたデータが含まれる場合がある。上記技術は、ニュースなどの文章のデータを対象とした技術であり、ウェブページ上に表の形式で記述されたデータに含まれる値がいつの時点の値であるか決定することには適していない。 However, the data on the web page may include data described in the form of a table. The above technology is a technology for text data such as news, and is not suitable for determining when the value contained in the data described in the form of a table on a web page is the value at that time. ..

Xujian Zhao、Peiquan Jin、Lihua Yue、"Discovering topic time from web news"、Information Processing & Management、平成27年11月、第51巻、第6号、pp.869−890、ISSN 0306−4573Xujian Zhao, Peiquan Jin, Lihua Yue, "Discovering topic time from web news", Information Processing & Management, November 2015, Vol. 51, No. 6, pp. 869-890, ISSN 0306-4573

本発明の目的は、1つの側面では、表に含まれる値がいつの時点の値であるかを決定できるようにするための技術を提供することである。 An object of the present invention is, in one aspect, to provide a technique for making it possible to determine when the values contained in a table are values.

一態様に係る日時情報抽出方法は、表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出し、抽出した第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する処理を含む。 The date and time information extraction method according to one aspect is the first date and time information added to the item name or item value from the data including the item name and item value in the table, or the second date and time other than the first date and time information. Information, the second date and time information included in the description range of the table or the predetermined range immediately before or after the description range of the table is extracted, and the extracted first date and time information or the second date and time information is at least an item. Includes processing to associate with a value and store it in a storage device.

1つの側面では、表に含まれる値がいつの時点の値であるかを決定できるようになる。 On one side, it becomes possible to determine when the values contained in the table are values.

図1は、ネットワーク構成を示す図である。FIG. 1 is a diagram showing a network configuration. 図2は、情報処理装置の機能ブロック図である。FIG. 2 is a functional block diagram of the information processing device. 図3は、ウェブページのデータの一例を示す図である。FIG. 3 is a diagram showing an example of data on a web page. 図4は、tableタグで囲まれた部分の詳細を示す図である。FIG. 4 is a diagram showing details of the portion surrounded by the table tag. 図5は、ウェブページのデータをブラウザで表示した場合の表示例を示す図である。FIG. 5 is a diagram showing a display example when the data of the web page is displayed on the browser. 図6は、抽出データテーブルの一例を示す図である。FIG. 6 is a diagram showing an example of the extracted data table. 図7は、表関係テーブルの一例を示す図である。FIG. 7 is a diagram showing an example of a table relation table. 図8は、ページ関係テーブルの一例を示す図である。FIG. 8 is a diagram showing an example of a page relation table. 図9は、抽出部が実行する処理の処理フローを示す図である。FIG. 9 is a diagram showing a processing flow of processing executed by the extraction unit. 図10は、ページデータテーブルに格納されるデータの一例を示す図である。FIG. 10 is a diagram showing an example of data stored in the page data table. 図11は、所定のルールについて説明するための図である。FIG. 11 is a diagram for explaining a predetermined rule. 図12は、所定のルールについて説明するための図である。FIG. 12 is a diagram for explaining a predetermined rule. 図13は、所定のルールについて説明するための図である。FIG. 13 is a diagram for explaining a predetermined rule. 図14は、所定のルールについて説明するための図である。FIG. 14 is a diagram for explaining a predetermined rule. 図15は、所定のルールについて説明するための図である。FIG. 15 is a diagram for explaining a predetermined rule. 図16は、所定のルールについて説明するための図である。FIG. 16 is a diagram for explaining a predetermined rule. 図17は、所定のルールについて説明するための図である。FIG. 17 is a diagram for explaining a predetermined rule. 図18は、表テーブルの一例を示す図である。FIG. 18 is a diagram showing an example of a table table. 図19は、抽出部が実行する処理の処理フローを示す図である。FIG. 19 is a diagram showing a processing flow of processing executed by the extraction unit. 図20は、記事発行に関する日時情報の抽出について説明するための図である。FIG. 20 is a diagram for explaining extraction of date and time information regarding article publication. 図21は、ページデータテーブルに格納されるデータの一例を示す図である。FIG. 21 is a diagram showing an example of data stored in the page data table. 図22は、結果テーブルに格納されるデータの一例を示す図である。FIG. 22 is a diagram showing an example of data stored in the result table. 図23は、判定部が実行する処理の処理フローを示す図である。FIG. 23 is a diagram showing a processing flow of processing executed by the determination unit. 図24は、情報対象日時の決定を説明するための図である。FIG. 24 is a diagram for explaining the determination of the information target date and time. 図25は、情報対象日時の決定を説明するための図である。FIG. 25 is a diagram for explaining the determination of the information target date and time. 図26は、情報対象日時の決定を説明するための図である。FIG. 26 is a diagram for explaining the determination of the information target date and time. 図27は、情報対象日時の決定を説明するための図である。FIG. 27 is a diagram for explaining the determination of the information target date and time. 図28は、情報対象日時の決定を説明するための図である。FIG. 28 is a diagram for explaining the determination of the information target date and time. 図29は、生成部が実行する処理の処理フローを示す図である。FIG. 29 is a diagram showing a processing flow of processing executed by the generation unit. 図30は、時系列データの一例を示す図である。FIG. 30 is a diagram showing an example of time series data. 図31は、時系列データを基にして生成されたグラフの一例を示す図である。FIG. 31 is a diagram showing an example of a graph generated based on time series data. 図32は、コンピュータの機能ブロック図である。FIG. 32 is a functional block diagram of the computer.

図1は、本実施の形態のネットワーク構成を示す図である。本実施の形態の主要な処理を実行する情報処理装置1は、例えばインターネットであるネットワーク3に接続される。情報処理装置1は、ネットワーク3に接続された装置からウェブページのデータを受信し、ウェブページのデータに対して処理を実行する。 FIG. 1 is a diagram showing a network configuration of the present embodiment. The information processing device 1 that executes the main processing of the present embodiment is connected to, for example, a network 3 which is the Internet. The information processing device 1 receives the data of the web page from the device connected to the network 3 and executes the process on the data of the web page.

図2は、情報処理装置1の機能ブロック図である。情報処理装置1は、データ処理部101と、抽出部103と、判定部105と、生成部107と、ページデータ格納部111と、処理データ格納部113とを含む。 FIG. 2 is a functional block diagram of the information processing device 1. The information processing device 1 includes a data processing unit 101, an extraction unit 103, a determination unit 105, a generation unit 107, a page data storage unit 111, and a processing data storage unit 113.

データ処理部101、抽出部103、判定部105および生成部107は、例えば図32におけるメモリ2501に格納されたプログラムが図32におけるCPU(Central Processing Unit)2503により実行されることで実現される。ページデータ格納部111および処理データ格納部113は、例えばメモリ2501又はHDD(Hard Disk Drive)2505に設けられる。 The data processing unit 101, the extraction unit 103, the determination unit 105, and the generation unit 107 are realized, for example, by executing the program stored in the memory 2501 in FIG. 32 by the CPU (Central Processing Unit) 2503 in FIG. 32. The page data storage unit 111 and the processing data storage unit 113 are provided in, for example, a memory 2501 or an HDD (Hard Disk Drive) 2505.

ページデータ格納部111には、ネットワーク3に接続された装置から受信したウェブページのデータが格納される。データ処理部101は、ページデータ格納部111に格納されているデータを用いて処理を実行し、処理結果を処理データ格納部113に格納する。抽出部103は、ページデータ格納部111に格納されているデータ及びデータ処理部101による処理の結果を用いて処理を実行し、処理結果を処理データ格納部113に格納する。判定部105は、抽出部103による処理の結果を用いて処理を実行し、処理結果を処理データ格納部113に格納する。生成部107は、判定部105による処理の結果を用いて時系列データを生成し、生成した時系列データを処理データ格納部113に格納する。 The page data storage unit 111 stores the data of the web page received from the device connected to the network 3. The data processing unit 101 executes processing using the data stored in the page data storage unit 111, and stores the processing result in the processing data storage unit 113. The extraction unit 103 executes processing using the data stored in the page data storage unit 111 and the processing result of the data processing unit 101, and stores the processing result in the processing data storage unit 113. The determination unit 105 executes the process using the result of the process by the extraction unit 103, and stores the process result in the process data storage unit 113. The generation unit 107 generates time-series data using the result of processing by the determination unit 105, and stores the generated time-series data in the processing data storage unit 113.

図3は、ページデータ格納部111に格納されるウェブページのデータの一例を示す図である。図3の例においては、ウェブページのデータはHTML(HyperText Markup Language)で記述されている。また、図3の例においては、日時情報「2016年5月30日」と日時情報「2016年6月1日」とが含まれている。また、ページデータ格納部111には、ウェブページのデータを取得した際におけるHTTP(HyperText Transfer Protocol)レスポンスヘッダが格納される。 FIG. 3 is a diagram showing an example of web page data stored in the page data storage unit 111. In the example of FIG. 3, the data of the web page is described in HTML (HyperText Markup Language). Further, in the example of FIG. 3, the date and time information "May 30, 2016" and the date and time information "June 1, 2016" are included. Further, the page data storage unit 111 stores the HTTP (HyperText Transfer Protocol) response header when the data of the web page is acquired.

図4は、図3に示したウェブページのデータのうちtableタグで囲まれた部分の詳細を示す図である。図4の例においては、4行の表が定義されており、項目名「社名」および項目値「○△□株式会社」と、項目名「所在地」および項目値「神奈川県川崎市・・・」と、項目名「代表者」および項目値「代表取締役社長 田中太郎」と、項目名「資本金」および項目値「3246億円(2016年3月末時点)」とが含まれる。項目値「3246億円(2016年3月末時点)」には日時情報が含まれる。 FIG. 4 is a diagram showing details of a portion of the web page data shown in FIG. 3 surrounded by a table tag. In the example of FIG. 4, a four-row table is defined, and the item name "company name" and the item value "○ △ □ Co., Ltd.", the item name "location" and the item value "Kawasaki City, Kanagawa Prefecture ..." , The item name "representative" and the item value "Taro Tanaka, President and CEO", and the item name "capital" and the item value "324.6 billion yen (as of the end of March 2016)". The item value "324.6 billion yen (as of the end of March 2016)" includes date and time information.

図5は、図3及び図4に示したデータをブラウザで表示した場合の表示例を示す図である。 FIG. 5 is a diagram showing a display example when the data shown in FIGS. 3 and 4 is displayed on a browser.

図6は、データ処理部101の処理によって処理データ格納部113に格納される抽出データテーブルの一例を示す図である。図6の例では、各項目名に付与されるデータID(IDentifier)と、項目名と、項目値と、情報対象日時とが格納される。情報対象日時とは、項目値がいつの時点の値であるかを示す日時情報である。但し、データ処理部101の処理においては、情報対象日時の欄には日時情報が格納されない。 FIG. 6 is a diagram showing an example of an extracted data table stored in the processing data storage unit 113 by the processing of the data processing unit 101. In the example of FIG. 6, the data ID (IDentifier) assigned to each item name, the item name, the item value, and the information target date and time are stored. The information target date and time is date and time information indicating when the item value is the value. However, in the processing of the data processing unit 101, the date and time information is not stored in the information target date and time column.

図7は、データ処理部101の処理によって処理データ格納部113に格納される表関係テーブルの一例を示す図である。図7の例では、データIDと、各表に付与される表IDとが格納される。 FIG. 7 is a diagram showing an example of a table relation table stored in the processing data storage unit 113 by the processing of the data processing unit 101. In the example of FIG. 7, the data ID and the table ID assigned to each table are stored.

図8は、データ処理部101の処理によって処理データ格納部113に格納されるページ関係テーブルの一例を示す図である。図8の例では、表IDと、各ウェブページに付与されるウェブページIDとが格納される。 FIG. 8 is a diagram showing an example of a page relation table stored in the processing data storage unit 113 by the processing of the data processing unit 101. In the example of FIG. 8, the table ID and the web page ID assigned to each web page are stored.

次に、図9乃至図31を用いて、情報処理装置1が実行する処理を説明する。 Next, the process executed by the information processing apparatus 1 will be described with reference to FIGS. 9 to 31.

まず、図9乃至図22を用いて、抽出部103が実行する処理を説明する。 First, the process executed by the extraction unit 103 will be described with reference to FIGS. 9 to 22.

抽出部103は、ページデータ格納部111に格納されているウェブページのデータを取得した際におけるHTTPレスポンスヘッダ及びHTMLファイルをページデータ格納部111から読み出す。また、抽出部103は、HTMLヘッダに含まれる、HTMLファイルの取得日時の情報をページデータ格納部111から読み出す(図9:ステップS1)。抽出部103は、読み出した取得日時の情報、ウェブページID及びウェブページのURL(Uniform Resource Locator)を処理データ格納部113におけるページデータテーブルに格納する。 The extraction unit 103 reads the HTTP response header and the HTML file when the web page data stored in the page data storage unit 111 is acquired from the page data storage unit 111. Further, the extraction unit 103 reads the information on the acquisition date and time of the HTML file included in the HTML header from the page data storage unit 111 (FIG. 9: step S1). The extraction unit 103 stores the read acquisition date / time information, the web page ID, and the URL (Uniform Resource Locator) of the web page in the page data table in the processing data storage unit 113.

図10は、ページデータテーブルに格納されるデータの一例を示す図である。図10の例では、ウェブページIDと、記事発行日時の情報と、更新日時の情報と、URLと、取得日時の情報とが格納される。ステップS1の処理の時点においては、記事発行日時の情報と更新日時の情報とは格納されない。 FIG. 10 is a diagram showing an example of data stored in the page data table. In the example of FIG. 10, the web page ID, the article publication date / time information, the update date / time information, the URL, and the acquisition date / time information are stored. At the time of processing in step S1, the article publication date / time information and the update date / time information are not stored.

抽出部103は、ステップS1において読み出したHTMLファイルから、表記述部分Ti(i=1,2,...,N)を抽出する(ステップS3)。本実施の形態において、表記述部分とはHTMLファイルのうちtableタグで囲まれた部分のことである。NはHTMLファイルに含まれる表の数である。 The extraction unit 103 extracts the table description portion Ti (i = 1, 2, ..., N) from the HTML file read in step S1 (step S3). In the present embodiment, the table description portion is the portion of the HTML file surrounded by the table tag. N is the number of tables contained in the HTML file.

抽出部103は、表を表す番号である変数iに1を設定する(ステップS5)。 The extraction unit 103 sets 1 in the variable i, which is a number representing the table (step S5).

抽出部103は、i≦Nが成立するか判定する(ステップS7)。 The extraction unit 103 determines whether i ≦ N is satisfied (step S7).

i≦Nが成立する場合(ステップS7:Yesルート)、抽出部103は、表記述部分Tiから項目名と項目値とのセットを抽出する(ステップS9)。表記述部分Tiに項目名と項目値とのセットが複数含まれる場合には、複数のセットがステップS9において抽出される。 If i ≦ N is established (step S7: Yes route), the extraction unit 103 extracts a set of the item name and the item value from the table description part T i (step S9). When the set of the item name and the item value in Table description part T i are included plural, a plurality of sets are extracted in step S9.

抽出部103は、項目名と項目値とのセットに日時情報が付加されている場合には日時情報を抽出し、抽出した日時情報を抽出データテーブル(図6)の情報対象日時の欄に格納する(ステップS11)。例えば図4に示した例においては、項目値に日時情報が付加されているので、日時情報「2016年3月末」(或いは「2016年3月31日」)が情報対象日時の欄に格納される。図4の例においては項目値に日時情報が付加されているが、項目名に日時情報が付加されていてもよい。また、図4の例においては「時点」という文字列が日時情報に付加されているが、このような文字列(他には「現在」および「付け」など)が付加されていなくてもよい。 When the date and time information is added to the set of the item name and the item value, the extraction unit 103 extracts the date and time information and stores the extracted date and time information in the information target date and time column of the extraction data table (FIG. 6). (Step S11). For example, in the example shown in FIG. 4, since the date and time information is added to the item value, the date and time information "end of March 2016" (or "March 31, 2016") is stored in the information target date and time column. NS. In the example of FIG. 4, date and time information is added to the item value, but date and time information may be added to the item name. Further, in the example of FIG. 4, the character string "time point" is added to the date and time information, but such a character string (others such as "current" and "attached") may not be added. ..

抽出部103は、ステップS1において読み出したHTMLファイルから、所定のルールに従って表記述部分Tiについての日時情報(以下、表日時と呼ぶ)を抽出する(ステップS13)。 Extraction unit 103 from the read HTML file in step S1, date and time information about the table description section T i according to a predetermined rule (hereinafter, referred to as Table date) is extracted (step S13).

図11乃至図17を用いて、所定のルールについて説明する。 A predetermined rule will be described with reference to FIGS. 11 to 17.

図11は、captionタグを用いて日時情報が記述される例を示す図である。本実施の形態においては、図11に示すように、tableタグで囲まれた範囲に含まれるcaptionタグを用いて日時情報が記述されている場合、その日時情報が日時情報として抽出される。図11の例においては、日時情報「2016年3月末」が抽出される。 FIG. 11 is a diagram showing an example in which date and time information is described using a caption tag. In the present embodiment, as shown in FIG. 11, when the date and time information is described by using the caption tag included in the range surrounded by the table tag, the date and time information is extracted as the date and time information. In the example of FIG. 11, the date and time information “end of March 2016” is extracted.

また、tableタグのn個前までのタグで囲まれた日時情報またはtableタグのn個後までのタグで囲まれた日時情報が抽出されてもよい。図12の例においては、tableタグの2個前までのタグで囲まれた日時情報「2016年3月末」が抽出されている。ここで、各行において最も外側にあるタグの内側に有るタグは除外してカウントされる。例えば図12の例においては、spanタグはカウントの対象から除外される。 Further, the date and time information enclosed by the tags up to n before the table tag or the date and time information enclosed by the tags up to n after the table tag may be extracted. In the example of FIG. 12, the date and time information “end of March 2016” enclosed by the tags up to two tags before the table tag is extracted. Here, the tags inside the outermost tags in each line are excluded and counted. For example, in the example of FIG. 12, the span tag is excluded from the count.

また、或る一つのタグのみを含むタグを無いものとして取り扱ってもよい。例えば図13(a)においては、divタグの内側にはtableタグのみが含まれている。このような場合には、図13(b)に示すように、divタグが存在しないものとして取り扱ってもよい。また、例えば図14(a)においては、divタグの内側にはpタグのみが含まれている。このような場合には、図14(b)に示すように、divタグが存在しないものとして取り扱ってもよい。 Further, a tag containing only one tag may be treated as having no tag. For example, in FIG. 13A, only the table tag is included inside the div tag. In such a case, as shown in FIG. 13B, it may be treated as if the div tag does not exist. Further, for example, in FIG. 14A, only the p tag is included inside the div tag. In such a case, as shown in FIG. 14B, it may be treated as if the div tag does not exist.

また、日時情報の抽出の対象となるタグを、tableタグと同じ階層のタグまたはtableタグの階層より下の階層のタグに限定してもよい。例えば図15においては、n=2であり且つtableタグの後にあるpタグはtableタグと同じ階層に有るので、tableタグの後にあるpタグで囲まれた日時情報「2016年3月末」が抽出される。divタグより外側のタグは、日時情報の抽出対象から除外される。また、hタグ以降のタグは同じ階層のタグであると見做すようにしてもよい。この場合、図16において、tableタグの直前に有るh3タグおよびtableタグの直後に有るpタグをtableタグと同じ階層のタグであると見做すことができる。よって、tableタグの直前に有るh3タグで囲まれた日時情報「2016年3月末」は抽出される。一方、最後に有るpタグはtableタグと同じ階層のタグではないので、そのpタグで囲まれた日時情報「2016年3月末」は抽出されない。 Further, the tag for which the date and time information is extracted may be limited to the tag in the same hierarchy as the table tag or the tag in the hierarchy below the table tag hierarchy. For example, in FIG. 15, since n = 2 and the p tag after the table tag is in the same hierarchy as the table tag, the date and time information “end of March 2016” enclosed by the p tag after the table tag is extracted. Will be done. Tags outside the div tag are excluded from the date and time information extraction target. Further, the tags after the h tag may be regarded as tags of the same hierarchy. In this case, in FIG. 16, the h3 tag immediately before the table tag and the p tag immediately after the table tag can be regarded as tags having the same hierarchy as the table tag. Therefore, the date and time information "end of March 2016" enclosed by the h3 tag immediately before the table tag is extracted. On the other hand, since the p tag at the end is not a tag in the same hierarchy as the table tag, the date and time information "end of March 2016" surrounded by the p tag is not extracted.

また、特定のタグを無いものとして取り扱ってもよい。例えば図17(a)においてはpタグの内側にbrタグが含まれているが、図17(b)に示すように、brタグが無いものとして処理を行ってもよい。なお、図17の例においてはbrタグが示されているが、brタグ以外のタグに対して同様の取り扱いをしてもよい。 Further, the specific tag may be treated as having no specific tag. For example, in FIG. 17A, the br tag is included inside the p tag, but as shown in FIG. 17B, processing may be performed assuming that there is no br tag. Although the br tag is shown in the example of FIG. 17, tags other than the br tag may be handled in the same manner.

また、特定の文字又は文字列が付加された日時情報のみを抽出の対象としてもよい。特定の文字又は文字列とは、例えば、「現在」、「時点」あるいは「付け」等である。 Further, only the date and time information to which a specific character or a character string is added may be the target of extraction. The specific character or character string is, for example, "present", "time point", "attachment", or the like.

なお、以上のルールは一例であるので、これらのルール以外のルールを使用してもよい。また、図11乃至図17を用いて説明した各ルールの優先度を情報処理装置1の操作者の指定等に基づき設定してもよい。 Since the above rules are examples, rules other than these rules may be used. Further, the priority of each rule described with reference to FIGS. 11 to 17 may be set based on the designation of the operator of the information processing apparatus 1.

図9の説明に戻り、抽出部103は、処理データ格納部113に表テーブルのエントリを生成する。そして、抽出部103は、ステップS13において抽出した日時情報を、生成したエントリの表日時の欄に格納する(ステップS15)。 Returning to the description of FIG. 9, the extraction unit 103 generates an entry for the table table in the processing data storage unit 113. Then, the extraction unit 103 stores the date and time information extracted in step S13 in the table date and time column of the generated entry (step S15).

図18は、表テーブルの一例を示す図である。図18の例では、表IDと、表日時の情報とが格納される。なお、ステップS13において日時情報が抽出されなかった場合には表日時の欄は空である。 FIG. 18 is a diagram showing an example of a table table. In the example of FIG. 18, the table ID and the information of the table date and time are stored. If the date and time information is not extracted in step S13, the table date and time column is empty.

抽出部103は、iを1インクリメントする(ステップS17)。そして処理はステップS7に戻る。 The extraction unit 103 increments i by 1 (step S17). Then, the process returns to step S7.

一方、i≦Nが成立しない場合(ステップS7:Noルート)、処理は端子Aを介して図19のステップS19に移行する。 On the other hand, when i ≦ N is not established (step S7: No route), the process proceeds to step S19 of FIG. 19 via the terminal A.

図19の説明に移行し、抽出部103は、ステップS1において読み出したHTMLファイルから、記事発行に関する日時情報を抽出する(図19:ステップS19)。ウェブページが発行された日時はウェブページの最初又は最後に記述されることがあるので、本実施の形態においては、HTMLファイルにおける最初或いは最後のdivタグ或いはpタグ等で囲まれた日付情報が抽出される。例えば図20の例においては、HTMLファイルにおいて最初に登場するpタグで囲まれた日時情報が抽出される。 Moving on to the description of FIG. 19, the extraction unit 103 extracts date and time information related to article issuance from the HTML file read in step S1 (FIG. 19: step S19). Since the date and time when the web page was published may be described at the beginning or the end of the web page, in the present embodiment, the date information enclosed by the first or last div tag or p tag in the HTML file is used. Be extracted. For example, in the example of FIG. 20, the date and time information enclosed by the p tag that first appears in the HTML file is extracted.

抽出部103は、ステップS1において読み出したHTTPレスポンスヘッダから更新に関する日時情報を抽出する(ステップS21)。ウェブページが更新された日時の情報はHTTPレスポンスヘッダに含まれることがあるので、HTTPレスポンスヘッダから日時情報が抽出される。但し、抽出された日時情報が示す日時が後述の取得日時より後である場合或いは同時である場合、本実施の形態においてはステップS21の処理は失敗であると判定される。 The extraction unit 103 extracts date and time information related to the update from the HTTP response header read in step S1 (step S21). Since the information on the date and time when the web page was updated may be included in the HTTP response header, the date and time information is extracted from the HTTP response header. However, if the date and time indicated by the extracted date and time information is later than or at the same time as the acquisition date and time described later, it is determined that the process of step S21 has failed in the present embodiment.

抽出部103は、ステップS19において記事発行に関する日時情報の抽出に成功したか判定する(ステップS25)。 The extraction unit 103 determines in step S19 whether or not the date and time information related to article issuance has been successfully extracted (step S25).

ステップS19において記事発行に関する日時情報の抽出に失敗した場合(ステップS25:Noルート)、処理はステップS29に移行する。 If the extraction of the date and time information related to the article publication fails in step S19 (step S25: No route), the process proceeds to step S29.

一方、ステップS19において記事発行に関する日時情報の抽出に成功した場合(ステップS25:Yesルート)、抽出部103は、以下の処理を実行する。具体的には、抽出部103は、記事発行に関する日時情報を、ページデータテーブル(図10)の記事発行日時の欄に格納する(ステップS27)。 On the other hand, when the extraction of the date and time information related to the article publication is successful in step S19 (step S25: Yes route), the extraction unit 103 executes the following processing. Specifically, the extraction unit 103 stores the date and time information regarding the article publication in the article publication date and time column of the page data table (FIG. 10) (step S27).

抽出部103は、ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後であるか判定する(ステップS29)。 The extraction unit 103 determines whether the acquisition date and time stored in the page data table (FIG. 10) is later than the date and time indicated by the date and time information extracted in step S21 (step S29).

ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後ではない場合(ステップS29:Noルート)、処理はステップS35に移行する。 If the acquisition date and time stored in the page data table (FIG. 10) is not later than the date and time indicated by the date and time information extracted in step S21 (step S29: No route), the process proceeds to step S35.

一方、ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後である場合(ステップS29:Yesルート)、抽出部103は、以下の処理を実行する。具体的には、抽出部103は、更新に関する日時情報を、ページデータテーブル(図10)の更新日時の欄に格納する(ステップS31)。 On the other hand, when the acquisition date and time stored in the page data table (FIG. 10) is later than the date and time indicated by the date and time information extracted in step S21 (step S29: Yes route), the extraction unit 103 performs the following processing. To execute. Specifically, the extraction unit 103 stores the date and time information regarding the update in the update date and time column of the page data table (FIG. 10) (step S31).

図21は、ステップS31までの処理によりページデータテーブルに格納されるデータの一例を示す図である。図10と比較すると、記事発行日時の情報と、更新日時の情報とが新たにページデータテーブルに格納されている。 FIG. 21 is a diagram showing an example of data stored in the page data table by the processing up to step S31. Compared with FIG. 10, the article publication date and time information and the update date and time information are newly stored in the page data table.

抽出部103は、処理データ格納部113に格納された結果テーブルに結果データを生成する(ステップS35)。ステップS35において、結果データは、処理対象のHTMLファイルに含まれる表の各項目値について生成される。 The extraction unit 103 generates result data in the result table stored in the processing data storage unit 113 (step S35). In step S35, the result data is generated for each item value of the table included in the HTML file to be processed.

図22は、結果テーブルに格納されるデータの一例を示す図である。図22の例では、データIDと、表日時の情報と、記事発行日時の情報と、更新日時の情報と、取得日時の情報とが格納される。表日時の欄には、表テーブル(図18)に格納されている表日時の情報が格納される。記事発行日時の欄には、ページデータテーブル(図21)に格納されている記事発行日時の情報が格納される。更新日時の欄には、ページデータテーブル(図21)に格納されている更新日時の情報が格納される。取得日時の欄には、ページデータテーブル(図21)に格納されている取得日時の情報が格納される。なお、データIDに対応する表IDは表関係テーブル(図7)によって特定される。また、データIDに対応するウェブページIDは、表関係テーブル(図7)及びページ関係テーブル(図8)によって特定される。 FIG. 22 is a diagram showing an example of data stored in the result table. In the example of FIG. 22, data ID, table date and time information, article publication date and time information, update date and time information, and acquisition date and time information are stored. Information on the table date and time stored in the table table (FIG. 18) is stored in the table date and time column. In the article publication date / time column, information on the article publication date / time stored in the page data table (FIG. 21) is stored. In the update date and time column, information on the update date and time stored in the page data table (FIG. 21) is stored. In the acquisition date / time column, the acquisition date / time information stored in the page data table (FIG. 21) is stored. The table ID corresponding to the data ID is specified by the table relation table (FIG. 7). Further, the web page ID corresponding to the data ID is specified by the table-related table (FIG. 7) and the page-related table (FIG. 8).

以上のような処理を実行すれば、表の各項目値について、関係する日時情報を対応付けることができるようになる。 By executing the above processing, it becomes possible to associate the related date and time information with each item value in the table.

次に、図23乃至図28を用いて、判定部105が実行する処理を説明する。本処理は、抽出部103が処理を実行した後に実行される。なお、以下では抽出データテーブル(図6)における1つのデータIDについて処理を実行する例を示すが、抽出データテーブル(図6)における各データIDについて処理を実行してもよい。 Next, the process executed by the determination unit 105 will be described with reference to FIGS. 23 to 28. This process is executed after the extraction unit 103 executes the process. In the following, an example of executing the process for one data ID in the extracted data table (FIG. 6) is shown, but the process may be executed for each data ID in the extracted data table (FIG. 6).

判定部105は、抽出データテーブル(図6)に格納されているデータIDの中から1つデータIDを特定する(図23:ステップS41)。 The determination unit 105 identifies one data ID from the data IDs stored in the extracted data table (FIG. 6) (FIG. 23: step S41).

判定部105は、抽出データテーブル(図6)から、ステップS41において特定したデータIDを有するエントリを読み出す(ステップS43)。 The determination unit 105 reads out the entry having the data ID specified in step S41 from the extracted data table (FIG. 6) (step S43).

判定部105は、ステップS43において読み出したエントリに情報対象日時が含まれるか判定する(ステップS45)。 The determination unit 105 determines whether the entry read in step S43 includes the information target date and time (step S45).

ステップS43において読み出したエントリに情報対象日時の情報が含まれる場合(ステップS45:Yesルート)、処理は終了する。 When the entry read in step S43 contains the information of the information target date and time (step S45: Yes route), the process ends.

一方、ステップS43において読み出したエントリに情報対象日時が含まれない場合(ステップS45:Noルート)、判定部105は、ステップS41において特定したデータIDを有する結果データを結果テーブル(図22)から読み出す。そして、判定部105は、読み出した結果データに表日時の情報が含まれるか判定する(ステップS47)。 On the other hand, when the entry read out in step S43 does not include the information target date and time (step S45: No route), the determination unit 105 reads out the result data having the data ID specified in step S41 from the result table (FIG. 22). .. Then, the determination unit 105 determines whether the read result data includes the information of the table date and time (step S47).

読み出した結果データに表日時の情報が含まれる場合(ステップS47:Yesルート)、判定部105は、読み出した結果データに含まれる表日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS49)。そして処理は終了する。 When the read result data includes the table date and time information (step S47: Yes route), the determination unit 105 uses the table date and time information included in the read result data as the information target date and time in the extracted data table (FIG. 6). It is stored in the column of (step S49). And the process ends.

一方、読み出した結果データに表日時の情報が含まれない場合(ステップS47:Noルート)、判定部105は、読み出した結果データに記事発行日時の情報が含まれるか判定する(ステップS51)。 On the other hand, when the read result data does not include the table date and time information (step S47: No route), the determination unit 105 determines whether the read result data includes the article publication date and time information (step S51).

読み出した結果データに記事発行日時の情報が含まれる場合(ステップS51:Yesルート)、判定部105は、読み出した結果データに含まれる記事発行日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS53)。そして処理は終了する。 When the read result data includes the article publication date / time information (step S51: Yes route), the determination unit 105 obtains the article publication date / time information included in the read result data in the extracted data table (FIG. 6). It is stored in the target date and time column (step S53). And the process ends.

一方、読み出した結果データに記事発行日時の情報が含まれない場合(ステップS51:Noルート)、判定部105は、読み出した結果データに更新日時の情報が含まれるか判定する(ステップS55)。 On the other hand, when the read result data does not include the article publication date / time information (step S51: No route), the determination unit 105 determines whether the read result data includes the update date / time information (step S55).

読み出した結果データに更新日時の情報が含まれる場合(ステップS55:Yesルート)、判定部105は、読み出した結果データに含まれる更新日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS57)。そして処理は終了する。一方、読み出した結果データに更新日時の情報が含まれない場合(ステップS55:Noルート)、判定部105は、読み出した結果データに含まれる取得日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS59)。そして処理は終了する。 When the read result data includes the update date and time information (step S55: Yes route), the determination unit 105 inputs the update date and time information included in the read result data to the information target date and time in the extracted data table (FIG. 6). It is stored in the column of (step S57). And the process ends. On the other hand, when the read result data does not include the update date / time information (step S55: No route), the determination unit 105 inputs the acquisition date / time information included in the read result data in the extraction data table (FIG. 6). It is stored in the information target date and time column (step S59). And the process ends.

以上のような処理を実行すれば、表の項目値に対応付けられた日時情報のうちその項目値について適切な日時情報を決めることができるようになる。 By executing the above processing, it becomes possible to determine appropriate date and time information for the item value among the date and time information associated with the item value in the table.

図24乃至図28を用いて、情報対象日時の決定をより具体的に説明する。 The determination of the information target date and time will be described more specifically with reference to FIGS. 24 to 28.

例えば、図24に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−0」について表日時の情報が格納されているので、抽出データテーブルに情報対象日時の情報が格納されていなければ、図25に示すように、情報対象日時の欄に表日時「2016/06/01」が格納される。 For example, assume that the data shown in FIG. 24 is stored in the result table. In this case, since the table date and time information is stored for the data ID "1234567890-0", if the information target date and time information is not stored in the extracted data table, the information target is as shown in FIG. The table date and time "2016/06/01" is stored in the date and time column.

例えば、図26に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−0」について表日時の情報が格納されておらず、記事発行日時の情報が格納されている。従って、抽出データテーブルに情報対象日時の情報が格納されていなければ、図27に示すように、情報対象日時の欄に記事発行日時「2016/05/30」が格納される。 For example, assume that the data shown in FIG. 26 is stored in the result table. In this case, the table date and time information is not stored for the data ID "1234567890-0", but the article publication date and time information is stored. Therefore, if the information of the information target date and time is not stored in the extracted data table, the article publication date and time "2016/05/30" is stored in the information target date and time column as shown in FIG. 27.

例えば、図28に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−3」について表日時の情報が格納されている。しかし、図27に示したように、データID「1234567890−0−3」について情報対象日時「2016/03/31」が格納されている場合、情報対象日時の欄に表日時の情報は格納されない。 For example, assume that the data shown in FIG. 28 is stored in the result table. In this case, the table date and time information is stored for the data ID "1234567890-3". However, as shown in FIG. 27, when the information target date and time "2016/03/31" is stored for the data ID "1234567890-3", the table date and time information is not stored in the information target date and time column. ..

次に、図29乃至図31を用いて、生成部107が実行する処理を説明する。 Next, the process executed by the generation unit 107 will be described with reference to FIGS. 29 to 31.

情報処理装置1が複数の情報源から取得したウェブページのデータに対して上で述べた処理を実行したとする。そして、生成部107は、例えば情報処理装置1の操作者が指定したデータIDについての項目値および情報対象日時を、抽出データテーブルから読み出す(図29:ステップS61)。 It is assumed that the information processing device 1 executes the above-described processing on the data of the web page acquired from a plurality of information sources. Then, the generation unit 107 reads, for example, the item value and the information target date and time for the data ID specified by the operator of the information processing device 1 from the extracted data table (FIG. 29: step S61).

生成部107は、ステップS61において読み出した項目値および情報対象日時を含む時系列データを生成し(ステップS63)、処理データ格納部113に格納する。そして処理は終了する。 The generation unit 107 generates time-series data including the item value read in step S61 and the information target date and time (step S63), and stores the time series data in the processing data storage unit 113. And the process ends.

図30は、ステップS63において生成される時系列データの一例を示す図である。図30の例では、項目名「資本金」について、4つの時点における項目値が格納される。 FIG. 30 is a diagram showing an example of time series data generated in step S63. In the example of FIG. 30, the item values at four time points are stored for the item name “capital”.

図31は、図30に示した時系列データを基にして生成されたグラフの一例を示す図である。情報処理装置1の操作者は、このようなグラフを確認することで企業分析等を行うことができる。 FIG. 31 is a diagram showing an example of a graph generated based on the time series data shown in FIG. The operator of the information processing device 1 can perform company analysis and the like by confirming such a graph.

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。 Although one embodiment of the present invention has been described above, the present invention is not limited thereto. For example, the functional block configuration of the information processing device 1 described above may not match the actual program module configuration.

また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。 Further, the configuration of each table described above is an example, and does not have to be the configuration as described above. Further, in the processing flow, the order of processing can be changed as long as the processing result does not change. Further, it may be executed in parallel.

なお、上で述べた情報処理装置1は、コンピュータ装置であって、図32に示すように、メモリ2501とCPU2503とHDD2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。 The information processing device 1 described above is a computer device, and as shown in FIG. 32, is used for a memory 2501, a CPU 2503, an HDD 2505, a display control unit 2507 connected to the display device 2509, and a removable disk 2511. The drive device 2513, the input device 2515, and the communication control unit 2517 for connecting to the network are connected by a bus 2519. The operating system (OS: Operating System) and the application program for executing the processing in this embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503. The CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 according to the processing contents of the application program to perform a predetermined operation. Further, although the data in the process of processing is mainly stored in the memory 2501, it may be stored in the HDD 2505. In the embodiment of the present invention, the application program for performing the above-described processing is stored and distributed on the computer-readable removable disk 2511 and installed from the drive device 2513 to the HDD 2505. It may be installed on the HDD 2505 via a network such as the Internet and a communication control unit 2517. Such a computer device realizes various functions as described above by organically collaborating with the hardware such as the CPU 2503 and the memory 2501 described above and the program such as the OS and the application program. ..

以上述べた本発明の実施の形態をまとめると、以下のようになる。 The embodiments of the present invention described above can be summarized as follows.

本実施の形態の第1の態様に係る日時情報抽出方法は、(A)表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出し、(B)抽出した第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する処理を含む。 The date and time information extraction method according to the first aspect of the present embodiment is the first date and time information added to the item name or item value from the data including the item name and item value in the table (A), or the first date and time information. The second date and time information other than the date and time information of 1 and included in the predetermined range immediately before or after the description range of the table or the description range of the table is extracted, and (B) the extracted first date and time information is extracted. Includes a process of storing the date and time information or the second date and time information of the above in the storage device in association with at least the item values.

表に含まれる項目値がいつの時点の値であるかを決定できるようになる。 It becomes possible to determine when the item values contained in the table are the values.

また、第2の日時情報は、表の記述範囲に含まれ且つ表の説明を記述するためのタグで囲まれた日時情報であってもよい。 Further, the second date and time information may be date and time information included in the description range of the table and surrounded by tags for describing the description of the table.

例えばHTMLのCAPTIONタグ等を利用して第2の日時情報を抽出できるようになる。 For example, the second date and time information can be extracted by using the HTML CAPTION tag or the like.

また、第2の日時情報は、表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報であってもよい。 Further, the second date and time information may be date and time information included in a predetermined range immediately before or after the description range of the table and to which a predetermined character or a predetermined character string is added.

例えば「時点」、「現在」及び「付」等の文字または文字列を利用して第2の日時情報を抽出できるようになる。 For example, the second date and time information can be extracted by using characters or character strings such as "time point", "current", and "attached".

また、第2の日時情報は、表の記述範囲の直前或いは直後の所定範囲に含まれ且つ表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、表の記述範囲に含まれ且つ表タグより下の階層のタグに囲まれた日時情報であってもよい。 Further, the second date and time information is included in a predetermined range immediately before or after the description range of the table and is surrounded by tags in the same hierarchy as the table tag for describing the table, or the description range of the table. It may be date and time information included in and surrounded by tags in the hierarchy below the table tag.

日時情報の記述のされ方の特徴を利用して抽出を行うことができるようになる。 Extraction can be performed by utilizing the characteristics of how the date and time information is described.

また、本日時情報抽出方法は、(C)データにおける最初の所定タグまたは最後の所定タグに含まれ且つデータの発行日時を示す第3の日時情報を抽出する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b1)抽出した第1の日時情報、第2の日時情報または第3の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。 Further, the present date and time information extraction method may further include (C) a process of extracting a third date and time information included in the first predetermined tag or the last predetermined tag in the data and indicating the issue date and time of the data. Then, in the process of storing in the storage device, (b1) the extracted first date and time information, the second date and time information, or the third date and time information may be stored in the storage device in association with at least the item values.

項目値がデータの発行日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。 Since the item value may be regarded as the value at the time of the issue date and time of the data, if the process described above is executed, the appropriate date and time information can be associated with the item value.

また、本日時情報抽出方法は、(D)データのヘッダに含まれ且つデータの更新日時を示す第4の日時情報を抽出する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b2)抽出した第1の日時情報、第2の日時情報または第4の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。 Further, the present date and time information extraction method may further include (D) a process of extracting a fourth date and time information included in the header of the data and indicating the update date and time of the data. Then, in the process of storing in the storage device, (b2) the extracted first date and time information, the second date and time information, or the fourth date and time information may be stored in the storage device in association with at least the item values.

項目値がデータの更新日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。 Since the item value may be regarded as the value at the time of the update date and time of the data, if the process described above is executed, the appropriate date and time information can be associated with the item value.

また、本日時情報抽出方法は、(E)データの取得日時を示す第5の日時情報を取得する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b3)抽出した第1の日時情報、第2の日時情報または第5の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。 Further, the present date and time information extraction method may further include (E) a process of acquiring a fifth date and time information indicating the acquisition date and time of the data. Then, in the process of storing in the storage device, (b3) the extracted first date and time information, the second date and time information, or the fifth date and time information may be stored in the storage device in association with at least the item values.

項目値がデータの取得日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。 Since the item value may be regarded as the value at the time of data acquisition date / time, if the process described above is executed, appropriate date / time information can be associated with the item value.

また、所定範囲は、所定個数のタグを含む範囲であってもよい。 Further, the predetermined range may be a range including a predetermined number of tags.

タグが使用されたデータにおける範囲を適切に定めることができるようになる。 You will be able to properly define the range of data in which tags are used.

また、データは、ウェブページのデータであってもよい。 Further, the data may be the data of a web page.

本実施の形態の第2の態様に係る日時情報抽出装置は、(F)表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出する抽出部(実施の形態における抽出部103は抽出部の一例である)と、(G)抽出部により抽出された第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する格納処理部(実施の形態における判定部105は格納処理部の一例である)とを有する。 The date and time information extraction device according to the second aspect of the present embodiment is the first date and time information added to the item name or item value from the data including the item name and item value in the table (F), or the first date and time information. Extraction unit (extraction in the embodiment) that extracts the second date and time information that is the second date and time information other than the date and time information of 1 and is included in the predetermined range immediately before or after the description range of the table or the description range of the table. A unit 103 is an example of an extraction unit) and a storage processing unit (G) that stores the first date and time information or the second date and time information extracted by the extraction unit in a storage device in association with at least an item value. The determination unit 105 in the embodiment is an example of the storage processing unit).

なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。 A program for causing the processor to perform the processing by the above method can be created, and the program can be a computer-readable storage medium such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, or a hard disk. Stored in storage. The intermediate processing result is temporarily stored in a storage device such as a main memory.

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional notes will be further disclosed with respect to the embodiments including the above embodiments.

(付記1)
コンピュータに、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行させる日時情報抽出プログラム。
(Appendix 1)
On the computer
From the data including the item name and the item value of the table, the first date and time information added to the item name or the item value, or the second date and time information other than the first date and time information, which is the second date and time information other than the first date and time information, and is the table. The second date and time information included in the description range of the above or the predetermined range immediately before or after the description range of the table is extracted.
The extracted first date and time information or the second date and time information is stored in the storage device in association with at least the item values.
A date and time information extraction program that executes processing.

(付記2)
前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
(Appendix 2)
The second date and time information is date and time information included in the description range of the table and enclosed by tags for describing the description of the table.
The date and time information extraction program described in Appendix 1.

(付記3)
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
付記1記載の日時情報抽出プログラム。
(Appendix 3)
The second date and time information is date and time information included in a predetermined range immediately before or after the description range of the table and to which a predetermined character or a predetermined character string is added.
The date and time information extraction program described in Appendix 1.

(付記4)
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
(Appendix 4)
The second date and time information is included in a predetermined range immediately before or after the description range of the table and surrounded by tags in the same hierarchy as the table tag for describing the table, or the date and time information of the table. Date and time information included in the description range and surrounded by tags in the hierarchy below the table tag.
The date and time information extraction program described in Appendix 1.

(付記5)
前記コンピュータに、
前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
(Appendix 5)
On the computer
Further, the process of extracting the third date and time information included in the first predetermined tag or the last predetermined tag in the data and indicating the issue date and time of the data is further executed.
In the process of storing in the storage device
The extracted first date and time information, the second date and time information, or the third date and time information is stored in the storage device in association with at least the item value.
The date and time information extraction program according to any one of Supplementary notes 1 to 4.

(付記6)
前記コンピュータに、
前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
(Appendix 6)
On the computer
Further, the process of extracting the fourth date and time information included in the header of the data and indicating the update date and time of the data is further executed.
In the process of storing in the storage device
The extracted first date and time information, the second date and time information, or the fourth date and time information is stored in the storage device in association with at least the item value.
The date and time information extraction program according to any one of Supplementary notes 1 to 4.

(付記7)
前記コンピュータに、
前記データの取得日時を示す第5の日時情報を取得する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
(Appendix 7)
On the computer
Further, the process of acquiring the fifth date and time information indicating the acquisition date and time of the data is executed.
In the process of storing in the storage device
The extracted first date and time information, the second date and time information, or the fifth date and time information is stored in the storage device in association with at least the item value.
The date and time information extraction program according to any one of Supplementary notes 1 to 4.

(付記8)
前記所定範囲は、所定個数のタグを含む範囲である、
付記1乃至7のいずれか1つ記載の日時情報抽出プログラム。
(Appendix 8)
The predetermined range is a range including a predetermined number of tags.
The date and time information extraction program according to any one of Supplementary notes 1 to 7.

(付記9)
前記データは、ウェブページのデータである、
付記1乃至8のいずれか1つ記載の日時情報抽出プログラム。
(Appendix 9)
The data is web page data,
The date and time information extraction program according to any one of Supplementary notes 1 to 8.

(付記10)
コンピュータが、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行する日時情報抽出方法。
(Appendix 10)
The computer
From the data including the item name and the item value of the table, the first date and time information added to the item name or the item value, or the second date and time information other than the first date and time information, which is the second date and time information other than the first date and time information, and is the table. The second date and time information included in the description range of the above or the predetermined range immediately before or after the description range of the table is extracted.
The extracted first date and time information or the second date and time information is stored in the storage device in association with at least the item values.
Date and time information extraction method to execute processing.

(付記11)
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する格納処理部と、
を有する日時情報抽出装置。
(Appendix 11)
From the data including the item name and the item value of the table, the first date and time information added to the item name or the item value, or the second date and time information other than the first date and time information, which is the second date and time information other than the first date and time information, and is the table. The extraction unit that extracts the second date and time information included in the description range of the above or the predetermined range immediately before or after the description range of the table, and
A storage processing unit that stores the first date and time information or the second date and time information extracted by the extraction unit in the storage device in association with at least the item values.
Date and time information extraction device.

1 情報処理装置 101 データ処理部
103 抽出部 105 判定部
107 生成部 111 ページデータ格納部
113 処理データ格納部 3 ネットワーク
1 Information processing device 101 Data processing unit 103 Extraction unit 105 Judgment unit 107 Generation unit 111 Page data storage unit 113 Processing data storage unit 3 Network

Claims (10)

コンピュータに、
項目名および項目値のセットを複数含む表を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて記憶装置に格納する、
処理を実行させる日時情報抽出プログラム。
On the computer
From the data including the table including a plurality of item names and item value sets, the first date and time information added to the item name or the item value, or the second date and time information other than the first date and time information. Then, the second date and time information included in the description range of the table or the predetermined range immediately before or after the description range of the table is extracted.
The extracted first date and time information or the second date and time information is stored in the storage device in association with at least each of the item values included in the plurality of sets.
A date and time information extraction program that executes processing.
前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
請求項1記載の日時情報抽出プログラム。
The second date and time information is date and time information included in the description range of the table and enclosed by tags for describing the description of the table.
The date and time information extraction program according to claim 1.
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
請求項1記載の日時情報抽出プログラム。
The second date and time information is date and time information included in a predetermined range immediately before or after the description range of the table and to which a predetermined character or a predetermined character string is added.
The date and time information extraction program according to claim 1.
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
請求項1記載の日時情報抽出プログラム。
The second date and time information is included in a predetermined range immediately before or after the description range of the table and surrounded by tags in the same hierarchy as the table tag for describing the table, or the date and time information of the table. Date and time information included in the description range and surrounded by tags in the hierarchy below the table tag.
The date and time information extraction program according to claim 1.
前記コンピュータに、
前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
On the computer
Further, the process of extracting the third date and time information included in the first predetermined tag or the last predetermined tag in the data and indicating the issue date and time of the data is further executed.
In the process of storing in the storage device
The extracted first date and time information, the second date and time information, or the third date and time information is stored in the storage device in association with at least each of the item values included in the plurality of sets.
The date and time information extraction program according to any one of claims 1 to 4.
前記コンピュータに、
前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
On the computer
Further, the process of extracting the fourth date and time information included in the header of the data and indicating the update date and time of the data is further executed.
In the process of storing in the storage device
The extracted first date and time information, the second date and time information, or the fourth date and time information is stored in the storage device in association with at least each of the item values included in the plurality of sets.
The date and time information extraction program according to any one of claims 1 to 4.
前記コンピュータに、
前記データの取得日時を示す第5の日時情報を取得する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
On the computer
Further, the process of acquiring the fifth date and time information indicating the acquisition date and time of the data is executed.
In the process of storing in the storage device
The extracted first date and time information, the second date and time information, or the fifth date and time information is stored in the storage device in association with at least each of the item values included in the plurality of sets.
The date and time information extraction program according to any one of claims 1 to 4.
前記所定範囲は、所定個数のタグを含む範囲である、
請求項1乃至7のいずれか1つ記載の日時情報抽出プログラム。
The predetermined range is a range including a predetermined number of tags.
The date and time information extraction program according to any one of claims 1 to 7.
コンピュータが、
項目名および項目値のセットを複数含む表を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて記憶装置に格納する、
処理を実行する日時情報抽出方法。
The computer
From the data including the table including a plurality of item names and item value sets, the first date and time information added to the item name or the item value, or the second date and time information other than the first date and time information. Then, the second date and time information included in the description range of the table or the predetermined range immediately before or after the description range of the table is extracted.
The extracted first date and time information or the second date and time information is stored in the storage device in association with at least each of the item values included in the plurality of sets.
Date and time information extraction method to execute processing.
項目名および項目値のセットを複数含む表を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて記憶装置に格納する格納処理部と、
を有する日時情報抽出装置。
From the data including the table including a plurality of item names and item value sets, the first date and time information added to the item name or the item value, or the second date and time information other than the first date and time information. The extraction unit for extracting the second date and time information included in the description range of the table or the predetermined range immediately before or after the description range of the table.
A storage processing unit that stores the first date and time information or the second date and time information extracted by the extraction unit in a storage device in association with at least each of the item values included in the plurality of sets.
Date and time information extraction device.
JP2017078835A 2017-04-12 2017-04-12 Date and time information extraction method, date and time information extraction device and date and time information extraction program Expired - Fee Related JP6961987B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017078835A JP6961987B2 (en) 2017-04-12 2017-04-12 Date and time information extraction method, date and time information extraction device and date and time information extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017078835A JP6961987B2 (en) 2017-04-12 2017-04-12 Date and time information extraction method, date and time information extraction device and date and time information extraction program

Publications (2)

Publication Number Publication Date
JP2018180874A JP2018180874A (en) 2018-11-15
JP6961987B2 true JP6961987B2 (en) 2021-11-05

Family

ID=64275542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017078835A Expired - Fee Related JP6961987B2 (en) 2017-04-12 2017-04-12 Date and time information extraction method, date and time information extraction device and date and time information extraction program

Country Status (1)

Country Link
JP (1) JP6961987B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7113427B2 (en) 2018-09-26 2022-08-05 横河電機株式会社 Measuring device and measuring method
CN114944174A (en) * 2022-06-16 2022-08-26 安徽瑞宣科技咨询有限公司 Intelligent information storage system for project declaration

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (en) * 1999-11-09 2001-07-27 Fujitsu Ltd Content update status monitoring system
US20070011183A1 (en) * 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
WO2008142791A1 (en) * 2007-05-24 2008-11-27 Fujitsu Limited Difference calculation program, difference calculation device, and difference calculation method
JP2009075757A (en) * 2007-09-19 2009-04-09 Kureo:Kk Information processing apparatus and program
JP5108660B2 (en) * 2008-06-30 2012-12-26 ヤフー株式会社 Information collection method, apparatus, and program
JP5063729B2 (en) * 2010-03-31 2012-10-31 ヤフー株式会社 Crawler management system and method
JP5628710B2 (en) * 2011-03-03 2014-11-19 Sky株式会社 Date area determination system and date area determination program

Also Published As

Publication number Publication date
JP2018180874A (en) 2018-11-15

Similar Documents

Publication Publication Date Title
US8601120B2 (en) Update notification method and system
US20150067476A1 (en) Title and body extraction from web page
US9009850B2 (en) Database management by analyzing usage of database fields
WO2011088724A1 (en) Method and device for realizing information subscription from web page
US9892100B2 (en) Verifying content of resources in markup language documents
CN105205080A (en) Redundant file clearing method, device and system
CN107220250A (en) A kind of template configuration method and system
KR20170073693A (en) Extracting similar group elements
JP6961987B2 (en) Date and time information extraction method, date and time information extraction device and date and time information extraction program
JP6763433B2 (en) Information gathering system, information gathering method, and program
JP5676522B2 (en) Character string conversion method and program
CN104572874B (en) A kind of abstracting method and device of webpage information
CN110309364B (en) Information extraction method and device
JP2012059212A (en) Extraction apparatus, extraction method and extraction program
JP6834774B2 (en) Information extraction device
JP5063877B2 (en) Information processing apparatus and computer program
JP7111972B2 (en) Compliance determination device and method
JP5462713B2 (en) Web page collection apparatus, method, and program
JP3607182B2 (en) Document information extraction apparatus, method, and recording medium recording the program
JP3624248B2 (en) Handling of input data
JP5765452B2 (en) Annotation addition / restoration method and annotation addition / restoration apparatus
JP4700637B2 (en) Web document dividing method, system, and program
US20130305137A1 (en) Document generation system and method for generating a document
JP2006004111A (en) Web information extraction method and apparatus and program thereof
WO2005109241A1 (en) Data structure, structured data management system, structured data management method, and structured data management program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210927

R150 Certificate of patent or registration of utility model

Ref document number: 6961987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees