Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6985189B2 - Data collection equipment, data collection methods, and programs - Google Patents
[go: Go Back, main page]

JP6985189B2 - Data collection equipment, data collection methods, and programs - Google Patents

Data collection equipment, data collection methods, and programs Download PDF

Info

Publication number
JP6985189B2
JP6985189B2 JP2018051322A JP2018051322A JP6985189B2 JP 6985189 B2 JP6985189 B2 JP 6985189B2 JP 2018051322 A JP2018051322 A JP 2018051322A JP 2018051322 A JP2018051322 A JP 2018051322A JP 6985189 B2 JP6985189 B2 JP 6985189B2
Authority
JP
Japan
Prior art keywords
host
content
collected
unit
evaluated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018051322A
Other languages
Japanese (ja)
Other versions
JP2019164500A (en
Inventor
ラチマン タウフィック
雄貴 俵
将平 川崎
康之 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018051322A priority Critical patent/JP6985189B2/en
Publication of JP2019164500A publication Critical patent/JP2019164500A/en
Application granted granted Critical
Publication of JP6985189B2 publication Critical patent/JP6985189B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ収集装置、データ収集方法、およびプログラムに関する。 The present invention relates to a data collection device, a data collection method, and a program.

従来、ウェブから文章や画像等のデータを収集し、収集したデータを自動的にデータベース化するクローラが知られている(例えば、特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なホストのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。ウェブ情報データベースに蓄積されたデータは、ウェブページの検索サービス等に利用される。 Conventionally, a crawler that collects data such as texts and images from the Web and automatically creates a database of the collected data is known (see, for example, Patent Document 1). Crawlers collect data from web pages of various hosts by following links in web pages. The data collected by the crawler is stored in the web information database. The data stored in the web information database is used for web page search services and the like.

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。 On the other hand, when the search engine receives the search word input by the user, the information of the web page or application page related to the received search word (for example, URL: Uniform Resource Locator) is acquired from the web information database and acquired. Output a list of information as a search result.

特開2015−167039号公報Japanese Unexamined Patent Publication No. 2015-167039

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワードに関連するテキストデータや画像データを検索結果とともに出力するように運用されている場合がある。このような機能を実現するために、エンティティと、該エンティティに関連するテキストデータや画像データとを互いに関連付けて記憶したデータベースが用いられる場合がある。 In order to improve user satisfaction, the search engine may be operated to output text data and image data related to the search word input by the user together with the search result. In order to realize such a function, a database in which an entity and text data or image data related to the entity are associated with each other and stored may be used.

上記のようなデータベースの拡充のため、特に、エンティティの画像データを効率的に収集する手法が求められている。また、日本語コンテンツの拡充のため、日本語のページの割合が高いホストを優先的にクロールする手法が求められている。 In order to expand the database as described above, a method for efficiently collecting image data of an entity is particularly required. In addition, in order to expand Japanese content, there is a need for a method of preferentially crawling hosts with a high percentage of Japanese pages.

本発明は、このような事情を考慮してなされたものであり、データ収集の効率を向上させることが可能なデータ収集装置、データ収集方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and one of the objects of the present invention is to provide a data collection device, a data collection method, and a program capable of improving the efficiency of data collection.

本発明の一態様は、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備える、データ収集装置である。 One aspect of the present invention includes a first collection unit that collects content corresponding to reference information belonging to the host to be evaluated from a device accessible via a network, and a content collected by the first collection unit. It is a data collecting device including an evaluation unit that evaluates the host to be evaluated based on the number of associated image data different from each other.

本発明の一態様によれば、データ収集の効率を向上させることが可能である。 According to one aspect of the present invention, it is possible to improve the efficiency of data collection.

実施形態に係るクロールサーバ1の使用環境を示す図である。It is a figure which shows the use environment of the crawl server 1 which concerns on embodiment. 実施形態に係るナレッジグラフの一例を示す図である。It is a figure which shows an example of the knowledge graph which concerns on embodiment. 実施形態に係るクロールサーバ1の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the crawl server 1 which concerns on embodiment. 実施形態に係るクロールサーバ1のホスト評価処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the host evaluation process of the crawl server 1 which concerns on embodiment. 実施形態に係るURLリスト情報D1の一例を示す図である。It is a figure which shows an example of the URL list information D1 which concerns on embodiment. 実施形態に係るコンテンツ情報D2の一例を示す図である。It is a figure which shows an example of the content information D2 which concerns on embodiment. 実施形態に係るホスト情報D3の一例を示す図である。It is a figure which shows an example of the host information D3 which concerns on embodiment. 実施形態に係るパス構造を考慮してホスト評価を行った場合のホスト情報D3aの一例を示す図である。It is a figure which shows an example of the host information D3a when the host evaluation is performed in consideration of the path structure which concerns on embodiment. 実施形態に係るクロールサーバ1の画像収集処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of the image collection process of the crawl server 1 which concerns on embodiment. 実施形態に係る画像情報D4の一例を示す図である。It is a figure which shows an example of the image information D4 which concerns on embodiment.

[概要]
以下、図面を参照して、データ収集装置、データ収集方法、およびプログラムの実施形態について説明する。本実施形態では、データ収集装置がクロールサーバであるものとして説明する。クロールサーバとは、インターネット等のネットワークを介してアクセス可能な複数の装置からデータを自動的に収集するサーバである。本実施形態のクロールサーバは、エンティティの代表画像の収集に関してホストの評価を行い、評価の高い優良なホストに集中してクロールを行う。
[Overview]
Hereinafter, a data collection device, a data collection method, and an embodiment of a program will be described with reference to the drawings. In this embodiment, it is assumed that the data collection device is a crawl server. A crawl server is a server that automatically collects data from a plurality of devices that can be accessed via a network such as the Internet. The crawl server of the present embodiment evaluates the host regarding the collection of the representative image of the entity, and concentrates the crawl on the excellent host having a high evaluation.

クロールサーバは、1つのプロセッサによって実現されてもよく、複数のプロセッサが分散処理することで実現されてもよい。本実施形態において、ホストとは、ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報(例えば、URL)の一部を構成して複数の参照情報の群を特定する所属情報をいう。以下、実施形態について説明する。 The crawl server may be realized by one processor, or may be realized by distributed processing by a plurality of processors. In the present embodiment, the host constitutes a part of reference information (for example, URL) for referring to data stored in a device accessible via a network, and specifies a group of a plurality of reference information. Affiliation information. Hereinafter, embodiments will be described.

[全体構成]
図1は、本実施形態のクロールサーバ1(データ収集装置)の使用環境を示す図である。クロールサーバ1は、画像データおよびHTML(HyperText Markup Language)データの少なくとも一方を含むページデータ(コンテンツ)を、ネットワークNWを介してアクセス可能な複数の外部サーバS1(装置)から収集する。コンテンツは、外部サーバS1に格納されており、ブラウザによって閲覧可能なページ単位のデータである。ただし、コンテンツは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータでもよい。ネットワークNWは、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等を含む。
[overall structure]
FIG. 1 is a diagram showing a usage environment of the crawl server 1 (data collection device) of the present embodiment. The crawl server 1 collects page data (contents) including at least one of image data and HTML (HyperText Markup Language) data from a plurality of external servers S1 (devices) accessible via the network NW. The content is stored in the external server S1 and is page-based data that can be viewed by a browser. However, the content is not limited to the browser, and may be data played by the application program. The network NW includes the Internet, WAN (Wide Area Network), LAN (Local Area Network) and the like.

[ナレッジグラフの構成]
本実施形態において、クロールサーバ1により収集されたデータは、例えば、ナレッジグラフを生成するために用いられる。ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。
[Knowledge Graph Configuration]
In this embodiment, the data collected by the crawl server 1 is used, for example, to generate a knowledge graph. The Knowledge Graph is data in which an entity, class, or property is associated with the location information of a web page in which related data related to the entity is described. An entity may represent, for example, the entity of an object (eg, an object that exists in the real world) or is defined within the concept of an object (eg, in the real world or virtual world). It may represent a concept). For example, when the object is the concept of "building", the entity may represent an entity such as "○○ tower" or "○○ building". Further, for example, when the object is the concept of "economics", the entity may represent an insubstantial abstract concept such as "microeconomics" or "macroeconomics".

図2は、本実施形態に係るナレッジグラフの一例を示す図である。ナレッジグラフにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。 FIG. 2 is a diagram showing an example of the Knowledge Graph according to the present embodiment. The things described in the Knowledge Graph are defined by the ontology. An ontology is a definition of a class and a property of an object, and is a collection of constraints that hold between the class and the property.

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。 A class is a group of things that have the same properties in an ontology. What the nature of an object is, that is, which class the object belongs to, is determined by the properties described below.

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。 For example, things that have a beak, an oviparous vertebrate, and forelimbs that are wings are classified in the "bird" class. Also, in the class of "birds", things that have the property of not being able to fly are classified into lower classes such as "penguins" and "ostriches". In this way, the class system may have a hierarchical structure having a higher-lower relationship. The nature of the upper class is inherited by the lower class. In the example above, the "bird" class's "beak-bearing, oviparous vertebrate with winged forelimbs" property is a lower class property of "penguins" and "ostriches". Will also be included. For example, if the class name for identifying the class is a class "bird", the class name may be represented by the character string "bird". The class name does not necessarily have to represent a meaning, and for example, even in the class "bird", a character string indicating mere identification information such as "information 1" or "C1" may be assigned. .. The above-mentioned entities, or things, shall belong to any of the classes contained within the class system defined by the ontology.

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。 Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, a property may be an attribute that has the property of "having ~ as a component of the body" or the property of "living in ...", or "a class is a higher class and a certain class is a lower class". It may be an attribute indicating the relationship between the upper and lower levels of "class". As for the property name for identifying the property, the property name itself may or may not represent the meaning, as in the class name described above.

ナレッジグラフは、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。 A knowledge graph is a directed graph in which the above-mentioned classes are represented as nodes and the above-mentioned properties are represented as labeled and directional edges. With such a graph structure, information about things can be discriminated by nodes, and relationships between things can be discriminated by edges.

図2において示される例のナレッジグラフは、野球選手Aである「エンティティE1」と、野球チームBである「エンティティE2」とが、「所属チーム」というプロパティ名のクラスに属する。また、野球選手Aである「エンティティE1」と、「野球選手AN1」とが、「名前」というプロパティ名のクラスに属する。また、野球選手Aである「エンティティE1」と、野球選手Aの「画像P1」とが、「代表画像」というプロパティ名のクラスに属する。また、野球チームBである「エンティティE2」と、「野球リームBN2」とが、「名前」というプロパティ名のクラスに属する。クロールサーバ1により収集されたデータは、例えば、上記のようなナレッジグラフにおけるエンティティの代表画像として利用される。 In the example knowledge graph shown in FIG. 2, the baseball player A "entity E1" and the baseball team B "entity E2" belong to the class with the property name "affiliated team". Further, the baseball player A "entity E1" and the "baseball player AN1" belong to the class of the property name "name". Further, the baseball player A "entity E1" and the baseball player A "image P1" belong to the class with the property name "representative image". Further, the baseball team B "entity E2" and "baseball ream BN2" belong to the class of the property name "name". The data collected by the crawl server 1 is used, for example, as a representative image of an entity in the knowledge graph as described above.

[クロールサーバの構成]
以下、クロールサーバ1の構成について説明する。図3は、クロールサーバ1の構成を示す機能ブロック図である。クロールサーバ1は、例えば、データ収集部10(第1収集部)と、ホスト評価部20と、画像収集処理部30と、記憶部40とを備える。記憶部40には、例えば、URLリスト情報D1と、コンテンツ情報D2と、ホスト情報D3と、画像情報D4とが記憶されている。
[Crawl server configuration]
Hereinafter, the configuration of the crawl server 1 will be described. FIG. 3 is a functional block diagram showing the configuration of the crawl server 1. The crawl server 1 includes, for example, a data collection unit 10 (first collection unit), a host evaluation unit 20, an image collection processing unit 30, and a storage unit 40. For example, the URL list information D1, the content information D2, the host information D3, and the image information D4 are stored in the storage unit 40.

URLリスト情報D1には、クロールの対象となる多数のURLのリストが格納されている。URLリスト情報D1は、クロールにより収集されたコンテンツのテキストデータから抽出されたURLがリスト化されたものであってよい。或いは、URLリスト情報D1は、例えば、クロールサーバ1の管理者により手動で設定されるものであってよい。コンテンツ情報D2には、クロールにより収集されたコンテンツの情報が格納されている。ホスト情報D3には、評価対象となるホストの評価結果が格納されている。画像情報D4には、クロールにより収集されたエンティティの代表画像が格納されている。 The URL list information D1 stores a list of a large number of URLs to be crawled. The URL list information D1 may be a list of URLs extracted from the text data of the content collected by the crawl. Alternatively, the URL list information D1 may be manually set by, for example, the administrator of the crawl server 1. The content information D2 stores information on the content collected by the crawl. The host information D3 stores the evaluation result of the host to be evaluated. The image information D4 stores a representative image of the entity collected by the crawl.

データ収集部10(フェッチャー)は、複数の外部サーバS1からコンテンツを収集(フェッチ)する。収集されるコンテンツには、例えば、HTMLデータおよび画像データが含まれる。データ収集部10は、収集したコンテンツを記憶部40のコンテンツ情報D2に格納する。 The data collection unit 10 (fetcher) collects (fetchs) content from a plurality of external servers S1. The collected content includes, for example, HTML data and image data. The data collecting unit 10 stores the collected content in the content information D2 of the storage unit 40.

ホスト評価部20は、コンテンツにおいて特定の情報として設定された特定のタグの有無に基づいてホストの評価を行う。「特定のタグ」は、例えば、OGP(Open Graph Protocol)タグのようなコンテンツの内容を示すテキストを含むタグである。OGPタグは、リンク先のコンテンツのタイトル(以下、OGPタイトル)、リンク先のコンテンツに関する画像データ(以下、OGP画像)のURL、リンク先のコンテンツの概要を示すテキストデータ等がひと纏まりになった情報である。ホスト評価部20は、例えば、このOGPタグに含まれるOGP画像の有無に基づいてホストの評価を行う。 The host evaluation unit 20 evaluates the host based on the presence or absence of a specific tag set as specific information in the content. The "specific tag" is a tag containing text indicating the content of the content, such as an OGP (Open Graph Protocol) tag. The OGP tag is a collection of the title of the linked content (hereinafter, OGP title), the URL of the image data related to the linked content (hereinafter, OGP image), the text data indicating the outline of the linked content, and the like. Information. The host evaluation unit 20 evaluates the host based on the presence or absence of the OGP image included in the OGP tag, for example.

OGP画像とは、リンクの代表画像として設定された画像である。このため、OGP画像は、エンティティの代表画像として利用可能な画像に相当しうる。OGP画像は、各コンテンツのメタ情報としてその参照情報(例えば、URL)により指定される。OGP画像は、OGPタグ「<meta property=”og:image” content=”URL”/>により指定される。 The OGP image is an image set as a representative image of the link. Therefore, the OGP image can correspond to an image that can be used as a representative image of an entity. The OGP image is designated by the reference information (for example, URL) as the meta information of each content. The OGP image is specified by the OGP tag "<meta property =" og: image "content =" URL "/>.

また、OGP画像は、各コンテンツページのメタ情報として指定されたOGPタグに含まれるOGPタイトルと関連性が高い。このため、このOGPタイトルは、エンティティ名(名前情報)として利用可能な文字列に相当しうる。OGPタイトルは、OGPタグ「<meta property=”og:title” content=”タイトル”/>により指定される。 Further, the OGP image is highly related to the OGP title included in the OGP tag specified as the meta information of each content page. Therefore, this OGP title can correspond to a character string that can be used as an entity name (name information). The OGP title is specified by the OGP tag "<meta property =" og: title "content =" title "/>.

ホスト評価部20は、例えば、サンプリング部21(第1収集部)と、ユニークOGP率算出部23(評価部)と、日本語判定部25(評価部)とを備える。サンプリング部21は、評価対象とするホストに所属するURLを、URLリスト情報D1から抽出する。抽出するURLの数は、任意である。サンプリング部21は、抽出したURLを、データ収集部10に入力する。これにより、データ収集部10は、サンプリング部21から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する。 The host evaluation unit 20 includes, for example, a sampling unit 21 (first collection unit), a unique OGP rate calculation unit 23 (evaluation unit), and a Japanese language determination unit 25 (evaluation unit). The sampling unit 21 extracts the URL belonging to the host to be evaluated from the URL list information D1. The number of URLs to be extracted is arbitrary. The sampling unit 21 inputs the extracted URL into the data collection unit 10. As a result, the data collection unit 10 collects content from the plurality of external servers S1 based on the URL input from the sampling unit 21.

ユニークOGP率算出部23は、データ収集部10により収集されて記憶部40に記憶されたコンテンツを解析する。ユニークOGP率算出部23は、収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、ホストの評価を行う。例えば、ユニークOGP率算出部23は、コンテンツであるHTMLデータの各々のヘッダ部分にOGPタグ(OGP画像)が含まれているか否かを判定する。ユニークOGP率算出部23は、評価対象とするホストごとに、ユニークOGP率を算出する。ユニークOGP率とは、収集されたコンテンツに含まれるOGP画像の多種性をホストごとに評価する指標値である。数多くのOGP画像が収集された場合であっても、OGP画像が互いに重複していると、エンティティ代表画像として利用可能な画像を効率的に増やすことはできない。例えば、ホストを代表する同一のロゴ画像が収集された全てのコンテンツにOGP画像として設定されている場合、エンティティ代表画像として利用可能な画像は1つのみである。このため、本実施形態では、OGP画像の多種性を判断することが可能なユニークOGP率に基づいてホスト評価を行う。ユニークOGP率は、例えば、以下の式(1)により表される。 The unique OGP rate calculation unit 23 analyzes the content collected by the data collection unit 10 and stored in the storage unit 40. The unique OGP rate calculation unit 23 evaluates the host based on the number of different image data associated with the collected content. For example, the unique OGP rate calculation unit 23 determines whether or not an OGP tag (OGP image) is included in each header portion of HTML data which is a content. The unique OGP rate calculation unit 23 calculates the unique OGP rate for each host to be evaluated. The unique OGP rate is an index value for evaluating the variety of OGP images included in the collected content for each host. Even when a large number of OGP images are collected, if the OGP images overlap each other, it is not possible to efficiently increase the images that can be used as the entity representative image. For example, when the same logo image representing the host is set as an OGP image in all the collected contents, only one image can be used as the entity representative image. Therefore, in the present embodiment, the host evaluation is performed based on the unique OGP rate that can determine the variety of OGP images. The unique OGP rate is expressed by, for example, the following equation (1).

ユニークOGP率
=収集されたOGP画像のユニーク数/収集されたOGP画像の総数・・・式(1)
Unique OGP rate = Unique number of collected OGP images / Total number of collected OGP images ... Equation (1)

例えば、評価対象とするホストに関して収集されたOGP画像の総数(重複あり)が10であり、このうち、重複を除いたOGP画像のユニーク数が5である場合、ユニークOGP率は0.5(=5/10)となる。ユニークOGP率は、値が大きいほど多種性が高く、ホストの評価が高いことを示し、値が小さいほど多種性が低く、ホストの評価が低いことを示す。 For example, if the total number of OGP images (with duplication) collected for the host to be evaluated is 10, and the unique number of OGP images excluding duplication is 5, the unique OGP rate is 0.5 (with duplication). = 5/10). The unique OGP rate indicates that the larger the value, the higher the variety and the higher the evaluation of the host, and the smaller the value, the lower the variety and the lower the evaluation of the host.

収集されたOGP画像が重複しているか否かの判定は、例えば、OGPタグに含まれるOGP画像のリンク先のURLに基づいて行われる。ユニークOGP率算出部23は、このOGPタグに含まれるOGP画像のリンク先のURLの文字列が同一であるOGP画像は、互いに重複していると判定する。ユニークOGP率算出部23は、算出したユニークOGP率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。 Whether or not the collected OGP images are duplicated is determined, for example, based on the URL of the link destination of the OGP images included in the OGP tag. The unique OGP rate calculation unit 23 determines that the OGP images having the same character string of the URL of the link destination of the OGP image included in the OGP tag are duplicated with each other. The unique OGP rate calculation unit 23 stores the calculated unique OGP rate in the host information D3 stored in the storage unit 40 in association with the host to be evaluated.

すなわち、ユニークOGP率算出部23は、収集されたコンテンツと関連付けられた画像データの総数と、互いに異なる画像データの数との比に基づいて、ホストの評価を行う。また、ユニークOGP率算出部23は、画像データの総数に対する互いに異なる画像データの数の割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。 That is, the unique OGP rate calculation unit 23 evaluates the host based on the ratio of the total number of image data associated with the collected content to the number of image data different from each other. Further, the unique OGP rate calculation unit 23 evaluates the host so that the evaluation increases as the ratio of the number of different image data to the total number of image data increases.

日本語判定部25は、収集されたコンテンツの各々が日本語のコンテンツ(特定言語コンテンツ)であるか否かを判定する。さらに、日本語判定部25は、評価対象とするホストごとに、日本語コンテンツ率を算出する。日本語コンテンツ率とは、収集されたコンテンツに含まれる日本語コンテンツの割合を示す指標値である。日本語コンテンツ率は、例えば、以下の式(2)により表される。 The Japanese determination unit 25 determines whether or not each of the collected contents is Japanese content (specific language content). Further, the Japanese language determination unit 25 calculates the Japanese content rate for each host to be evaluated. The Japanese content rate is an index value indicating the ratio of Japanese content contained in the collected content. The Japanese content rate is expressed by, for example, the following equation (2).

日本語コンテンツ率
=収集された日本語コンテンツの数/収集されたコンテンツの総数・・・式(2)
Japanese content rate = Number of Japanese contents collected / Total number of collected contents ・ ・ ・ Equation (2)

例えば、評価対象とするホストに関して収集されたコンテンツの総数が10であり、このうち、日本語のコンテンツの数が9である場合、日本語コンテンツ率は0.9(=9/10)となる。日本語コンテンツ率は、値が大きいほど日本語コンテンツの割合が高く、ホストの評価が高いことを示し、値が小さいほど日本語コンテンツの割合が低く、ホストの評価が低いことを示す。 For example, if the total number of contents collected for the host to be evaluated is 10, and the number of Japanese contents is 9, the Japanese content rate is 0.9 (= 9/10). .. As for the Japanese content rate, the larger the value, the higher the ratio of Japanese content and the higher the evaluation of the host, and the smaller the value, the lower the ratio of Japanese content and the lower the evaluation of the host.

収集されたコンテンツが日本語コンテンツであるか否かの判定は、例えば、文字コードや、言語ごとの辞書データ等に基づいて行われる。日本語判定部25は、算出した日本語コンテンツ率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。 Whether or not the collected content is Japanese content is determined based on, for example, a character code, dictionary data for each language, or the like. The Japanese language determination unit 25 stores the calculated Japanese content rate in the host information D3 stored in the storage unit 40 in association with the host to be evaluated.

すなわち、日本語判定部25は、収集されたコンテンツの総数と、コンテンツに含まれる所定の言語で記載されている所定言語コンテンツの数との比に基づいて、ホストの評価を行う。また、日本語判定部25は、収集されたコンテンツの総数に対する所定言語コンテンツの割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。 That is, the Japanese determination unit 25 evaluates the host based on the ratio of the total number of collected contents to the number of predetermined language contents described in the predetermined language included in the contents. Further, the Japanese language determination unit 25 evaluates the host so that the evaluation increases as the ratio of the predetermined language content to the total number of collected contents increases.

画像収集処理部30は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホストを選択し、選択したホストに所属するURLを集中的にクロールして、エンティティ代表画像となりうる画像を収集する。すなわち、画像収集処理部30は、数多くの種類のOGP画像を収集することが期待されるホストを集中的にクロールする。画像収集処理部30は、例えば、ホスト選択部31(第2収集部)と、画像URL選択部33(第3収集部)とを備える。 The image collection processing unit 30 selects a good host suitable for collecting the entity representative image based on the evaluation result by the host evaluation unit 20, and intensively crawls the URL belonging to the selected host to represent the entity. Collect images that can be images. That is, the image collection processing unit 30 intensively crawls hosts that are expected to collect many types of OGP images. The image collection processing unit 30 includes, for example, a host selection unit 31 (second collection unit) and an image URL selection unit 33 (third collection unit).

ホスト選択部31は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホスト(以下、優良ホスト)を選択する。例えば、ホスト選択部31は、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークOGP率が所定の閾値以上であるホストを優良ホストとして選択する。例えば、ホスト選択部31は、日本語コンテンツ率が「0.9」以上であり、且つ、ユニークOGP率が「0.95」以上であるホストを優良ホストとして選択する。 The host selection unit 31 selects an excellent host (hereinafter referred to as an excellent host) suitable for collecting entity representative images based on the evaluation result by the host evaluation unit 20. For example, the host selection unit 31 selects a host whose Japanese content rate is equal to or higher than a predetermined threshold and whose unique OGP rate is equal to or higher than a predetermined threshold as a good host. For example, the host selection unit 31 selects a host having a Japanese content rate of "0.9" or more and a unique OGP rate of "0.95" or more as an excellent host.

ホスト選択部31は、URLリスト情報D1から優良ホストに所属するURLを抽出し、データ収集部10に入力する。これにより、データ収集部10は、ホスト選択部31から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集し、コンテンツを記憶部40のコンテンツ情報D2に記憶させる。ホスト選択部31により抽出されるURLの数は任意である。 The host selection unit 31 extracts the URL belonging to the excellent host from the URL list information D1 and inputs it to the data collection unit 10. As a result, the data collection unit 10 collects the content from the plurality of external servers S1 based on the URL input from the host selection unit 31, and stores the content in the content information D2 of the storage unit 40. The number of URLs extracted by the host selection unit 31 is arbitrary.

画像URL選択部33は、ホスト選択部31により抽出されたURLに基づいて収集されたコンテンツの各々のヘッダ部分にOGPタグ(OGP画像)が含まれているか否かを判定する。画像URL選択部33は、OGP画像が含まれていると判定した場合、該OGP画像のリンク先のURLを収集対象のURLとして選択し、データ収集部10に入力する。これにより、データ収集部10は、画像URL選択部33から入力されたURLに基づいて、外部サーバS1から画像であるコンテンツを収集する。 The image URL selection unit 33 determines whether or not an OGP tag (OGP image) is included in each header portion of the content collected based on the URL extracted by the host selection unit 31. When the image URL selection unit 33 determines that the OGP image is included, the image URL selection unit 33 selects the URL of the link destination of the OGP image as the URL to be collected and inputs it to the data collection unit 10. As a result, the data collection unit 10 collects content that is an image from the external server S1 based on the URL input from the image URL selection unit 33.

画像URL選択部33は、OGPタグに含まれているOGPタイトルと、該OGPタグに含まれているOGP画像のリンク先のURLに基づいて収集された画像との組を、記憶部40に記憶された画像情報D4に格納する。画像情報D4に格納されたOGPタイトルは、エンティティ名として利用可能なものである。また、画像情報D4に格納された画像は、エンティティの代表画像として利用可能なものである。 The image URL selection unit 33 stores in the storage unit 40 a set of an OGP title included in the OGP tag and an image collected based on the linked URL of the OGP image included in the OGP tag. It is stored in the image information D4. The OGP title stored in the image information D4 can be used as an entity name. Further, the image stored in the image information D4 can be used as a representative image of the entity.

クロールサーバ1の各機能部は、例えば、コンピュータにおいて、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。 Each functional unit of the crawl server 1 is realized, for example, by executing a program (software) by a hardware processor such as a CPU (Central Processing Unit) in a computer. In addition, some or all of these components are hardware (circuits) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), GPU (Graphics Processing Unit), etc. It may be realized by the part; including circuitry), or it may be realized by the cooperation of software and hardware.

クロールサーバ1の記憶部40は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置等により実現される。また、記憶部40の一部または全部は、NASや外部のストレージサーバ等、クロールサーバ1がアクセス可能な外部装置であってもよい。 The storage unit 40 of the crawl server 1 is, for example, a RAM (Random Access Memory), a ROM (Read Only Memory), an HDD (Hard Disk Drive), a flash memory, or a hybrid storage device in which a plurality of these are combined. It will be realized. Further, a part or all of the storage unit 40 may be an external device such as NAS or an external storage server that can be accessed by the crawl server 1.

[ホスト評価処理]
以下、クロールサーバ1のホスト評価処理について説明する。図4は、クロールサーバ1のホスト評価処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。
[Host evaluation process]
Hereinafter, the host evaluation process of the crawl server 1 will be described. FIG. 4 is a flowchart showing an example of the flow of the host evaluation process of the crawl server 1. The process according to this flowchart may be executed by a batch process executed at a predetermined timing such as daily or weekly.

以下の例では、URLリスト情報D1が予め記憶部40に記憶されているものとする。図5は、記憶部40に記憶されたURLリスト情報D1の一例を示す図である。図5に示されるように、URLリスト情報D1には、複数のホストに関するURLの情報が含まれている。 In the following example, it is assumed that the URL list information D1 is stored in the storage unit 40 in advance. FIG. 5 is a diagram showing an example of URL list information D1 stored in the storage unit 40. As shown in FIG. 5, the URL list information D1 includes URL information relating to a plurality of hosts.

まず、サンプリング部21は、評価対象とするホストを選択する(S101)。例えば、サンプリング部21は、URLリスト情報D1に含まれるURLを参照して、評価対象とするホストを選択する。或いは、サンプリング部21は、管理者等による入力を受け付ける受付部(不図示)を介して指定されたホストを、評価対象とするホストとして選択してもよい。選択するホストの数は、任意である。 First, the sampling unit 21 selects a host to be evaluated (S101). For example, the sampling unit 21 refers to the URL included in the URL list information D1 and selects a host to be evaluated. Alternatively, the sampling unit 21 may select a host designated via a reception unit (not shown) that accepts input by an administrator or the like as a host to be evaluated. The number of hosts selected is arbitrary.

次に、サンプリング部21は、評価対象としたホストのうち1つのホストを選択し、該ホストに所属するURLを、URLリスト情報D1から抽出する(S103)。抽出するURLの数は、任意である。次に、サンプリング部21は、抽出したURLをデータ収集部10に入力する。データ収集部10は、サンプリング部21から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する(S105)。データ収集部10は、収集したコンテンツを記憶部40のコンテンツ情報D2に格納する。 Next, the sampling unit 21 selects one of the hosts to be evaluated and extracts the URL belonging to the host from the URL list information D1 (S103). The number of URLs to be extracted is arbitrary. Next, the sampling unit 21 inputs the extracted URL into the data collection unit 10. The data collection unit 10 collects content from a plurality of external servers S1 based on the URL input from the sampling unit 21 (S105). The data collecting unit 10 stores the collected content in the content information D2 of the storage unit 40.

図6は、データ収集部10により収集されたコンテンツ情報D2の一例を示す図である。図6に示されるように、コンテンツ情報D2には、URLと、該URLに基づいて収集されたコンテンツとが関連付けられて格納されている。コンテンツ情報D2には、例えば、URL「ホスト1/ディレクトリ1/ファイル1」と、コンテンツ「HTMLデータ1」とが関連付けられて格納されている。 FIG. 6 is a diagram showing an example of the content information D2 collected by the data collection unit 10. As shown in FIG. 6, the URL and the content collected based on the URL are associated and stored in the content information D2. In the content information D2, for example, the URL "host 1 / directory 1 / file 1" and the content "HTML data 1" are stored in association with each other.

次に、ユニークOGP率算出部23は、ユニークOGP率を算出する(S107)。ユニークOGP率算出部23は、算出したユニークOGP率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。 Next, the unique OGP rate calculation unit 23 calculates the unique OGP rate (S107). The unique OGP rate calculation unit 23 stores the calculated unique OGP rate in the host information D3 stored in the storage unit 40 in association with the host to be evaluated.

次に、日本語判定部25は、コンテンツの各々が日本語コンテンツであるか否かを判定し、日本語コンテンツ率を算出する(S109)。日本語判定部25は、算出した日本語コンテンツ率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。 Next, the Japanese determination unit 25 determines whether or not each of the contents is Japanese content, and calculates the Japanese content rate (S109). The Japanese language determination unit 25 stores the calculated Japanese content rate in the host information D3 stored in the storage unit 40 in association with the host to be evaluated.

図7は、ホスト情報D3の一例を示す図である。図7に示されるように、ホスト情報D3には、評価対象のホストと、ユニークOGP率算出部23により算出されたユニークOGP率と、日本語判定部25により算出された日本語コンテンツ率とが関連付けられて格納されている。ホスト情報D3には、例えば、ホスト「ホスト1」と、ユニークOGP率「0.7」と、日本語コンテンツ率「1.0」とが関連付けられて格納されている。 FIG. 7 is a diagram showing an example of host information D3. As shown in FIG. 7, the host information D3 includes the host to be evaluated, the unique OGP rate calculated by the unique OGP rate calculation unit 23, and the Japanese content rate calculated by the Japanese determination unit 25. It is associated and stored. In the host information D3, for example, the host "host 1", the unique OGP rate "0.7", and the Japanese content rate "1.0" are stored in association with each other.

尚、ユニークOGP率算出部23は、評価対象のホストに属するURLのパス構造を考慮して、ユニークOGP率を算出してもよい。また、日本語判定部25は、評価対象のホストに属するURLのパス構造を考慮して、日本語コンテンツ率を算出してもよい。このような評価対象のホストに属するURLのパス構造を考慮した評価を行うことで、ホスト評価の精度を向上させることができる。 The unique OGP rate calculation unit 23 may calculate the unique OGP rate in consideration of the path structure of the URL belonging to the host to be evaluated. Further, the Japanese language determination unit 25 may calculate the Japanese content rate in consideration of the path structure of the URL belonging to the host to be evaluated. The accuracy of host evaluation can be improved by performing evaluation in consideration of the path structure of the URL belonging to the host to be evaluated.

図8は、評価対象のホストに属するURLのパス構造を考慮してホスト評価を行った場合のホスト情報D3aの一例を示す図である。図8に示されるように、ホスト情報D3aには、パス構造と、ユニークOGP率と、日本語コンテンツ率とが関連付けられて格納されている。ホスト情報D3aには、例えば、パス構造「ホスト1/ディレクトリ1/」直下に配置されたコンテンツのユニークOGP率が「0.8」であり、日本語コンテンツ率が「1.0」であるデータが格納されている。また、ホスト情報D3aには、例えば、パス構造「ホスト1/ディレクトリ3/」直下に配置されたコンテンツのユニークOGP率が「0.5」であり、日本語コンテンツ率が「0.9」であるデータが格納されている。このように、同一のホストであっても、パス構造に応じて評価結果に優劣をつけることができる。ホスト情報D3aの例では、「ホスト1/ディレクトリ3/」直下に配置されたコンテンツよりも、「ホスト1/ディレクトリ1/」直下に配置されたコンテンツのユニークOGP率が高いことがわかる。このように、ユニークOGP率算出部23は、ホストに所属する参照情報のパス構造に基づいて参照情報を組分けし、参照情報の組ごとにホストの評価を行う。 FIG. 8 is a diagram showing an example of host information D3a when host evaluation is performed in consideration of the path structure of the URL belonging to the host to be evaluated. As shown in FIG. 8, the host information D3a stores the path structure, the unique OGP rate, and the Japanese content rate in association with each other. In the host information D3a, for example, the unique OGP rate of the content arranged directly under the path structure "host1 / directory 1 /" is "0.8", and the Japanese content rate is "1.0". Is stored. Further, in the host information D3a, for example, the unique OGP rate of the content arranged directly under the path structure "host1 / directory 3 /" is "0.5", and the Japanese content rate is "0.9". Some data is stored. In this way, even if the host is the same, the evaluation result can be given superiority or inferiority according to the path structure. In the example of the host information D3a, it can be seen that the unique OGP rate of the content arranged directly under "host1 / directory 1 /" is higher than that of the content arranged directly under "host1 / directory 3 /". In this way, the unique OGP rate calculation unit 23 groups the reference information based on the path structure of the reference information belonging to the host, and evaluates the host for each set of the reference information.

次に、サンプリング部21は、評価対象とする全てのホストに対する評価が完了したか否かを判定する(S111)。サンプリング部21は、評価対象とする全てのホストに対する評価が完了していないと判定した場合、評価対象とする1つのホストを選択し、S103以降の処理を繰り返す。一方、サンプリング部21は、評価対象とする全てのホストに対する評価が完了したと判定した場合、本フローチャートの処理を終了する。 Next, the sampling unit 21 determines whether or not the evaluation for all the hosts to be evaluated is completed (S111). When the sampling unit 21 determines that the evaluation for all the hosts to be evaluated has not been completed, the sampling unit 21 selects one host to be evaluated and repeats the processing after S103. On the other hand, when it is determined that the evaluation for all the hosts to be evaluated is completed, the sampling unit 21 ends the processing of this flowchart.

[画像収集処理]
以下、クロールサーバ1の画像収集処理について説明する。図9は、クロールサーバ1の画像収集処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。
[Image collection process]
Hereinafter, the image collection process of the crawl server 1 will be described. FIG. 9 is a flowchart showing an example of the flow of the image collection process of the crawl server 1. The process according to this flowchart may be executed by a batch process executed at a predetermined timing such as daily or weekly.

まず、ホスト選択部31は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良ホストを選択する(S201)。例えば、ホスト選択部31は、記憶部40に記憶されたホスト情報D3を参照し、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークOGP率が所定の閾値以上であるホストを優良ホストとして選択する。 First, the host selection unit 31 selects an excellent host suitable for collecting entity representative images based on the evaluation result by the host evaluation unit 20 (S201). For example, the host selection unit 31 refers to the host information D3 stored in the storage unit 40, and sets a host whose Japanese content rate is equal to or higher than a predetermined threshold and whose unique OGP rate is equal to or higher than a predetermined threshold as an excellent host. Select as.

次に、ホスト選択部31は、選択した優良ホストのうち1つのホストを選択し、該ホストに所属するURLを、URLリスト情報D1から抽出する(S203)。抽出するURLの数は、任意である。尚、図9に示されるように、パス構造を考慮したホスト評価の結果が得られている場合には、評価の高い特定のパス構造を持つURLを優先的に抽出するようにしてもよい。 Next, the host selection unit 31 selects one of the selected excellent hosts, and extracts the URL belonging to the host from the URL list information D1 (S203). The number of URLs to be extracted is arbitrary. As shown in FIG. 9, when the result of the host evaluation considering the path structure is obtained, the URL having a specific path structure with high evaluation may be preferentially extracted.

次に、ホスト選択部31は、抽出したURLをデータ収集部10に入力する。データ収集部10は、ホスト選択部31から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する(S205)。 Next, the host selection unit 31 inputs the extracted URL into the data collection unit 10. The data collection unit 10 collects content from a plurality of external servers S1 based on the URL input from the host selection unit 31 (S205).

次に、画像URL選択部33は、収集されたコンテンツの各々のヘッダ部分にOGP画像が含まれているか否かを判定する(S207)。画像URL選択部33は、OGP画像が含まれていると判定した場合、該OGP画像のリンク先のURLを収集対象のURLとして選択し、データ収集部10に入力する。これにより、データ収集部10は、画像URL選択部33から入力されたURLに基づいて、外部サーバS1からコンテンツ(画像)を収集する(S209)。一方、画像URL選択部33は、OGP画像が含まれていないと判定した場合、上記の画像の収集は行わない。 Next, the image URL selection unit 33 determines whether or not an OGP image is included in each header portion of the collected content (S207). When the image URL selection unit 33 determines that the OGP image is included, the image URL selection unit 33 selects the URL of the link destination of the OGP image as the URL to be collected and inputs it to the data collection unit 10. As a result, the data collection unit 10 collects the content (image) from the external server S1 based on the URL input from the image URL selection unit 33 (S209). On the other hand, when the image URL selection unit 33 determines that the OGP image is not included, the image URL selection unit 33 does not collect the above image.

次に、画像URL選択部33は、OGPタグに含まれているOGPタイトルと、該OGPタグに含まれているOGP画像のリンク先のURLに基づいて収集された画像との組を、記憶部40に記憶された画像情報D4に格納する(S211)。図10は、画像情報D4の一例を示す図である。図10に示されるように、画像情報D4には、OGPタグのOGPタイトルに含まれる文字列から取得されたタイトル(エンティティ名)と、OGPタグのOGP画像のリンク先のURLに基づいて収集された画像とが関連付けられて格納されている。画像情報D4には、例えば、タイトル「エンティティ1」と、画像「画像データ10」とが関連付けられて格納されている。 Next, the image URL selection unit 33 stores a set of an OGP title included in the OGP tag and an image collected based on the linked URL of the OGP image included in the OGP tag. It is stored in the image information D4 stored in 40 (S211). FIG. 10 is a diagram showing an example of image information D4. As shown in FIG. 10, the image information D4 is collected based on the title (entity name) acquired from the character string included in the OGP title of the OGP tag and the URL of the link destination of the OGP image of the OGP tag. It is stored in association with the image. In the image information D4, for example, the title "entity 1" and the image "image data 10" are stored in association with each other.

次に、ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了したか否かを判定する(S213)。ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了していないと判定した場合、未処理の1つのホストを選択し、S203以降の処理を繰り返す。一方、ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了したと判定した場合、本フローチャートの処理を終了する。 Next, the host selection unit 31 determines whether or not the processing for all the hosts selected as excellent hosts has been completed (S213). When the host selection unit 31 determines that the processing for all the hosts selected as the excellent hosts has not been completed, the host selection unit 31 selects one unprocessed host and repeats the processing after S203. On the other hand, when the host selection unit 31 determines that the processing for all the hosts selected as the excellent hosts has been completed, the host selection unit 31 ends the processing of this flowchart.

以上において説明した実施形態によれば、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備えることで、データ収集の効率を向上させることができる。 According to the embodiment described above, the data is collected by the first collection unit that collects the reference information belonging to the host to be evaluated and the corresponding content from the device accessible via the network, and the first collection unit. By providing an evaluation unit that evaluates the host to be evaluated based on the number of different image data associated with the content, the efficiency of data collection can be improved.

尚、上記の実施形態では、エンティティ代表画像を収集する例について説明したが、エンティティの公式ページ(公式コンテンツ)の情報を収集するようにしてもよい。例えば、クロールサーバ1に、データ収集部10により収集されたコンテンツから公式ページの情報を収集する収集部(第4収集部、不図示)を設けるようにしてもよい。例えば、クロールサーバ1は、収集されたコンテンツのHTMLデータに、リンク名に「公式ページ」、「オフィシャルページ」等の所定の文字列を含むリンクが存在する場合、このリンクのリンク先のURLを、エンティティの所在情報として収集する。尚、さらに、クロールサーバ1は、このリンク先の公式ページからエンティティの情報をさらに収集するようにしてもよい。 In the above embodiment, the example of collecting the entity representative image has been described, but the information of the official page (official content) of the entity may be collected. For example, the crawl server 1 may be provided with a collection unit (fourth collection unit, not shown) that collects information on the official page from the contents collected by the data collection unit 10. For example, if the HTML data of the collected content includes a link including a predetermined character string such as "official page" or "official page" in the link name, the crawl server 1 sets the URL of the link destination of this link. , Collect as the location information of the entity. Further, the crawl server 1 may further collect the information of the entity from the official page of the link destination.

また、クロールサーバ1は、過去に収集した収集済みのコンテンツが更新されている場合には、再度収集するようにしてもよい。例えば、クロールサーバ1は、過去に収取したコンテンツと、最新のコンテンツとを比較して差異がある場合には、最新のコンテンツを記憶部40に格納するようにしてもよい。差異の有無の判定は、例えば、ファイルサイズの違いや、テキスト比較の結果に基づいて行なわれてよい。また、クロール対象のサイトのサイトマップに更新頻度の情報が含まれている場合には、クロールサーバ1は、この更新頻度の情報に基づいて、コンテンツの再収集を行うようにしてもよい。 Further, the crawl server 1 may collect the collected contents again when the collected contents collected in the past are updated. For example, the crawl server 1 may store the latest content in the storage unit 40 when there is a difference between the content collected in the past and the latest content. The presence or absence of the difference may be determined based on, for example, the difference in file size and the result of text comparison. Further, when the site map of the site to be crawled contains information on the update frequency, the crawl server 1 may recollect the contents based on the information on the update frequency.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.

1…クロールサーバ、10…データ収集部、20…ホスト評価部、21…サンプリング部、23…ユニークOGP率算出部、25…日本語判定部、30…画像収集処理部、31…ホスト選択部、33…画像URL選択部、40…記憶部 1 ... Crawl server, 10 ... Data collection unit, 20 ... Host evaluation unit, 21 ... Sampling unit, 23 ... Unique OGP rate calculation unit, 25 ... Japanese language judgment unit, 30 ... Image collection processing unit, 31 ... Host selection unit, 33 ... Image URL selection unit, 40 ... Storage unit

Claims (11)

ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、
前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部と
前記評価部による評価結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応するコンテンツを収集する第2収集部と、
前記第2収集部により収集されたコンテンツと関連付けられた画像データを収集する第3収集部と
備え、
前記評価部は、前記第1収集部により収集されたコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行う、
データ収集装置。
The first collection unit that collects the reference information belonging to the host to be evaluated and the corresponding content from the device that can be accessed via the network.
An evaluation unit that evaluates the host to be evaluated based on the number of different image data associated with the content collected by the first collection unit .
A second collection unit that determines the host to be collected based on the evaluation result by the evaluation unit and collects the content corresponding to the reference information belonging to the determined host.
It is provided with a third collection unit that collects image data associated with the content collected by the second collection unit.
The evaluation unit evaluates the host to be evaluated based on the ratio of the total number of image data associated with the content collected by the first collection unit to the number of image data different from each other.
Data acquisition device.
前記評価部は、前記画像データの総数に対する前記互いに異なる画像データの数の割合が大きくなるにつれて評価が高くなるように、前記評価対象のホストの評価を行う、
請求項1に記載のデータ収集装置。
The evaluation unit evaluates the host to be evaluated so that the evaluation increases as the ratio of the number of image data different from each other to the total number of image data increases.
The data collection device according to claim 1.
前記評価部は、前記第1収集部により収集されたコンテンツの総数と、前記コンテンツに含まれる所定の言語で記載されている所定言語コンテンツの数との比に基づいて、前記評価対象のホストの評価を行う、
請求項1または2に記載のデータ収集装置。
The evaluation unit of the host to be evaluated is based on the ratio of the total number of contents collected by the first collection unit to the number of predetermined language contents described in the predetermined language included in the contents. Make an evaluation,
The data collection device according to claim 1 or 2.
前記評価部は、前記第1収集部により収集されたコンテンツの総数に対する前記所定言語コンテンツの割合が大きくなるにつれて評価が高くなるように、前記評価対象のホストの評価を行う、
請求項3に記載のデータ収集装置。
The evaluation unit evaluates the host to be evaluated so that the evaluation increases as the ratio of the predetermined language content to the total number of contents collected by the first collection unit increases.
The data collection device according to claim 3.
前記評価部は、前記評価対象のホストに所属する参照情報のパス構造に基づいて前記参照情報を組分けし、前記参照情報の組ごとに前記評価対象のホストの評価を行う、
請求項1から4のいずれか一項に記載のデータ収集装置。
The evaluation unit groups the reference information based on the path structure of the reference information belonging to the host to be evaluated, and evaluates the host to be evaluated for each set of the reference information.
The data collection device according to any one of claims 1 to 4.
前記第3収集部により収集された画像データは、前記第2収集部により収集された前記コンテンツのヘッダ部に含まれるメタ情報に記載された画像データである、
請求項1から5のいずれか一項に記載のデータ収集装置。
The image data collected by the third collection unit is the image data described in the meta information included in the header unit of the content collected by the second collection unit.
The data collection device according to any one of claims 1 to 5.
前記第3収集部は、前記第2収集部により収集された前記コンテンツのヘッダ部に含まれるメタ情報に記載された前記画像データの名前情報を収集する、
請求項6に記載のデータ収集装置。
The third collecting unit collects the name information of the image data described in the meta information included in the header part of the content collected by the second collecting unit.
The data collection device according to claim 6.
前記第2収集部により収集されたコンテンツに含まれる所定の文字列に基づいて、前記画像データの対象事物の公式コンテンツの情報を収集する第4収集部をさらに備える、
請求項1から7のいずれか一項に記載のデータ収集装置。
A fourth collection unit that collects information on the official content of the object of the image data based on a predetermined character string included in the content collected by the second collection unit is further provided.
The data collection device according to any one of claims 1 to 7.
前記第2収集部は、収集済みのコンテンツが更新されていると判定した場合、該コンテンツを再度収集する、
請求項1から8のいずれか一項に記載のデータ収集装置。
When the second collecting unit determines that the collected content has been updated, the second collecting unit collects the collected content again.
The data collection device according to any one of claims 1 to 8.
コンピュータが、
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第1のコンテンツを収集し、
収集された前記第1のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行い、
前記評価の結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応する第2のコンテンツを収集し、
収集された前記第2のコンテンツと関連付けられた画像データを収集する、
データ収集方法であって、
前記評価対象のホストの評価を行うことは、収集された前記第1のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行うことを含む、
データ収集方法。
The computer
From the device accessible via the network, the reference information belonging to the host to be evaluated and the corresponding first content are collected.
Based on the number of different image data associated with the collected first content, the evaluation target host is evaluated.
The host to be collected is determined based on the result of the evaluation, and the reference information belonging to the determined host and the corresponding second content are collected.
Collecting image data associated with the collected second content,
It ’s a data collection method .
Evaluating the host to be evaluated is based on the ratio of the total number of image data associated with the collected first content to the number of image data different from each other. Including making an evaluation,
Data collection method.
コンピュータに、
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第1のコンテンツを収集させ、
収集された前記第1のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行わせ、
前記評価の結果に基づいて収集対象のホストを決定させ、決定された前記ホストに所属する参照情報と対応する第2のコンテンツを収集させ、
収集された前記第2のコンテンツと関連付けられた画像データを収集させる、
プログラムであって、
前記評価対象のホストの評価を行わせることは、収集された前記第1のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行わせることを含む、
プログラム。
On the computer
From the device accessible via the network, the reference information belonging to the host to be evaluated and the corresponding first content are collected.
The host to be evaluated is evaluated based on the number of different image data associated with the collected first content.
The host to be collected is determined based on the result of the evaluation, and the reference information belonging to the determined host and the corresponding second content are collected.
Collecting image data associated with the collected second content,
It ’s a program ,
To evaluate the host to be evaluated is to evaluate the host to be evaluated based on the ratio of the total number of image data associated with the collected first content to the number of image data different from each other. Including having the evaluation done,
program.
JP2018051322A 2018-03-19 2018-03-19 Data collection equipment, data collection methods, and programs Active JP6985189B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018051322A JP6985189B2 (en) 2018-03-19 2018-03-19 Data collection equipment, data collection methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018051322A JP6985189B2 (en) 2018-03-19 2018-03-19 Data collection equipment, data collection methods, and programs

Publications (2)

Publication Number Publication Date
JP2019164500A JP2019164500A (en) 2019-09-26
JP6985189B2 true JP6985189B2 (en) 2021-12-22

Family

ID=68065507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018051322A Active JP6985189B2 (en) 2018-03-19 2018-03-19 Data collection equipment, data collection methods, and programs

Country Status (1)

Country Link
JP (1) JP6985189B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5431532B2 (en) * 2012-06-08 2014-03-05 日本電信電話株式会社 Question answering apparatus, model learning apparatus, method, and program
EP2933734A1 (en) * 2014-04-17 2015-10-21 OnPage.org GmbH Method and system for the structural analysis of websites

Also Published As

Publication number Publication date
JP2019164500A (en) 2019-09-26

Similar Documents

Publication Publication Date Title
CN101855632B (en) URL and anchor text analysis for focused crawling
KR100485321B1 (en) A method of managing web sites registered in search engine and a system thereof
CN103020123B (en) A kind of method searching for bad video website
Wong et al. Design of a crawler for online social networks analysis
CN108874870A (en) A kind of data pick-up method, equipment and computer can storage mediums
JP7003020B2 (en) Information processing equipment, information processing methods, and programs
Abrishami et al. Web page recommendation based on semantic web usage mining
JP2005346598A (en) Web information collection device, web crawler program and web information collection method
JP6985189B2 (en) Data collection equipment, data collection methods, and programs
Luo et al. Automated structural semantic annotation for RESTful services
JP2011248500A (en) Web page collecting device, method and program thereof
JP6960274B2 (en) Data collection equipment, data collection methods, and programs
JP6982520B2 (en) Information processing equipment, information processing methods, and programs
Liu et al. Constructing a reliable Web graph with information on browsing behavior
JP5380874B2 (en) Information retrieval method, program and apparatus
JP7183077B2 (en) Information processing device, information processing method, and program
JP6971209B2 (en) Information processing equipment, information processing methods, and programs
JP7434493B2 (en) Information processing device, information processing system, information processing method, and program
JP7078569B2 (en) Information processing equipment, information processing methods, and programs
Jain et al. An Approach to build a web crawler using Clustering based K-Means Algorithm
JP7090574B2 (en) Information processing equipment, information processing methods, and programs
CN108009171A (en) A kind of method and apparatus for extracting content-data
JP7197531B2 (en) Information processing device, information processing system, information processing method, and program
JP6971210B2 (en) Information processing equipment, information processing methods, and programs
JP7354019B2 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211125

R150 Certificate of patent or registration of utility model

Ref document number: 6985189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250