JP6985189B2 - Data collection equipment, data collection methods, and programs - Google Patents
Data collection equipment, data collection methods, and programs Download PDFInfo
- Publication number
- JP6985189B2 JP6985189B2 JP2018051322A JP2018051322A JP6985189B2 JP 6985189 B2 JP6985189 B2 JP 6985189B2 JP 2018051322 A JP2018051322 A JP 2018051322A JP 2018051322 A JP2018051322 A JP 2018051322A JP 6985189 B2 JP6985189 B2 JP 6985189B2
- Authority
- JP
- Japan
- Prior art keywords
- host
- content
- collected
- unit
- evaluated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ収集装置、データ収集方法、およびプログラムに関する。 The present invention relates to a data collection device, a data collection method, and a program.
従来、ウェブから文章や画像等のデータを収集し、収集したデータを自動的にデータベース化するクローラが知られている(例えば、特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なホストのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。ウェブ情報データベースに蓄積されたデータは、ウェブページの検索サービス等に利用される。 Conventionally, a crawler that collects data such as texts and images from the Web and automatically creates a database of the collected data is known (see, for example, Patent Document 1). Crawlers collect data from web pages of various hosts by following links in web pages. The data collected by the crawler is stored in the web information database. The data stored in the web information database is used for web page search services and the like.
一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。 On the other hand, when the search engine receives the search word input by the user, the information of the web page or application page related to the received search word (for example, URL: Uniform Resource Locator) is acquired from the web information database and acquired. Output a list of information as a search result.
検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワードに関連するテキストデータや画像データを検索結果とともに出力するように運用されている場合がある。このような機能を実現するために、エンティティと、該エンティティに関連するテキストデータや画像データとを互いに関連付けて記憶したデータベースが用いられる場合がある。 In order to improve user satisfaction, the search engine may be operated to output text data and image data related to the search word input by the user together with the search result. In order to realize such a function, a database in which an entity and text data or image data related to the entity are associated with each other and stored may be used.
上記のようなデータベースの拡充のため、特に、エンティティの画像データを効率的に収集する手法が求められている。また、日本語コンテンツの拡充のため、日本語のページの割合が高いホストを優先的にクロールする手法が求められている。 In order to expand the database as described above, a method for efficiently collecting image data of an entity is particularly required. In addition, in order to expand Japanese content, there is a need for a method of preferentially crawling hosts with a high percentage of Japanese pages.
本発明は、このような事情を考慮してなされたものであり、データ収集の効率を向上させることが可能なデータ収集装置、データ収集方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and one of the objects of the present invention is to provide a data collection device, a data collection method, and a program capable of improving the efficiency of data collection.
本発明の一態様は、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備える、データ収集装置である。 One aspect of the present invention includes a first collection unit that collects content corresponding to reference information belonging to the host to be evaluated from a device accessible via a network, and a content collected by the first collection unit. It is a data collecting device including an evaluation unit that evaluates the host to be evaluated based on the number of associated image data different from each other.
本発明の一態様によれば、データ収集の効率を向上させることが可能である。 According to one aspect of the present invention, it is possible to improve the efficiency of data collection.
[概要]
以下、図面を参照して、データ収集装置、データ収集方法、およびプログラムの実施形態について説明する。本実施形態では、データ収集装置がクロールサーバであるものとして説明する。クロールサーバとは、インターネット等のネットワークを介してアクセス可能な複数の装置からデータを自動的に収集するサーバである。本実施形態のクロールサーバは、エンティティの代表画像の収集に関してホストの評価を行い、評価の高い優良なホストに集中してクロールを行う。
[Overview]
Hereinafter, a data collection device, a data collection method, and an embodiment of a program will be described with reference to the drawings. In this embodiment, it is assumed that the data collection device is a crawl server. A crawl server is a server that automatically collects data from a plurality of devices that can be accessed via a network such as the Internet. The crawl server of the present embodiment evaluates the host regarding the collection of the representative image of the entity, and concentrates the crawl on the excellent host having a high evaluation.
クロールサーバは、1つのプロセッサによって実現されてもよく、複数のプロセッサが分散処理することで実現されてもよい。本実施形態において、ホストとは、ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報(例えば、URL)の一部を構成して複数の参照情報の群を特定する所属情報をいう。以下、実施形態について説明する。 The crawl server may be realized by one processor, or may be realized by distributed processing by a plurality of processors. In the present embodiment, the host constitutes a part of reference information (for example, URL) for referring to data stored in a device accessible via a network, and specifies a group of a plurality of reference information. Affiliation information. Hereinafter, embodiments will be described.
[全体構成]
図1は、本実施形態のクロールサーバ1(データ収集装置)の使用環境を示す図である。クロールサーバ1は、画像データおよびHTML(HyperText Markup Language)データの少なくとも一方を含むページデータ(コンテンツ)を、ネットワークNWを介してアクセス可能な複数の外部サーバS1(装置)から収集する。コンテンツは、外部サーバS1に格納されており、ブラウザによって閲覧可能なページ単位のデータである。ただし、コンテンツは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータでもよい。ネットワークNWは、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等を含む。
[overall structure]
FIG. 1 is a diagram showing a usage environment of the crawl server 1 (data collection device) of the present embodiment. The
[ナレッジグラフの構成]
本実施形態において、クロールサーバ1により収集されたデータは、例えば、ナレッジグラフを生成するために用いられる。ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。
[Knowledge Graph Configuration]
In this embodiment, the data collected by the
図2は、本実施形態に係るナレッジグラフの一例を示す図である。ナレッジグラフにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。 FIG. 2 is a diagram showing an example of the Knowledge Graph according to the present embodiment. The things described in the Knowledge Graph are defined by the ontology. An ontology is a definition of a class and a property of an object, and is a collection of constraints that hold between the class and the property.
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。 A class is a group of things that have the same properties in an ontology. What the nature of an object is, that is, which class the object belongs to, is determined by the properties described below.
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。
For example, things that have a beak, an oviparous vertebrate, and forelimbs that are wings are classified in the "bird" class. Also, in the class of "birds", things that have the property of not being able to fly are classified into lower classes such as "penguins" and "ostriches". In this way, the class system may have a hierarchical structure having a higher-lower relationship. The nature of the upper class is inherited by the lower class. In the example above, the "bird" class's "beak-bearing, oviparous vertebrate with winged forelimbs" property is a lower class property of "penguins" and "ostriches". Will also be included. For example, if the class name for identifying the class is a class "bird", the class name may be represented by the character string "bird". The class name does not necessarily have to represent a meaning, and for example, even in the class "bird", a character string indicating mere identification information such as "
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。 Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, a property may be an attribute that has the property of "having ~ as a component of the body" or the property of "living in ...", or "a class is a higher class and a certain class is a lower class". It may be an attribute indicating the relationship between the upper and lower levels of "class". As for the property name for identifying the property, the property name itself may or may not represent the meaning, as in the class name described above.
ナレッジグラフは、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。 A knowledge graph is a directed graph in which the above-mentioned classes are represented as nodes and the above-mentioned properties are represented as labeled and directional edges. With such a graph structure, information about things can be discriminated by nodes, and relationships between things can be discriminated by edges.
図2において示される例のナレッジグラフは、野球選手Aである「エンティティE1」と、野球チームBである「エンティティE2」とが、「所属チーム」というプロパティ名のクラスに属する。また、野球選手Aである「エンティティE1」と、「野球選手AN1」とが、「名前」というプロパティ名のクラスに属する。また、野球選手Aである「エンティティE1」と、野球選手Aの「画像P1」とが、「代表画像」というプロパティ名のクラスに属する。また、野球チームBである「エンティティE2」と、「野球リームBN2」とが、「名前」というプロパティ名のクラスに属する。クロールサーバ1により収集されたデータは、例えば、上記のようなナレッジグラフにおけるエンティティの代表画像として利用される。
In the example knowledge graph shown in FIG. 2, the baseball player A "entity E1" and the baseball team B "entity E2" belong to the class with the property name "affiliated team". Further, the baseball player A "entity E1" and the "baseball player AN1" belong to the class of the property name "name". Further, the baseball player A "entity E1" and the baseball player A "image P1" belong to the class with the property name "representative image". Further, the baseball team B "entity E2" and "baseball ream BN2" belong to the class of the property name "name". The data collected by the
[クロールサーバの構成]
以下、クロールサーバ1の構成について説明する。図3は、クロールサーバ1の構成を示す機能ブロック図である。クロールサーバ1は、例えば、データ収集部10(第1収集部)と、ホスト評価部20と、画像収集処理部30と、記憶部40とを備える。記憶部40には、例えば、URLリスト情報D1と、コンテンツ情報D2と、ホスト情報D3と、画像情報D4とが記憶されている。
[Crawl server configuration]
Hereinafter, the configuration of the
URLリスト情報D1には、クロールの対象となる多数のURLのリストが格納されている。URLリスト情報D1は、クロールにより収集されたコンテンツのテキストデータから抽出されたURLがリスト化されたものであってよい。或いは、URLリスト情報D1は、例えば、クロールサーバ1の管理者により手動で設定されるものであってよい。コンテンツ情報D2には、クロールにより収集されたコンテンツの情報が格納されている。ホスト情報D3には、評価対象となるホストの評価結果が格納されている。画像情報D4には、クロールにより収集されたエンティティの代表画像が格納されている。
The URL list information D1 stores a list of a large number of URLs to be crawled. The URL list information D1 may be a list of URLs extracted from the text data of the content collected by the crawl. Alternatively, the URL list information D1 may be manually set by, for example, the administrator of the
データ収集部10(フェッチャー)は、複数の外部サーバS1からコンテンツを収集(フェッチ)する。収集されるコンテンツには、例えば、HTMLデータおよび画像データが含まれる。データ収集部10は、収集したコンテンツを記憶部40のコンテンツ情報D2に格納する。
The data collection unit 10 (fetcher) collects (fetchs) content from a plurality of external servers S1. The collected content includes, for example, HTML data and image data. The
ホスト評価部20は、コンテンツにおいて特定の情報として設定された特定のタグの有無に基づいてホストの評価を行う。「特定のタグ」は、例えば、OGP(Open Graph Protocol)タグのようなコンテンツの内容を示すテキストを含むタグである。OGPタグは、リンク先のコンテンツのタイトル(以下、OGPタイトル)、リンク先のコンテンツに関する画像データ(以下、OGP画像)のURL、リンク先のコンテンツの概要を示すテキストデータ等がひと纏まりになった情報である。ホスト評価部20は、例えば、このOGPタグに含まれるOGP画像の有無に基づいてホストの評価を行う。
The
OGP画像とは、リンクの代表画像として設定された画像である。このため、OGP画像は、エンティティの代表画像として利用可能な画像に相当しうる。OGP画像は、各コンテンツのメタ情報としてその参照情報(例えば、URL)により指定される。OGP画像は、OGPタグ「<meta property=”og:image” content=”URL”/>により指定される。 The OGP image is an image set as a representative image of the link. Therefore, the OGP image can correspond to an image that can be used as a representative image of an entity. The OGP image is designated by the reference information (for example, URL) as the meta information of each content. The OGP image is specified by the OGP tag "<meta property =" og: image "content =" URL "/>.
また、OGP画像は、各コンテンツページのメタ情報として指定されたOGPタグに含まれるOGPタイトルと関連性が高い。このため、このOGPタイトルは、エンティティ名(名前情報)として利用可能な文字列に相当しうる。OGPタイトルは、OGPタグ「<meta property=”og:title” content=”タイトル”/>により指定される。 Further, the OGP image is highly related to the OGP title included in the OGP tag specified as the meta information of each content page. Therefore, this OGP title can correspond to a character string that can be used as an entity name (name information). The OGP title is specified by the OGP tag "<meta property =" og: title "content =" title "/>.
ホスト評価部20は、例えば、サンプリング部21(第1収集部)と、ユニークOGP率算出部23(評価部)と、日本語判定部25(評価部)とを備える。サンプリング部21は、評価対象とするホストに所属するURLを、URLリスト情報D1から抽出する。抽出するURLの数は、任意である。サンプリング部21は、抽出したURLを、データ収集部10に入力する。これにより、データ収集部10は、サンプリング部21から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する。
The
ユニークOGP率算出部23は、データ収集部10により収集されて記憶部40に記憶されたコンテンツを解析する。ユニークOGP率算出部23は、収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、ホストの評価を行う。例えば、ユニークOGP率算出部23は、コンテンツであるHTMLデータの各々のヘッダ部分にOGPタグ(OGP画像)が含まれているか否かを判定する。ユニークOGP率算出部23は、評価対象とするホストごとに、ユニークOGP率を算出する。ユニークOGP率とは、収集されたコンテンツに含まれるOGP画像の多種性をホストごとに評価する指標値である。数多くのOGP画像が収集された場合であっても、OGP画像が互いに重複していると、エンティティ代表画像として利用可能な画像を効率的に増やすことはできない。例えば、ホストを代表する同一のロゴ画像が収集された全てのコンテンツにOGP画像として設定されている場合、エンティティ代表画像として利用可能な画像は1つのみである。このため、本実施形態では、OGP画像の多種性を判断することが可能なユニークOGP率に基づいてホスト評価を行う。ユニークOGP率は、例えば、以下の式(1)により表される。
The unique OGP
ユニークOGP率
=収集されたOGP画像のユニーク数/収集されたOGP画像の総数・・・式(1)
Unique OGP rate = Unique number of collected OGP images / Total number of collected OGP images ... Equation (1)
例えば、評価対象とするホストに関して収集されたOGP画像の総数(重複あり)が10であり、このうち、重複を除いたOGP画像のユニーク数が5である場合、ユニークOGP率は0.5(=5/10)となる。ユニークOGP率は、値が大きいほど多種性が高く、ホストの評価が高いことを示し、値が小さいほど多種性が低く、ホストの評価が低いことを示す。 For example, if the total number of OGP images (with duplication) collected for the host to be evaluated is 10, and the unique number of OGP images excluding duplication is 5, the unique OGP rate is 0.5 (with duplication). = 5/10). The unique OGP rate indicates that the larger the value, the higher the variety and the higher the evaluation of the host, and the smaller the value, the lower the variety and the lower the evaluation of the host.
収集されたOGP画像が重複しているか否かの判定は、例えば、OGPタグに含まれるOGP画像のリンク先のURLに基づいて行われる。ユニークOGP率算出部23は、このOGPタグに含まれるOGP画像のリンク先のURLの文字列が同一であるOGP画像は、互いに重複していると判定する。ユニークOGP率算出部23は、算出したユニークOGP率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
Whether or not the collected OGP images are duplicated is determined, for example, based on the URL of the link destination of the OGP images included in the OGP tag. The unique OGP
すなわち、ユニークOGP率算出部23は、収集されたコンテンツと関連付けられた画像データの総数と、互いに異なる画像データの数との比に基づいて、ホストの評価を行う。また、ユニークOGP率算出部23は、画像データの総数に対する互いに異なる画像データの数の割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。
That is, the unique OGP
日本語判定部25は、収集されたコンテンツの各々が日本語のコンテンツ(特定言語コンテンツ)であるか否かを判定する。さらに、日本語判定部25は、評価対象とするホストごとに、日本語コンテンツ率を算出する。日本語コンテンツ率とは、収集されたコンテンツに含まれる日本語コンテンツの割合を示す指標値である。日本語コンテンツ率は、例えば、以下の式(2)により表される。
The
日本語コンテンツ率
=収集された日本語コンテンツの数/収集されたコンテンツの総数・・・式(2)
Japanese content rate = Number of Japanese contents collected / Total number of collected contents ・ ・ ・ Equation (2)
例えば、評価対象とするホストに関して収集されたコンテンツの総数が10であり、このうち、日本語のコンテンツの数が9である場合、日本語コンテンツ率は0.9(=9/10)となる。日本語コンテンツ率は、値が大きいほど日本語コンテンツの割合が高く、ホストの評価が高いことを示し、値が小さいほど日本語コンテンツの割合が低く、ホストの評価が低いことを示す。 For example, if the total number of contents collected for the host to be evaluated is 10, and the number of Japanese contents is 9, the Japanese content rate is 0.9 (= 9/10). .. As for the Japanese content rate, the larger the value, the higher the ratio of Japanese content and the higher the evaluation of the host, and the smaller the value, the lower the ratio of Japanese content and the lower the evaluation of the host.
収集されたコンテンツが日本語コンテンツであるか否かの判定は、例えば、文字コードや、言語ごとの辞書データ等に基づいて行われる。日本語判定部25は、算出した日本語コンテンツ率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
Whether or not the collected content is Japanese content is determined based on, for example, a character code, dictionary data for each language, or the like. The Japanese
すなわち、日本語判定部25は、収集されたコンテンツの総数と、コンテンツに含まれる所定の言語で記載されている所定言語コンテンツの数との比に基づいて、ホストの評価を行う。また、日本語判定部25は、収集されたコンテンツの総数に対する所定言語コンテンツの割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。
That is, the
画像収集処理部30は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホストを選択し、選択したホストに所属するURLを集中的にクロールして、エンティティ代表画像となりうる画像を収集する。すなわち、画像収集処理部30は、数多くの種類のOGP画像を収集することが期待されるホストを集中的にクロールする。画像収集処理部30は、例えば、ホスト選択部31(第2収集部)と、画像URL選択部33(第3収集部)とを備える。
The image
ホスト選択部31は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホスト(以下、優良ホスト)を選択する。例えば、ホスト選択部31は、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークOGP率が所定の閾値以上であるホストを優良ホストとして選択する。例えば、ホスト選択部31は、日本語コンテンツ率が「0.9」以上であり、且つ、ユニークOGP率が「0.95」以上であるホストを優良ホストとして選択する。
The
ホスト選択部31は、URLリスト情報D1から優良ホストに所属するURLを抽出し、データ収集部10に入力する。これにより、データ収集部10は、ホスト選択部31から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集し、コンテンツを記憶部40のコンテンツ情報D2に記憶させる。ホスト選択部31により抽出されるURLの数は任意である。
The
画像URL選択部33は、ホスト選択部31により抽出されたURLに基づいて収集されたコンテンツの各々のヘッダ部分にOGPタグ(OGP画像)が含まれているか否かを判定する。画像URL選択部33は、OGP画像が含まれていると判定した場合、該OGP画像のリンク先のURLを収集対象のURLとして選択し、データ収集部10に入力する。これにより、データ収集部10は、画像URL選択部33から入力されたURLに基づいて、外部サーバS1から画像であるコンテンツを収集する。
The image
画像URL選択部33は、OGPタグに含まれているOGPタイトルと、該OGPタグに含まれているOGP画像のリンク先のURLに基づいて収集された画像との組を、記憶部40に記憶された画像情報D4に格納する。画像情報D4に格納されたOGPタイトルは、エンティティ名として利用可能なものである。また、画像情報D4に格納された画像は、エンティティの代表画像として利用可能なものである。
The image
クロールサーバ1の各機能部は、例えば、コンピュータにおいて、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
Each functional unit of the
クロールサーバ1の記憶部40は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置等により実現される。また、記憶部40の一部または全部は、NASや外部のストレージサーバ等、クロールサーバ1がアクセス可能な外部装置であってもよい。
The
[ホスト評価処理]
以下、クロールサーバ1のホスト評価処理について説明する。図4は、クロールサーバ1のホスト評価処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。
[Host evaluation process]
Hereinafter, the host evaluation process of the
以下の例では、URLリスト情報D1が予め記憶部40に記憶されているものとする。図5は、記憶部40に記憶されたURLリスト情報D1の一例を示す図である。図5に示されるように、URLリスト情報D1には、複数のホストに関するURLの情報が含まれている。
In the following example, it is assumed that the URL list information D1 is stored in the
まず、サンプリング部21は、評価対象とするホストを選択する(S101)。例えば、サンプリング部21は、URLリスト情報D1に含まれるURLを参照して、評価対象とするホストを選択する。或いは、サンプリング部21は、管理者等による入力を受け付ける受付部(不図示)を介して指定されたホストを、評価対象とするホストとして選択してもよい。選択するホストの数は、任意である。
First, the
次に、サンプリング部21は、評価対象としたホストのうち1つのホストを選択し、該ホストに所属するURLを、URLリスト情報D1から抽出する(S103)。抽出するURLの数は、任意である。次に、サンプリング部21は、抽出したURLをデータ収集部10に入力する。データ収集部10は、サンプリング部21から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する(S105)。データ収集部10は、収集したコンテンツを記憶部40のコンテンツ情報D2に格納する。
Next, the
図6は、データ収集部10により収集されたコンテンツ情報D2の一例を示す図である。図6に示されるように、コンテンツ情報D2には、URLと、該URLに基づいて収集されたコンテンツとが関連付けられて格納されている。コンテンツ情報D2には、例えば、URL「ホスト1/ディレクトリ1/ファイル1」と、コンテンツ「HTMLデータ1」とが関連付けられて格納されている。
FIG. 6 is a diagram showing an example of the content information D2 collected by the
次に、ユニークOGP率算出部23は、ユニークOGP率を算出する(S107)。ユニークOGP率算出部23は、算出したユニークOGP率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
Next, the unique OGP
次に、日本語判定部25は、コンテンツの各々が日本語コンテンツであるか否かを判定し、日本語コンテンツ率を算出する(S109)。日本語判定部25は、算出した日本語コンテンツ率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
Next, the
図7は、ホスト情報D3の一例を示す図である。図7に示されるように、ホスト情報D3には、評価対象のホストと、ユニークOGP率算出部23により算出されたユニークOGP率と、日本語判定部25により算出された日本語コンテンツ率とが関連付けられて格納されている。ホスト情報D3には、例えば、ホスト「ホスト1」と、ユニークOGP率「0.7」と、日本語コンテンツ率「1.0」とが関連付けられて格納されている。
FIG. 7 is a diagram showing an example of host information D3. As shown in FIG. 7, the host information D3 includes the host to be evaluated, the unique OGP rate calculated by the unique OGP
尚、ユニークOGP率算出部23は、評価対象のホストに属するURLのパス構造を考慮して、ユニークOGP率を算出してもよい。また、日本語判定部25は、評価対象のホストに属するURLのパス構造を考慮して、日本語コンテンツ率を算出してもよい。このような評価対象のホストに属するURLのパス構造を考慮した評価を行うことで、ホスト評価の精度を向上させることができる。
The unique OGP
図8は、評価対象のホストに属するURLのパス構造を考慮してホスト評価を行った場合のホスト情報D3aの一例を示す図である。図8に示されるように、ホスト情報D3aには、パス構造と、ユニークOGP率と、日本語コンテンツ率とが関連付けられて格納されている。ホスト情報D3aには、例えば、パス構造「ホスト1/ディレクトリ1/」直下に配置されたコンテンツのユニークOGP率が「0.8」であり、日本語コンテンツ率が「1.0」であるデータが格納されている。また、ホスト情報D3aには、例えば、パス構造「ホスト1/ディレクトリ3/」直下に配置されたコンテンツのユニークOGP率が「0.5」であり、日本語コンテンツ率が「0.9」であるデータが格納されている。このように、同一のホストであっても、パス構造に応じて評価結果に優劣をつけることができる。ホスト情報D3aの例では、「ホスト1/ディレクトリ3/」直下に配置されたコンテンツよりも、「ホスト1/ディレクトリ1/」直下に配置されたコンテンツのユニークOGP率が高いことがわかる。このように、ユニークOGP率算出部23は、ホストに所属する参照情報のパス構造に基づいて参照情報を組分けし、参照情報の組ごとにホストの評価を行う。
FIG. 8 is a diagram showing an example of host information D3a when host evaluation is performed in consideration of the path structure of the URL belonging to the host to be evaluated. As shown in FIG. 8, the host information D3a stores the path structure, the unique OGP rate, and the Japanese content rate in association with each other. In the host information D3a, for example, the unique OGP rate of the content arranged directly under the path structure "host1 /
次に、サンプリング部21は、評価対象とする全てのホストに対する評価が完了したか否かを判定する(S111)。サンプリング部21は、評価対象とする全てのホストに対する評価が完了していないと判定した場合、評価対象とする1つのホストを選択し、S103以降の処理を繰り返す。一方、サンプリング部21は、評価対象とする全てのホストに対する評価が完了したと判定した場合、本フローチャートの処理を終了する。
Next, the
[画像収集処理]
以下、クロールサーバ1の画像収集処理について説明する。図9は、クロールサーバ1の画像収集処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。
[Image collection process]
Hereinafter, the image collection process of the
まず、ホスト選択部31は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良ホストを選択する(S201)。例えば、ホスト選択部31は、記憶部40に記憶されたホスト情報D3を参照し、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークOGP率が所定の閾値以上であるホストを優良ホストとして選択する。
First, the
次に、ホスト選択部31は、選択した優良ホストのうち1つのホストを選択し、該ホストに所属するURLを、URLリスト情報D1から抽出する(S203)。抽出するURLの数は、任意である。尚、図9に示されるように、パス構造を考慮したホスト評価の結果が得られている場合には、評価の高い特定のパス構造を持つURLを優先的に抽出するようにしてもよい。
Next, the
次に、ホスト選択部31は、抽出したURLをデータ収集部10に入力する。データ収集部10は、ホスト選択部31から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する(S205)。
Next, the
次に、画像URL選択部33は、収集されたコンテンツの各々のヘッダ部分にOGP画像が含まれているか否かを判定する(S207)。画像URL選択部33は、OGP画像が含まれていると判定した場合、該OGP画像のリンク先のURLを収集対象のURLとして選択し、データ収集部10に入力する。これにより、データ収集部10は、画像URL選択部33から入力されたURLに基づいて、外部サーバS1からコンテンツ(画像)を収集する(S209)。一方、画像URL選択部33は、OGP画像が含まれていないと判定した場合、上記の画像の収集は行わない。
Next, the image
次に、画像URL選択部33は、OGPタグに含まれているOGPタイトルと、該OGPタグに含まれているOGP画像のリンク先のURLに基づいて収集された画像との組を、記憶部40に記憶された画像情報D4に格納する(S211)。図10は、画像情報D4の一例を示す図である。図10に示されるように、画像情報D4には、OGPタグのOGPタイトルに含まれる文字列から取得されたタイトル(エンティティ名)と、OGPタグのOGP画像のリンク先のURLに基づいて収集された画像とが関連付けられて格納されている。画像情報D4には、例えば、タイトル「エンティティ1」と、画像「画像データ10」とが関連付けられて格納されている。
Next, the image
次に、ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了したか否かを判定する(S213)。ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了していないと判定した場合、未処理の1つのホストを選択し、S203以降の処理を繰り返す。一方、ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了したと判定した場合、本フローチャートの処理を終了する。
Next, the
以上において説明した実施形態によれば、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備えることで、データ収集の効率を向上させることができる。 According to the embodiment described above, the data is collected by the first collection unit that collects the reference information belonging to the host to be evaluated and the corresponding content from the device accessible via the network, and the first collection unit. By providing an evaluation unit that evaluates the host to be evaluated based on the number of different image data associated with the content, the efficiency of data collection can be improved.
尚、上記の実施形態では、エンティティ代表画像を収集する例について説明したが、エンティティの公式ページ(公式コンテンツ)の情報を収集するようにしてもよい。例えば、クロールサーバ1に、データ収集部10により収集されたコンテンツから公式ページの情報を収集する収集部(第4収集部、不図示)を設けるようにしてもよい。例えば、クロールサーバ1は、収集されたコンテンツのHTMLデータに、リンク名に「公式ページ」、「オフィシャルページ」等の所定の文字列を含むリンクが存在する場合、このリンクのリンク先のURLを、エンティティの所在情報として収集する。尚、さらに、クロールサーバ1は、このリンク先の公式ページからエンティティの情報をさらに収集するようにしてもよい。
In the above embodiment, the example of collecting the entity representative image has been described, but the information of the official page (official content) of the entity may be collected. For example, the
また、クロールサーバ1は、過去に収集した収集済みのコンテンツが更新されている場合には、再度収集するようにしてもよい。例えば、クロールサーバ1は、過去に収取したコンテンツと、最新のコンテンツとを比較して差異がある場合には、最新のコンテンツを記憶部40に格納するようにしてもよい。差異の有無の判定は、例えば、ファイルサイズの違いや、テキスト比較の結果に基づいて行なわれてよい。また、クロール対象のサイトのサイトマップに更新頻度の情報が含まれている場合には、クロールサーバ1は、この更新頻度の情報に基づいて、コンテンツの再収集を行うようにしてもよい。
Further, the
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1…クロールサーバ、10…データ収集部、20…ホスト評価部、21…サンプリング部、23…ユニークOGP率算出部、25…日本語判定部、30…画像収集処理部、31…ホスト選択部、33…画像URL選択部、40…記憶部 1 ... Crawl server, 10 ... Data collection unit, 20 ... Host evaluation unit, 21 ... Sampling unit, 23 ... Unique OGP rate calculation unit, 25 ... Japanese language judgment unit, 30 ... Image collection processing unit, 31 ... Host selection unit, 33 ... Image URL selection unit, 40 ... Storage unit
Claims (11)
前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部と、
前記評価部による評価結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応するコンテンツを収集する第2収集部と、
前記第2収集部により収集されたコンテンツと関連付けられた画像データを収集する第3収集部と
を備え、
前記評価部は、前記第1収集部により収集されたコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行う、
データ収集装置。 The first collection unit that collects the reference information belonging to the host to be evaluated and the corresponding content from the device that can be accessed via the network.
An evaluation unit that evaluates the host to be evaluated based on the number of different image data associated with the content collected by the first collection unit .
A second collection unit that determines the host to be collected based on the evaluation result by the evaluation unit and collects the content corresponding to the reference information belonging to the determined host.
It is provided with a third collection unit that collects image data associated with the content collected by the second collection unit.
The evaluation unit evaluates the host to be evaluated based on the ratio of the total number of image data associated with the content collected by the first collection unit to the number of image data different from each other.
Data acquisition device.
請求項1に記載のデータ収集装置。 The evaluation unit evaluates the host to be evaluated so that the evaluation increases as the ratio of the number of image data different from each other to the total number of image data increases.
The data collection device according to claim 1.
請求項1または2に記載のデータ収集装置。 The evaluation unit of the host to be evaluated is based on the ratio of the total number of contents collected by the first collection unit to the number of predetermined language contents described in the predetermined language included in the contents. Make an evaluation,
The data collection device according to claim 1 or 2.
請求項3に記載のデータ収集装置。 The evaluation unit evaluates the host to be evaluated so that the evaluation increases as the ratio of the predetermined language content to the total number of contents collected by the first collection unit increases.
The data collection device according to claim 3.
請求項1から4のいずれか一項に記載のデータ収集装置。 The evaluation unit groups the reference information based on the path structure of the reference information belonging to the host to be evaluated, and evaluates the host to be evaluated for each set of the reference information.
The data collection device according to any one of claims 1 to 4.
請求項1から5のいずれか一項に記載のデータ収集装置。 The image data collected by the third collection unit is the image data described in the meta information included in the header unit of the content collected by the second collection unit.
The data collection device according to any one of claims 1 to 5.
請求項6に記載のデータ収集装置。 The third collecting unit collects the name information of the image data described in the meta information included in the header part of the content collected by the second collecting unit.
The data collection device according to claim 6.
請求項1から7のいずれか一項に記載のデータ収集装置。 A fourth collection unit that collects information on the official content of the object of the image data based on a predetermined character string included in the content collected by the second collection unit is further provided.
The data collection device according to any one of claims 1 to 7.
請求項1から8のいずれか一項に記載のデータ収集装置。 When the second collecting unit determines that the collected content has been updated, the second collecting unit collects the collected content again.
The data collection device according to any one of claims 1 to 8.
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第1のコンテンツを収集し、
収集された前記第1のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行い、
前記評価の結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応する第2のコンテンツを収集し、
収集された前記第2のコンテンツと関連付けられた画像データを収集する、
データ収集方法であって、
前記評価対象のホストの評価を行うことは、収集された前記第1のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行うことを含む、
データ収集方法。 The computer
From the device accessible via the network, the reference information belonging to the host to be evaluated and the corresponding first content are collected.
Based on the number of different image data associated with the collected first content, the evaluation target host is evaluated.
The host to be collected is determined based on the result of the evaluation, and the reference information belonging to the determined host and the corresponding second content are collected.
Collecting image data associated with the collected second content,
It ’s a data collection method .
Evaluating the host to be evaluated is based on the ratio of the total number of image data associated with the collected first content to the number of image data different from each other. Including making an evaluation,
Data collection method.
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第1のコンテンツを収集させ、
収集された前記第1のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行わせ、
前記評価の結果に基づいて収集対象のホストを決定させ、決定された前記ホストに所属する参照情報と対応する第2のコンテンツを収集させ、
収集された前記第2のコンテンツと関連付けられた画像データを収集させる、
プログラムであって、
前記評価対象のホストの評価を行わせることは、収集された前記第1のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行わせることを含む、
プログラム。 On the computer
From the device accessible via the network, the reference information belonging to the host to be evaluated and the corresponding first content are collected.
The host to be evaluated is evaluated based on the number of different image data associated with the collected first content.
The host to be collected is determined based on the result of the evaluation, and the reference information belonging to the determined host and the corresponding second content are collected.
Collecting image data associated with the collected second content,
It ’s a program ,
To evaluate the host to be evaluated is to evaluate the host to be evaluated based on the ratio of the total number of image data associated with the collected first content to the number of image data different from each other. Including having the evaluation done,
program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018051322A JP6985189B2 (en) | 2018-03-19 | 2018-03-19 | Data collection equipment, data collection methods, and programs |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018051322A JP6985189B2 (en) | 2018-03-19 | 2018-03-19 | Data collection equipment, data collection methods, and programs |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019164500A JP2019164500A (en) | 2019-09-26 |
| JP6985189B2 true JP6985189B2 (en) | 2021-12-22 |
Family
ID=68065507
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018051322A Active JP6985189B2 (en) | 2018-03-19 | 2018-03-19 | Data collection equipment, data collection methods, and programs |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6985189B2 (en) |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5431532B2 (en) * | 2012-06-08 | 2014-03-05 | 日本電信電話株式会社 | Question answering apparatus, model learning apparatus, method, and program |
| EP2933734A1 (en) * | 2014-04-17 | 2015-10-21 | OnPage.org GmbH | Method and system for the structural analysis of websites |
-
2018
- 2018-03-19 JP JP2018051322A patent/JP6985189B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019164500A (en) | 2019-09-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101855632B (en) | URL and anchor text analysis for focused crawling | |
| KR100485321B1 (en) | A method of managing web sites registered in search engine and a system thereof | |
| CN103020123B (en) | A kind of method searching for bad video website | |
| Wong et al. | Design of a crawler for online social networks analysis | |
| CN108874870A (en) | A kind of data pick-up method, equipment and computer can storage mediums | |
| JP7003020B2 (en) | Information processing equipment, information processing methods, and programs | |
| Abrishami et al. | Web page recommendation based on semantic web usage mining | |
| JP2005346598A (en) | Web information collection device, web crawler program and web information collection method | |
| JP6985189B2 (en) | Data collection equipment, data collection methods, and programs | |
| Luo et al. | Automated structural semantic annotation for RESTful services | |
| JP2011248500A (en) | Web page collecting device, method and program thereof | |
| JP6960274B2 (en) | Data collection equipment, data collection methods, and programs | |
| JP6982520B2 (en) | Information processing equipment, information processing methods, and programs | |
| Liu et al. | Constructing a reliable Web graph with information on browsing behavior | |
| JP5380874B2 (en) | Information retrieval method, program and apparatus | |
| JP7183077B2 (en) | Information processing device, information processing method, and program | |
| JP6971209B2 (en) | Information processing equipment, information processing methods, and programs | |
| JP7434493B2 (en) | Information processing device, information processing system, information processing method, and program | |
| JP7078569B2 (en) | Information processing equipment, information processing methods, and programs | |
| Jain et al. | An Approach to build a web crawler using Clustering based K-Means Algorithm | |
| JP7090574B2 (en) | Information processing equipment, information processing methods, and programs | |
| CN108009171A (en) | A kind of method and apparatus for extracting content-data | |
| JP7197531B2 (en) | Information processing device, information processing system, information processing method, and program | |
| JP6971210B2 (en) | Information processing equipment, information processing methods, and programs | |
| JP7354019B2 (en) | Information processing device, information processing method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200312 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210317 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210406 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210525 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211125 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6985189 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |